Supervisión de Procesos Complejos mediante Técnicas de Data

Anuncio
Universidad de Oviedo
Departamento de Ingenierı́a Eléctrica, Electrónica,
de Computadores y Sistemas
Tesis Doctoral
Supervisión de Procesos Complejos mediante
Técnicas de Data Mining con Incorporación
de Conocimiento Previo
Abel Alberto Cuadrado Vega
Noviembre 2002
2
Universidad de Oviedo
Departamento de Ingenierı́a Eléctrica, Electrónica,
de Computadores y Sistemas
TESIS
SUPERVISIÓN DE PROCESOS COMPLEJOS
MEDIANTE TÉCNICAS DE DATA MINING CON
INCORPORACIÓN DE CONOCIMIENTO PREVIO
Memoria presentada para la obtención del grado de
Doctor por la Universidad de Oviedo
Autor: Abel Alberto Cuadrado Vega
Directores: Alberto B. Diez González
Ignacio Dı́az Blanco
Gijón, Noviembre de 2002
4
Agradecimientos
Este trabajo sólo ha podido salir adelante con la inestimable ayuda y
apoyo incondicional de mis directores, Alberto Diez e Ignacio Dı́az. Muchas
gracias por darme esta oportunidad, por enseñarme, por orientarme, y por
proporcionarme proyectos tan interesantes durante estos cuatro años.
Una gran parte de la “culpa” de que, después varios años de agotadora
carrera, recuperara la ilusión inicial por hacer Ingenierı́a Industrial el mismo
dı́a que empecé el proyecto fin de carrera la tiene Nacho (bueno, unos meses
después; ese dı́a concretamente me dejó a cuadros). Desde entonces, cada dı́a
me contagia con su entusiasmo por descubrir cosas nuevas.
Gracias a toda la gente del Área de Ingenierı́a de Sistemas y Automática
(incluidos los que ya no están): desde proyectantes, becarios, PAS, profesores, hasta el mismo Director del Departamento, Guillermo Ojea. No podrı́a
haberme imaginado un lugar de trabajo mejor. Gracias a Alberto Diez y a
Juan Carlos Álvarez por darme unas pistas de lo que es la vida real; a Hilario López, por inspirarme la idea de hacer esta carrera; a Diego Álvarez y a
Juan Manuel Guerrero, porque nos ha tocado seguir caminos paralelos desde
que empezamos la carrera allá por el 91, y muchas veces me han servido
de referencia y me han echado una mano cuando me hacı́a falta; a Alfonso
Fernández de Lera por hacer que pasar la jornada entera en el campus sea
más ameno; Gracias a Felipe González, Alfonso Fernández Vázquez, Alberto
Pintado y Eva Janeiro, por trabajar tan duramente conmigo en diferentes
proyectos (y a Pablo Garcı́a, que encima me ha prestado una pedalera para
la guitarra). Gracias a todos, porque quisiera nombrar uno a uno, y hacer
más menciones especiales, pero ni hay espacio ni vienen a cuento aquı́.
Gracias al personal de Aceralia, porque nos ponen en contacto con la
industria real: Faustino Obeso, José Luis Rendueles, Luis Rodrı́guez Loredo,
Pablo Fernández Quiroga y demás.
Por supuesto, gracias a mis amigos, sin los cuales la vida serı́a bastante
más aburrida: Ángel, Adriana, Jorge (y ahora Sara también), Eloy, Ana,
Pedro C., Pedro F., Fran, José, Joseba, Sonia, Rafa, Ernesto y, cómo no,
Carlos (ese ı́nclito elemento que hasta recuerda alguna que otra rabieta mı́a
5
6
en segundo de EGB).
Por último, gracias a mi familia. A mi madre y a mi padre, que han sido
capaces de criar a “los tres mosqueteros” (éstos se llaman Marcos, Sonia y
Alberto, no Athos, Porthos y Aramis), y que han confiado en mı́ y siempre
me han ayudado en mi objetivo de trabajar en lo que más me gusta.
Resumen
La calidad del producto fabricado y la ausencia de fallos en el proceso de
fabricación son requisitos fundamentales en una planta industrial. Cada vez
se desarrollan métodos más eficaces y eficientes de asegurar el cumplimiento
de estos dos requisitos, métodos que generalmente se basan en enfoques totalmente automáticos implementados en un computador. Esta tesis propone
un enfoque global de aplicación de técnicas de visualización a la supervisión
de procesos que complementa la enorme potencia de cálculo y memoria de un
computador con la creatividad y grandes capacidades de percepción visual
del ser humano, permitiendo incorporar conocimiento previo que éste posee
sobre el proceso, y extraer nuevo conocimiento relacionando leyes fı́sicas, reglas extraı́das de la experiencia y datos provenientes del proceso. La idea
principal es representar gráficamente toda esta información bajo una misma
forma unificada, que, sobre todo, facilita la comprensión del gran volumen
de datos que se pueden generar en un proceso.
Esta forma unificada de representación está constituida por un espacio de
visualización, al que por medio de técnicas de proyección no lineal se traslada
información/conocimiento disponible en el espacio de las variables del proceso, espacio éste de muy alta dimensionalidad y por tanto no visualizable
directamente. Este esquema se complementa con la aplicación de una técnica
de redundancia analı́tica que se basa en el modelo del proceso constituido
por una técnica de proyección y que encaja perfectamente en el marco de este
enfoque de Data Mining Visual para la supervisión de procesos complejos.
En esta tesis, además, se presenta una aplicación software diseñada según
estos mismos principios y se muestran algunos resultados de esta metodologı́a
aplicada sobre casos reales: un motor de inducción de 4 kW en laboratorio y
un motor de continua de 6000 kW de un tren de laminación de la empresa
siderúrgica Aceralia.
7
8
Índice general
1. Introducción y Objetivos
13
1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2. Motivación y objetivos . . . . . . . . . . . . . . . . . . . . . . 14
1.3. Formulación del problema . . . . . . . . . . . . . . . . . . . . 18
2. Técnicas de Supervisión de Procesos
2.1. Introducción . . . . . . . . . . . . . . . . . . .
2.2. Técnicas basadas en modelos analı́ticos . . . .
2.2.1. Ecuaciones de paridad . . . . . . . . .
2.2.2. Estimación de parámetros . . . . . . .
2.2.3. Observadores de estado . . . . . . . . .
2.3. Técnicas basadas en conocimiento . . . . . . .
2.3.1. Métodos cualitativos . . . . . . . . . .
2.3.2. Sistemas expertos basados en reglas . .
2.3.3. Sistemas de inferencia borrosos . . . .
2.4. Técnicas basadas en datos . . . . . . . . . . .
2.4.1. Clasificadores . . . . . . . . . . . . . .
2.4.2. Redundancia analı́tica basada en datos
2.4.3. Control estadı́stico de procesos . . . .
2.5. Técnicas hı́bridas . . . . . . . . . . . . . . . .
2.5.1. Técnicas de visualización . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3. Técnicas de Reducción de la Dimensión
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . .
3.2. Selección de variables . . . . . . . . . . . . . . . . . .
3.3. Extracción de caracterı́sticas . . . . . . . . . . . . . .
3.3.1. Normalización . . . . . . . . . . . . . . . . . .
3.3.2. Técnicas de análisis espectral . . . . . . . . .
3.3.3. Otras técnicas de extracción de caracterı́sticas
3.4. Técnicas de proyección . . . . . . . . . . . . . . . . .
3.4.1. Técnicas de Proyección Lineal . . . . . . . . .
9
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
23
23
25
26
26
27
27
27
28
28
30
30
31
32
33
34
.
.
.
.
.
.
.
.
35
35
36
37
39
40
49
49
50
10
ÍNDICE GENERAL
3.4.2.
3.4.3.
3.4.4.
3.4.5.
Escalado Multidimensional .
Modelos Autoasociativos . .
Mapas Topológicos . . . . .
Otras técnicas de proyección
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
52
54
57
63
4. Data Mining Visual
4.1. Introducción . . . . . . . . . . . . . . .
4.2. Formas básicas de representación . . .
4.3. Proyección de datos . . . . . . . . . . .
4.4. El error de modelado . . . . . . . . . .
4.5. Representación visual de conocimiento
4.5.1. Etiquetado . . . . . . . . . . . .
4.5.2. Planos de componentes . . . . .
4.5.3. Mapa de distancias . . . . . . .
4.5.4. Mapas de activación . . . . . .
4.5.5. Mapas borrosos . . . . . . . . .
4.5.6. Mapas de modelos . . . . . . .
4.5.7. Mapas de correlaciones . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
65
65
66
69
70
72
72
72
73
74
75
76
78
.
.
.
.
.
.
.
.
.
81
81
81
82
84
84
86
86
87
87
.
.
.
.
.
.
.
.
.
.
89
89
89
89
90
93
94
94
94
94
96
5. Residuos en Modelos de Datos
5.1. Introducción . . . . . . . . . . . . . . . . .
5.2. Generación de residuos . . . . . . . . . . .
5.3. Detección de Novedades . . . . . . . . . .
5.4. Residuo vectorial . . . . . . . . . . . . . .
5.4.1. Validez del residuo vectorial . . . .
5.4.2. Representación del residuo vectorial
5.5. Consideraciones en el uso de residuos . . .
5.5.1. Elección de datos para el modelo .
5.5.2. Modelo con interpolación . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6. Metodologı́a de Supervisión
6.1. Introducción . . . . . . . . . . . . . . . . . . . . . .
6.2. El sistema MAPREX . . . . . . . . . . . . . . . . .
6.2.1. MAPREX: un sistema de monitorización . .
6.2.2. MAPREX: una herramienta de Data Mining
6.2.3. Estructura de la aplicación MAPREX . . . .
6.3. Una sesión con MAPREX . . . . . . . . . . . . . .
6.3.1. Selección de señales . . . . . . . . . . . . . .
6.3.2. Visualización de las señales en tiempo real .
6.3.3. Selección de caracterı́sticas . . . . . . . . . .
6.3.4. Preparación de datos para modelado . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . .
. . . .
. . . .
Visual
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
ÍNDICE GENERAL
11
6.3.5. Generación del modelo . . . . . . . . . . . . . . . . . . 96
6.3.6. Explotación del modelo . . . . . . . . . . . . . . . . . . 96
7. Resultados
7.1. Introducción . . . . . . . . . . . . . .
7.2. Monitorización de sistemas en tiempo
7.2.1. Descripción del sistema . . . .
7.2.2. Obtención del modelo . . . .
7.2.3. Aplicación del modelo . . . .
7.3. Data Mining de procesos industriales
7.3.1. Descripción del proceso . . . .
7.3.2. Obtención del modelo . . . .
7.3.3. Aplicación del modelo . . . .
. . .
real
. . .
. . .
. . .
. . .
. . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
99
99
99
99
101
101
106
106
108
108
8. Conclusiones
117
8.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
8.2. Aportaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
8.3. Lı́neas futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
A. Nomenclatura
123
12
ÍNDICE GENERAL
Capı́tulo 1
Introducción y Objetivos
1.1.
Introducción
El buen funcionamiento de una planta industrial viene condicionado por
la eficacia y eficiencia de cada uno de los tres niveles en los que se suele
dividir la automatización de la misma: gestión, supervisión y control. Cada
nivel tiene unos objetivos diferenciados y actúa sobre el nivel inmediatamente inferior para lograrlos1 . El nivel de gestión es el que marca los objetivos
principalmente económicos, realiza la planificación y tiene unos tiempos entre actuaciones sobre el nivel de supervisión relativamente largos. El nivel
de supervisión tiene la función de verificar el correcto funcionamiento de la
planta, pudiendo incluirse en ello la búsqueda de la calidad en la producción, tan importante hoy en dı́a para cumplir objetivos económicos debido a
la gran competencia existente en el mercado mundial. Ello lo consigue por
medio de acciones sobre el nivel más bajo, el nivel de control, reconfigurando
sus estrategias o realizando acciones radicales, como paradas completas, ante
una posibilidad de fallo catastrófico. El nivel de control es el que interacciona
de forma más cercana con los procesos de fabricación, actuando directamente sobre la maquinaria y requiriendo velocidades de actuación muy elevadas
ante eventos en el proceso.
Ası́ pues, la importancia de la supervisión radica, primero, en la necesidad de verificar que los procesos de control funcionan de manera adecuada,
y segundo, que lo hagan con la precisión que los objetivos de calidad del
producto final requieren. El verificar que el control del proceso funcione de
manera adecuada tiene que ver con el buen estado de toda la maquinaria del
proceso. Un elemento del proceso en mal estado no estará de acuerdo con los
modelos matemáticos que se tienen de él y, por tanto, el sistema de control,
1
O sobre el proceso directamente, en el caso del nivel más bajo, el de control.
13
14
CAPÍTULO 1. INTRODUCCIÓN Y OBJETIVOS
que se habrá diseñado teniendo en cuenta dichos modelos, no realizará su
trabajo correctamente, dando lugar a un producto de baja calidad. También,
en caso extremo, se podrı́a producir un fallo grave que pudiera hacer que el
proceso de fabricación se detuviera completamente.
1.2.
Motivación y objetivos
La detención completa de un proceso de fabricación suele conllevar grandes pérdidas económicas. A su vez, un producto de mala calidad es una
desventaja para la competitividad de la empresa en los mercados, lo cual
supone un obstáculo para el objetivo de maximización de beneficios. Como
consecuencia de ello, las estrategias de mantenimiento han evolucionado a
lo largo del tiempo para evitar estos inconvenientes interfiriendo lo menos
posible en la continuidad del proceso de fabricación.
Ası́, en un sistema de mantenimiento básico, la sustitución de componentes en el proceso de fabricación sólo se realiza cuando se produce el fallo de
los mismos (mantenimiento correctivo). Este sistema tiene tres inconvenientes principalmente. Por un lado, un fallo que provoque la parada total del
proceso puede producirse en un momento inconveniente, en el que las pérdidas económicas sean mayores respecto a otro momento. Por otro lado, un
fallo total en un elemento del proceso puede dar lugar a fallos en elementos
adyacentes, y puede convertirse incluso en un problema de seguridad para los
trabajadores de la planta, generando accidentes. Una tercera razón también
podrı́a ser el stock de componentes que habrı́a que tener para la sustitución.
Otra estrategia de mantenimiento que intenta evitar estos inconvenientes
es el mantenimiento preventivo, que consiste en la sustitución de componentes
en función de datos estadı́sticos de vida útil de los mismos. Ello permite
también planificar paradas del proceso con antelación, cuando sea necesario,
para la sustitución. Sin embargo este sistema de mantenimiento también
tiene un inconveniente, sobre todo en componentes de alto coste, y es que
a veces se desperdician componentes que todavı́a están en perfecto estado.
Además, siempre existe la posibilidad de que los componentes fallen antes de
lo previsto.
El sistema que actualmente presenta más ventajas es el mantenimiento predictivo o mantenimiento por condición. Por este método se realiza la
sustitución de los componentes basándose en el estado de los mismos, deducido a través de su monitorización, ya sea continua o discontinua en función
principalmente de lo crı́tico que sea el elemento dentro del proceso.
La función de la supervisión de procesos, por consiguiente, se puede resumir como la verificación del funcionamiento óptimo de procesos, con tres
1.2. MOTIVACIÓN Y OBJETIVOS
15
objetivos:
Detectar fallos en la maquinaria e instrumentación de forma anticipada
para prevenir paradas no planificadas del proceso.
Detectar en el proceso desviaciones del funcionamiento correcto y que
dan lugar a la fabricación de producto defectuoso o de baja calidad.
Actuar o sugerir actuación para volver al óptimo en los dos casos anteriores.
Llevar a cabo estos objetivos a través de la monitorización no es, sin
embargo, tarea fácil. La mayorı́a de los procesos industriales se pueden calificar como “complejos”. Este adjetivo se deriva del hecho de que los procesos
industriales generan una cantidad enorme de datos provenientes de muchas
variables que suelen estar relacionadas de forma no lineal. La caracterı́stica
de no linealidad es un problema importante, puesto que la mayor parte de
la teorı́a de control de sistemas se centra en sistemas lineales. Un modelo
en ecuaciones explı́citas de un proceso no lineal suficientemente preciso, si
existe, suele ser difı́cil de tratar. En cuanto al gran número de variables,
es un inconveniente debido a la maldición de la dimensionalidad (curse of
dimensionality) que plantea que el número de datos que hace falta para hacer estimaciones suficientemente precisas a partir de los mismos (estimación
de funciones de densidad de probabilidad, aproximación de funciones, etc.)
aumenta exponencialmente con la dimensión del espacio de datos [7].
El problema de la no linealidad, y la dificultad derivada de obtener modelos explı́citos, hace que se piense en recurrir a modelos basados en datos
frente a otros modelos analı́ticos basados en ecuaciones explı́citas. Respecto
al problema de la dimensionalidad, hace necesario el uso de técnicas de reducción de la dimensionalidad para eliminar componentes de los vectores de
datos (variables) que no contengan información significativa o que contengan
información redundante.
Para la supervisión de maquinaria son tı́picos los métodos que fijan umbrales para determinadas variables como método para detectar problemas
(métodos de umbral ). Es muy común en máquinas rotativas (motores y generadores eléctricos, bombas, ventiladores, turbinas, . . . ) medir valores de niveles de vibración (valor eficaz en una banda de frecuencia), que no deberán
sobrepasar unos valores estándar o dados por el fabricante para considerar
que funcionan correctamente [88]. En estos casos también se suelen emplear
métodos algo más sofisticados de análisis espectral de las vibraciones para
descubrir qué fallo concreto que se está produciendo.
Quizás, el mayor esfuerzo en investigación en los últimos años para la
detección y diagnóstico de fallos se ha dirigido hacia enfoques en los que
16
CAPÍTULO 1. INTRODUCCIÓN Y OBJETIVOS
todo el proceso de detección y diagnóstico, desde la adquisición de datos
hasta la señalización e indicación de fallos, se realiza de forma automática.
Ası́, son de aparición frecuente en la bibliografı́a técnicas como las de
redundancia analı́tica, en las que para el diagnóstico se usan las diferencias
entre las salidas de un modelo analı́tico del proceso y el proceso real. En realidad, el concepto de redundancia analı́tica se puede referir al uso de cualquier
modelo no fı́sico (matemático) para ese fin. Las técnicas que usan un modelo matemático en forma de ecuaciones explı́citas, como las de ecuaciones
de paridad, las de estimación de parámetros y las de estimación de estado,
se pueden englobar dentro de un grupo que podrı́amos denominar técnicas
basadas en modelos analı́ticos. Sin embargo este grupo de técnicas necesitan
para su aplicación un modelo del proceso suficientemente preciso, lo cual es
infrecuente en procesos complejos. Gertler, en [37], hace un resumen de estas técnicas para detección y diagnóstico de fallos basadas en modelos para
plantas complejas.
Otro grupo de técnicas no tienen unos requerimientos tan fuertes en cuanto al conocimiento del modelo del proceso y les basta con un conocimiento
impreciso, incompleto o incluso más bien intuitivo, expresado en forma similar al lenguaje humano. Entre ellas se encuentran las técnicas basadas en
conocimiento. Éstas incluyen enfoques como el razonamiento cualitativo, la
lógica difusa o los sistemas expertos basados en reglas. Por ejemplo, relacionado con este grupo de técnicas, Isermann [44] presenta aplicaciones de lógica
difusa para control, supervisión y diagnóstico de fallos.
También son posibles combinaciones de modelos analı́ticos y modelos basados en conocimiento. Ası́, Ballé [3] enfoca la detección y diagnóstico de
fallos en procesos no lineales a través de modelos difusos lineales locales y
estimación de parámetros. Isermann [46] integra información analı́tica y conocimiento heurı́stico para diagnóstico de fallos a través de lógica difusa. Patton
[70] resume varias técnicas disponibles de inteligencia artificial aplicadas al
diagnóstico de fallos, y de ellas escoge B-splines cómo método que integra un
enfoque cualitativo y otro cuantitativo, y que se demuestra equivalente a los
sistemas difusos. Gertler [38] añade la posibilidad de razonamiento aproximado (evidential reasoning) en la metodologı́a basada en modelos, aumentando
la capacidad de toma de decisiones en el diagnóstico.
Sin embargo, a veces el conocimiento previo sobre el proceso que se posee
es prácticamente nulo, pero en cambio se dispone de una gran cantidad de
datos de historial de variables del proceso. Para esos casos son aplicables
las técnicas basadas en datos. Este tipo de técnicas incluye desde métodos
estadı́sticos hasta métodos de inteligencia artificial como las redes neuronales.
Ası́, dentro de las técnicas basadas en datos se han propuesto metodologı́as
de reconocimiento de patrones (clasificadores), de redundancia analı́tica con
1.2. MOTIVACIÓN Y OBJETIVOS
17
modelos basados en datos y de control estadı́stico de procesos (Statistical
Process Control, SPC). Sorsa [84] aplica con éxito perceptrones multicapa en
la detección de fallos, usándolos como clasificadores. Dı́az [30] muestra, en
cuanto a la generación de residuos a partir de modelos basados en datos, las
ventajas de enfoques que tienen en cuenta el dominio de los datos en la etapa
de cálculo del modelo (GRNN, por ejemplo) frente a los que no (perceptrón
multicapa, Radial Basis Functions networks,. . . ). Wilson [103] presenta un
método en el que se halla un modelo basado en redes RBF (Radial Basis
Functions), con el que se realiza una proyección de los datos en un espacio
bidimensional y como criterio para detectar fallos se usa el error de modelado.
Esto último también lo realiza Harris [39], pero por medio de una red SOM
(Self-Organizing Map).
También son posibles combinaciones de técnicas basadas en datos con las
anteriormente mencionadas. Sugeno [86] estudia el modelado cualitativo basado en lógica difusa a partir de datos. De forma semejante, Lu [59] presenta
un sistema de diagnóstico de fallos para automóviles basado en un sistema
difuso, con la particularidad de que a partir de datos se deducen reglas y se
ajustan las funciones de pertenencia. Bonissone [14] trata las combinaciones
posibles entre las distintas técnicas de computación flexible (Soft Computing) aplicadas a tareas de diagnosis, control y predicción. Filippetti [34]
hace una recopilación de recientes desarrollos en el diagnóstico de fallos en
accionamientos de motores de inducción a través de técnicas de inteligencia
artificial, concretamente sistemas expertos basados en reglas, redes neuronales, lógica difusa y neuro-fuzzy.
Sin embargo, todas estas técnicas no pueden evitar completamente la posibilidad de detecciones erróneas, y muchas veces no dan información acerca
de cómo se realizó cada diagnóstico concreto, o no proporcionan una medida de la fiabilidad de dichos diagnósticos. Esto puede llegar a hacer que el
personal técnico desconfı́e de los equipos de monitorización basados en éstas
técnicas, o bien deje de confiar después de sucesivos diagnósticos erróneos.
Un enfoque bien distinto es el proporcionado por la técnicas de visualización aplicadas a la monitorización de la condición [56] [83] [93] [13]. En
ellas el diagnóstico final lo realiza el ser humano, gracias a que los datos
se han transformado y se representan de forma que éste pueda aprovechar
sus habilidades de procesamiento visual de la información, superiores a la de
cualquier máquina. Para llevarlo a cabo se cuenta con numerosas técnicas
de proyección no lineal, muy usadas en tareas de procesamiento de datos
de alta dimensionalidad en numerosos campos de la ciencia, como el SelfOrganizing Map (SOM) [53], Generative Topographic Mapping (GTM) [13],
Curvilinear Component Analysis (CCA) [23], y otras [89] [79]. Esta tesis se
centrará en este enfoque de visualización para la incorporación y extracción
18
CAPÍTULO 1. INTRODUCCIÓN Y OBJETIVOS
Técnicas basadas en
modelos analíticos
Ecuaciones de paridad
Estimación de parámetros
Observadores de estado
Técnicas basadas en
conocimiento
Métodos cualitativos
Sistemas expertos basados en reglas
Sistemas de inferencia borrosos
Técnicas basadas en
datos
Clasificadores
Redundancia analítica basada en datos
Control estadístico de procesos
Técnicas híbridas
Hibridación de técnicas de soft computing
Técnicas de visualización
Figura 1.1: Clasificación de técnicas de detección y diagnóstico de fallos.
de conocimiento en la supervisión de procesos industriales.
1.3.
Formulación del problema
El planteamiento del problema de la supervisión de procesos complejos se
puede realizar a través de la Teorı́a de Sistemas en Espacio de Estados (ver
por ejemplo [69] para una explicación de las ideas básicas). El estado de un
sistema (el proceso) puede ser descrito completamente por un conjunto de
variables denominadas variables de estado. No existe un único conjunto de
variables de estado para un sistema, pero lo que siempre se cumple es que el
número de variables de estado en cada conjunto de un sistema es siempre el
mismo. Sea x(t) el vector de variables de estado en cada instante de tiempo
t. Este vector x(t) describe una trayectoria en el espacio de todos los posibles
estados del sistema X ⊂ Rn , siendo n el número de variables de estado del
sistema. Esta trayectoria será función del estado inicial del sistema x(t0 ), y de
las entradas u(t) que reciba el sistema en cada instante t ≥ t0 . Esta relación
se puede expresar como una ecuación diferencial, denominada ecuación de
estado:
ẋ(t) = f (x(t), u(t), t)
(1.1)
1.3. FORMULACIÓN DEL PROBLEMA
19
Las variables de estado de un sistema no tienen por qué ser accesibles para
medir, e incluso no necesariamente tienen interpretación fı́sica. Sin embargo,
los valores de las medidas que se puedan tomar en el sistema, dependerán
por un lado de su estado, y por otro de la entrada al sistema, lo cual se puede
expresar con la llamada ecuación de salida:
y(t) = g(x(t), u(t), t)
(1.2)
siendo y(t) un vector de medidas del proceso. La dependencia de t en (1.1) y
en (1.2) expresa el hecho de que tanto f como g pueden ser, en caso general,
variantes con el tiempo.
Cuando se trata de procesos complejos, la dimensión del espacio de estados puede ser enorme, haciendo el problema del seguimiento del estado
computacionalmente casi imposible. Sin embargo, manejar tal número de variables de estado puede ser totalmente innecesario para los objetivos que se
suelen plantear en la supervisión de procesos. Esto es exactamente lo que
ocurre, por ejemplo, en el estudio de un fluido. El “estado” de un fluido
puede caracterizarse tanto por variables macroscópicas (presión, temperatura, volumen; tres dimensiones) como por variables microscópicas (posición y
cantidad de movimiento de cada molécula; número de dimensiones de orden
superior a 1015 ). La elección de uno u otro punto de vista depende del nivel
de detalle necesario para los objetivos del estudio. Ası́, por ejemplo, para determinar en qué fase se encuentra un fluido en equilibrio, bastan las variables
macroscópicas “presión” y “temperatura”.
Basándose en estas ideas, se puede definir condición de un proceso como
un conjunto de estados del mismo que se etiquetan bajo el mismo nombre.
La distinción del estado dentro de cada conjunto en general no será relevante
para la supervisión. Es decir, una condición que podamos denominar “normal”, por ejemplo, corresponderá habitualmente a un conjunto de estados,
y el conocimiento del estado concreto en cada instante no interesará. Como
resultado, el espacio de estados del proceso quedará dividido en regiones y
el problema será determinar en qué región se encuentra el proceso en cada
instante, no el punto concreto.
Un enfoque visual para la supervisión de procesos tiene como objetivo la
representación gráfica de las regiones correspondientes a las diferentes condiciones de los procesos. Esto presenta un problema fundamental puesto que,
como ya se dijo, las variables de estado pueden no ser accesibles para su medición. La deducción del valor de x(t) a partir de un vector de medidas y(t) en
procesos complejos en general tampoco es posible, ya sea por la complejidad
de f y g, o por la no observabilidad [69] de dichos procesos.
Sin embargo, lo que se pretende no es hallar el valor de x(t), sino que
se trata de detectar la presencia del proceso en uno de los conjuntos de
20
CAPÍTULO 1. INTRODUCCIÓN Y OBJETIVOS
estados, o condiciones. Cabe pensar que el vector de medidas y(t) puede llevar
suficiente información sobre el estado para poder discernir en que condición
se encuentra el sistema en cada instante. En general, esta hipótesis no es
muy restrictiva y suele ser suficiente elegir de forma adecuada las variables a
medir en el sistema para que su condición se refleje en el vector de medidas.
Esta elección es lo que determina la función g. Como resultado, se traslada
el problema de la representación de las regiones de las distintas condiciones
en el espacio de estados a un problema equivalente pero en un espacio de
medidas.
La evolución a lo largo del tiempo del vector de medidas en su espacio
puede ser muy complejo. Aun permaneciendo el proceso en una determinada
condición, las medidas pueden estar variando de forma rápida y con patrones
complicados. Esto provoca que las regiones correspondientes a las distintas
condiciones del proceso estén fuertemente entrelazadas, resultando muy dificultosa su interpretación y separación en el mencionado espacio de medidas.
Teniendo en cuenta esto, se pueden clasificar las señales del proceso en dos
grandes grupos:
Señales estáticas, que son señales que pueden considerarse invariantes
respecto a la condición del proceso.
Señales dinámicas, que son señales que varı́an aun permaneciendo constante la condición del proceso.
De las señales estáticas se puede usar directamente su valor instantáneo para el vector de medidas. En cambio, sobre las señales dinámicas habrá que
realizar un proceso denominado extracción de caracterı́sticas que pretende
obtener un vector de parámetros representativos de la dinámica de la señal
(caracterı́sticas) que sean constantes respecto a la condición del proceso2 .
Se trata ası́ de eliminar la información redundante presente en el complicado patrón de variación de la señal original y que no sirva para diferenciar
condiciones del proceso. Como resultado de la extracción de caracterı́sticas
—incluyendo los valores de las señales estáticas, que pueden considerarse resultado de una extracción de caracterı́sticas trivial, o haber sufrido un filtrado
para eliminar ruido— de nuevo se ha trasladado el problema de un espacio a
otro, en este caso de un espacio de medidas a un espacio de caracterı́sticas.
Finalmente, ya sólo queda abordar el problema de la representación gráfica de la trayectoria que será indicación de la condición del proceso en el espacio de caracterı́sticas. Salvo procesos muy simples, el espacio de caracterı́sticas tendrá una dimensión mayor de tres y no será, por tanto, representable
2
Es decir, que no cambien a menos que cambie la condición del proceso.
1.3. FORMULACIÓN DEL PROBLEMA
21
gráficamente. La solución consiste en realizar una proyección del espacio de
caracterı́sticas en un espacio que se pueda representar (2D, por ejemplo) que
se denominará espacio de visualización.
En principio se podrı́an poner dos objeciones a esta solución. La primera es que en el espacio de caracterı́sticas aparecerán relaciones no lineales
entre variables (caracterı́sticas), al igual que ocurrı́a en el espacio de estados original entre las variables de estado. En ese caso, el uso de una técnica
de proyección lineal (por ser más simple) hará que probablemente se pierda
información referente a la condición del proceso. Es decir, regiones correspondientes a distintas condiciones del proceso podrı́an aparecer proyectadas
en el mismo lugar del espacio de visualización. Como segunda objeción, se
podrı́a argumentar que al proyectar se pierde toda la información sobre las
variables del proceso que se tenı́a en el espacio de caracterı́sticas y puesto
que las caracterı́sticas generalmente tendrán un significado fı́sico acerca del
proceso, convendrı́a conservarlas.
Para evitar el inconveniente apuntado por la primera objeción será necesario utilizar un método de proyección no lineal. Respecto al inconveniente
citado en la segunda objeción, a lo largo de esta tesis se verá que empleando
las técnicas adecuadas no sólo puede conservarse la información del proceso
que se poseı́a en el espacio de caracterı́sticas al proyectar sobre el espacio
de visualización, sino que además se facilitará la extracción de nuevo conocimiento en dicho espacio de visualización que relacione variables del proceso
del espacio de caracterı́sticas. Un esquema que ilustra las ideas mencionadas
en este apartado se muestra en la figura 1.2.
El resto de esta tesis se distribuye de la siguiente forma. En el capı́tulo 2
se describen las diferentes técnicas existentes para la supervisión de procesos.
En el capı́tulo 3 se explican las técnicas de reducción de la dimensión que
servirán de base para el planteamiento del enfoque de Data Mining Visual
para supervisión de procesos que se propondrá en el capı́tulo 4. Ello se complementa con una descripción, en el capı́tulo 5, de un método de aplicación de
redundancia analı́tica aprovechando las mismas técnicas de proyección que
se usan en Data Mining Visual. En el capı́tulo 6 se enmarcará este enfoque
de Data Mining Visual aplicado a supervisión dentro de un estándar de Data
Mining, como es CRISP-DM, y se describirá una implementación real de un
sistema de supervisión que aplica las técnicas de los capı́tulos 4 y 5, un sistema denominado MAPREX. Por último, se muestran algunos resultados de
aplicación a un motor de inducción en laboratorio y a un motor de continua
de 6000 kW de un tren de laminación en el capı́tulo 7, y se termina con las
conclusiones y algunas propuestas de trabajo futuro dentro de la misma lı́nea
en el capı́tulo 8.
(Inaccesible)
~ 1015D
Espacio de
Estados
(Significado físico)
~ 105D
Espacio de
Medidas
EC
(Todavía con significado físico)
~101D
Espacio de
Características
TP
?
AA prioriB
2D, 3D
Espacio de Visualización
C
no physical
meaning
Extracción de Características (EC)
Usa conocimiento previo sobre
Típicamente aprovecha la estructura
la geometría de las regiones
estadística de los datos.
O sobre la física del proceso
Conocimiento previo
se usa aquí para
Técnica de Proyección (TP)
la interpretación
Pocas o ninguna hipótesis
de las regiones.
sobre los datos.
El enfoque de Reducción de la Dimensión
sensores
22
CAPÍTULO 1. INTRODUCCIÓN Y OBJETIVOS
Figura 1.2: Esquema de reducción de la dimensión para el enfoque visual de
la supervisión de procesos.
Capı́tulo 2
Técnicas de Supervisión de
Procesos
2.1.
Introducción
Para poder hablar acerca de “supervisión de procesos” es necesario definir
previamente ciertos términos fundamentales. Se puede definir supervisión1
como la monitorización de un sistema fı́sico y la ejecución de las acciones
apropiadas para mantener el funcionamiento en caso de fallo. A su vez, se
entiende por monitorización (monitoring) como una tarea en tiempo real
para determinar las condiciones de un sistema fı́sico registrando información,
y reconociendo e indicando anomalı́as en su comportamiento.
Un fallo (fault) es una desviación no permitida de al menos una propiedad
caracterı́stica o variable del sistema respecto al comportamiento considerado
aceptable/usual/estándar/nominal. Un fallo total (failure) es un fallo que
implica una interrupción permanente de la capacidad del sistema para llevar a
cabo una función requerida bajo condiciones de funcionamiento especificadas.
Una perturbación es una entrada desconocida y no controlada actuando
sobre el sistema.
La detección de fallos (fault detection) es determinar si hay fallos presentes en el sistema. El aislamiento de fallos (fault isolation) es la determinación de la localización del fallo, es decir, de qué componente ha fallado.
La identificación de fallos (fault identification) es la determinación de la
cuantı́a y el comportamiento a lo largo del tiempo de un fallo.
Ası́, el término “diagnóstico de fallos” (fault diagnosis) de forma genérica
suele referirse algunas veces a detección, aislamiento e identificación de fallos,
y otras solamente a aislamiento e identificación de fallos. En la bibliografı́a
1
Estas y otras definiciones en este apartado han sido tomadas de [45].
23
24
CAPÍTULO 2. TÉCNICAS DE SUPERVISIÓN DE PROCESOS
fallos
ruido
entradas
perturbación
salidas
PLANTA
Generador
de residuos
(con modelo
de la planta)
residuos
Método de
decisión
diagnóstico
Figura 2.1: Diagrama de bloques de la aplicación de redundancia analı́tica.
están bien asentados términos como “detección y aislamiento de fallos” (FDI,
Fault Detection and Isolation) y “detección, aislamiento e identificación de
fallos” (FDII, Fault Detection, Isolation and Identification).
El problema de la detección, aislamiento e identificación de fallos es un
subconjunto del problema de la supervisión, puesto que en principio no incluye la actuación sobre el sistema estudiado para llevarlo al funcionamiento
considerado correcto. Sin embargo, si se puede llegar hasta la identificación
del fallo, la acción correctora a realizar suele ser inmediatamente deducible,
además de ser muy especı́fica del problema y proceso concreto.
Son muchas las herramientas usadas en el problema de la detección, aislamiento e identificación de fallos. Generalmente las técnicas usadas para ese
fin se basan en el uso de modelos del sistema, en muy diversas formas, que
son usados como referencia para comparar con el comportamiento real del
sistema y descubrir fallos (desviaciones en el comportamiento del sistema).
Esta idea, denominada redundancia analı́tica deriva del uso que se hizo tradicionalmente de múltiples elementos (sensores, indicadores, etc.) realizando
la misma función (midiendo la misma magnitud) para poder ser comparados y detectar fallos en ellos2 y a lo que se denomina redundancia fı́sica. Un
esquema de un sistema de redundancia analı́tica se representa en la figura
2.1.
Existe una clase de métodos, muy empleados, denominados métodos de
2
Con dos se detecta que hay fallo, con más se puede detectar qué elemento, o elementos,
según número, han fallado.
2.2. TÉCNICAS BASADAS EN MODELOS ANALÍTICOS
25
umbral que, estrictamente hablando, usan modelos —muy burdos, en ciertos
casos— consistentes en la comprobación de lı́mites y el análisis frecuencial
(o modelos de señales en general, como lo denomina Isermann [46] [44]).
Los modelos más simples después de los mencionados, menos frecuentemente aplicables en procesos complejos, son los modelos lineales. Los modelos
lineales de sistemas han sido ampliamente estudiados por la Teorı́a de Control y para ellos existen multitud de técnicas aplicables a detección de fallos.
Otra forma de modelar sistemas, aplicable ya a sistemas más complejos, deriva de la llamada fı́sica cualitativa. Los modelos cualitativos son descripciones
no numéricas de los sistemas y están orientados a captar los aspectos fundamentales del sistema o mecanismo, suprimiendo gran parte del detalle y
manteniendo las propiedades más significativas de su comportamiento. Los
sistemas expertos basados en reglas y los sistemas borrosos de inferencia se
basan también en este conocimiento impreciso tı́pico del ser humano.
Muchas veces no se dispone ni de modelos analı́ticos ni de conocimiento
del proceso pero sı́ de una cantidad ingente de datos provenientes del mismo.
En estos casos tradicionalmente se han aplicado técnicas estadı́sticas y, más
recientemente, han aparecido técnicas que apenas dependen de una estructura fija para el modelo y sı́ más de un gran número de parámetros que se
obtienen a partir de los datos por medio de un “aprendizaje” o “entrenamiento”. Las redes neuronales, por ejemplo, son buenos aproximadores de
funciones no lineales y son por tanto muy útiles cuando se trata con sistemas
complejos.
En los siguientes apartados se profundizará algo más en todas éstas técnicas y en sus ámbitos de aplicación, que dependen de la información previa
que se tenga del sistema o proceso.
2.2.
Técnicas basadas en modelos analı́ticos
Las técnicas basadas en modelos analı́ticos son aplicables cuando se tienen
modelos analı́ticos del sistema (ecuaciones explı́citas). Esto ocurre especialmente con sistemas lineales. En muchos casos, sin embargo, no son aplicables
estos métodos porque los modelos disponibles son sólo aproximaciones que
no son lo suficientemente precisas [70] [44].
26
CAPÍTULO 2. TÉCNICAS DE SUPERVISIÓN DE PROCESOS
2.2.1.
Ecuaciones de paridad
Se basa en expresar el comportamiento del sistema por medio de ecuaciones diferenciales3 lineales explı́citas de la forma:
fi (x) = 0
i = 1, . . . , n
(2.1)
donde x es el vector de variables y sus derivadas. Cuando, en un momento
determinado de la evolución del proceso, no se cumple el modelo dado por
esas ecuaciones debido a un fallo se obtiene:
fi (x) = i
i = 1, . . . , n
(2.2)
donde al menos un i es distinto de cero. Esos i se denominan residuos.
Un residuo es, en general, un indicador de fallo basado en la desviación
entre medidas y cálculos derivados de modelos del sistema. La utilidad de
los residuos no reside sólo en su capacidad para detectar fallos, sino también
para aislarlos. Esto es posible transformando las ecuaciones de forma que
cada i sea indicador de un determinado fallo [37] [38].
Realmente los residuos nunca son exactamente nulos debidos a imprecisiones del modelo y ruidos en las medidas. Debido a ellos hay que aplicar
sobre los residuos métodos de decisión.
2.2.2.
Estimación de parámetros
Los métodos de estimación de parámetros se basan en modelos analı́ticos
para detectar e identificar los fallos a través de desviaciones en los parámetros
del proceso respecto a valores esperados. Los parámetros del proceso pueden
estimarse de forma continua (on line) a través de técnicas como RLS, el filtro
de Kalman, etc.
Un caso especialmente interesante se presenta cuando los parámetros tienen un significado fı́sico claro (la resistencia del rotor en un motor de inducción, por ejemplo [6]). En esos casos es inmediata la aplicación de conocimiento experto para el aislamiento de los fallos.
Una forma particular de estimación de parámetros se aplica cuando existe
una variable que no es medible o fácilmente medible directamente, pero se
puede deducir de otras variables que si están accesibles para su medición.
Las técnicas que se emplean con este fin suelen recibir el nombre de sensores
virtuales [73].
3
O ecuaciones en diferencias para sistemas muestreados.
2.3. TÉCNICAS BASADAS EN CONOCIMIENTO
2.2.3.
27
Observadores de estado
Este tipo de métodos también están basados en modelos analı́ticos. Se
detectan e identifican los fallos a través de la estimación del estado por medio
de técnicas como el filtro de Kalman, el filtro de Wiener, etc., denominados,
en general, observadores.
2.3.
Técnicas basadas en conocimiento
Cuando no se dispone de modelos analı́ticos del proceso, una alternativa
la constituye lo que se puede denominar como técnicas basadas en conocimiento. Estas técnicas hacen uso del conocimiento acerca del proceso de
carácter incompleto e impreciso, tı́pico del ser humano, y que es codificado
y representado de diversas formas, como se verá a continuación.
2.3.1.
Métodos cualitativos
Una forma de modelar sistemas aplicable a sistemas complejos deriva de
la llamada fı́sica cualitativa o también razonamiento cualitativo [35] [57].
Los modelos cualitativos son descripciones no numéricas de los sistemas y
están orientados a captar los aspectos fundamentales del sistema o mecanismo, suprimiendo gran parte del detalle y manteniendo las propiedades más
significativas de su comportamiento.
Por medio de simulación cualitativa se puede obtener la evolución del
sistema a través de diferentes estados cualitativos. Un ejemplo puede ser la
descripción del estado cualitativo de un balón subiendo:
la posición del balón está ascendiendo y la velocidad hacia
arriba está descendiendo.
Posteriormente, por simulación cualitativa, se obtendrı́a el resultado de que
el balón en algún punto de su ascenso se detendrá y comenzará a descender
(sucesión de estados cualitativos). En muchos casos, dependiendo del nivel
de detalle de la información que se usa en la simulación (resolución), pueden
obtenerse diferentes soluciones alternativas para dicha sucesión de estados.
Para intentar eliminar estas ambigüedades se puede añadir información
cuantitativa. Una simulación semicuantitativa es una simulación cualitativa
que usa información cuantitativa, como valores numéricos o intervalos, para
restringir (acotar) sus resultados [95] [47].
28
CAPÍTULO 2. TÉCNICAS DE SUPERVISIÓN DE PROCESOS
2.3.2.
Sistemas expertos basados en reglas
Los sistemas expertos basados en reglas (rule-based expert systems) identifican fallos por medio de conocimiento sobre el proceso puesto en forma de
un conjunto de reglas “SI-ENTONCES” de la forma:
SI sı́ntoma ENTONCES conclusión
donde la conclusión de una regla puede servir como sı́ntoma de otra. El sistema experto las evalúa hasta que llega a conclusiones finales que serán sobre
la existencia o no de fallos y su aislamiento. Los sı́ntomas en las primeras reglas del árbol de deducciones serán relaciones de observaciones en el proceso
(medidas de variables o valores derivados de éstas, propiedades del proceso
que pueden ser percibidas por el operador, etc.) [34] [37] [76]. El conjunto de
reglas que usa el sistema experto se denomina base de conocimiento. El elemento que realiza el proceso de razonamiento o decisión se denomina motor
de inferencia.
2.3.3.
Sistemas de inferencia borrosos
Los sistemas de inferencia borrosos (FIS, Fuzzy Inference System) son
semejantes a los sistemas basados en reglas del apartado anterior en cuanto
a que el conocimiento se expresa en forma de reglas “SI-ENTONCES”. Sin
embargo, los sistemas borrosos son mucho más adecuados cuando se trata
con información vaga, imprecisa e incompleta [48] [58].
Un sistema de inferencia borroso (en adelante FIS), cuyo esquema se
muestra en la figura 2.2, incluye tres elementos:
Un conjunto de reglas, que codifican un conocimiento disponible.
Un conjunto de funciones de pertenencia, cuya finalidad es codificar y
decodificar información numérica en información difusa (borrosa).
Un mecanismo de razonamiento, que realiza la inferencia a partir de
las reglas y unas variables de entrada o “hechos” para obtener unas
variables de salidas o “conclusiones”.
Un FIS funciona de la siguiente manera4 . Las variables de entrada pueden
ser crisp (valores numéricos concretos) o fuzzy (valores imprecisos). Lo que
en la figura 2.2 aparece como (x es A1 ) es una forma compacta de expresar:
(x1 es A11 ) y (x2 es A21 ) y . . . y (xn es An1 )
4
Como ejemplo de FIS se va a explicar el caso de un FIS Mamdani.
2.3. TÉCNICAS BASADAS EN CONOCIMIENTO
29
Regla 1
x es A1
w1
y es B1
(Fuzzy)
Regla 2
x
x es A2
w2
y es B2
(Fuzzy)
Agregador
(Crisp o
fuzzy)
(Crisp)
Defuzzificador
y
Regla r
x es Ar
wr
y es Br
(Fuzzy)
Figura 2.2: Diagrama de bloques de un sistema de inferencia borroso.
que es el antecedente de la regla. Con (x1 es A11 ) se está evaluando la pertenencia del valor de x1 a un conjunto borroso denominado A11 . Al contrario
que en la teorı́a de conjuntos crisp tradicional, donde la pertenencia de un
elemento a un conjunto sólo puede ser “pertenece ” o “no pertenece” (1 o
0 respectivamente), en los conjuntos borrosos la pertenencia puede ser cualquier valor real en el intervalo [0, 1], indicando un mayor grado de pertenencia
cuanto más se acerque dicho valor a 1. La pertenencia de una variable a un
conjunto borroso se define por medio de una función de pertenencia que tiene el mismo dominio que la variable en cuestión y devuelve valores en el
intervalo [0, 1].
Los resultados de evaluar los (xi es Aij ) se combinan por los operadores lógicos (“y”, “o”) que intervengan en cada regla (en el ejemplo sólo hay
“y”). Estos operadores lógicos se denominan respectivamente t-norma y tconorma, y existen varias opciones en cuanto la elección de estos operadores
mientras cumplan ciertas condiciones. Se suelen tomar las funciones “mı́nimo” y “máximo” respectivamente.
El siguiente paso es evaluar el consecuente “entonces (y es Bi )”. La implicación consiste en recortar la función de pertenencia que aparece en el
consecuente, que en este caso denominamos Bi , con el resultado que se obtuvo en el antecedente wi (grado de cumplimiento o fuerza de activación). Como
resultado se obtiene una nueva función de pertenencia (variable borrosa).
Todo estos pasos se realizan para cada regla. Posteriormente hay que
agregar los resultados de todas las reglas para obtener un único resultado
30
CAPÍTULO 2. TÉCNICAS DE SUPERVISIÓN DE PROCESOS
borroso. Ello se suele hacer con una t-conorma (la función máximo, por
ejemplo). Finalmente, si lo que se necesita es un resultado crisp, hay que
realizar lo que se denomina defuzzificación, que consiste en extraer un único
valor a partir de la función de pertenencia resultado de la agregación de las
reglas. Existen varios métodos para realizarlo, como pueden ser el centroide
del área bajo la función, el bisector de dicha área, la media de los puntos
donde la función de pertenencia es máxima, el extremo superior de los puntos
donde es máxima, el extremo inferior de los puntos donde es máxima, etc.
Se puede observar que un FIS es equivalente a una función no lineal
y = f (x), o lo que es lo mismo, una hipersuperficie, y puede constituir, por
tanto, un modelo de un proceso [86] [48] [58] [59] [9]. Esta idea se utiliza en
el apartado 4.5.5.
2.4.
Técnicas basadas en datos
Además de los modelos analı́ticos y el conocimiento fı́sico que se tiene del
funcionamiento de un proceso, existe otra importante fuente de información
acerca del mismo: las magnitudes medibles en él durante su funcionamiento.
2.4.1.
Clasificadores
Los clasificadores son un conjunto de técnicas incluidas en la disciplina
denominada Reconocimiento de Patrones que sirven para indicar a qué grupo
pertenece un dato muestra de entre un conjunto de grupos predeterminados.
Este tipo de técnicas son muy útiles cuando se dispone de datos del proceso
para los diferentes estados o tipos de fallos que se quieren detectar, que aparecerán en dichos datos como agrupaciones. Al implementar un clasificador,
se le proporcionan los datos de los que se dispone y, posteriormente, ante
datos nuevos “decide” a qué grupo de los datos proporcionados previamente
pertenecen. Algunos métodos generan además una probabilidad o grado de
pertenencia a cada uno de los grupos, que da una idea de la fiabilidad de la
clasificación de cada nuevo dato. Existen multitud de tipos de clasificadores,
pero en los siguientes subapartados sólo se menciona un pequeño número
de ellos. Una descripción más completa puede encontrarse en bibliografı́a de
Reconocimiento de Patrones [12] [32] [90].
Clasificadores no supervisados
Los clasificadores no supervisados (también llamadas técnicas de clustering) no necesitan conocer de antemano la pertenencia de cada dato de
2.4. TÉCNICAS BASADAS EN DATOS
31
entrenamiento para realizar los agrupamientos, por lo que estas técnicas se
pueden aplicar cuando no se dispone de dicha información. Si se dispone de
ella, sin embargo, esa información puede utilizarse posteriormente para evaluar la calidad de los agrupamientos y para “etiquetar” (ponerle nombre) a
cada grupo.
Existe una enorme variedad de métodos de clasificación no supervisados.
Entre los métodos más conocidos con origen estadı́stico se tiene k-means.
Una generalización de éste empleando funciones de pertenencia borrosas es
el llamado fuzzy c-means, que proporciona un grado de certeza de pertenencia
a cada grupo de datos. También existen clasificadores no supervisados entre
las redes neuronales, como el Self-Organizing Map (SOM).
Existen también técnicas que realizan agrupamientos a distintos niveles
de detalle. Son las técnicas de Agrupamiento Jerárquico, que pueden tener
dos enfoques: aglomerativo, que partiendo de datos individuales van creando
grupos cada vez más grandes, y partitivo, que parten de un único grupo que
se descompone progresivamente en grupos más pequeños.
Clasificadores supervisados
Estas técnicas de clasificación de patrones aprovechan la información suministrada por un “tutor” externo, relativa a la pertenencia a grupos predeterminados de los datos que se usan en su aprendizaje. Entre los métodos
con base estadı́stica se encuentran, por ejemplo, los clasificadores de Bayes y
el discriminante de Fisher.
Otros métodos son Learning Vector Quantization (LVQ) [53] [54], Support
Vector Machines [81], redes neuronales feedforward [100] [102] [36] y redes
RBF (Radial Basis Functions) [12] [41].
El uso de clasificadores supervisados permite la aplicación posterior de
la filosofı́a del razonamiento basado en casos (Case-Based Reasoning), que
para supervisión de procesos consistirı́a en la interpolación y extrapolación
sobre casos ya conocidos en cuanto a diagnóstico y aplicación de acciones
correctoras.
2.4.2.
Redundancia analı́tica basada en datos
Una caracterı́stica deseable en los métodos de clasificación aplicados a
FDI es poder detectar “novedades” (novelty detection), o lo que es lo mismo,
datos que no pertenecen a ninguno de los grupos predeterminados y que,
por tanto, corresponderán con condiciones nuevas del proceso, condiciones
que no se presentan en los datos disponibles previamente. Esta caracterı́stica
está muy relacionada con la generación de residuos. La generación de residuos
32
CAPÍTULO 2. TÉCNICAS DE SUPERVISIÓN DE PROCESOS
a partir de modelos no sólo es posible con modelos analı́ticos, sino también
con modelos que se pueden denominar “basados en datos”.
Puede decirse que un modelo basado en datos se diferencia de uno analı́tico en que su estructura es bastante genérica y polivalente, es decir, aplicable
a cualquier sistema, lineal o no lineal. En un modelo analı́tico tiene tanta
importancia (o quizá más) la estructura como los parámetros. En un modelo basado en datos, sin embargo, la dificultad estriba en encontrar unos
parámetros adecuados. Dichos parámetros se hallarán por aprendizaje o entrenamiento a partir de datos tomados del proceso. Este aprendizaje o entrenamiento consiste en la aplicación de métodos de optimización de una función
objetivo relacionada con el error de ajuste a los datos de entrenamiento.
La idea básica de la redundancia analı́tica basada en datos es semejante
a la de modelos analı́ticos. Se le introduce al modelo un vector de variables
(caracterı́sticas) del proceso y el generador de residuos devuelve un vector de
residuos que da indicaciones de fallos.
En sucesivos capı́tulos se verá que usando una técnica de proyección (proyección lineal, red neuronal autoasociativa, mapa topológico, etc.) el generador de residuos puede consistir en proyectar el vector de variables del proceso
en el subespacio topológico definido por el modelo de datos, siendo el vector
de residuos la diferencia entre en el original y el proyectado [104] [103] [26]
[30].
2.4.3.
Control estadı́stico de procesos
El control estadı́stico de procesos (Statistical Process Control, SPC) ha
sido tradicionalmente aplicado al control de calidad de productos de fabricación por lotes (batch). Básicamente trata de comparar el estado actual
del proceso con las condiciones operativas consideradas normales; cuando no
está en dichas condiciones normales, se dice que el proceso está fuera de
control. Los métodos clásicos se basan en la representación en gráficas de la
evolución de unas pocas caracterı́sticas de calidad obtenidas en cada lote a
partir de muestras del producto final. Los gráficos de Shewhart, CUSUM y
EWMA (Exponentially Weighted Moving Average), son métodos monovariable de este estilo [4], aunque también existen versiones multivariable de los
mismos.
Recientemente se ha derivado hacia enfoques multivariable y on line, más
precisos y que permiten acciones correctoras inmediatas sobre el proceso.
Ejemplos de este último enfoque son las técnicas Multiway Principal Component Analysis (MPCA) y Multi-way Partial Least Squares (MPLS), muy
relacionadas con las técnicas de visualización multivariable del siguiente apartado, y los gráficos de contribución (contribution plots) [63] [42] [33].
2.5. TÉCNICAS HÍBRIDAS
2.5.
33
Técnicas hı́bridas
La clasificación expuesta en este capı́tulo no pretende abarcar todos los casos posibles, sino quizá los más relevantes en la bibliografı́a sobre diagnóstico
de fallos. Serı́a importante resaltar que también existen múltiples combinaciones de muchos de ellos, que podrı́amos denominar técnicas hı́bridas, y que
intentan aprovechar las ventajas de cada técnica, combinando información
sobre el proceso de las diversas fuentes: modelos analı́ticos, conocimiento,
datos [14].
El conocimiento a priori particularmente está presente en formas muy
diversas y sutiles —en forma lingüı́stica, en imágenes, . . . — y todos ellos
generalmente son de carácter impreciso, difuso. Los métodos matemáticos
que aprovechan estas caracterı́sticas de la forma de razonar del ser humano
están en auge en los últimos años. Debido a este carácter heterogéneo del
conocimiento, muchos de esos métodos hay que clasificarlos como técnicas
hı́bridas puesto que combinan técnicas que por separado se ocupan de un
sólo aspecto de la forma de razonar del ser humano. Como primeros ejemplos de aplicación práctica se pueden mencionar la combinación de métodos
analı́ticos con métodos basados en conocimiento como la lógica borrosa [46]
[70] [3], el uso de métodos de datos para obtener una interpretación cualitativa [101], sistemas expertos y redes neuronales [99], y la generación de reglas
borrosas y funciones de pertenencia a partir de datos [59] [68].
Un caso en el que la hibridación se da frecuentemente es entre técnicas de
soft computing. Soft computing (computación flexible) es un grupo de metodologı́as de computación que incluye la lógica borrosa, las redes neuronales,
la computación evolutiva y la computación probabilı́stica [14]. En general son
todas metodologı́as que aprovechan la tolerancia a la imprecisión, la incertidumbre y la verdad parcial para conseguir maleabilidad, robustez, bajo coste
en la solución, y mayor compenetración con la realidad. Está especialmente
extendida la combinación de redes neuronales con lógica borrosa, aportando
las primeras su capacidad para aprender de datos y añadiéndose la posibilidad de interpretar lo aprendido de los datos en términos de lógica borrosa
[66] [34] [48] [58]. Un ejemplo de hibridación de computación evolutiva con
redes neuronales es el uso de la primera para la elección de la topologı́a o el
cálculo de los pesos de las segundas.
Un caso particular de hibridación, que se considerará aparte por constituir
el tema central de esta tesis, es el caso de las técnicas de visualización.
34
CAPÍTULO 2. TÉCNICAS DE SUPERVISIÓN DE PROCESOS
2.5.1.
Técnicas de visualización
El objetivo final de prácticamente todas las técnicas mencionadas hasta
ahora es el de detectar y dar diagnósticos de fallos, desde los más incipientes hasta los más severos, a través de la información recogida del proceso
en diversas formas y de múltiples procedencias —principalmente datos, pero
también información proveniente de los sentidos (información visual, auditiva, olfativa, etc.)— que es comparada con los modelos del proceso generados
a partir de información y conocimiento acerca del proceso disponibles previamente, también en varias formas. Todo ello es realizado generalmente de
forma automática5 por el sistema de diagnóstico, que es una máquina (computador). Sin embargo, con este enfoque, las habilidades del ser humano en
cuanto a reconocimiento de patrones (sobre todo de forma visual), superiores
a las de cualquier máquina, no son aprovechadas.
La idea de las técnicas de visualización es “traducir” modelos de comportamiento complejos a forma visual [15] [50] [51] [52]. La información se
puede codificar para fluir a través de diversos canales visuales de transmisión
multidimensional: color, tamaño, posición, forma, movimiento. El espectador (observador), posteriormente, pasa de patrones visuales a la abstracción,
genera modelos mentales, razona con ellos e incluso puede filtrar ruido empleando conocimiento a priori. Por supuesto, para que todo ello sea efectivo
hay conseguir reducir una cantidad ingente de datos a la información estrictamente necesaria y útil, y elegir las formas de representación gráfica más
adecuadas.
Esta tesis transcurrirá en esta lı́nea de aplicación de técnicas de visualización. Ası́, el enfoque aquı́ adoptado consiste en aplicar las técnicas de
reducción de la dimensión para proyectar datos del proceso con multitud
de variables sobre un espacio visualizable, para posteriormente “cartografiar” este espacio, relacionando cada zona con cada condición del proceso,
pudiendo usar para este fin conocimiento expresable en forma de reglas difusas (mapas borrosos), modelos analı́ticos conocidos (mapas de modelos) y
casos conocidos —datos etiquetados— (mapas de activación). Este enfoque
también hace posible la extracción de nuevo conocimiento acerca del proceso
(data mining, minerı́a de datos) en este espacio de visualización (mapas de
correlaciones), dejando todavı́a la puerta abierta a numerosas ideas dentro
de esta misma lı́nea.
5
O semiautomática. Obviamente la información recogida por los sentidos del operario
o técnico, por ejemplo, debe introducirse en el sistema de diagnóstico de forma manual.
Capı́tulo 3
Técnicas de Reducción de la
Dimensión
3.1.
Introducción
Las técnicas de reducción de la dimensión se usan tı́picamente en problemas con manejo de datos de alta dimensionalidad (gran número de variables).
Los objetivos más comunes que justifican el empleo de técnicas de reducción
de la dimensión son esquivar inconvenientes como la maldición de la dimensionalidad (curse of dimensionality), la mejora de la capacidad de generalización en clasificadores y la reducción de los requerimientos computacionales
en la clasificación de patrones [62].
En el marco de Data Mining Visual, en el que se encuadra esta tesis, el
objetivo es llegar hasta un espacio visualizable (2D, 3D) donde sean representables los conceptos procedentes del espacio multidimensional original, que
son con los que es posible razonar. En la aplicación de Data Mining Visual
a procesos complejos son imprescindibles las técnicas de reducción de la dimensión, incluso varias usadas en cadena, puesto que tales procesos son, por
naturaleza, de una altı́sima dimensionalidad. Se puede realizar una clasificación de estas técnicas atendiendo a la aplicación de conocimiento previo, de
los datos y del problema en sı́, que requieren:
Selección de variables. Puede realizarse tanto usando conocimiento previo como sin él (de forma automática).
Extracción de caracterı́sticas. Generalmente se aplica conocimiento previo en la elección de caracterı́sticas.
Técnicas de proyección. No suelen aplicar conocimiento previo, sino
sólo consideraciones en la geometrı́a de la distribución de los datos.
35
36
CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN
Además, este orden expuesto suele ser en general el orden de aplicación a los
datos de este tipo de técnicas, y en particular para Data Mining Visual. A
lo largo de este capı́tulo se describirán diversas técnicas disponibles de los
tres tipos, haciendo especial énfasis en aquellas más útiles para Data Mining
Visual.
3.2.
Selección de variables
Cuando el número de variables del proceso disponibles inicialmente es
extremadamente grande, de tal forma que aparecen problemas derivados de
la maldición de la dimensionalidad (curse of dimensionality) [7], puede ser
necesario un paso previo de selección de variables, que puede realizarse tanto
aplicando conocimiento a priori —escogiendo variables que ya se sabe que
son significativas en cuanto a la condición del proceso— como por métodos estadı́sticos —basándose en medidas de la cantidad de información que
contiene cada variable o grupo de variables—.
Un esquema tı́pico para la selección del subconjunto de variables óptimo
por métodos estadı́sticos tiene dos partes:
1. Escoger un criterio de selección: para decidir de entre dos subconjuntos
de variables cual es mejor. Cuando se trata de diseño de clasificadores
para reconocimiento de patrones, el criterio suele ser la minimización
del error de clasificación. En otros casos los criterios pueden derivar de
la Teorı́a de la Información (entropı́a, información mutua, etc.). Entre
posibles criterios de selección se encuentran los métodos de contrastes
de hipótesis y los de medidas de separabilidad de clases (divergencia1 ,
lı́mite de Chernoff y distancia de Brattacharyya, matrices de dispersión).
2. Ejecutar un procedimiento de búsqueda: escoger subconjuntos de variables para compararlos posteriormente por medio del criterio de selección
mencionado. Para esta búsqueda existen multitud de métodos:
Búsqueda exhaustiva (exhaustive search).
Rama y lı́mite (branch and bound ).
Selección secuencial hacia adelante (sequential forward selection).
Genera soluciones no óptimas pero es más rápido.
1
Una forma de la medida de distancia Kullback-Leibler.
3.3. EXTRACCIÓN DE CARACTERÍSTICAS
37
Eliminación secuencial hacia atrás (sequential backward elimination). Al igual que el anterior genera soluciones no óptimas pero
es más rápido.
Búsqueda flotante (floating search).
Algoritmos de Programación Dinámica.
Estos métodos son también aplicables a caracterı́sticas (resultado de extracciones de caracterı́sticas, que se verán en el siguiente apartado) en lugar
de a variables. En ese caso, estos métodos se pueden denominar “pasivos”
porque seleccionan caracterı́sticas de entre las ya obtenidas. Existen también
métodos que se pueden denominar “activos” que tratan de hallar caracterı́sticas que sean óptimas.
Se puede encontrar abundante información sobre estas técnicas en algunas
de las referencias clásicas de Reconocimiento de Patrones [12] y [90].
3.3.
Extracción de caracterı́sticas
El primer obstáculo que se encuentra al interpretar los datos que se generan en un proceso es el gran volumen de los mismos. Los datos pueden
imaginarse organizados como una gran matriz en la que las filas son las m
variables del proceso y las columnas son las n sucesivas muestras de dichas
variables tomadas a lo largo del tiempo, como se puede ver en la figura 3.1. El
número total de datos vendrá dado por el producto de ambos valores: m · n.
Una de las justificaciones del proceso de extracción de caracterı́sticas es la
pretensión de reducir este valor. La razón es la gran carga computacional que
suele conllevar en pasos posteriores ese gran volumen de datos.
Otra razón para aplicar una extracción de caracterı́sticas a los datos procedentes de un proceso es la reducción de la complejidad en la variaciones de
los datos. El objetivo último es la detección de diferentes condiciones en el
proceso y un patrón de variación complejo en los valores de sus variables a lo
largo del tiempo dificulta dicho objetivo. Se trata, en definitiva, de obtener
un vector de caracterı́sticas invariante a la condición, es decir, que no cambie
a menos que cambie la condición del proceso, como se planteó en el apartado
1.3. Respecto a este problema de búsqueda de invarianza ante la condición
se puede hablar de dos tipos de señales:
1. Señales estáticas. Son señales consideradas invariantes respecto a la
condición del proceso. De ellas se usarán como caracterı́sticas sus valores instantáneos (o filtrados, medias, para eliminar ruidos). Ejemplo
tı́pico de señal estática es la temperatura.
38
CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN
2. Señales dinámicas. Son señales que varı́an aun permaneciendo el proceso dentro de una condición dada. Requieren la aplicación de técnicas
que generen caracterı́sticas que sean invariantes respecto a la condición. Ejemplo de ello pueden ser las técnicas de análisis espectral, para
la obtención de energı́as en determinadas bandas de frecuencias de cada señal. En estos caso puede obtenerse más de una caracterı́stica por
cada variable del proceso (varias bandas) o puede interesar caracterizar
una señal dinámica por un único valor (su valor eficaz por ejemplo).
Ejemplo tı́pico de señal dinámica es la vibración.
Teniendo en cuenta esto, hay que resaltar que con la extracción de caracterı́sticas sobre señales dinámicas se está, de alguna forma, “encapsulando la
dinámica” en las caracterı́sticas, convirtiendo ası́ un problema con dinámica
en un problema estático.
A la hora de escoger las caracterı́sticas que se obtendrán a partir de las
variables del proceso hay que aplicar conocimiento a priori. El decidir si una
determinada señal es considerada estática o dinámica implica un conocimiento sobre la forma de variación de la misma dentro del proceso. Asimismo, en
las señales dinámicas sobre las que se aplique análisis espectral, hay que saber
previamente qué bandas de frecuencia contienen información que sea significativa en cuanto a descubrir el estado en el que se halla el proceso en cada
instante.
Como resultado de la extracción de caracterı́sticas obtendremos un conjunto de datos que nuevamente se podrán organizar como una matriz de M
filas, que corresponderán con cada una de las caracterı́sticas, y N columnas
que se denominarán “muestras” y que estarán relacionadas con el tiempo (figura 3.1). Debido al primer objetivo de reducción del número total de datos,
se pretenderá que se cumpla:
M ·N <m·n
(3.1)
Hay que mencionar que cuando hay señales dinámicas, el número de caracterı́sticas M puede ser mayor que el número de variables que se usaron en
la extracción de caracterı́sticas m. Por lo tanto, a la hora de escoger caracterı́sticas de señales dinámicas, hay que tener siempre presente la maldición
de la dimensionalidad para no excederse en el número de éstas.
La extracción de caracterı́sticas es un paso común a muchas de las técnicas
basadas en datos mencionadas en el capı́tulo anterior, y conviene recalcar la
importancia de la extracción de caracterı́sticas en cuanto a la efectividad
del uso posterior de los datos, sea mediante una técnica estadı́stica o una
red neuronal. En cuanto a la proyección de la trayectoria de estado tratada
en esta tesis, un adecuado diseño de esta etapa puede significar la diferencia
3.3. EXTRACCIÓN DE CARACTERÍSTICAS
39
EXTRACCIÓN DE
CARACTERÍSTICAS
M caracterı́sticas
m variables
n muestras
N muestras
Figura 3.1: Estructuras de datos en extracción de caracterı́sticas.
entre un comportamiento errático del puntero de estado o una pequeña deriva
que apunta a un fallo inminente en el proceso.
3.3.1.
Normalización
A veces las variables a medir en un sistema o proceso son de magnitudes
muy dispares, como por ejemplo temperaturas cercanas a la ambiente en
Kelvin (del orden de 102 ) y presiones alrededor de la atmosférica en Pascales
(del orden de 105 ). Sin embargo las técnicas que más adelante se aplicarán
sobre los datos suelen ser sensibles a diferencias en el valor relativo de las
variables sobre las que se aplican2 .
Para paliar este problema es aconsejable realizar lo que se denomina normalización de los datos. La forma más sencilla de normalización es realizar
una transformación lineal en cada variable de forma que todos los datos disponibles queden contenidos en el intervalo [−1, +1]. Aunque simple, este tipo
de normalización a [−1, +1] tiene el inconveniente de que no produce un buen
resultado en presencia de outliers (valores atı́picos).
Otra forma de hacerlo, sin este inconveniente, es usando para una variable
x:
N
1 X
x̄ =
xk
N k=1
N
σ2 =
1 X
(xk − x̄)2
N − 1 k=1
siendo la nueva variable normalizada x̃:
x − x̄
x̃ =
σ
2
(3.2)
(3.3)
Este problema suele reflejarse en una mayor influencia de las variables de mayor valor
relativo en las funciones de coste, funciones de error o al considerar distancias euclı́deas
en el espacio de los datos, lo cual la mayor parte de las veces no es lo que se pretende.
40
CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN
Este método trata cada variable independientemente. Hay otro método de
normalización conocido como whitening que tiene en cuenta las correlaciones
entre variables. En este caso se usarán las variables xi agrupadas en un vector
x = (x1 , . . . , xd )T , con vector de media y matriz de covarianzas para N
puntos:
x̄ =
N
1 X
xk
N k=1
(3.4)
N
1 X
Σ =
(xk − x̄)(xk − x̄)T
N − 1 k=1
(3.5)
y los vectores transformados se obtienen por
x̃ = Λ−1/2 UT (x − x̄)
(3.6)
donde U es la matriz que tiene como columnas los vectores propios de Σ y
Λ la matriz diagonal con los valores propios correspondientes.
Sin embargo, ninguno de estos tipos de normalización aprovecha conocimiento previo sobre los lı́mites posibles de variación de las variables. Esto
puede generar problemas en ciertos casos, cuyo extremo tendrı́a lugar cuando se usan datos en los que algunas de las variables no presentan ninguna
variación a lo largo de toda su historia. Si se usasen estos métodos de normalización se estarı́a amplificando el ruido existente en las muestras de estas
variables, poniéndolo al mismo orden de magnitud que las otras variables.
Por ello, en determinadas circunstancias se sugiere un método de normalización que no se basa sólo en caracterı́sticas estadı́sticas de los datos y que es
más acorde con el significado fı́sico de las variables: valores por unidad.
x̃ = xp.
3.3.2.
u.
=
x
xbase
(3.7)
Técnicas de análisis espectral
Cuando en un proceso hay máquinas rotativas o alternativas, aparecen
señales de las que antes se habı́an denominado “dinámicas” y que son más
fáciles de tratar —es más fácil conseguir caracterı́sticas invariantes frente a
una condición— en el dominio de la frecuencia. Las técnicas que sirven para
pasar del dominio temporal al frecuencial son la técnicas de análisis espectral.
En los siguientes subapartados se describirán varias técnicas de análisis
espectral. Sin embargo hay que resaltar que la FFT, que se incluye dentro
del siguiente subapartado, es, con mucho, la más utilizada, debido quizás a
caracterı́sticas como rapidez de cálculo, generalidad y facilidad de aplicación.
3.3. EXTRACCIÓN DE CARACTERÍSTICAS
41
La Transformada de Fourier Discreta (DFT)
La Transformada de Fourier Discreta (Discrete Fourier Transform, DFT)
permite expresar en el dominio de la frecuencia señales que son discretas y
periódicas en el dominio del tiempo.
Para una secuencia {xk } de N muestras (un periodo de la señal), la DFT
se define como:
DFT(xk ) = Fn =
N
−1
X
2π
xk e−j N kn ,
k = 0, 1, . . . , N − 1
(3.8)
k=0
La DFT ası́ expresada tiene un coste computacional O(N 2 ), lo que la hace
inviable en señales de cierta envergadura. Sin embargo, tiene la ventaja de disponer de una versión del algoritmo muy rápida, con un coste O(N log N ), denominada Transformada Rápida de Fourier (Fast Fourier Transform, FFT),
que puede aplicarse cuando el número de muestras N es potencia de dos.
Dada una señal con N muestras, la FFT genera otros N valores complejos,
Fn , cada uno de los cuales corresponde con el armónico de frecuencia fn , de
valor:
n · fm
fn =
n = 0, 1, . . . , N − 1
(3.9)
N
siendo fm la frecuencia de muestreo.
Pese a que la FFT está indicada para señales periódicas, se aplica a señales
que no lo son, estrictamente hablando, porque las ventajas que ofrece, sobre
todo de rapidez de cálculo, son mayores que sus inconvenientes. Ası́, puede usarse para obtener estimaciones del espectro de frecuencia de señales y
después, de éste, extraer caracterı́sticas que sean valores de amplitudes de
determinados armónicos, o bien energı́as o valores eficaces en determinadas
bandas de frecuencia de las señales del proceso.
Una forma de usar la FFT con una secuencia indefinidamente larga, de
tal manera que se obtenga su espectro a lo largo del tiempo, es dividir esta
secuencia en sucesivos intervalos solapados y aplicar la FFT a cada uno de los
intervalos. Hay que tener en cuenta que a más tamaño de los intervalos menos
resolución temporal y más frecuencial, y viceversa. Es lo que se denomina
Short-Time Fourier Transform o espectrograma (figura 3.2).
Como se mencionó, la FFT tiene un inconveniente al aplicarse a señales
que no son realmente periódicas (o a porciones con periodos no enteros de
señales periódicas) consistente en una deformación —lóbulos, side-lobes— en
el espectro. Para disminuir este efecto, que se denomina derrame espectral
(spectral leakage), se suele multiplicar cada dato dentro de un intervalo por
valores que ponderan más los datos centrales y menos los de los extremos
del intervalo. Existen distintos tipos de ponderación, denominadas ventanas,
42
CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN
250
Frecuencia (Hz)
200
150
100
50
0
0
0.5
1
Tiempo (s)
1.5
2
Figura 3.2: Detalle a bajas frecuencias de un espectrograma de la vibración de
un motor trifásico con un desequilibrio gradual en la alimentación. Se puede
apreciar el aumento gradual del armónico de 100 Hz. Datos muestreados a 20
kHz, tamaño de ventana 16384, solapamiento 97,7 %, ventana de Hanning.
como “ventana de Hanning”, “ventana de Bartlett”, etc., con propiedades
bien conocidas en la literatura de Procesamiento Digital de Señal [78] [75]. El
efecto secundario de aplicar una de estas ventanas es una distorsión armónica.
Cepstrum
El cepstrum es el resultado de aplicar la transformada discreta de Fourier
inversa sobre el logaritmo del módulo de la transformada discreta de Fourier
de la señal:
iDFT(log |DFT(xk )|)
(3.10)
El cepstrum permite la separación o el desacoplamiento de fenómenos que
se presentan asociados de forma no lineal en una señal como resultado de una
multiplicación o convolución de otras señales. Ello es posible gracias a que lo
que son convoluciones en el dominio del tiempo y multiplicaciones en el de
la frecuencia se convierten en sumas en el cepstrum:
Y (z) = H(z)U (z)
log Y (z) = log H(z) + log Y (z)
(3.11)
El primer coeficiente del cepstrum es el valor medio del espectro de magnitudes logarı́tmico y por tanto representa la potencia de la señal. Los primeros
coeficientes caracterizan la envolvente del espectro de la señal. Ası́ basta un
pequeño número de ellos para representar una versión suavizada de éste.
3.3. EXTRACCIÓN DE CARACTERÍSTICAS
43
El cepstrum, por sus propiedades frente a fenómenos convolutivos y multiplicativos, es adecuado, por ejemplo, para el estudio de vibraciones en engranajes [88]. Un campo en el que se aplica muy frecuentemente es el reconocimiento de voz [61].
Predicción lineal (LPC)
Otra posibilidad consiste en usar como caracterı́sticas los coeficientes ai
de un modelo de predicción lineal o autorregresivo:
xk =
n
X
ai xk−i + νk
(3.12)
i=1
en el que νk representa ruido blanco
planteando m ecuaciones:

 
x1
x0
 ..   ..
 . = .
xm
xm−1
aditivo. Los coeficientes ai se obtienen


a1
. . . x1−n
..   .. 
..
.
.  . 
. . . xm−n
an
(3.13)
De otra forma:
X=W·A
(3.14)
(WT W)A = WT X
(3.15)
que por mı́nimos cuadrados:
donde WT W es la matriz de autocorrelación de xk . Esta ecuación se resuelve
eficientemente con el algoritmo de recursión de Levinson-Durbin.
La transformada de Fourier discreta de la función de transferencia del
modelo autorregresivo:
G(θ) =
1
n
X
1−
ak e−jkθ
(3.16)
k=1
constituye una estimación del espectro de potencias que tiende al obtenido
con la FFT al ir aumentando el número de coeficientes ak . Es, por tanto, una
envolvente o un promedio del espectro que se obtiene con la DFT, salvo por
la escala de amplitudes.
También es posible recurrir a una combinación de cepstrum y predicción
lineal hallando el primero a partir del espectro autorregresivo. Si los polos
44
CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN
del modelo autorregresivo z = zi están dentro de la circunferencia unidad y
la ganancia es unidad, el cepstrum clp (n) está dado por:

p

 1X n
z n>0
clp (n) =
(3.17)
n i=1 i


0
n≤0
Wavelets
Uno de los inconvenientes que suele suponer el uso del espectrograma es la
solución de compromiso que hay que tomar en cuanto a la resolución temporal
y frecuencial, que están determinadas de forma inversa por el tamaño de
ventana escogido. Cuando este detalle es importante en determinado análisis,
una opción a la que se puede recurrir es wavelets [18]. El análisis con wavelets
es semejante al espectrograma con dos diferencias importantes:
Ventanas de tamaño variable: más espacio de tiempo donde se quiere
información de bajas frecuencias más precisa, y ventanas temporales
más cortas donde se precisa más información de altas frecuencias.
Funciones base distintas de las senoidales llamadas wavelets: formas de
onda de duración limitada que cumplen una serie de propiedades como
media nula y cuya forma es más bien irregular. Esta forma permite que
las caracterı́sticas locales de la señal analizada sean mejor descritas.
Consiste por tanto en descomponer la señal original en versiones desplazadas
y cambiadas de escala temporal de una wavelet original en lugar de hacerlo
en senos y cosenos (o exponenciales complejas) como en el caso del espectrograma. En este caso ya no se representa la amplitud de armónicos frente
a frecuencia y tiempo ya que, al no ser las wavelets periódicas, no se habla
de frecuencia sino de escala (respecto a una wavelet original). Tampoco se
habla de amplitud de armónicos sino de coeficientes de wavelet.
La transformada wavelet continua. La transformada wavelet continua
de la función f (t) se define de forma muy parecida a la transformada de
Fourier:
Z ∞
C(escala, posicion) =
f (t)Ψ(escala, posicion, t) dt
(3.18)
−∞
donde Ψ es la función wavelet. Existen muchas posibilidades para esta función
como son la de Haar, las de Daubechies, Biorthogonal, Coiflets, Symlets, etc.
cada una de las cuales tiene diferentes propiedades.
3.3. EXTRACCIÓN DE CARACTERÍSTICAS
45
Filtro paso-alto
“detalles”
H0
↓2
H1
↓2
Filtro paso-bajo
“aproximaciones”
Figura 3.3: Bloque de filtrado para transformada wavelet discreta.
La transformada wavelet discreta. La transformada wavelet continua
no es adecuada para la extracción de caracterı́sticas por la carga de cálculo
que implica. Es necesaria una versión discreta para su cálculo eficiente en
un computador. Esta es la transformada wavelet discreta, que se calcula en
escalas y tiempos potencias de dos en vez de en todos los posibles como
ocurre en la continua.
La transformación base consiste en tomar una señal y obtener de ella otras
dos, resultado de pasarla por dos filtro, uno paso-alto y otro paso-bajo. Como
queremos obtener tantos datos como se tenı́an inicialmente y sin embargo se
tiene el doble, se toma sólo una de cada dos muestras en las dos señales
filtradas (submuestreo o downsampling). El esquema del proceso se muestra
en la figura 3.3.
La señal que contiene las bajas frecuencias es la que más caracteriza la
señal original y por eso se denomina de aproximación, mientras que la de altas
frecuencias es la de detalle. Si sucesivamente se repite la misma operación
sobre la señal de aproximación, como se muestra en la figura 3.4, los datos
que se obtienen corresponden a las regiones de frecuencias y tiempos que se
representan en la figura 3.5.
En algún caso la región de frecuencias de interés podrı́a no estar en la zona
de bajas frecuencias sino en otra zona de frecuencias medias, por ejemplo. El
proceso anterior se podrı́a realizar eligiendo según convenga la señal de detalle
o de aproximación para obtener la zona con mayor resolución frecuencial
46
CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN
H0
1
↓2
H1
2
↓2
H0
↓2
H0
↓2
3
H1
↓2
4
↓2
H1
Figura 3.4: Filtrado para transformada wavelet discreta.
1
1
1
1
Frecuencia
2
2
3
4
Tiempo (muestras)
Figura 3.5: Frecuencias en el filtrado para transformada wavelet discreta.
3.3. EXTRACCIÓN DE CARACTERÍSTICAS
47
donde interese. Se entra ya en lo que se denomina wavelet packets.
Espectros de orden superior
El espectro de potencia de una señal de un proceso estacionario {xk } se
puede definir según el teorema de Wiener-Khintchine como la transformada
de Fourier de la secuencia de autocorrelación:
Sxx (θ) =
∞
X
rxx (k)e−jkθ
(3.19)
k=−∞
siendo θ la frecuencia normalizada y definiéndose la secuencia de autocorrelación de {xk } como la esperanza:
rxx (n) = E(x∗k xk+n )
(3.20)
Otra definición equivalente es:
Sxx = E{X(θ)X ∗ (θ)}
(3.21)
Los momentos de orden superior son una generalización de la autocorrelación,
y como combinaciones no lineales de éstos especialmente útiles se encuentran
los cumulantes. En concreto el cumulante de primer orden coincide con la
media y el de segundo orden con la autocorrelación:
C1x = E(xk )
C2x (n) = E(x∗k xk+n )
(3.22)
(3.23)
Los cumulantes de orden superior son sensibles a un desplazamiento de media
y es, por tanto, conveniente definirlos bajo la suposición de media nula. Si el
proceso tiene media no nula se restará la media y se aplicarán las definiciones de los cumulantes al proceso resultante. Los espectros de orden superior
o poliespectros se obtienen como generalización de la ecuación (3.19) a los
cumulantes de orden superior. Por ejemplo, del cumulante de orden tres:
C3x (m, n) = E(x∗k xk+m xk+n )
(3.24)
se obtiene el biespectro (figura 3.6):
S3x (θ, φ) =
∞
X
∞
X
C3x (m, n)e−jnθ e−jmφ
(3.25)
m=−∞ n=−∞
Los cumulantes y poliespectros de orden mayor de dos tienen utilidad
debido a las siguientes caracterı́sticas que poseen [65]:
48
CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN
Figura 3.6: Biespectro de la vibración de un motor de inducción en sus cojinetes.
Si yk y xk son procesos independientes entonces los cumulantes de la
suma zk = xk +yk son iguales a la suma de cumulantes Cnz = Cnx +Cny .
Si wk es gaussiana entonces sus cumulantes de orden mayor que dos
son nulos.
De las dos anteriores propiedades se deduce que si wk es gaussiana e
independiente de xk y zk = xk + wk , entonces para cumulantes n > 2
(de orden superior a dos) Cnz = Cnx . Es decir, que estos cumulantes de
una señal no gaussiana no se ven afectados por la presencia de ruido
gaussiano coloreado.
Los cumulantes de orden superior a dos pueden servir para analizar no
linealidades en procesos, mientras que la secuencia de autocorrelación
no.
Los poliespectros, al contrario que el espectro de potencia, son complejos. Es decir, que preservan información de fase.
Existen otras herramientas de análisis como son la bicoherencia, que es
una versión normalizada del biespectro, y todas las que se derivan para analizar relaciones entre distintas señales, es decir, los cumulantes y poliespectros
cruzados.
Los cumulantes y poliespectros son útiles en el análisis de vibraciones de
motores eléctricos [67] [2] [17] y en mantenimiento predictivo de máquinas
eléctricas en general [64].
3.4. TÉCNICAS DE PROYECCIÓN
3.3.3.
49
Otras técnicas de extracción de caracterı́sticas
Existen multitud de técnicas aplicables a extracción de caracterı́sticas y
cada campo tiene distintos subconjuntos de éstas como más usuales. En Reconocimiento del Habla son muy tı́picas las de análisis espectral, al igual que
en Visión Artificial (en la versión bidimensional del análisis espectral). La
estadı́stica proporciona muchas posibilidades de generación de caracterı́sticas: estadı́sticos de primer orden (media), de segundo orden (varianza) y
de órdenes superiores. Ası́, por ejemplo, para las señales que denominamos
dinámicas es tı́pico usar el valor eficaz, que es equivalente a la desviación
tı́pica cuando son señales de media nula, como es el caso de las vibraciones.
Algunas de las técnicas que se comentan en el siguiente apartado (como
PCA) suelen considerarse dentro de las de extracción de caracterı́sticas. En
esta tesis no se hace ası́ por el especial uso que se hace de ellas, aplicadas
sobre todo a visualización. Nada impedirı́a usarlas para extracción de caracterı́sticas, salvo quizás el hecho de que se puede perder el significado fı́sico
en las caracterı́sticas resultantes.
3.4.
Técnicas de proyección
Las técnicas de proyección también persiguen el objetivo de reducción de
la dimensionalidad de los datos, sólo que en este caso dicha reducción se lleva
a cabo sin aplicar conocimiento previo, simplemente por consideraciones de
geometrı́a de los datos, de correlaciones entre ellos.
Una proyección implica crear una correspondencia de cada punto del espacio de los datos (espacio de entrada o espacio de caracterı́sticas) con un
punto de un subespacio topológico 3 de menor dimensión intrı́nseca definido
en dicho espacio de entrada (figura 3.7). Cuando el objetivo final es la visualización, este subespacio topológico será bidimensional o tridimensional
(considérese 2D por simplicidad), y a su vez se establecerá otra correspondencia (esta vez biyectiva) con otro espacio de igual dimensión (un plano,
por simplicidad) fácilmente representable de forma gráfica y llamado espacio
de visualización.
El requisito fundamental para la técnica de proyección en cuanto a supervisión de procesos es que no se pierda información relevante en la proyección.
Siempre se pierde información debido a que la correspondencia entre el espacio de entrada y el subespacio topológico no es biyectiva (es una correspondencia “muchos a uno”), pero debe tratarse de que lo que se pierda no sirva
3
O también variedad n-dimensional, como traducción del término inglés manifold.
50
CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN
15
10
5
0
−5
−10
−15
−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
Figura 3.7: Subespacio topológico de dimensión intrı́nseca 1 dentro de un
espacio bidimensional.
para discriminar condiciones en el proceso. Este requisito está relacionado
con el de conservación de la topologı́a, que se comentará en el apartado 4.3.
3.4.1.
Técnicas de Proyección Lineal
Análisis de Componentes Principales
El Análisis de Componentes Principales (Principal Component Analysis,
PCA) consiste en la proyección lineal de los vectores xk del espacio de entrada en un espacio de menos dimensiones tal que tiene como base los vectores
propios correspondientes a los valores propios mayores de la matriz de covarianzas Σ y que se llaman componentes principales:
N
Σ=
1 X
(xk − x̄)(xk − x̄)T
N − 1 k=1
(3.26)
donde x̄ es la media de los vectores:
N
1 X
x̄ =
xk
N k=1
(3.27)
Puesto que la matriz de covarianzas es real y simétrica sus vectores propios
son ortogonales. Cuanto más se reduzca la dimensionalidad (menos vectores
3.4. TÉCNICAS DE PROYECCIÓN
x2
u2
C1
51
u1
C2
x1
Figura 3.8: Pérdida de discriminación entre clases en PCA.
propios se tomen como base para el espacio final) mayor es el error cometido.
Normalmente lo que se pretende es reducir la dimensionalidad lo más posible
sin que se pierda la información que discrimina entre las diferentes clases contenidas en los datos. Este problema se puede ilustrar con el sencillo ejemplo
de la figura 3.8. Tomando un espacio final unidimensional, la proyección de
las clases C1 y C2 serı́a sobre el vector u1 4 . Este procedimiento de reducción
de dimensionalidad descrito también recibe el nombre de transformación de
Karhunen-Loéve.
El PCA tiene como inconveniente, igual que todas las técnicas de proyección lineales, que no da buenos resultados cuando en los datos hay presentes
no linealidades. Sin embargo, existen varios intentos de aplicarlos con éxito
a casos no lineales por medio de PCA locales [91].
Projection Pursuit
Projection Pursuit es un conjunto de técnicas no supervisadas que realizan una proyección lineal que es de algún modo “interesante”, por medio
de la optimización de una cierta función objetivo —función de “interés”—
llamada ı́ndice de proyección (projection index ). Una proyección se considera
“interesante” cuando los datos proyectados tienen alguna estructura: correlaciones entre variables, agrupamientos (función de densidad multimodal),
etc. La distribución normal es la menos estructurada de todas las posibles.
4
En cambio, si se usase un método supervisado (teniendo en cuenta la información
sobre las clases existentes) como el discriminante lineal de Fisher, que se mencionará más
adelante, la proyección serı́a sobre u2 y no habrı́a pérdida de la información discriminante.
52
CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN
Cuando se aplica a estimación de densidad o regresión, projection pursuit
sufre menos la maldición de la dimensionalidad que otras técnicas. Por otra
parte tiene las desventajas de una técnica lineal y la de requerir una gran
carga computacional.
PCA es un caso particular de projection pursuit cuando el ı́ndice de proyección es la varianza de los datos proyectados. Otros casos particulares especialmente importantes son la técnica de Independent Component Analysis
(ICA) [19][43] y el discriminante de Fisher [12][90] [32]
Random Projections
Esta técnica, de desarrollo muy reciente, consiste en proyectar de un espacio de dimensión d en un espacio de dimensión k, por medio de una matriz
k ×d aleatoria, R, en la que cada vector columna se ha normalizado a módulo
unidad. Se aprovecha el hecho de que vectores aleatoriamente escogidos en un
espacio de altı́sima dimensionalidad son casi ortogonales, y por tanto, para d
tendiendo a infinito, R tiende a ser ortogonal: RT R ' I. Se suele usar para
reducciones de dimensión d desde ordenes superiores a decenas o centenas de
miles hasta una dimensión k de un orden de cientos5 . Random Projections
se aplica, tı́picamente, en Data Mining e indexado en grandes bases de datos
de documentos de texto, de audio o de imágenes [49] [10].
3.4.2.
Escalado Multidimensional
Los métodos de escalado multidimensional (Multidimensional Scaling,
MDS) son un conjunto de métodos de proyección cuyo objetivo es conseguir
en el espacio de salida unas distancias mutuas entre los puntos semejantes a
las que éstos tienen en el espacio de entrada. Ello se realiza por minimización
de una función de coste.
El caso más simple es el de MDS métrico, que tiene como función de
coste:
XX
E=
(Xij − Yij )2
(3.28)
i
j6=i
siendo X = (Xij ) e Y = (Yij ) las matrices de distancias mutuas de los puntos
de entrada xk ∈ Rn y los de salida yk ∈ Rp respectivamente. Las distancias
no tienen por qué ser euclı́deas.
Conservar todas las distancias mutuas en los dos espacios sin más es
imposible, en general, cuando la dimensión del espacio de salida es menor
que la del espacio de entrada. Sin embargo suele interesar conservar más las
5
Por debajo de esos valores esta técnica deja de ser válida.
3.4. TÉCNICAS DE PROYECCIÓN
53
distancias más cortas, o lo que es lo mismo, suele interesar una conservación
de la topologı́a local. Ası́ surge la Proyección de Sammon, que tiene como
función de coste:
1
1 XX
(Xij − Yij )2
(3.29)
E=
c i j<i
Xij
P P
donde c = i j<i Xij es una constante de normalización. Una evolución de
la proyección de Sammon es el método denominado Análisis de Componentes
Curvilı́neas (Curvilinear Component Analysis, CCA) [23], que tiene como
función de coste:
1 XX
E=
(Xij − Yij )2 F (Yij , λy )
(3.30)
2 i j6=i
Como función F generalmente se escoge una función acotada y monótona
decreciente para favorecer la preservación de la topologı́a local. Una forma
simple podrı́a ser la función escalón:
1 si Yij ≤ λy
F (Yij , λy ) =
(3.31)
0 si Yij > λy
donde λy se hace decrecer a lo largo del entrenamiento. Una ventaja importante de este método es que tiene menos carga computacional que la proyección de Sammon, además de ser capaz de “desdoblar datos fuertemente
curvados” y de permitir escoger la escala a la que las distancias del espacio de
entrada se respetan en el espacio de salida. Para las funciones F que cumplan
∂F/∂Yij = 0, tenemos la siguiente expresión para actualizar los yj :
∆yj = α(t)F (Yij , λy )(Xij − Yij )
yj − yi
Yij
∀j 6= i
(3.32)
donde α(t) es un valor que decrece a lo largo del entrenamiento.
Para comprobar la conservación de la topologı́a en CCA se usan representaciones dx—dy, que no están limitadas a ser usadas sólo con CCA.
Un enfoque similar, que puede considerarse también encuadrado dentro
de los métodos MDS, denominado Isomap [89], usa distancias geodésicas
(camino más corto contenido dentro del subespacio topológico de los datos),
caracterı́stica con la cual se afirma que es capaz de detectar mejor que otras
técnicas MDS la geometrı́a de dicho subespacio topológico y su dimensionalidad intrı́nseca, incluso para casos fuertemente no lineales.
También puede considerarse dentro del grupo de MDS la técnica llamada
locally linear embedding (LLE) propuesta por Roweis et al. en [79], en la que
la función de coste es el error de reconstrucción de cada dato como suma
ponderada de sus k vecinos más próximos.
54
CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN
En general, este grupo de técnicas funcionan bien cuando se tienen comportamientos no lineales, pero:
tienen una carga computacional relativamente elevada,
es necesario iterar para proyectar nuevos puntos,
y el espacio de visualización tiene una distribución irregular (aunque
esto no es un inconveniente importante).
3.4.3.
Modelos Autoasociativos
Redes Neuronales Autoasociativas
Por la capacidad que tienen las redes neuronales feedforward para llevar
a cabo mapeos no lineales de un espacio vectorial a otro, sus aplicaciones son
innumerables. Una de las más interesantes es la de reducción de la dimensionalidad por proyección no lineal.
Se considera un perceptrón multicapa con dos capas de pesos, teniendo d
entradas y d salidas y con M neuronas en la capa oculta tal que M < d. Si
como objetivo en el entrenamiento se usan los propios vectores de entrada, la
red intenta mapear cada vector sobre sı́ mismo y debido al reducido número
de neuronas en la capa oculta la perfecta reconstrucción de todos los vectores
de entrada no es, en general, posible. Esta red neuronal realiza un mapeo
autoasociativo.
Si las neuronas en la capa oculta tienen funciones de activación lineales
se puede demostrar que la red realiza una proyección lineal sobre el espacio
definido por las M componentes principales de los datos, es decir, que es
equivalente al Análisis de Componentes Principales.
Es posible conseguir una versión no lineal del Análisis de Componentes
Principales añadiendo más capas ocultas con funciones de activación no lineal. Un esquema que se puede proponer es el mostrado en la figura 3.9 donde
se presenta un perceptrón multicapa de cuatro capas donde las neuronas de
la primera y tercera capas tienen función de activación no lineal, mientras
que las de la segunda y cuarta pueden ser lineales. En la salida de las neuronas de la capa oculta aparecerá la proyección no lineal del vector de entrada
sobre un espacio de M dimensiones [12].
El único inconveniente que se le puede achacar es la extrapolación que
realiza la red cuando se le presenta a la entrada un vector fuera del dominio de
los datos de entrenamiento, lo cual puede hacer que no sean muy adecuadas
para la generación de residuos [30].
3.4. TÉCNICAS DE PROYECCIÓN
55
SALIDAS
xd
x1
no lineal →
z1
zM
no lineal →
x1
ENTRADAS
xd
Figura 3.9: Perceptrón multicapa en configuración autoasociativa.
Radial Basis Functions
Las redes de funciones base radiales (Radial Basis Functions, RBF) constituyen otro de los modelos de redes neuronales. La principal ventaja que
poseen es la relativa rapidez y facilidad de entrenamiento. Este entrenamiento se realiza en dos fases. En la primera se determinan los parámetros de
las funciones base por medio de, generalmente, métodos no supervisados. En
una segunda fase se determinan los pesos que conforman la capa de salida de
la red RBF.
Las funciones base radiales tienen su origen en técnicas de interpolación
exacta para aproximación de funciones multidimensionales. Se parte de unos
datos de salida yj y otros de entrada xj correspondientes, y el objetivo es
encontrar la función f tal que:
yj = f (xj )
j = 1, . . . , N
(3.33)
La función f se escoge como suma ponderada con un conjunto de N funciones
base φi (x) = φ(kx − xi k), una por cada punto:
f (x) =
N
X
φi (x)wi
(3.34)
i=1
Cuando el número de puntos es muy grande, la carga de cálculos puede ser
excesiva si se utiliza una función base centrada en cada punto. En ese caso
se suele recurrir a usar un número menor de centros calculados a partir de
los puntos de entrada por métodos no supervisados [92].
56
CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN
Evaluando la ecuación (3.34) para cada punto, se obtiene el conjunto de
ecuaciones siguiente:
ykj =
M
X
φi (xj )wki
j = 1, . . . , N
k = 1, . . . , D
(3.35)
i=1
donde D es el número de dimensiones del espacio de salida y M el número
de centros de las funciones base. El conjunto de ecuaciones se puede poner
en forma matricial:
Y = WΦ
(3.36)
siendo Y = (ykj ), W = (wki ), y Φ = (φij ) con φij = φi (xj ). Resolviendo por
mı́nimos cuadrados se obtiene:
WT = (ΦΦT )−1 ΦYT
(3.37)
Las funciones base φi (x) suelen ser gaussianas:
φi (x) = e−kx−µi k
2 /2σ 2
(3.38)
donde los µi son los centros de las funciones base y σ su ancho. Ese ancho σ de
las funciones base puede ser igual para todas, distinto para cada una, e incluso
matrices, de tal forma que las funciones base dejan de ser esféricas. Existen
multitud de métodos para la elección de esas σ, como métodos heurı́sticos,
en los que muchas veces se da su valor en función de las distancias entre
centros, métodos de optimización a través de una función de coste, muchas
veces calculando las σ de forma simultánea a los centros, etc. [41] [60]. En la
ecuación (3.34) se suele añadir un término independiente w0 que compensa la
diferencia de media entre las activaciones de las funciones base y las salidas
yj . Este término independiente se puede incorporar al sumatorio con una
nueva función base φ0 (x) = 1.
A veces se introduce un término en la ecuación 3.37 para conseguir una
solución más “suave”, refiriéndose éste adjetivo a la (hiper)superficie o mapeo
entrada–salida y en el sentido de que entradas parecidas correspondan con
salidas parecidas. Resulta entonces la ecuación:
WT = (ΦΦT + λI)−1 ΦYT
(3.39)
donde λ es el coeficiente de regularización. Este resultado deriva de la teorı́a
de regularización que surgió con la idea de estabilizar la solución en problemas
mal condicionados por medio de una función auxiliar que integra información
a priori acerca de la solución [74] [41].
3.4. TÉCNICAS DE PROYECCIÓN
3.4.4.
57
Mapas Topológicos
Self-Organizing Map
Self-Organizing Map (SOM) es una arquitectura de red neuronal de aprendizaje competitivo, no supervisado o auto-organizado que fue propuesta por
Kohonen [53] [56] [54] [55]. Está basado en otros métodos de aprendizaje
competitivo como Vector Quantization (VQ).
El método VQ trata de conseguir un conjunto finito de vectores mi ∈ Rn
llamados vectores de codificación (codebook vectors) con una distribución que
aproxime la función de densidad de probabilidad continua de una variable
aleatoria vectorial representada por un conjunto de muestras x ∈ Rn . Ello se
consigue con un proceso iterativo que consta de dos partes. Primero, para una
muestra xj se busca el vector de codificación más “parecido” mc (neurona
o unidad “ganadora”). Segundo, ese vector de codificación se actualiza de
forma que sea aún más “parecido” al xj . Generalmente se usa como criterio
de semejanza entre los xj y los mi la distancia euclı́dea, y entonces el mi
más parecido a xj será aquél tal que kxj − mi k sea mı́nimo. La actualización
del vector de codificación será de la forma:
mnuevo
= mc + α(k)[xj − mc ]
c
(3.40)
El proceso se repite para todas las muestras xj , con j = 1, . . . , N , y todo ello
a su vez se repite un cierto número de veces e (número de épocas). Además
0 < α(k) < 1 es un parámetro monótonamente decreciente con el paso o
época6 k (cada vez que se recorren todos los xj ) con k = 1, . . . , e. Al cabo de
cierto número de épocas, el algoritmo converge.
Un proceso semejante es el que se lleva a cabo en el algoritmo k-means,
pero buscando los mc para todos los xj antes de actualizar ninguno, y luego
realizando la actualización de mi haciendo que cada uno de ellos se convierta
en la media de los xj que le tienen como vector de codificación más cercano.
El aprendizaje para el caso del SOM es igual al del VQ salvo por el
hecho de que se fuerza una ordenación en sus unidades mi . Para ello se
define previamente dicha ordenación sobre unas unidades gi en un espacio
de generalmente dimensión 1 ó 2, denominado espacio de salida o espacio de
visualización; esas unidades gi se corresponden una a una con las unidades
mi . Esta ordenación suele consistir en un alineamiento de las unidades (en
el caso 1D) o de la formación de una rejilla regular (en el caso 2D). También
se define en este espacio de visualización una medida de distancia entre las
unidades. La ordenación en el espacio de entrada de los mi se consigue, en
6
Se puede comenzar con un valor cercano a 1 y terminar con uno muy cercano a 0, por
ejemplo 0,01.
58
CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN
el algoritmo de aprendizaje, actualizando no sólo la ganadora mc , sino sino
todos los mi tales que sus gi correspondientes son vecinas de la gc :
mnuevo
= mv + α(k)[xj − mv ]
v
con v = {i | dv (gi , gc ) ≤ nc (k)} (3.41)
donde dv () es la distancia definida en el espacio de visualización y nc (k) es una
distancia decreciente7 con la época k. La vecindad es por tanto decreciente
con el número de época, consiguiendo ası́ una rápida ordenación global inicial
para, posteriormente, ir afinando de forma local.
Otra posibilidad es actualizar en mayor proporción las unidades más cercanas a la ganadora:
mnuevo
= mv + hci (k)[xj − mv ]
v
(3.42)
donde hci es una función escalar de núcleo:
2
hci (k) = h(k) e−dv (gi ,gc )/σ
2 (k)
(3.43)
En esta ecuación h(k) es equivalente al α(k) de la ecuación (3.41) y σ(k) tiene
interpretación semejante al nc (k), indicando la amplitud del campo receptivo,
esto es, las neuronas del entorno de la ganadora que se ven afectadas. Ambos
se suelen hacer decrecer con la época k.
El SOM, una vez entrenado, define una proyección no lineal del espacio
de entrada sobre el espacio de visualización, en el que un punto x del primer
espacio se proyecta en el segundo como y = gc , siendo gc el nodo de la
rejilla correspondiente a la unidad ganadora para el dato x, es decir, el gi
correspondiente al vector de codificación mi más cercano a x en el espacio
de entrada.
Una caracterı́stica muy importante, puesto que permite la visualización
de la proyección por SOM, es la preservación de la topologı́a del espacio de
entrada en el espacio de visualización. De acuerdo con esta propiedad, unidades vecinas en el espacio de visualización lo son también en el espacio de
entrada. Aunque la preservación de la topologı́a no está totalmente garantizada en el SOM en todas las condiciones, existen medidas que indican en
qué grado se cumple [96] [5].
Otra caracterı́stica del SOM es que sus vectores de codificación se distribuyen para aproximar la función de densidad de probabilidad de los datos de
entrenamiento en el espacio de entrada8 , tendiendo a conseguir una distribución uniforme de estos datos proyectados en el espacio de visualización. Esto
7
Tı́picamente, se puede comenzar con un valor mitad del tamaño de la rejilla.
La relación entre densidad de neuronas m(x), valor denominado factor de magnificación, y la densidad de datos de entrenamiento f (x) no es lineal para el algoritmo original
de entrenamiento del SOM [54] [41], sino que se tiene aproximadamente: m(x) ∝ f 2/3 (x).
Sin embargo existen versiones del entrenamiento del SOM que sı́ consiguen una relación
lineal [24].
8
3.4. TÉCNICAS DE PROYECCIÓN
59
hace que el SOM dedique regiones más grandes en el espacio de visualización
a las agrupaciones de datos más densas. Debido a su mayor densidad, dichos
datos pueden conformar estructuras más complejas, que quedarán mejor descritas en su proyección gracias a esta caracterı́stica del SOM.
Una caracterı́stica del SOM interesante para métodos de visualización y
redundancia analı́tica basada en datos es que la proyección se realiza en una
zona delimitada; nada se proyecta fuera de la rejilla del espacio de visualización.
Kernel Regression Self-Organizing Maps
El SOM de regresión de núcleo (KR-SOM) es una ampliación del SOM
[31] [29] [26] que intenta paliar las desventajas que genera el carácter discreto
de éste. Esto incluye la dificultad de detectar ligeras tendencias o derivas que
pueda experimentar un proceso, cuando se usa el SOM para proyectar su
trayectoria de estado. El KR-SOM constituye una versión continua o interpolada del SOM. Existen dos posibilidades para realizar la interpolación:
Interpolación exacta: RBF.
Interpolación no exacta: GRNN.
Las RBF, que se explicaron en apartados anteriores, son menos interesantes para KR-SOM de cara a la generación de residuos [30]. La definición
de KR-SOM se hará con GRNN, que se definirá a continuación.
General Regression Neural Network. La regresión de una variable
dependiente y sobre una variable independiente (vectorial) x consiste en el
cálculo del valor esperado de y para cada valor de x. Cuando disponemos
de la función de densidad de probabilidad conjunta f (x, y) el cálculo puede
realizarse de la siguiente forma:
Z
+∞
y f (x, y) dy
E[y|x] =
Z−∞+∞
(3.44)
f (x, y) dy
−∞
Si función de densidad de probabilidad conjunta no es conocida, se puede
estimar a partir de datos, como media de gaussianas de varianza σ 2 centradas
en cada dato del espacio conjunto (xi , yi ); este método se denomina estimador
de Parzen. Bajo esas condiciones, se puede demostrar [85] que la siguiente
60
CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN
expresión produce una estimación de E[y|x]:
kx−xi k2
e− 2σ2 yi
ŷ(x) = Pi
kx−xi k2
−
2σ 2
e
i
P
(3.45)
refiriéndose el ı́ndice i a todos los datos de que se dispone. La ecuación (3.45)
recibe el nombre de General Regression Neural Network (GRNN).
Definición de KR-SOM. En el KR-SOM la proyección del espacio de
entrada sobre el espacio de visualización se realiza usando una GRNN (Generalized Regression Neural Network ) que realiza una aproximación de función
continua Q : Rn −→ R2 por interpolación a partir de un conjunto de puntos
mi de Rn y sus correspondientes gi de R2 :
P
φ(kx − mi k)gi
y = Q(x) = Pi
(3.46)
j φ(kx − mj k)
De manera análoga, también existe la posibilidad de realizar la proyección
del espacio de visualización al espacio de entrada:
P
i φ(ky − gi k)mi
x = R(y) = P
(3.47)
j φ(ky − gj k)
La función de núcleo φ suele tomarse de la forma:
kzk2
φ(kzk) = e− 2σ2
(3.48)
El KR-SOM presenta el problema de la no exacta equivalencia inversa
entre la proyección del espacio de entrada al espacio de visualización (proyección directa) y la del espacio de visualización al de entrada (proyección
inversa). Esto quiere decir que si se proyecta un punto x del espacio de entrada al espacio de visualización, resultando un punto y, y este punto y a
su vez se proyecta de vuelta al espacio de entrada, resulta un punto x0 que
en general x0 6= x. De este problema tampoco están exentos otros tipos de
mapas topológicos (se verá en GTM), y algunos, como el PSOM de Ritter
[77] [98] [97], lo resuelven por iteración. Esto no suele ser un problema grave
puesto que el análisis visual cualitativo que se tiene como objetivo en esta
tesis no se ve afectado en gran medida por ello.
Sin embargo, se puede proponer una solución sencilla y práctica al problema de la no igualdad de la proyección directa-inversa. Esta solución consiste
en realizar un SOM interpolado por proyección hacia el espacio de entrada, a
3.4. TÉCNICAS DE PROYECCIÓN
Espacio de entrada
61
Espacio de visualización
9
8
7
1
6
retroproyección 5
0
4
3
−1
2
2
2
0
0
−2
−2
1
0
0
2
4
6
8
Figura 3.10: KR-SOM de retroproyección. Las neuronas del SOM interpolado
de 30 × 30 aparecen en negro y las neuronas del SOM original de 10 × 10
aparecen en rojo unidas por la malla azul.
través de la ecuación (3.47), de una rejilla fina en el espacio de visualización,
o lo que es lo mismo, una rejilla con más neuronas que ocupe el mismo espacio
que la rejilla original. Posteriormente este SOM interpolado se usarı́a como
un SOM normal (KR-SOM de retroproyección). También es una solución al
problema de elección de parámetros de las RBF porque, al formar los centros
de origen una rejilla regular, se pueden fijar las σ 2 todas iguales9 . El esquema
de esta idea se muestra en la figura 3.10.
Este KR-SOM de retroproyección introduce a su vez un inconveniente
respecto a un SOM original del mismo número de neuronas y es que aumenta
el número de neuronas interpolantes. Sin embargo, con el progresivo aumento
de la capacidad de cálculo del hardware para el mismo coste, es posible cada
vez entrenar SOMs más grandes en un tiempo aceptable, con lo que los
inconvenientes derivados de su carácter discreto se disipan.
Existen alternativas al KR-SOM como PSOM (Parameterized SOM ) [77]
[98] [97], que tiene algunos inconvenientes para su aplicación a la metodologı́a
usada en esta tesis puesto que la proyección del espacio de entrada al de
visualización requiere iteración con un coste computacional relativamente
elevado.
9
Cuando los centros origen de la interpolación están regularmente distribuidos, la interpolación es de mayor calidad, y la σ puede ser la mitad de la distancia entre centros,
por ejemplo.
62
CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN
Generative Topographic Mapping
El Generative Topographic Mapping (GTM) es semejante al SOM, pero
con base estadı́stica [87] [13]. El GTM es un modelo no lineal de variables
latentes en el que se trata de encontrar una representación para una distribución p(t) de datos en un espacio con D dimensiones t = (t1 , . . . , tD ) en
términos de L variables latentes x = (x1 , . . . , xL ). Para el caso que nos ocupa,
la visualización de espacios de alta dimensionalidad, D será alto y L = 2.
En GTM en principio se define la proyección del espacio latente sobre el
espacio de entrada como una función continua y(x; W). Esta función generalmente tiene la forma:
y(x; W) = Wφ(x)
(3.49)
donde W es una matriz D × M de parámetros y φ(x) es un vector de M
funciones base, que se suelen tomar de la forma:
−
φ(x) = e
kx−µj k2
2σ 2
j
j = 1, . . . , M
(3.50)
Los parámetros µj y σj se escogen para que las funciones base se repartan
adecuadamente por el espacio latente (espacio de visualización).
Los parámetros de la matriz W se hallan con un algoritmo de maximización de la esperanza (EM, Expectation Maximization), teniendo en cuenta
que en el espacio de entrada se supone una función de densidad de probabilidad:
D/2
β
β
2
exp − ky(x; W) − tk
(3.51)
p(t|x, W, β) =
2π
2
y en el espacio latente, en semejanza al SOM, se supone una distribución de
probabilidad “uniforme” en una rejilla regular discreta:
K
1 X
p(x) =
δ(x − xi )
K i=1
(3.52)
donde xi son los K nodos de la rejilla regular discreta en el espacio latente.
En la ecuación 3.51 se observa que se ha escogido, para la distribución de
t dado x, una gaussiana radialmente simétrica de varianza β −1 .
Luego, para obtener una proyección del espacio de entrada al de visualización, aplicando el teorema de Bayes se puede calcular la distribución de
probabilidad en el espacio de visualización:
p(t|xi , W, β)
p(xi |t) = PK
j=1 p(t|xj , W, β)
(3.53)
3.4. TÉCNICAS DE PROYECCIÓN
63
y usar un valor representativo de dicha distribución p(xi |t) (media, mediana,. . . ) como proyección de un punto t.
La proyección por GTM hace que una región del espacio latente pueda
estar estirada o comprimida en el espacio de entrada, dependiendo de la distribución de datos en éste [11]. Debido a ello, las agrupaciones de datos del
espacio de entrada proyectados en el espacio latente pueden aparecer con una
separación relativa mayor o menor de la real. Para cuantificar este estiramiento o compresión se dispone de los factores de magnificación (magnification
factors). Se define el factor de magnificación de un punto del espacio latente
x como:
dA0
= det1/2 (ψ T WT Wψ)
(3.54)
dA
siendo dA0 un elemento diferencial de área en el espacio de entrada que es
correspondiente al elemento diferencial de área dA del espacio latente en
torno a x, y siendo ψ(x) una matriz con elementos:
ψij =
∂φi
∂xj
(3.55)
siendo las xj las componentes de x.
3.4.5.
Otras técnicas de proyección
Existen muchas otras técnicas de proyección. Por mencionar algunas más,
el análisis de componentes principales de núcleo (Kernel PCA) consiste en
aplicar PCA lineal a los datos después de haber sido llevados por medio de
una transformación no lineal a un espacio de dimensión superior a la del
espacio de entrada [80] [82]. Las curvas y superficies principales, propuestas
por Hastie y Stuetzle [40], pueden considerarse otra generalización no lineal
de PCA. Una curva principal es una curva tal que cada uno de sus puntos es
el promedio de todos los datos que se proyectan sobre él.
64
CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN
Capı́tulo 4
Data Mining Visual
4.1.
Introducción
El término Data Mining se refiere a la aplicación de un amplio número
de métodos para procesar y analizar datos. El objetivo principal del Data
Mining es la extracción de conocimiento de grandes bases de datos donde la
dimensionalidad (número de variables), complejidad, o número de muestras
es demasiado grande para un análisis manual. Está relacionado con campos como el análisis exploratorio de datos (exploratory data analysis) y el
descubrimiento de conocimiento en bases de datos (knowledge discovery in
databases). El objetivo de la exploración de datos es descubrir propiedades
en los datos por medio de medidas descriptivas (estadı́sticas de cada variable,
entre ellas, . . . ) o visualización. Se trata básicamente de llegar a una cierta
“comprensión de los datos” y, de ahı́, a comprender el proceso subyacente
[94].
La idea principal del Data Mining es combinar la flexibilidad, creatividad
y conocimiento general de una persona con la potencia de cálculo y la capacidad de almacenamiento de un computador para una exploración de datos
efectiva. El Data Mining Visual da un paso más, empleando la capacidad de
representación gráfica para integrar a la persona en el proceso de exploración
de datos, explotando sus capacidades de percepción visual y aprovechando
el poco esfuerzo que requiere razonar con objetos visibles.
El Data Mining Visual es muy útil cuando se tiene poco conocimiento
a priori sobre los datos y puede ser usado para formular hipótesis sobre los
mismos, que posteriormente podrán ser verificados en la aplicación de otras
técnicas estadı́sticas y de aprendizaje automático (machine learning). Las
técnicas de Data Mining Visual tienen ciertas ventajas frente a éstas técnicas
automáticas de estadı́stica y machine learning:
65
66
CAPÍTULO 4. DATA MINING VISUAL
Tratan más fácilmente con datos no homogéneos y ruidosos.
Son intuitivas.
No requieren la comprensión de complejos algoritmos matemáticos o
estadı́sticos.
Una representación visual de resultados da un mayor grado de confianza
que la representación numérica o textual.
Existen numerosos enfoques y formas de representación para llevar a cabo
Data Mining Visual. Para procesos industriales complejos, en esta tesis se
utilizará el enfoque de la reducción de la dimensionalidad, que consiste en proyectar los datos multidimensionales (medidas del proceso o transformaciones
de éstas, es decir, caracterı́sticas) en un subespacio topológico bidimensional
que se hará corresponder con un plano. Esa correspondencia será tal que las
propiedades inteligibles del espacio multidimensional (las propiedades que
permiten realizar razonamientos directamente con ellas: variables con significado fı́sico, las relaciones entre ellas, etc.) podrán trasladarse al plano para
ser representadas y ası́ poder ser usadas para realizar razonamientos en dicho
plano[29] [28] [26] [27] [25] [20] [22].
4.2.
Formas básicas de representación
El principal problema a la hora de representar datos multidimensionales
es precisamente la dimensionalidad. Los medios tradicionales de representación (papel, pantalla) no permiten más que dos dimensiones espaciales. Esta
limitación en principio parece sugerir como única alternativa la representación de datos como nubes de puntos (scatter plots, gráficas de dispersión) en
un sistema cartesiano tı́pico que codifica valores de dos variables como posición en dos dimensiones1 . Estas simples representaciones de nubes de puntos
son muy útiles para descubrir agrupamientos y correlaciones entre variables.
Sin embargo, además de la posición en dos dimensiones, existen diversas
formas de codificar valores en representaciones visuales como son el tamaño,
el color, la forma, la textura, el movimiento, etc [15]. Un ejemplo que muestra la codificación por tamaño se muestra en la figura 4.1, en la que las dos
primeras variables x e y se representan en los ejes de coordenadas, mientras
que una tercera variable z se muestra como un tamaño de los cı́rculos proporcional al valor de dicha variable z. Un ejemplo semejante, pero codificando
con color en lugar de con tamaño se puede ver en la figura 4.10.
1
Las representaciones 3D en un medio 2D como perspectiva tienen pérdida de información, salvo que sea un medio, como un computador, que permita la rotación interactiva.
4.2. FORMAS BÁSICAS DE REPRESENTACIÓN
67
3
2.5
2
1.5
Y
1
0.5
0
−0.5
−1
−1.5
−1.5
−1
−0.5
0
X
0.5
1
1.5
Figura 4.1: Gráfica de puntos dispersos con codificación en tamaño.
Otra posibilidad son las matrices de gráficas de nubes de puntos, en las
que las gráficas se hacen tomando dos a dos las variables (figura 4.2). La
diagonal de la matriz puede aprovecharse para dibujar los valores de las
variables frente al número de muestra. Si se trata de series temporales y
el número de muestra está relacionado con el tiempo, esto permite extraer
conclusiones acerca de las evoluciones temporales.
Otra alternativa es table lens, un tipo de representación por codificación
en color que permite la detección de relaciones entre variables. Consiste en
la ordenación de los vectores muestra en función del valor de una de las
variables. Las variables que también presenten una ordenación estarán relacionadas con la primera. En la figura 4.3 están representadas table lens
para ordenación de cada una de las tres variables de los datos de ejemplo
(de izquierda a derecha, x, y y z respectivamente). Se observa que existe una
clara relación directa entre las variables y y z, y una más tenue (en una parte
directa y en otra inversa) entre x y z.
Finalmente, citar algunas más de entre la infinidad de formas de representación aplicables a Data Mining Visual, como coordenadas paralelas (parallel
coordinates), mundos dentro de mundos (worlds within worlds), dense pixel displays, distorsión esférica (spherical distortion), distorsión hiperbólica
(hyperbolic distortion), etc. [51] [15].
68
CAPÍTULO 4. DATA MINING VISUAL
x
2
xy
4
1
xz
4
2
2
0
0
0
−1
−2
0
500
1000
−2
−2
0
y
4
2
−2
−2
2
2
0
0
−2
0
0
yz
4
500
1000
−2
−2
0
4
z
2
2
4
2
0
−2
0
500
1000
Figura 4.2: Gráficas de puntos dispersos de pares de variables.
X
Y
Z
X
Y
Z
X
100
100
100
200
200
200
300
300
300
400
400
400
500
500
500
600
600
600
700
700
700
800
800
800
Y
Z
Figura 4.3: Gráficas table lens para tres variables.
4.3. PROYECCIÓN DE DATOS
4.3.
69
Proyección de datos
Un método para visualizar datos multidimensionales es la proyección de
los mismos, lineal o no lineal, en un espacio visualizable. En principio se
pierde la información de los valores de las variables, pero se conserva la
de parecido entre muestras (como vectores) lo que permite un análisis de
agrupamientos de forma visual. Sin embargo, ésta pérdida de información se
puede evitar, pudiendo trasladarse información inteligible relacionada con las
variables originales del espacio de entrada al espacio de visualización.
Realizando el planteamiento de la proyección de datos para un proceso, se parte de un espacio de caracterı́sticas, en el que cada componente
corresponde con una de las caracterı́sticas del proceso; este espacio no es
visualizable por ser de alta dimensionalidad. El objetivo es realizar una proyección del espacio de caracterı́sticas en un espacio de visualización. La
técnica de proyección que se vaya a usar para el análisis de procesos debe
contemplar las siguientes posibilidades:
1. Proyección del espacio de caracterı́sticas sobre el de visualización, que
es necesaria para proyectar vectores de caracterı́sticas individuales del
proceso y, en particular, la trayectoria de estado. Se denominará a esta
proyección Smi →gi (x), siendo x un punto del espacio de caracterı́sticas.
2. Proyección del espacio de visualización sobre el espacio de caracterı́sticas, que es necesaria para trasladar información inteligible desde el
espacio de caracterı́sticas al de visualización2 . Esta proyección deberı́a
ser la inversa de la del punto anterior para que la información mostrada
en cada punto del espacio de visualización corresponda realmente a dichos puntos3 . Se denominará Sgi →mi (y), siendo y un punto del espacio
de visualización.
La proyección (en ambos sentidos) no tiene por qué ser continua o derivable.
Sin embargo, si es discreta, conviene que esté definida para una rejilla regular en el espacio de visualización por simplicidad en la representación. Si la
proyección es continua normalmente será posible escoger una rejilla regular.
Los puntos de esta rejilla regular están identificados en la nomenclatura elegida para la proyección directa e inversa: gi son los puntos de la rejilla en el
espacio de visualización y mi son los puntos correspondientes en el espacio
de caracterı́sticas.
2
Dicho de otra forma, para dibujar los mapas de colores en el espacio de visualización.
Sin embargo, cuando se busque una descripción más bien cualitativa esto no importa
mientras el error no sea muy grande.
3
70
CAPÍTULO 4. DATA MINING VISUAL
Una caracterı́stica que es especialmente deseable, tanto en la proyección
directa como en la inversa, es la conservación de la topologı́a. Esta conservación de la topologı́a es difı́cil de definir, pero se puede dar como definición
más restrictiva la siguiente:
una proyección (función, mapeo) conserva la topologı́a cuando
puntos adyacentes (cercanos, vecinos) en el espacio inicial lo son
también en el espacio final.
Respecto a los planteamientos de este apartado, está bastante claro qué significa “adyacencia” en el espacio de visualización. En el espacio de caracterı́sticas no está tan claro y hay que especificar que en dicho espacio interesa que
la adyacencia se refiera a “dentro del subespacio topológico del proceso”, es
decir, que la cercanı́a o lejanı́a de dos puntos se mida a lo largo del camino de
mı́nima distancia contenido dentro de dicho subespacio topológico. La necesidad de este requisito se explica como la consecución de una trayectoria de
estado que no sufra discontinuidades (que no “dé saltos”) durante cambios
suaves en la condición del proceso.
Existen varias técnicas de proyección mencionadas en el capı́tulo 3 que
cumplen todas estas condiciones (o al menos casi todas). Algunas de las
técnicas que dan buenos resultados, además de por los requisitos mencionados, por su buen comportamiento en la generación de residuos, son: SOM,
KR-SOM y GTM. El SOM es discreto, y por ello no es muy preciso a la
hora de revelar tendencias o derivas. El KR-SOM y el GTM son continuos y
semejantes, pero ninguno cumple la condición 2 antes mencionada. Por otra
parte, el inconveniente del carácter discreto del SOM se puede reducir usando
más neuronas, viéndose solamente limitado este número por las capacidades
de cálculo y almacenamiento del computador usado en su entrenamiento.
Como ejemplo para ilustrar todo lo que se explicará en este capı́tulo se
utilizará un ejemplo “de juguete” con datos (x, y, z) formando dos grupos.
El primero y más pequeño de los grupos son datos con y y z constantes.
El segundo se ha generado con la ecuación z = x2 + y para x, y ∈ [−1, 1]
distribuidos de forma uniforme. A las tres variables se les ha añadido ruido
gaussiano. En la figura 4.4 se muestran esos datos con una malla de SOM
superpuesta que ha sido entrenado con dichos datos.
4.4.
El error de modelado
Al proyectar un punto del espacio de caracterı́sticas sobre el espacio de
visualización hay que distinguir dos casos:
4.4. EL ERROR DE MODELADO
71
2
1.5
z
1
0.5
0
−0.5
−1
2
1
1
0.5
0
0
y
−0.5
−1
−1
x
Figura 4.4: Malla de SOM en el espacio de entrada con los datos de entrenamiento.
1. El punto está contenido en el subespacio topológico correspondiente al
funcionamiento del proceso.
2. El punto está fuera del subespacio del proceso.
Es posible detectar en qué caso se está, proyectando en el espacio de visualización y volviendo a proyectar el resultado sobre el espacio de caracterı́sticas.
Cuando se está en la primera situación (dentro del subespacio), en un caso
ideal, se obtendrá el punto inicial. Cuando se está en la segunda situación
se obtiene un residuo como diferencia del punto resultante y el original. Al
módulo de este vector diferencia se le denomina error de modelado 4 .
Para todo lo que sigue en este capı́tulo se estará considerando que estamos
en la primera situación. La segunda situación se estudiará ampliamente en
el capı́tulo siguiente.
4
En el SOM se usa en su lugar el término error de cuantificación, heredado de la visión
del SOM como un cuantificador en compresión de señal. En este caso puede no ser muy
adecuado su uso.
72
4.5.
CAPÍTULO 4. DATA MINING VISUAL
Representación visual de conocimiento
Al realizar la proyección de la trayectoria de estado, no necesariamente se
pierde toda referencia con el espacio de caracterı́sticas. Es posible representar
en el espacio de visualización la información inteligible del proceso disponible
en los puntos del subespacio topológico de su modelo. Esta forma de representación se basa en la codificación de toda esa información por medio de
colores, conformando unos “mapas de colores” en el espacio de visualización;
cada uno de esos “mapas de colores” representa el valor de una determinada
propiedad que en el espacio de caracterı́sticas tiene sentido fı́sico. Para crear
estos mapas sólo hay que conocer a qué punto del espacio de caracterı́sticas
corresponde cada punto del espacio de visualización. Hay que recalcar que
todos esos mapas están mostrando el mismo espacio de visualización, pero
representando distintas informaciones. En esencia, lo que se va a exponer en
los siguientes subapartados es una forma de representar conocimiento en un
espacio común, el espacio de visualización.
4.5.1.
Etiquetado
El espacio de visualización constituye, como ya se mencionó, un auténtico
“mapa del proceso”. Al igual que en un mapa geográfico se señalan los nombres de las ciudades y los accidentes geográficos, el espacio de visualización
puede ser etiquetado para poder localizar de un vistazo zonas particulares del
espacio de visualización en cuanto a estados o condiciones del proceso. Para
llevarlo a cabo se dispone de múltiples herramientas, que serán descritas en
los siguientes apartados.
4.5.2.
Planos de componentes
Los planos de componentes o mapas de caracterı́sticas permiten conocer
a través del espacio de visualización, las coordenadas en el espacio de caracterı́sticas de sus puntos correspondientes [53] [56] [54] [55]. Para ello se
representa en el espacio de visualización el valor de una de las coordenadas como un color. Existen, por tanto, tantos planos de componentes como
dimensiones tenga el espacio de entrada.
Para obtener el plano de componentes correspondiente a la coordenada
j, se toman los puntos gi del espacio de visualización y se proyectan sobre el espacio de caracterı́sticas, obteniéndose como resultado unos puntos
mi = (mi1 , . . . , mij , . . . , miD ) = Sgi →mi (gi ), de los que se toman los mij y
se codifican como colores. Por sencillez de representación se habrán escogido
4.5. REPRESENTACIÓN VISUAL DE CONOCIMIENTO
x
y
z
15
15
15
10
10
10
5
5
5
0
0
5
10
15
0
0
5
10
73
15
0
0
5
10
15
Figura 4.5: Planos de componentes.
unos gi que formen parte de una retı́cula regular. De esta forma los mij se
representan mediante pixels coloreados en pantalla.
En la figura 4.5 se muestran los planos de componentes para los datos de
ejemplo.
4.5.3.
Mapa de distancias
El modelo de datos que representa al proceso puede verse en el espacio
de caracterı́sticas como una “lámina elástica” que se ajusta a los datos que
sirvieron para su creación. La “lámina elástica” puede no sólo adaptarse a la
forma que tienen los datos en el espacio de entrada, sino también estirarse y
encogerse para representar mejor en el espacio de visualización aquellas zonas
que tienen mayor densidad de muestras de entrenamiento. Ası́, en el caso del
SOM, se demuestra que éste tiende a hacer que la distribución de los datos
de entrenamiento proyectados en el espacio de salida tengan una distribución
aproximadamente uniforme5 . El GTM se plantea en [13] de tal forma que se
comporte como el SOM en ese sentido. Parece claro que una información
interesante para ser representada en el espacio de visualización es el grado de
estiramiento de la “lámina elástica”. En eso consisten los mapas de distancias
en el SOM y KR-SOM, y la representación en el espacio de visualización del
factor de magnificación del GTM, que por analogı́a se pueden denominar de
la misma forma.
Debido a esta propiedad del SOM y del GTM de estirarse en las zonas
donde hay menos densidad de datos, el mapa de distancias sirve para detectar, a través del espacio de visualización, agrupaciones de datos en el espacio
de entrada.
5
Propiamente dicho será uniforme en el caso del KR-SOM, que es continuo. En el caso
del SOM es una “uniforme discreta”.
74
CAPÍTULO 4. DATA MINING VISUAL
Mapa de Distancias
Mapa de Activación
18
18
16
16
14
14
12
12
10
10
8
8
6
6
4
4
2
2
0
0
0
5
10
15
0
5
10
15
Figura 4.6: Mapa de distancias y mapa de activación.
En la figura 4.6 (izquierda) se muestra el mapa de distancias para el
ejemplo de juguete. En ella se pueden observar las zonas correspondientes a
dos grupos de datos. Sabiendo que el grupo generado con la ecuación z =
x2 + y contiene más datos y que el SOM tiende a distribuir uniformemente
los datos de entrenamiento en el espacio de visualización es fácil deducir que
la zona más grande corresponde a dicho grupo.
4.5.4.
Mapas de activación
Cuando se quiere saber a qué zona del espacio de visualización corresponde un cierto conjunto de datos, puede pensarse que lo más directo es
simplemente dibujar la proyección de todos los datos. Sin embargo esta representación no es muy buena si lo que se quiere conocer es la distribución
de los datos proyectados (donde se proyectan más o menos datos), sobre
todo si se trata de un mapa discreto (SOM) o cuando los datos mismos
están cuantizados: en ambos casos se pueden estar proyectando muchos datos exactamente en el mismo punto, efecto que no serı́a detectado de forma
visual. Ello hace necesario representar, de alguna forma, la “densidad” de los
datos proyectados. Los mapas de activación, propuestos en [31] y [27], son
semejantes a una función de densidad de un conjunto de datos proyectados.
Para el SOM, los mapas de activación se definen de la siguiente forma.
Sea {xk }k=1,...,K un conjunto de datos. El nivel de activación de la unidad i
4.5. REPRESENTACIÓN VISUAL DE CONOCIMIENTO
del SOM para ese conjunto de datos se define como:
P
hc(k)i
Ai = PkM
i = 1, . . . , M
h
ij
j=1
c(k) = arg mı́n{d(xk , mi )}
i
75
(4.1)
(4.2)
donde M es el número de neuronas del SOM y c(k) es el ı́ndice de la unidad
ganadora del SOM para xk . La versión continua para el KR-SOM se obtiene
con:
P
φ(ky − gi k)Ai
A(y) = Pi
(4.3)
j φ(ky − gj k)
En el caso del GTM, se dispone directamente de algo equivalente por medio
de la ecuación (3.53), que da el equivalente al mapa de activación para una
única muestra. Sólo habrı́a que sumar para todos las muestras xk .
En la figura 4.6 (derecha) se muestra el mapa de activación para los datos
del grupo con y y z constante del ejemplo.
4.5.5.
Mapas borrosos
Es posible etiquetar el espacio de visualización sólo con la ayuda de los
planos de componentes cuando se sabe qué valores tienen las caracterı́sticas
para ciertas condiciones del proceso, por ejemplo:
Cuando x1 tiene un valor alto, x2 toma valores medios y x4
toma valores negativos entonces el proceso está en el estado E1
Basta buscar en los planos de componentes las zonas que cumplen esas condición y poner la etiqueta en dichos lugares. Si el número de variables es bajo
(dos o tres) puede ser un trabajo sencillo. Sin embargo, con un número de
variables alto puede complicarse hasta lı́mites insospechados.
Puede observarse que la regla de ejemplo mencionada para identificar
cierta condición del proceso tiene un formato que es expresable como una
regla borrosa. Se verá también que usando un Sistema de Inferencia Borroso
(Fuzzy Inference System, FIS) es posible realizar esa tarea de localización de
zonas automáticamente.
Los mapas borrosos o mapas de inferencia borrosos [27] [21] [22] permiten
la incorporación de conocimiento del proceso expresado en forma de reglas
difusas. Ası́, si f es un sistema de inferencia borroso con una salida τ y tantas
entradas como variables del proceso:
τ (gi ) = f (mi ) = f (Sgi →mi (gi )).
(4.4)
76
CAPÍTULO 4. DATA MINING VISUAL
Mapa borroso
18
16
14
12
10
8
6
4
2
0
0
5
10
15
Figura 4.7: Mapa borroso.
Esto permite asignar a cada punto del espacio de visualización un valor, que
se codificará con color, y que es la salida del FIS f dándole como entrada
el valor de las caracterı́sticas del proceso en el punto correspondiente del
espacio de caracterı́sticas. Ası́, para el ejemplo utilizado en este capı́tulo, es
posible visualizar las reglas:
SI (x ES muy alta) Y (y ES muy alta) Y (z ES muy alta) ENTONCES (condicion1 ES si)
SI (x NO ES muy alta) O (y NO ES muy alta) O (z NO ES muy alta) ENTONCES (condicion1 ES no)
el mapa borroso resultante es el de la figura 4.7, donde se observa que la
pequeña región resaltada coincide con un extremo de la agrupación de datos
menor.
Esta idea ya fue intuı́da por Pedrycz, que en [71] usa expresiones de
lógica borrosa para obtener interpretaciones cualitativas en los resultados de
un SOM usado como clasificador.
Los mapas borrosos son, por tanto, una representación en el espacio de
visualización de las conclusiones de conjuntos de reglas borrosas que relacionan caracterı́sticas del proceso. Esas reglas suelen ser expresión de un
conocimiento adquirido por la experiencia.
4.5.6.
Mapas de modelos
Los mapas borrosos pueden considerarse como una manera de representar
en el espacio de visualización un modelo del proceso expresado en forma de
reglas borrosas. De la misma forma es posible también representar en el
espacio de visualización modelos analı́ticos. Los mapas de modelos son útiles
4.5. REPRESENTACIÓN VISUAL DE CONOCIMIENTO
77
Mapa de modelo: x2+y−z=0
18
1
16
0.8
0.6
14
0.4
12
0.2
10
0
8
−0.2
6
−0.4
−0.6
4
−0.8
2
−1
0
0
5
10
15
Figura 4.8: Mapa de modelo.
para determinar en qué medida un modelo analı́tico (ecuaciones explı́citas)
se cumple en cada punto del espacio de caracterı́sticas correspondiente a un
punto del espacio de visualización [27] [22]. Si se tiene una ecuación que es
función de las caracterı́sticas consideradas en el espacio de entrada:
f (x) = 0
(4.5)
se podrı́a evaluar para las imágenes en el espacio de entrada correspondientes
a los puntos del espacio de visualización, por ejemplo, en una rejilla regular:
f (mi ) = f (Sgi →mi (gi )) = i
(4.6)
donde i sólo será nulo donde se cumpla el modelo dado por la ecuación
4.5 y será precisamente esta magnitud la que se represente en el espacio de
visualización.
En la figura 4.8 se muestra el mapa del modelo para la ecuación z =
x2 + y en el ejemplo. Se observa cómo el modelo se cumple para la zona
correspondiente al grupo de datos mayor, como era de esperar puesto que
esos datos fueron generados de acuerdo con dicha ecuación, al contrario que
el grupo menor de datos.
Tanto en el caso de los mapas de modelos como en el de los mapas borrosos, lo que realmente se está representando en el espacio de visualización son
los subespacios que definen los modelos de ambos tipos: ecuaciones analı́ticas
y reglas respectivamente. Con esta técnica, por lo tanto, estas entidades se
78
CAPÍTULO 4. DATA MINING VISUAL
convierten en visualizables, lo cual permite conjugar la intuición fı́sica, presente en el espacio de caracterı́sticas, con la intuición visual y geométrica,
presente en el espacio de visualización.
4.5.7.
Mapas de correlaciones
El análisis de correlaciones es una técnica muy potente para descubrir relaciones lineales entre pares de variables. Tradicionalmente, esta técnica se ha
aplicado sobre el conjunto de datos completo, proporcionando sólo información global. Sin embargo esto no es muy útil en datos de procesos industriales
que, por su carácter no lineal, tı́picamente contienen varios puntos de funcionamiento, donde las correlaciones entre variables del proceso pueden ser
diferentes.
En [25] [22] se propone la representación en el espacio de visualización
de las correlaciones locales entre variables de un proceso a partir de datos
del mismo en el espacio de caracterı́sticas, representación que se denomina
mapa de correlaciones. El enfoque local es posible ponderando los datos en
el espacio de caracterı́sticas con una función de núcleo:
1
wk (y) = e− 2 kxk −Sgi →mi (y)k
2 /σ 2
(4.7)
Cada punto del espacio de visualización y (normalmente los gi de la rejilla
regular) es proyectado sobre el espacio de entrada, y esta imagen Sgi →mi (y)
es usada como centro de la función de núcleo para calcular la media local y
la matriz de covarianzas local:
P
k xk · wk (y)
µ(y) = P
(4.8)
k wk (y)
P
[xk − µ(y)][xk − µ(y)]T wk (y)
P
C(y) = (cij ) = k
(4.9)
k wk (y)
A partir de la matriz de covarianzas local es posible definir de forma directa
la matriz de correlaciones local en torno a y como:
cij
R(y) = (rij )
donde
rij = √
.
(4.10)
cii cjj
El mapa de correlaciones para las variables xi y xj es representado por el
valor rij (o rji debido a la simetrı́a de las matrices de covarianzas y correlaciones) en cada punto y de la rejilla del espacio de visualización. Observando
la figura 4.9, que son los mapas de correlaciones para el ejemplo, se hace más
evidente cómo los mapas de correlaciones constituyen, de hecho, una generalización de una matriz de correlaciones, indicando la distribución local de
dichas correlaciones.
4.5. REPRESENTACIÓN VISUAL DE CONOCIMIENTO
xx
xy
1
15
0.5 15
10
0
5
0
5
10
yx
15
−1
0.5 15
10
0
5
0
0
5
10
yy
15
5
10
zx
15
−1
0
10
0
5
5
10
15
−1
0
−0.5
0
5
10
yz
15
0
5
10
zy
15
−1
0.5
10
0
0
−0.5
0
5
1
10
zz
15
0.5
10
0
−0.5 5
0
5
10
15
−1
0
−1
1
0.5 15
0
−1
1
−0.5 5
10
0
−1
0
−0.5 5
0
0
0.5 15
1
0.5 15
10
1
−0.5 5
0
0.5
−0.5 5
10
15
0
0
1
15
1
0.5 15
10
0
xz
1
−0.5 5
0
79
−0.5
0
5
Figura 4.9: Mapas de correlaciones.
10
15
−1
80
CAPÍTULO 4. DATA MINING VISUAL
Todos los datos. Variable "z" codificada en color
3
Sólo datos con z>0.4 y z<0.6
2
2.5
2
2
2
1.5
1.5
1
0.5
0.5
0
1.5
1
1
y
y
1
0.5
0
0
−0.5
−0.5
−1
−1.5
−2
3
−1
0
x
1
2
−1
0
−1
−2
−2
−0.5
−1
0
x
1
2
−1
Figura 4.10: Interpretación de las correlaciones entre x e y vista en los mapas
de correlaciones.
En la figura 4.10 se muestra una interpretación de la variación de la correlación xy de la figura 4.9 en la zona en que cambia el signo de la correlación.
Ası́, considerando la z constante, para x pequeñas (en los planos de componentes se puede ver que es en la parte inferior del mapa) la correlación es
positiva, pasando gradualmente a correlación nula y después negativa según
aumenta la x (hacia arriba en los mapas).
La elección de la variable σ de la ecuación (4.7) influye en el grado de
“localidad” de los mapas de correlaciones. Para valores muy grandes de σ
los mapas de correlaciones presentan los valores de correlaciones globales,
siendo por tanto cada uno de ellos de un color uniforme. Para valores de
σ muy pequeños, los mapas de correlaciones se ven muy influidos por el
ruido y los pocos datos que tiene en cuenta para el cálculo de la matrices
de covarianzas, lo cual genera mapas ruidosos y resultantes de matrices de
covarianzas degeneradas.
Los mapas de correlaciones pueden considerarse como la representación
en el espacio de visualización de simples modelos locales lineales de carácter
cualitativo extraı́dos de datos, y que pueden ser usados tanto para asistir en
la identificación de la condición del proceso en distintas regiones del espacio
de visualización, como para extraer nuevo conocimiento sobre el comportamiento del proceso en distintos puntos de funcionamiento.
Capı́tulo 5
Residuos en Modelos de Datos
5.1.
Introducción
La aplicación de técnicas de redundancia analı́tica es posible también
con modelos basados en datos. La idea principal es desacoplar la parte que
podemos denominar “explicable por el modelo” de la parte “no explicable
por el modelo” en cada muestra del vector de caracterı́sticas del proceso.
La parte no explicable portarı́a información altamente especı́fica en relación
con situaciones novedosas, las cuales en su mayor parte podrı́an corresponder
con situaciones de fallo. Esto es especialmente aplicable a fallos modelizables
como fallos aditivos, puesto que en ciertos casos se puede encontrar relación
directa entre el vector de fallo aditivo y el vector de residuos.
5.2.
Generación de residuos
En general, un modelo del sistema define un subespacio topológico S
dentro del espacio de sus variables (caracterı́sticas), o lo que es lo mismo,
impone unas relaciones entre sus variables, una restricción en los grados de
libertad de sus variables. Se puede generar un residuo vectorial a partir del
modelo de la siguiente forma:
= x − x̂
(5.1)
donde x es el vector de valores instantáneos de las variables del proceso y x̂
es el valor más semejante a x predicho por el modelo:
= x − S(x)
(5.2)
En general S será una función que devuelva x cuando éste esté contenido en
el subespacio del proceso (x ∈ S) y distinto de x en caso contrario (x ∈
/ S).
81
82
CAPÍTULO 5. RESIDUOS EN MODELOS DE DATOS
En el primer caso el residuo vectorial serı́a nulo y el sistema se encontrarı́a en
situación de no fallo (estrictamente hablando, en situación de “acorde con el
modelo”). En el segundo caso habrı́a una indicación de fallo y será cuestión
de la naturaleza de la función S si el residuo es significativo o no para su uso
en el aislamiento del fallo, es decir, si provee información válida para llevar a
cabo dicho aislamiento [30]. La función S podrı́a ser, en principio, cualquier
técnica de proyección, y en concreto, cualquiera de las mencionadas en el
apartado 3.4.
5.3.
Detección de Novedades
La detección de novedades (novelty detection) consiste en detectar cuándo
un dato nuevo1 no corresponde con ninguno de los estados del proceso presente en los datos que fueron usados para la creación del modelo [105] [1] [83]
[39] . Esto se relaciona con el apartado anterior puesto que un indicador de
novedades es:
e = kx − x̂k
(5.3)
valor escalar que se denomina error de modelado (error de cuantificación,
quantization error, en el SOM). Esto, en principio, sólo es válido en los métodos de modelado a partir de datos que tengan en cuenta el dominio de los
datos que fueron usados para crear el modelo2 : si el nuevo dato no está contenido dentro de ese dominio, entonces es una “novedad”. El problema de
detectar cuando un dato x ∈ Rn pertenece al dominio de una variable aleatoria ξ ∈ Rn no es directo cuando la información de partida es un conjunto
de muestras de dicha variable aleatoria. Este problema está relacionado con
la Teorı́a de Decisión y lo que se conoce en Estadı́stica como detección de
valores atı́picos (outlier testing).
El problema de detección de valores atı́picos consiste en descubrir cuándo
un dato x puede corresponder con una realización de la variable aleatoria ξ o
no. El dominio de la variable aleatoria va implı́cito en la función de densidad
de probabilidad (fdp) de los datos, puesto que corresponde con los valores de
x donde esta función es no nula. El caso donde x cae fuera del dominio de ξ
es inmediato puesto que es evidente que no puede ser una realización de ξ.
Sin embargo cuando x está dentro del dominio de ξ, no se garantiza que sea
1
Sea un dato “nuevo” un dato que acaba de ser adquirido o que simplemente no fue
usado en la creación del modelo. Aunque la palabra es similar, el significado es diferente
al del término “novedad”.
2
Dicho de manera simplificada, que no extrapolen. La interpolación también puede
crear algún problema si no se tiene en cuenta, pero puede detectarse como se explica en
5.5.2.
5.3. DETECCIÓN DE NOVEDADES
83
una realización de ésta, sobre todo en los casos en los que la fdp es próxima
a cero. Además esto último siempre ocurrirá en casos en los que la fdp sea
no nula en todo Rn , como en la distribución normal. La mayor parte de las
veces el objetivo es, por tanto, cuantificar al menos qué probabilidades hay
de cometer un error en la decisión, ya sean falsos positivos o falsos negativos.
La Teorı́a de Decisión proporciona varias posibilidades para la detección de
novedades; aquı́ se mencionarán algunos métodos especialmente interesantes
por su carácter intuitivo o por su carácter práctico.
La primera idea es realizar una estimación de la fdp de la variable aleatoria
a partir de los datos muestra, poner un umbral3 para realizar la discriminación, evaluar el dato en la fdp y, si el resultado queda por encima del umbral,
el dato se supone realización de la variable aleatoria.
Existen también soluciones partiendo sólo del modelo creado a partir de
los datos, sin embargo el problema es algo distinto. Generalmente el modelo,
al contrario que la fdp, no tiene en cuenta el “ruido”, refiriéndose este “ruido”
al responsable de la varianza de los datos respecto a la media aproximada
por el modelo; un caso especial es GTM, que sı́ que tiene en cuenta el ruido,
en cierta manera, por medio del parámetro β. En estos casos, la solución,
que consiste en escoger un umbral para el error de modelado e de la ecuación
(5.3), puede tener en cuenta de alguna manera los datos de partida para
obtener información sobre el ruido, para posteriormente deducir de ello el
umbral más adecuado.
Resumiendo, existen al menos tres alternativas como criterio para la detección de novedades:
Umbral para la fdp relacionado con la probabilidad de error en la detección.
Umbral global para el error de modelado. En GTM podrı́a ser proporcional a 1/β, y en otro caso (SOM, etc.) estimarse a partir de los
datos de entrenamiento. Serı́a como darle un “grosor” al subespacio
topológico del modelo igual en todo él.
Umbral para el error de modelado distinto en cada punto perteneciente
al subespacio del modelo. Serı́a como darle al subespacio un “grosor”
distinto en cada punto.
3
Que puede ser un valor tal que al integrar la fdp donde ésta supere dicho valor, dé un
resultado de 0.99, por ejemplo.
84
CAPÍTULO 5. RESIDUOS EN MODELOS DE DATOS
5.4.
Residuo vectorial
Si se considera el vector (5.1) completo (y no sólo su módulo), además
de la detección puede haber un aislamiento del fallo puesto que, bajo ciertas
condiciones, en un fallo aditivo el vector de residuos es semejante al vector
de fallo. Si se produce un fallo en el que el proceso se mueve en una dirección
aleatoria dentro de su espacio, cuando este espacio es de alta dimensionalidad es muy probable que el movimiento sea en una dirección ortogonal al
subespacio que representa el modelo del proceso4 . Es decir, que podemos
obtener un vector semejante al de fallo tomando el vector diferencia entre
el punto actual y el más cercano dentro del subespacio del proceso, que es
precisamente lo que se plantea en las ecuaciones (5.1) y (5.2)
5.4.1.
Validez del residuo vectorial
Las técnicas que sirven para realizar modelos basados en datos se pueden
clasificar en dos grupos:
1. Modelos basados en el soporte 5 de los datos (GRNN, SOM, k-means,
. . . ). Son modelos que aproximan la geometrı́a de la función de densidad
de probabilidad.
2. Modelos mı́nimo-cuadráticos (RBF, perceptrón multicapa autoasociativo). Tratan de minimizar una función de error cuadrático.
Los modelos basados en soporte están estadı́sticamente fundamentados.
Tratan de buscar una función objetivo en la que figura la función de densidad
de probabilidad (que lleva implı́cito el soporte de los datos). Los modelos
mı́nimo-cuadráticos, sin embargo, buscan simplemente minimizar el error de
aproximación y obtienen como resultado algo parecido a la función identidad:
f (x) = x, y entonces:
El error de modelado en valor absoluto no se corresponde con la proporción de error cometido.
La dirección de los residuos en algunos casos es totalmente no significativa (en cuanto a información útil para aislamiento de fallos, por
ejemplo).
4
Esto es idéntico a la idea básica de Random Projections explicada en 3.4.1.
Soporte o dominio de una variable aleatoria: rango de valores que puede tomar. Se
entiende aquı́ este término en un sentido más amplio, denotando la geometrı́a de la región
en el espacio ocupada o poblada por los datos.
5
5.4. RESIDUO VECTORIAL
85
10
4
10
4
8
3
8
3
6
2
4
6
2
4
1
2
0
0
−2
−1
−4
1
2
0
0
−2
−1
−4
−2
−6
−8
−10
−10
−5
0
5
10
−2
−6
−3
−8
−4
−10
−10
(a) Módulo del vector de residuos con un
modelo mı́nimo-cuadrático.
−3
−5
10
8
8
6
6
4
4
2
2
0
0
−2
−2
−4
−4
−6
−6
−8
5
−4
10
(b) Módulo del vector de residuos con un
modelo basado en soporte.
10
−10
−10
0
−8
−5
0
5
10
(c) Dirección del vector de residuos
con un modelo mı́nimo-cuadrático.
−10
−10
−5
0
5
10
(d) Dirección del vector de residuos
con un modelo basado en soporte.
Figura 5.1: Comparación de los residuos, tanto en módulo como en dirección,
para modelos basados en soporte y mı́nimo-cuadráticos.
En el caso ideal, una “dirección significativa” para los residuos implica que
los valores de cada componente son proporcionados con la desviación real de
dicha componente, y que los signos de las desviaciones son los correctos. En la
figura 5.1 se muestra una comparación de residuos generados con un modelo
mı́nimo-cuadrático (RBF) y con un modelo basado en soporte (GRNN), en la
que se comprueba que en el caso del modelo mı́nimo-cuadrático los residuos
son prácticamente nulos aun en puntos lejanos a los datos usados para generar
el modelo.
Se puede ver intuitivamente lo que ocurre en un caso particular con
un perceptrón multicapa autoasociativo. La hipersuperficie que representa
está definida en todo el espacio, mientras que el proceso sólo se moverá en
86
CAPÍTULO 5. RESIDUOS EN MODELOS DE DATOS
x
y
z
100
200
300
400
500
600
Tiempo (muestras)
700
800
900
Figura 5.2: Representación del vector de residuos. Ejemplo de fallo aditivo
haciendo su aparición en torno a la muestra 900.
una zona determinada de ese espacio (su dominio). Es claro que cuando se
presente una situación muy lejana a la de los datos de entrenamiento de la
red, el punto que la representa probablemente se proyecte en una zona muy
alejada de los datos de entrenamiento (de su dominio), con lo cual el residuo
será totalmente inútil.
5.4.2.
Representación del residuo vectorial
Dado el enfoque eminentemente visual de esta tesis la representación más
adecuada para el vector de residuos es un detalle bastante importante. Para
una representación de dicho vector a lo largo del tiempo, una simple gráfica
tiempo-valor por componente es confusa cuando el número de componentes
es grande.
Otro tipo de representación, que ha dado excelentes resultados en la
práctica, es el mostrado en la figura 5.2. Los valores de las componentes
del vector de residuos se muestran codificadas con color (hacia rojos, positivos; hacia azules negativos; verde significa valor nulo) en una gráfica en la
que cada lı́nea en el eje vertical corresponde a una componente del vector y el
eje horizontal corresponde con tiempos. Este tipo de representación permite
diferenciar fácilmente cada una de las componentes y detectar la desviación
de cualquiera de ellas del cero con un sólo vistazo.
5.5.
Consideraciones en el uso de residuos
Se pueden hacer dos consideraciones especiales en cuanto al uso de residuos y respecto al modelo de datos a usar: a) los criterios para escoger los
datos para generación del modelo y b) los problemas del carácter interpolante
o no del modelo.
5.5. CONSIDERACIONES EN EL USO DE RESIDUOS
5.5.1.
87
Elección de datos para el modelo
Existen dos formas de combinar el uso de residuos y proyección de trayectoria para el diagnóstico de fallos:
1. Introducir en el modelo todas las situaciones disponibles en forma de
datos (normales y de fallo). En este caso los residuos detectarán estados
no presentes en el modelo, que pueden ser de fallo o simplemente estados
considerados normales pero de los que no se tenı́an datos.
2. Introducir en el modelo sólo situaciones normales. A menudo es más
fácil tener datos de situaciones normales puesto que el proceso se encontrará en ese estado la mayor parte del tiempo. Nuevamente, los residuos
detectarán estados no presentes en el modelo, que pueden ser de fallo
o, en teorı́a con menor probabilidad, un estado normal no contemplado
en el modelo.
La única diferencia entre uno y otro caso serı́a la mayor predisposición del
operador del proceso, en el segundo caso, a considerar fallo en un primer
momento cualquier aviso que dieran los residuos.
5.5.2.
Modelo con interpolación
Cuando se utiliza una técnica de proyección para generar residuos, puede
ser importante distinguir cuándo el proceso está en una zona del mapa que
corresponde con datos disponibles y cuándo son resultado de interpolación
realizada por el modelo entre agrupaciones de dichos datos usados en la
generación de dicho modelo.
Para distinguir en una determinada proyección si se está en zona modelada hay que mirar tanto el error de modelado/residuos como el mapa
de distancias, teniendo en cuenta que en zonas de interpolación, una técnica de proyección continua no genera residuos, y en una discreta (como el
SOM) éstos pueden ser mı́nimos (generalmente hay neuronas interpolantes).
Además, en ambos casos, los residuos pueden no ser significativos para el
diagnóstico de fallos.
88
CAPÍTULO 5. RESIDUOS EN MODELOS DE DATOS
Capı́tulo 6
Metodologı́a de Supervisión
6.1.
Introducción
Todas las ideas y técnicas concernientes a Data Mining Visual que han sido comentadas en previos apartados, se pueden organizar en el marco de una
metodologı́a aplicable a supervisión de procesos complejos que se pueden relacionar con otras metodologı́as estándar de Data Mining como CRISP-DM
[16]. Todo ello puede ilustrarse con el ejemplo de la implementación real de
un sistema de monitorización mediante técnicas de Data Mining Visual, una
aplicación denominada MAPREX, que ha sido desarrollada en el seno de un
proyecto de investigación del Área de Ingenierı́a de Sistemas y Automática para la supervisión de sistemas de un tren de laminación en caliente de
Aceralia Corporación Siderúrgica.
6.2.
6.2.1.
El sistema MAPREX
MAPREX: un sistema de monitorización
MAPREX es un sistema de monitorización de la condición basado en
SOM. Tiene capacidades de representación de datos tı́picas en la monitorización de procesos: señales a lo largo del tiempo, espectros, etc.; también tiene
la posibilidad de almacenamiento de datos. Además, MAPREX tiene implementadas técnicas de redundancia analı́tica empleando un modelo basado en
datos constituido por un SOM.
89
90
CAPÍTULO 6. METODOLOGÍA DE SUPERVISIÓN
Comprensión
del negocio
Comprensión
de los datos
Preparación
de los datos
Implantación
Generación
del modelo
Evaluación
Figura 6.1: Modelo de referencia CRISP-DM.
6.2.2.
MAPREX: una herramienta de Data Mining
Visual
El sistema MAPREX es una aplicación instalada en un ordenador portable que permite realizar Data Mining Visual en planta, al mismo pie del
proceso. Esto posibilita correlacionar la información que provee MAPREX,
representada de diversas formas, con la información procedente de percepciones sensoriales (visual, auditiva, olfativa, etc.) acerca del proceso que sólo es
posible obtener in situ. Debido a esto, la emisión de hipótesis sobre la validez
y la significancia de los datos tomados del proceso, ası́ como la configuración
de una extracción de caracterı́sticas sobre estos datos del proceso realizada en
tiempo real y la consiguiente comprobación de la utilidad de la información
resultante se convierte en una tarea altamente interactiva.
MAPREX y CRISP-DM
La metodologı́a de supervisión mediante Data Mining Visual encaja perfectamente en un estándar de desarrollo de proyectos de Data Mining como
es CRISP-DM (CRoss Industry Standard Process for Data Mining) [16].
El modelo de referencia del CRISP-DM tiene varias fases. La secuencia
de fases no es lineal sino que puede implicar vueltas a pasos anteriores, como
se muestra en la figura 6.1:
6.2. EL SISTEMA MAPREX
91
1. Entendimiento del negocio: entender los objetivos y requerimientos desde la perspectiva del negocio, y entonces convertir este conocimiento
en la definición de un problema de Data Mining y un plan preliminar
diseñado para conseguir los objetivos.
2. Comprensión de los datos: recoger datos, familiarizarse con ellos, identificar problemas de calidad de los mismos, y descubrir las primeras cosas
interesantes para conjeturar hipótesis respecto a información oculta en
ellos.
3. Preparación de los datos: comprende todas las actividades encaminadas
a formar el conjunto de datos final que será introducido en las herramientas de generación de modelos. Las tareas de preparación de datos
probablemente se lleven a cabo varias veces, sin ningún orden preestablecido. Esto incluye la selección de atributos, registros y tablas, ası́ como la transformación y limpieza de los datos para las herramientas de
generación de modelos.
4. Generación del modelo: se seleccionan las técnicas de modelado, se aplican y se calibran sus parámetros a valores óptimos. Suele haber varias
técnicas para el mismo problema que pueden tener unos requerimientos distintos en cuanto al formato de los datos, lo cual puede implicar
volver al paso anterior de preparación de datos.
5. Evaluación: comprobar si el modelo generado cumple los objetivos impuestos en la fase inicial. Si no los cumple porque no se consideró algún
aspecto clave, habrá que volver al paso de comprensión del negocio.
6. Implantación: uso del modelo generado. Puede ser tan simple como la
generación de un informe o tan complejo como la implementación de
un proceso de Data Mining continuo.
MAPREX se enmarca fácilmente dentro de la metodologı́a CRISP-DM.
Es a la vez una herramienta de desarrollo de sistemas de supervisión por
medio de técnicas de Data Mining Visual y el sistema de supervisión en sı́.
Ası́, MAPREX es aplicable en las siguientes fases del modelo de referencia
CRISP-DM:
Comprensión de los datos: MAPREX dispone de diversas formas de
representación de datos, como son formas de onda, espectros, y caracterı́sticas; todas ellas son útiles en los primeros pasos para captar las
particularidades de los datos procedentes de un proceso. Ası́, las caracterı́sticas son configurables como valores instantáneos1 para señales
1
Realmente dichas señales se preprocesan a través de un filtro de media.
92
CAPÍTULO 6. METODOLOGÍA DE SUPERVISIÓN
Comprensión
del negocio
Comprensión
de los datos
Preparación
de los datos
Generación
del modelo
Evaluación
Implantación
Determinar
los objetivos
del negocio
Antecedentes
Objetivos
Criterios de
éxito
Tomar datos
iniciales
Informe de la
toma de datos
iniciales
Conjunto de
datos
Descripción del
conjunto de
datos
Seleccionar
datos
Criterios de
inclusión/exclusión
Evaluar
resultados
Evaluación de
los resultados
de data mining
respecto a los
criterios de
éxito de
negocio
Modelos
aprobados
Planear
implantación
Plan de
implantación
Describir los
datos
Informe de
descripción de
los datos
Seleccionar la
técnica de
modelado
Técnica de
modelado
Suposiciones de
modelado
Explorar los
datos
Informe de
exploración de
los datos
Limpiar datos
Informe de
limpieza de
datos
Evaluar
situación
Inventario de
recursos
Requerimientos,
suposiciones y
restricciones
Riesgos y
contingencias
Terminologı́a
Costes y
beneficios
Determinar
los objetivos
del Data
Mining
Objetivos del
Data Mining
Criterios de
éxito del Data
Mining
Producir plan
del proyecto
Plan del
proyecto
Evaluación
inicial de
herramientas y
técnicas
Verificar
calidad de los
datos
Informe de
calidad de los
datos
Construir
conjunto de
datos
Atributos
derivados
Registros
generados
Integrar
datos
Datos
combinados
Generar
diseño de
prueba
Diseño de
prueba
Generar
modelo
Configuración
de parámetros
Modelos
Descripción de
modelos
Evaluar
modelo
Evaluación de
modelo
Revisión de
configuración
de parámetros
Revisar
proceso
Revisión del
proceso
Determinar
siguientes
pasos
Lista de
posibles
acciones
Decisión
Planear monitorización y
mantenimiento
Plan de
monitorización
y
mantenimiento
Generar
informe final
Informe final
Presentación
final
Revisar
proyecto
Documentación
de la
experiencia
Formatear
datos
Datos
reformateados
Figura 6.2: Tareas genéricas y salidas del modelo de referencia CRISP-DM.
6.2. EL SISTEMA MAPREX
93
consideradas como estáticas, o como valores espectrales (energı́as en
bandas de frecuencia) para señales consideradas como dinámicas, puesto que la mayor parte de este tipo de señales tienen como origen elementos giratorios en máquinas (que generan magnitudes mecánicas cuasiperiódicas: vibraciones, fuerzas, etc.), corrientes alternas, etc.
Preparación de los datos: MAPREX puede realizar extracción de caracterı́sticas off line en datos almacenados previamente, con vistas a la
generación de un modelo posterior.
Generación de modelos: a partir de los datos obtenidos, MAPREX puede generar un modelo basado en SOM, útil para Data Mining Visual
tanto on line como off line, con capacidades de proyección de datos y
generación de residuos.
Evaluación: con el modo simulación, en MAPREX se puede comprobar
que el modelo es correcto con datos off line. Si todo funciona correctamente se puede proceder a la evaluación on line y de forma continua,
progresiva y simultáneamente a la implantación.
Implantación: por el carácter portable del sistema MAPREX es posible llevar todos los pasos anteriormente mencionados al mismo pie del
proceso, con lo cual la implantación puede ser inmediata.
6.2.3.
Estructura de la aplicación MAPREX
La aplicación MAPREX tiene la estructura que se muestra esquematizada
en la figura 6.3:
1. Un módulo de adquisición de datos, que realiza las tareas relacionadas
con la adquisición, almacenamiento y representación de señales a lo
largo del tiempo junto con sus espectros.
2. Un módulo de extracción de caracterı́sticas, que realiza extracciones de
caracterı́sticas de forma on line y representa la evolución temporal de
las caracterı́sticas previamente configuradas. También realiza extracciones de caracterı́sticas off line que producen datos listos para entrenar
un SOM.
3. Un módulo SOM, que entrena SOMs y los ejecuta en tiempo real, usando como entrada los datos que se van generando en una extracción de
caracterı́sticas sobre las variables del proceso que se van muestreando. Como resultado de la ejecución, el SOM representa la trayectoria
94
CAPÍTULO 6. METODOLOGÍA DE SUPERVISIÓN
de estado sobre diferentes vistas del espacio de visualización y genera
residuos, mostrándolos también gráficamente.
6.3.
Una sesión con MAPREX
A continuación se describirá una sesión tı́pica con la aplicación. La aplicación MAPREX, al final de una de dichas sesiones, tiene el aspecto de la figura
6.4. Las ventanas que muestra se irán abriendo según se van necesitando en
los sucesivos pasos que se relatan en el resto de este apartado.
6.3.1.
Selección de señales
El primer paso consiste en seleccionar las señales y configurarlas en el
subsistema de adquisición. Los parámetros configurables para cada señal son:
Nombre: una cadena alfanumérica que identifique la señal.
Sensibilidad: valor que da la relación de número de unidades de la señal
por voltio en la entrada.
Unidad: cadena alfanumérica que identifica las unidades en la que se
mide la magnitud de la señal.
Hay que seleccionar también la frecuencia de muestreo en función del máximo
ancho de banda de entre las señales, ası́ como el número de datos que se
usará en los espectros de las señales, lo cual determinará su resolución. Con
esta configuración mı́nima, MAPREX está listo para adquirir datos.
6.3.2.
Visualización de las señales en tiempo real
Una vez iniciada la adquisición de datos, se pueden visualizar las señales
en tiempo real, tanto en el dominio del tiempo como en el de la frecuencia.
Esto constituye el primer nivel de monitorización de variables del proceso.
Ya en este punto se puede obtener información interesante del proceso, que
será aprovechada en el siguiente paso de selección de caracterı́sticas.
6.3.3.
Selección de caracterı́sticas
Existen dos formas complementarias para realizar una selección de las
caracterı́sticas del proceso de forma interactiva con MAPREX: la selección
on line y la selección off line.
SOM
registro de
SOMs
entrenados
registro de
extracciones de
características
registro de
señales
Características
Extracción de
Características
Señales en
la Frecuencia
Adquisición de
Datos
Señales en
el Tiempo
Proyección
de Trayectoria
sobre Mapas
Residuos
6.3. UNA SESIÓN CON MAPREX
95
Figura 6.3: Diagrama de bloques de la aplicación MAPREX.
PROCESO
96
CAPÍTULO 6. METODOLOGÍA DE SUPERVISIÓN
Selección on line
La selección on line de caracterı́sticas se apoya principalmente en las
ventanas de representación temporal y frecuencial de las señales. Como éstas
tienen información a muy corto plazo (prácticamente correspondiente al instante), requieren una atención continua.
Sin embargo, también es posible representar información a más largo plazo, como resultado de una extracción de caracterı́sticas en tiempo real, en
la denominada ventana de caracterı́sticas. Las caracterı́sticas a representar
se elegirán por las conclusiones obtenidas de la observación de las señales
en tiempo y frecuencia o por conocimiento previo. Las caracterı́sticas configurables son valores medios de señales y energı́as de la señal contenidas en
bandas de frecuencia dadas por su frecuencia central y ancho.
Selección off line
Todo lo mencionado hasta ahora para observación on line de señales se
puede realizar de forma off line para análisis sobre archivos de datos previamente capturados: representación temporal, frecuencial y extracción de
caracterı́sticas. Además, se dispone de una posibilidad adicional que es la de
representación de espectrogramas.
6.3.4.
Preparación de datos para modelado
La preparación de datos para modelado consiste en la extracción de caracterı́sticas, con la configuración elegida como resultado de los pasos previos,
sobre archivos seleccionados de datos capturados. Estos archivos se habrán
seleccionado de forma que resuman todas las condiciones posibles del proceso.
6.3.5.
Generación del modelo
Una vez obtenidos los datos para modelado, el paso siguiente es generar el
modelo. El modelo basado en datos implementado en MAPREX es una red
neuronal SOM que, una vez escogida su configuración (número de neuronas,
vecindad, etc.), puede ser entrenada con los mencionados datos resultado de
la extracción de caracterı́sticas.
6.3.6.
Explotación del modelo
El siguiente paso es el aprovechamiento del modelo generado. Para ello,
una vez cargado el archivo del modelo, se puede abrir toda una serie de
ventanas que aprovechan las dos aplicaciones que tiene el modelo basado
6.3. UNA SESIÓN CON MAPREX
97
en datos constituido por el SOM: proyección de trayectoria y generación de
residuos.
Proyección de trayectoria
Las ventanas que aprovechan la capacidad de reducción de la dimensión
del SOM para visualización son ventanas que representan precisamente el
espacio de visualización del proceso, en las que se realiza la proyección del
vector de caracterı́sticas instantáneo —que podemos denominar puntero de
estado o condición—, y en las que, dependiendo del tipo de ventana, se representa de fondo distinta información del proceso codificada con colores —y que
es como visualizar el proceso en sı́—. En MAPREX se dispone actualmente
de los siguientes tipos:
Planos de componentes (ver apartado 4.5.2).
Mapa de distancias (ver apartado 4.5.3).
Mapas de activación (ver apartado 4.5.4).
Mapas de correlaciones (ver apartado 4.5.7).
En cualquiera de estas ventanas y en cualquier posición se puede colocar una
etiqueta, que aparecerá automáticamente en el resto de ventanas del SOM.
Generación de residuos
En una ventana adicional MAPREX puede representar en tiempo real el
vector de residuos instantáneo generado por el SOM como una “cinta” que
se desliza de derecha a izquierda. En vertical se tienen las caracterı́sticas y
en horizontal el tiempo, correspondiendo la parte derecha al instante actual.
Cuando los residuos son nulos, los residuos son verdes. Cuando aparece un
residuo rojo (positivo) quiere decir que la caracterı́stica correspondiente tiene
un valor mayor de lo esperado (de lo estimado por el modelo del SOM).
Cuando aparece un residuo azul (negativo) quiere decir que la caracterı́stica
correspondiente tiene un valor menor de lo esperado (de lo estimado por el
modelo del SOM). Esto permite conocer al instante:
Qué variables están involucradas en el fallo.
El sentido de las desviaciones.
En qué momento se produjo el fallo.
98
CAPÍTULO 6. METODOLOGÍA DE SUPERVISIÓN
Figura 6.4: Pantalla de MAPREX durante una sesión tı́pica.
Capı́tulo 7
Resultados
7.1.
Introducción
En este capı́tulo se verán casos reales de aplicación de las técnicas expuestas en capı́tulos anteriores. En primer lugar se mostrará la aplicación
a monitorización en tiempo real sobre un pequeño motor de inducción en
laboratorio. En segundo lugar se tratará el caso de Data Mining Visual en
un proceso industrial real, un tren de laminación en caliente. Estos ejemplos
están realizados con MATLAB por razones de nitidez en las figuras. También
se muestra una captura de pantalla de la aplicación MAPREX mostrando las
posibilidades que ya tiene implementadas referidas al primer caso en estudio.
7.2.
7.2.1.
Monitorización de sistemas en tiempo real
Descripción del sistema
El sistema a monitorizar consta de un motor de inducción trifásico de
4kW y dos pares de polos con las caracterı́sticas mostradas en el cuadro 7.1.
En los ejemplos funcionará siempre en vacı́o y para variar sus condiciones
de funcionamiento se le introducirán asimetrı́as en su alimentación, tanto
de forma total y brusca (eliminando una fase) como de forma gradual (por
medio de una resistencia variable en una fase). También se le introducirán
asimetrı́as mecánicas en el eje con una pequeña masa desequilibrante. Para la
toma de datos del proceso se utilizaron acelerómetros piezoeléctricos (ICP)
para medir vibraciones, sensores de efecto Hall para medir corrientes y una
resistencia variable con la temperatura PT-100 para medir la temperatura.
El esquema de este sistema se muestra en la figura 7.1.
99
100
CAPÍTULO 7. RESULTADOS
Potencia nominal
Tensión nominal
Corriente nominal
Velocidad
Frecuencia alimentación
cos(φ)
5,5 CV
380 V (Y)
9A
1430 rpm
50 Hz
0,83
Cuadro 7.1: Caracterı́sticas técnicas del motor trifásico.
Corriente S
Corriente R
Desequilibrio
gradual en la
alimentación
Vibración Y
R
Vibración Z
Asimetría
Mecánica
R
S
T
Fallos de fase
totales
m
4 kW
380V 3~
1500 rpm
Vibración X
Figura 7.1: Esquema del equipo de pruebas para el motor trifásico.
7.2. MONITORIZACIÓN DE SISTEMAS EN TIEMPO REAL
7.2.2.
101
Obtención del modelo
Se tomaron datos de temperatura (T ), vibraciones en tres ejes perpendiculares (X, Y y Z) y corrientes en dos (R y S) de las tres fases (denominadas
R, S y T ), muestreados a 20 kHz por ser aproximadamente el doble del ancho
de banda de las señales de vibraciones, las que más ancho de banda tienen de
entre todas ellas. Estos datos incluyeron las siguientes condiciones del motor:
parado, funcionamiento normal, fallo en fase R, fallo en fase S, fallo en fase
T , y la combinación de todas esas condiciones con una asimetrı́a mecánica
(desequilibrio) en el eje1 . Esto hace un total de nueve condiciones diferentes.
Los fallos en la fase R fueron tanto bruscos como graduales, provocados estos
últimos con la resistencia intercalada en dicha fase. Añadido a esto hay que
tener en cuenta que los datos fueron tomados en un intervalo largo de tiempo que incluye una variación de la temperatura del motor desde temperatura
ambiente (unos 20o C) hasta unos 50o C para los datos que posteriormente se
usaron en el entrenamiento, llegando hasta unos 60o C para los datos de test.
Posteriormente, como caracterı́sticas se escogieron la temperatura y los
armónicos múltiplos de la velocidad de giro del motor 1×, 2× y 3× (25, 50
y 75 Hercios) para las vibraciones en los tres ejes X, Y y Z, que proporcionan información sobre fallos mecánicos del motor como desalineamientos o
desequilibrios del rotor. Por otro lado se tomó, también en los tres ejes de vibración, el armónico de 100 Hz, que es útil para detectar desequilibrios en la
alimentación del motor (alimentado a 50 Hz) y, como caso extremo, fallos de
fase. Por último, de las dos corrientes se considerará su armónico fundamental de 50 Hz. Esto hace un total de 15 caracterı́sticas, que se denominarán
como se muestra en la tabla 7.2.
Para la extracción de caracterı́sticas se consideró la temperatura como
variable estática y sólo se usó su valor medio. En el caso del resto de caracterı́sticas se usó una STFT con un tamaño de ventana 8192, un solapamiento
del 90 % y ponderación por ventana de Hanning, y se calcularon los valores
eficaces en bandas de 15 Hz alrededor de las frecuencias centrales correspondientes a cada caracterı́stica. Esto, aplicado a unos 450 segundos de muestras,
generó 9150 datos. Con estos datos se entrenó un SOM de 100 × 100.
7.2.3.
Aplicación del modelo
El primer paso después del entrenamiento, normalmente, es etiquetar el
SOM aprovechando las muestras controladas disponibles. En este caso se
disponı́a de muestras controladas para todas las situaciones consideradas. En
1
Evidentemente, la condición de parado con desequilibrio es idéntica a la de sin desequilibrio.
102
CAPÍTULO 7. RESULTADOS
Caracterı́stica
Temperatura
Armónico 25 Hz vibración eje X
Armónico 50 Hz vibración eje X
Armónico 75 Hz vibración eje X
Armónico 100 Hz vibración eje X
Armónico 25 Hz vibración eje Y
Armónico 50 Hz vibración eje Y
Armónico 75 Hz vibración eje Y
Armónico 100 Hz vibración eje Y
Armónico 25 Hz vibración eje Z
Armónico 50 Hz vibración eje Z
Armónico 75 Hz vibración eje Z
Armónico 100 Hz vibración eje Z
Armónico 50 Hz corriente fase R
Armónico 50 Hz corriente fase R
Nombre largo
Temperatura
X 25Hz
X 50Hz
X 75Hz
X 100Hz
Y 25Hz
Y 50Hz
Y 75Hz
Y 100Hz
Cojinetes 25Hz
Cojinetes 25Hz
Cojinetes 25Hz
Cojinetes 25Hz
Corriente R 50Hz
Corriente S 50Hz
Nomb. abreviado
T
X25
X50
X75
X100
Y25
Y50
Y75
Y100
Z25
Z50
Z75
Z100
R
S
Cuadro 7.2: Variables (caracterı́sticas) escogidas para el motor trifásico.
la figura 7.2 pueden observarse los mapas de activación para algunas de ellas.
Se puede destacar la ventaja de los mapas de activación frente a la simple
proyección de trayectoria con el ejemplo de la figura 7.3. En este ejemplo
aparentemente hay tantos datos en la lı́nea dispersa superior derecha como
en el grupo compacto inferior izquierdo. El mapa de activación, sin embargo,
revela que en el grupo compacto están la mayorı́a de los puntos, proyectados
unos encima de otros.
Una vez etiquetado el SOM, el mapa de distancias tiene el aspecto de
la figura 7.4. En este caso concreto todavı́a habrı́a sido relativamente fácil
identificar las condiciones del motor en el espacio de visualización a la vista
de los planos de componentes, mostrados en la figura 7.5. Para ello bastarı́a
buscar:
dónde los armónicos de 100 Hz de las vibraciones se hacen altos, para
encontrar los fallos de fase
dónde se anulan las corrientes de cada fase, para identificar sus respectivos fallos
dónde los armónicos de 25 Hz2 se hacen altos, para encontrar qué zonas
corresponden a asimetrı́a mecánica en el eje.
2
Frecuencia que corresponde aproximadamente a la velocidad de giro mecánica.
7.2. MONITORIZACIÓN DE SISTEMAS EN TIEMPO REAL
normal
fallo R
fallo S
fallo T
103
Figura 7.2: Mapas de activación para varios grupos de muestras controladas
del motor trifásico.
104
CAPÍTULO 7. RESULTADOS
Mapa de activacion "parado y normal"
Figura 7.3: Comparación entre mapa de activación y trayectoria proyectada
para el motor trifásico.
Mapa de distancias
deseqfallo S
fallo S
deseq
parado
deseqfallo T
normal
deseqfallo R
fallo T
fallo R
Figura 7.4: Mapa de distancias etiquetado para todas las condiciones conocidas del motor trifásico.
7.2. MONITORIZACIÓN DE SISTEMAS EN TIEMPO REAL
105
T
X25
X50
X75
X100
Y25
Y50
Y75
Y100
Z25
Z50
Z75
Z100
R
S
Figura 7.5: Planos de componentes para el caso del motor trifásico.
En los mapas de correlaciones aparecen algunos detalles interesantes que
ilustran la utilidad de los mismos (no se representan aquı́ por ser su número
muy grande). En primer lugar, es fácil identificar de un golpe de vista dónde
la correlación global de un cierto signo es predominante buscando colores
rojos o azules. En este caso aparecen ejemplos muy claros, con mapas de
correlaciones totalmente rojos, como los de todas las combinaciones entre
sı́ de X25, Y25 y Z25. Esto se detectarı́a incluso observando sus planos de
componentes, que son prácticamente idénticos.
En la elección de caracterı́sticas se escogieron varias de ellas aun sospechando a priori estas correlaciones totales por dos razones:
1. Esta redundancia de información facilita la detección de fallos en sensores.
2. Para conseguir un número de caracterı́sticas suficiente para el buen
funcionamiento de los residuos. Aun existiendo el problema de la dimensionalidad, es necesario un cierto número mı́nimo de caracterı́sticas
para que se cumpla la hipótesis del apartado 5.4.
En la figura 7.6(a) se muestra un representación de puntos dispersos de
las caracterı́sticas Y100 y Z100, donde aparecen dos comportamientos claramente diferenciados: uno con correlaciones dudosas y otro con correlación
claramente positiva. En la figura 7.6(b) adyacente, el mapa de correlaciones Y100 Z100 indica claramente a qué condiciones del motor corresponden
106
CAPÍTULO 7. RESULTADOS
Y100 Z100
(a) Representación de puntos de los datos (b) Mapa de correlaciones locales
para el armónico de 100 Hz de la vibración entre el armónico de 100 Hz de la
Y frente al de la Z.
vibración Y y el mismo de la Z.
Figura 7.6: Comparación de los mapas de correlaciones con un representación
de puntos dispersos para el motor trifásico.
esas dos diferentes situaciones: la primera, a las condiciones con asimetrı́a
mecánica en el eje y la segunda, al resto de condiciones.
Con datos de prueba tomados para todas las situaciones consideradas, pero a temperaturas mayores que los datos de entrenamiento, se comprobó que
el modelo era capaz de reconocer las situaciones que se le presentaban y
además avisaba, con el residuo de la temperatura, de que ésta era mayor de
lo normal. Esta situación se muestra en la figura 7.7, directamente en una
captura de pantalla de la aplicación MAPREX.
7.3.
Data Mining de procesos industriales
7.3.1.
Descripción del proceso
Para mostrar algunas de las posibilidades de las técnicas de Data Mining
Visual aplicada a procesos se utilizará el ejemplo de un motor de continua
en un tren de laminación en caliente de Arcelor, que tiene las caracterı́sticas
mostradas en el cuadro 7.3. Se dispone de cuatro variables: corriente de campo
if , corriente de inducido ia , velocidad ω y tensión de inducido Va .
7.3. DATA MINING DE PROCESOS INDUSTRIALES
107
Figura 7.7: Captura de pantalla de MAPREX mostrando residuos para las
mismas condiciones del entrenamiento pero a mayor temperatura para el
motor trifásico en laboratorio.
108
CAPÍTULO 7. RESULTADOS
Potencia:
Tensión de inducido nominal:
Corriente de inducido nominal:
Corriente de campo nominal:
Velocidad nominal:
Velocidad máxima:
Localización:
Caja:
6000 kW
700 V
9000 A
150 A
180 rpm
360 rpm
Tren acabador en caliente
F2
Cuadro 7.3: Caracterı́sticas del motor de continua.
BOBINA
A
B
C
D
E
F
TIEMPO
15:44:48
15:46:41
15:48:53
15:50:47
15:53:04
15:54:44
ESPESOR
1.73
1.73
4.02
4.02
4.02
1.55
ANCHO
1010
1010
1010
1010
1010
1010
ACERO
B085G99
B085G99
B012F53
B012F53
B012F55
B011B99
LIM. ELÁST.
32
32
22
22
22
24
Cuadro 7.4: Etiquetas y propiedades de las seis bobinas laminadas.
7.3.2.
Obtención del modelo
Se dispone de datos que corresponden a la laminación de seis bobinas (ver
cuadro 7.4), divididos en varios segmentos que se etiquetan con una letra que
indica el segmento (a, b, . . . , f), dos caracteres que indican o bien inicio de
laminación (il), o bien los diferentes segmentos durante la laminación (l1, l2,
. . . ), o bien final de laminación (fl). Los caracteres sb significan “sin banda”.
Con los datos procedentes de esas seis bobinas, se entrenó un SOM de 10×10,
que por retroproyección se convirtió a 50 × 50.
7.3.3.
Aplicación del modelo
Observando los planos de componentes de la figura 7.8, una persona que
conozca este proceso de laminación reconocerá en el espacio de visualización
zonas como dónde está laminando y dónde está el tren en vacı́o, dónde funciona a velocidad superior a la nominal y dónde a velocidad inferior, etc.
Es posible también representar planos de variables que no fueron introducidas en el SOM, pero que se pueden obtener de las que sı́ lo fueron, como por
ejemplo, en este caso (figura 7.9), el par generado por el motor Te = K · ia · if ,
donde K es una constante, que no hace falta para representar el plano por
7.3. DATA MINING DE PROCESOS INDUSTRIALES
Corriente de inducido
Tensión de inducido
Corriente de campo
Velocidad
109
Figura 7.8: Planos de componentes para el motor de continua del tren de
laminación.
Par
4
x 10
1.5
1
0.5
0
−0.5
−1
Figura 7.9: Plano de par, variable que no interviene en el entrenamiento del
SOM.
110
CAPÍTULO 7. RESULTADOS
sb6
dfl
ffl_
sb3
sb2
bfl_
sb4
sb5
bl3
bl2
cfl
al4
al3
dfl
bfl
bl5
bl6
bl4
bl7
al6
fil
afl
efl__
bl7_
al5
fl8
fl7
fl5
efl___
cl8
efl_
dl8
sb1
el6
efl
eil
fl2
el5
fl1
el4
dl3
el3’
dl6
el1
dl1
cl2
dl2
fl6
ffl
al1
dl7
cl6
cl1
fl3
al2
ail
dil
cil dfl2
sb6
bl1
cl7
dl5
cl5
cl3
dl4
el2
el3
cl4
(a) Mapa de activación correspondiente a (b) Mapa de distancias etiquetado y con
sb6.
trayectoria de fin de laminación d.
Figura 7.10: Etiquetado del espacio de visualización en el caso del tren de
laminación.
ser la codificación en color relativa. Este plano es útil, en el caso que nos
ocupa, para diferenciar más claramente dónde el tren está laminando (par
mayor que cero) y dónde no (par alrededor de cero y negativo).
Se dispone de datos etiquetados (muestras controladas) puesto que los
datos están divididos en segmentos, identificados como se explicó antes, por
lo que es posible etiquetar sus correspondientes zonas en el espacio de visualización usando mapas de activación. En la figura 7.10(a) se muestra el mapa
de activación para los datos etiquetados como sb6, y en la figura 7.10(b) el
resultado de etiquetar las zonas de todos los segmentos sobre el mapa de distancias, junto con la trayectoria correspondiente al tramo dfl. Lo que primero
se observa es que las laminaciones de las bobinas a y b son muy parecidas
entre sı́, ası́ como las bobinas c, d y e. La bobina f se encuentra en una situación intermedia, pero más parecida a las a y b. Esto concuerda con lo que se
puede observar en el cuadro 7.4 en cuanto a espesor objetivo y tipo de acero.
La información que proporciona el conocimiento de ecuaciones puede ser
incorporada al mapa por medio de los mapas de modelos. Las ecuaciones
para un motor de continua son conocidas y una de ellas es la siguiente:
Va = Ra · ia + La
dia
+ K · if · ω
dt
(7.1)
Si por ejemplo se pretende identificar la zona correspondiente al control de
velocidad por tensión de inducido, es un caso particular de la ecuación (7.1),
donde la corriente de inducido y la de campo son constantes, y la derivada
7.3. DATA MINING DE PROCESOS INDUSTRIALES
residuo zona par máximo
800
500
700
Va (V)
111
400
600
300
500
200
400
100
300
0
−100
200
−200
100
−300
0
−400
−100
0
50
100
ω (r.p.m.)
150
200
250
−500
(a) Modelo del motor para zona de par (b) Mapa del modelo de la zona de par
máximo.
máximo.
Figura 7.11: Mapa de modelo para motor de continua.
se anula al considerar régimen permanente. No se dispone de los parámetros
de la ecuación, pero se pueden estimar de los datos. Ası́, se puede hallar la
recta de regresión que se representa en la figura 7.11(a), y que resulta ser:
f (Va , ω) = Va − 4,08ω + 4,23 = 0
(7.2)
A partir de esta ecuación es inmediato hallar el mapa del modelo que se
presenta en la figura 7.11(b)3 . La zona verde, con residuo nulo, corresponde
con la del funcionamiento del motor según el modelo dado por la ecuación
(7.2).
En cuanto a los mapas borrosos, el primer ejemplo podrı́a ser la estimación de una variable cualitativa. Como en este caso no surge claramente
ninguna variable de carácter tı́picamente cualitativo, a efectos de comparación se usará la variable velocidad ω. Se pueden extraer inmediatamente unas
reglas de los siguientes hechos relacionados con el funcionamiento del motor
de continua y del control con debilitamiento de campo:
1. Cuanto más alta es la tensión de inducido, más alta es la velocidad.
2. Cuanto más baja es la corriente de campo, más alta es la velocidad.
3. Por debajo de la velocidad nominal, la corriente de campo se mantiene
a su valor nominal.
4. Por encima de la velocidad nominal, la tensión de inducido se mantiene
a su valor nominal.
3
Esto mismo se puede deducir de los planos de componentes de la velocidad, la corriente
de campo o la tensión de inducido.
112
CAPÍTULO 7. RESULTADOS
Mapa borroso: Velocidad
Mapa borroso: Laminando
cierto
alta
media
baja
falso
Figura 7.12: Mapas borrosos para el caso del tren de laminación.
y las reglas que surgen de este conocimiento son:
SI (Va ES alta) Y (If ES baja) ENTONCES (Velocidad ES muy-alta)
SI (Va ES alta) Y (If ES media) ENTONCES (Velocidad ES alta)
SI (Va ES alta) Y (If ES alta) ENTONCES (Velocidad ES media)
SI (Va ES media) Y (If ES alta) ENTONCES (Velocidad ES baja)
SI (Va ES baja) Y (If ES alta) ENTONCES (Velocidad ES muy-baja)
De esas reglas se obtiene el mapa borroso de la figura 7.12 (izquierda), que
se puede ver que coincide en gran medida con el plano de componente de la
velocidad.
Otro ejemplo es el mapa borroso mostrado en la 7.12 (derecha), que sirve
para delimitar claramente las zonas donde el tren se encuentra laminando, y
que se obtiene de las reglas:
SI (Va NO ES baja) Y (Ia ES alta) ENTONCES (Laminando ES si)
SI (Va NO ES baja) Y (Ia ES media) ENTONCES (Laminando ES si)
SI (Va ES baja) O (Ia ES negativa) ENTONCES (Laminando ES no)
SI (Va ES baja) O (Ia ES cero) ENTONCES (Laminando ES no)
Las funciones de pertenencia usados en ambos mapas borrosos se encuentran
representados en la figura 7.13.
En lo relativo al análisis de las relaciones de dependencia entre variables,
si se observan detenidamente los planos de componentes de la figura 7.8 se
puede apreciar que el plano de la velocidad es el “negativo” del plano de la
corriente de campo excepto para las regiones donde la tensión de inducido
baja de su valor nominal. Puede llegarse a esta misma conclusión de un solo
vistazo al mapa de correlaciones correspondiente en la figura 7.14. También
7.3. DATA MINING DE PROCESOS INDUSTRIALES
alta
negativa
1
0.8
0.6
0.4
0.2
0
alta
baja
1
0.8
0.6
0.4
0.2
0
200
400
Va
600
no
0.8
0.6
0.4
0.2
0
−2
0
Ia
0
Laminando
1
2
0.6
0.4
0.2
40
funcionando
0.8
0.6
0.4
0.2
0
−1
alta
0.8
5000
no−funcionando
1
Degree of membership
si
1
media
0
−5000
−2
1
Degree of membership
0
Degree of membership
cero media
Degree of membership
media
Degree of membership
Degree of membership
baja
1
113
60
80
100
Ifi
muy−baja baja media
120
140
alta muy−alta
0.8
0.6
0.4
0.2
0
−1
0
Control
1
2
−1
0
1
2
3
Velocidad
4
5
Figura 7.13: Funciones de pertenencia para el caso del tren de laminación.
puede observarse la correlación directa (positiva) entre la tensión de inducido
Va y la velocidad ω en la región complementaria de la anterior, y lo que
puede considerarse una no correlación global entre la tensión de inducido Va
y la corriente de campo if . Todas estas relaciones son fruto del control con
debilitamiento de campo del motor. Otras correlaciones como la globalmente
positiva entre ia y Va se ven claramente reflejadas en la ecuación del motor
(7.1)
También es posible establecer hipótesis acerca del proceso por medio de
los residuos cuando se aplica a datos de condiciones no presentes en los datos
de entrenamiento. Las figuras 7.15 y 7.16 muestran parte de la laminación de
una bobina con acero B085G99 y espesor objetivo 4,06 que no está presente
en los datos de entrenamiento. De la proyección de la trayectoria de estado se
puede deducir que esta laminación se parece más a las c, d y e. Sin embargo
el vector de residuos revela algunas diferencias de esta nueva laminación con
respecto a las mencionadas en las primeras muestras. La nueva situación
se proyecta en la frontera entre sb6, cl1 y dl1. Ya que esa es una zona de
altas distancias neuronales, la condición señalada por el SOM parece ser una
situación intermedia resultante de la interpolación de dichas condiciones, y
respecto a las cuales la corriente de inducido es ahora más alta y la corriente
de campo es ligeramente más baja.
114
CAPÍTULO 7. RESULTADOS
ia ia
ia Va
1
1
0
Va ia
−1
−1
Va Va
1
1
f a
−1
i V
f
1
a
1
0
ω ia
0
0
−1
ω Va
1
1
i ω
f
1
0
1
−1
1
0
−1
ω if
−1
0
−1
f f
0
−1
Va ω
1
i i
1
0
−1
Va if
0
−1
ia ω
1
0
0
i i
ia if
ωω
1
−1
1
0
0
0
0
−1
−1
−1
−1
Figura 7.14: Mapas de correlaciones para el motor de continua del tren de
laminación.
Ia
Va
If
w
50
100
150
200
250
300
Tiempo (muestras)
350
400
450
500
Figura 7.15: Residuos de la laminación de prueba.
7.3. DATA MINING DE PROCESOS INDUSTRIALES
115
datos de prueba de laminación
0
5
10
15
20
25
30
35
40
45
0
5
10
15
20
25
30
35
40
45
Figura 7.16: Trayectoria sobre el mapa de distancias de la laminación de
prueba.
116
CAPÍTULO 7. RESULTADOS
Capı́tulo 8
Conclusiones
8.1.
Conclusiones
En esta tesis se propone un enfoque visual para supervisión de procesos, aplicando técnicas de visualización más allá de la simple monitorización
mediante representación de la evolución de sus variables o los espectros de
sus señales. Ası́, se describe la aplicación de técnicas de reducción de la
dimensión para proyectar datos del proceso, con multitud de variables, en
un espacio visualizable y cómo posteriormente se “cartografı́a” este espacio,
relacionando cada zona con cada condición del proceso, pudiendo usar para
este fin conocimiento expresable en forma de reglas difusas (mapas borrosos),
modelos analı́ticos conocidos (mapas de modelos), casos conocidos —datos
etiquetados— (mapas de activación) y correlaciones entre variables (mapas
de correlaciones). Este enfoque también hace posible la extracción de nuevo
conocimiento acerca del proceso (Data Mining) a través de este espacio de
visualización, dejando todavı́a la puerta abierta a numerosas ideas dentro de
esta misma lı́nea.
Como ventaja de este enfoque frente a otros métodos automáticos de
diagnóstico se puede mencionar la total claridad en la exposición de los mecanismos de inferencia durante el diagnóstico de fallos, puesto que ello es
realizado en última instancia por un ser humano, al que, por medio de sofisticados métodos de visualización, se le ha facilitado enormemente la tarea de
comprender los datos procedentes del proceso supervisado.
El enorme potencial del enfoque de la visualización para la supervisión
de procesos se debe a varias razones:
Explota las capacidades pre-atención (pre-attentive) del ser humano,
consiguiendo una transmisión instantánea de la información proveniente del proceso, de forma que se toma conocimiento de eventos ocurridos
117
118
CAPÍTULO 8. CONCLUSIONES
en él sin la necesidad de la participación del razonamiento.
Se adapta a la forma visual de razonar de las personas, lo que permite
extraer nuevo conocimiento acerca del proceso fácilmente.
Permite la homogeneización de muy diversas formas de conocimiento
del ser humano a través de una representación visual unificada que
permite conectar conceptos.
8.2.
Aportaciones
Son varias las aportaciones de esta tesis:
Un enfoque visual global para la supervisión de procesos, que propone extender la aplicación de las técnicas de visualización a todos los
ámbitos posibles de la supervisión de procesos, usándolas para homogeneizar conocimiento de diversos orı́genes y formas. Ası́, se han añadido
nuevas técnicas a las propuestas parciales ya existentes en la aplicación
de técnicas de visualización a la supervisión. Esto incluye la representación visual en un espacio común de modelos del proceso procedentes
de dos formas de conocimiento: reglas, generalmente deducidas de la
experiencia, y ecuaciones explı́citas, provenientes del conocimiento de
leyes de la fı́sica. Esta idea se presentó en [22], para el 37th Annual
IEEE Industry Applications Society Meeting, IAS’02.
La primera de estas formas propuestas para representación de conocimiento se refiere a los mapas borrosos o mapas de inferencia borrosos,
descritos en el apartado 4.5.5, que permiten representar en el plano de
visualización aquellos estados del proceso que pueden expresarse en
términos de reglas sencillas que relacionan las caracterı́sticas del proceso. Los mapas borrosos fueron presentados en [21], para la Second
Conference of the European Society for Fuzzy Logic and Technology,
EUSFLAT 2001.
El segundo de los métodos propuestos para representación de conocimiento corresponde con los mapas de modelos (analı́ticos), abordados en el apartado 4.5.6, que permiten representar en el plano de
visualización los estados que se ajustan a ecuaciones explı́citas que relacionan las caracterı́sticas del proceso. Los mapas de modelos fueron
presentados en [27], en International Federation of Automatic Control
15th IFAC World Congress.
8.2. APORTACIONES
119
En esta tesis se definen las correlaciones locales, una forma de calcular correlaciones en distintas zonas del espacio de los datos que aporta
una descripción local de las propiedades estadı́sticas de segundo orden.
Esto hace idónea su aplicación para la descripción de conjuntos de datos con dependencias no lineales, tales como los generados por procesos
no lineales en distintos puntos de funcionamiento.
Las correlaciones locales constituyen propiedades locales en el espacio
de entrada que admiten representación en el espacio de visualización.
Como consecuencia de ello, se propone otra técnica que permite extraer nuevo conocimiento e identificar nuevos estados a través de la
visualización en el “mapa del proceso” de las correlaciones existentes
entre las variables del proceso para todos sus puntos de funcionamiento.
Esa idea, constituida por los mapas de correlaciones, descritos en el
apartado 4.5.7, fue presentada en [25], en la International Conference
on Artificial Neural Networks (ICANN’02), y posteriormente aparece
publicada en Lecture Notes in Computer Science.
Por otro lado, aunque se ha hecho hincapié en el uso de técnicas de
proyección concretas (SOM, KR-SOM, GTM), en el apartado 4.3 y
en el capı́tulo 5 se han dado unas pautas que facilitan la elección
de otras técnicas de proyección tanto para la visualización (apdo.
4.3) como para la generación de residuos (cap. 5), haciendo un estudio
y enumerando una serie de propiedades deseables en una técnica de
proyección con vistas a supervisión y Data Mining Visual.
Otra de las propuestas de esta tesis es una formalización, en el capı́tulo 6, del uso de técnicas de visualización aplicadas a supervisión en
términos de una metodologı́a estándar de Data Mining (CRISPDM).
Finalmente todas estas aportaciones se han completado con una implementación software real de este paradigma de supervisión por medio de
técnicas de Data Mining Visual, la aplicación MAPREX, descrita en
el capı́tulo 6, cuyas posibilidades se han visto potenciadas por el uso de
un sistema hardware (computador) portable, que permite la implantación inmediata de un sistema de supervisión polivalente, permanente
o no, en cualquier lugar de la planta. El sistema MAPREX fue presentado en [20], en International Federation of Automatic Control 15th
IFAC World Congress.
120
CAPÍTULO 8. CONCLUSIONES
8.3.
Lı́neas futuras
Existen todavı́a muchas lı́neas abiertas en el enfoque visual para supervisión de procesos:
Todavı́a hay propiedades encerradas en la forma del subespacio topológico —que representa al proceso en el espacio de caracterı́sticas—
que podrı́an ser representadas en el espacio de visualización. Un ejemplo serı́an los valores propios de las matrices de correlaciones locales,
que pueden desvelar la dimensionalidad intrı́nseca del proceso también
de forma local.
La generación de residuos a partir de modelos en datos todavı́a presenta
muchas incógnitas. Entre las posibles vı́as de investigación serı́a cómo
puede eliminarse la hipótesis de la alta dimensionalidad del espacio de
caracterı́sticas o un método de cálculo exacto del vector de fallo aditivo.
Otra lı́nea en las que las técnicas de visualización se revelan prometedoras es el diseño de sensores virtuales. El Grupo de Visualización de
Procesos Complejos del Área de Ingenierı́a de Sistemas y Automática de la Universidad de Oviedo ha abordado en más de un proyecto
el diseño de sensores virtuales [73], para lo cual también se están comenzando a aplicar estas técnicas de Data Mining Visual, y que están
demostrando un gran potencial aplicadas a todos los pasos del diseño:
para la verificación de los datos, la comprensión de los mismos, para la
selección de caracterı́sticas, para la evaluación del sensor virtual, etc.
Algunas de las aportaciones de esta tesis no han tenido todavı́a implementación en un sistema como MAPREX: mapas de modelos, mapas
borrosos. Queda, por tanto, como lı́nea futura la verificación de su utilidad on line sobre un proceso real.
La única forma en la que se ha considerado la información dinámica
en las señales, tanto respecto a desarrollo teórico como a implementación en MAPREX, ha sido en las caracterı́sticas espectrales. Se podrı́a
pensar en considerar la dinámica de las señales en forma de derivadas, principalmente pensando en la realización de mapas de modelos
de ecuaciones diferenciales (o en diferencias).
Es posible complementar las técnicas de visualización con las técnicas
totalmente automáticas de supervisión. No está todavı́a implementada
en MAPREX una etapa posterior con técnicas puramente automáticas
de machine learning que evita la atención continua de un operario sobre
8.3. LÍNEAS FUTURAS
121
el sistema de monitorización. El enfoque visual aportarı́a la flexibilidad
que proporcionan los resultados fácil y completamente interpretables
por un ser humano, y que le permitirı́a contradecir en última instancia los diagnósticos del sistema automático si no está de acuerdo con
ellos, además de tratar los casos que no han sido considerados en dicho
sistema automático.
122
CAPÍTULO 8. CONCLUSIONES
Apéndice A
Nomenclatura
x
y
Smi →gi
Sgi →mi
gi
mi
mij
{xk }k=1,...,K
Ai
c(k)
φ
hij
τ (gi )
f (x)
i
wk (y)
Punto en el espacio de caracterı́sticas. Vector de caracterı́sticas.
Punto en el espacio de visualización.
Proyección del espacio de caracterı́sticas al espacio de visualización.
Proyección del espacio de visualización al espacio de cracterı́sticas.
Puntos de rejilla regular en el espacio de visualización.
Puntos correspondientes a los gi en el espacio de caracterı́sticas.
Componente j del vector mi .
Conjunto de muestras en el espacio de caracterı́sticas.
Valores del mapa de activación correspondientes a los puntos
gi del espacio de visualización.
Neurona ganadora del SOM para el dato xk .
Función base radial.
Función escalar de núcleo de campo receptivo en la posición
de la neurona j respecto a la neurona i.
Valor de mapa borroso en el punto gi del espacio de visualización.
Modelo (parcial) del proceso (analı́tico o FIS) función del
vector de caracterı́sticas.
Residuo del modelo f en el punto gi del espacio de caracterı́sticas. También residuo del modelo fi .
Ponderación del punto xk para el cálculo de media y matriz
de covarianzas locales en el punto y del espacio de visualización.
123
124
σ
µ(y)
C(y)
cij
R(y)
rij
x̂
S(x)
e
ξ
if
ia
Va
Te
ω
Ra
La
APÉNDICE A. NOMENCLATURA
Ancho de funciones de núcleo (funciones base radiales) como
Φ y wk .
Media local en el punto y del espacio de visualización.
Matriz de covarianzas locales en el punto y del espacio de
visualización.
Elementos de la matriz C(y).
Matriz de correlaciones locales en el punto y del espacio de
visualización.
Elementos de la matriz R(y).
Residuo vectorial.
Vector de caracterı́sticas estimado por un modelo.
Modelo basado en datos (concretamente por medio de técnica de proyección).
Error de modelado, equivalente a kk.
Variable aleatoria que genera los valores del vector de caracterı́sticas cuando se usa un modelo probabilı́stico del proceso.
Corriente de campo.
Corriente de inducido.
Tensión de inducido.
Par generado por el motor eléctrico.
Velocidad angular de giro.
Resistencia del bobinado de inducido.
Inductancia del bobinado de inducido.
Bibliografı́a
[1] Esa Alhoniemi, Johan Himberg y Juha Vesanto. Probabilistic measures for responses of self-organizing map units. En H. Bothe, E. Oja,
E. Massad y C. Haefke, editores, International ICSC Congress on Computational Intelligence Methods and Applications (CIMA ’99), páginas
286–290. ICSC Academic Press, 1999.
[2] Neil Arthur y Jim Penman. Induction machine condition monitoring
with higher order spectra. IEEE Transactions on Industrial Electronics, 47(5):1031–1041, octubre 2000.
[3] Peter Ballé y Rolf Isermann. Fault detection and isolation for nonlinear
processes based on local linear fuzzy models and parameter estimation.
En Proceedings of the American Control Conference, páginas 1605–
1609. Philadelphia, Pennsylvania, 1998.
[4] Michèle Basseville y Igor V. Nikiforov. Detection of Abrupt Changes:
Theory and Application. Prentice-Hall, 1993.
[5] Hans-Ulrich Bauer y Klaus R. Pawelzik. Quantifying the neighborhood
preservation of self-organizing feature maps. IEEE Transactions on
Neural Networks, 3(4):570–579, julio 1992.
[6] R. Beguenane. Induction motors thermal monitoring by means of rotor
resistance identification. IEEE Transactions on Energy Conversion,
14(3):566–570, septiembre 1999.
[7] R. Bellman. Adaptive Control Processes: A Guided Tour . Princeton
University Press, New Jersey, 1961.
[8] Mohamed El Hachemi Benbouzid. A review of induction motors signature analysis as a medium for faults detection. IEEE Transactions
on Industrial Electronics, 47(5):984–993, octubre 2000.
125
126
BIBLIOGRAFÍA
[9] Giovanni Betta y Antonio Pietrosanto. Instrument fault detection and
isolation: State of the art and new research trends. IEEE Transactions
on Instrumentation and Measurement, 49(1):100–107, febrero 2000.
[10] Ella Bingham y Heikki Mannila. Random projection in dimensionality
reduction: applications to image and text data. En 7th ACM SIGKDD
International Conference on Knowledge Discovery and Data Mining,
KDD-2001 , páginas 245–250. San Francisco, CA, USA, 2001.
[11] C. Bishop, M. Svensén y C. Williams. Magnification factors for the
GTM algorithm. En IEE Fifth International Conference on Artificial
Neural Networks, páginas 64–69. Cambridge, U.K., julio 1997.
[12] Christopher M. Bishop. Neural Networks for Pattern Recognition. Oxford University Press, 1995.
[13] Christopher M. Bishop, Markus Svensen y Christopher K. I. Williams.
GTM: The generative topographic mapping. Neural Computation,
10(1):215–234, 1998.
[14] Piero P. Bonissone, Yu-To Chen, Kai Goebel y Pratap S. Khedkar. Hybrid soft-computing systems: Industrial and commercial applications.
Proceedings of the IEEE , 87(9):1641–1667, septiembre 1999.
[15] Stuart K. Card, Jock D. MacKinlay y Ben Shneiderman. Readings in
Information Visualization: Using Vision To Think . Morgan Kaufmann
Publishers, San Francisco, 1998.
[16] Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinartz, Colin Shearer y Rüdiger Wirth. CRISP-DM 1.0, stepby-step data mining guide. http://www.crisp-dm.org, 2000.
[17] Tommy W.S. Chow y Hong-Zhou Tan. HOS-based nonparametric and
parametric methodologies for machine fault detection. IEEE Transactions on Industrial Electronics, 47(5):1051–1059, octubre 2000.
[18] Albert Cohen y Jelena Kovačević. Wavelets: The mathematical background. Proceedings of th IEEE , 84(4):514–522, abril 1996.
[19] Pierre Comon. Independent Component Analysis, a new concept ?
Signal Processing, 36(3):287–314, abril 1994. Special issue on HigherOrder Statistics.
BIBLIOGRAFÍA
127
[20] Abel A. Cuadrado, Ignacio Dı́az, Alberto B. Diez, Manuel Domı́nguez,
Juan A. González y Faustino Obeso. MAPREX: A SOM-based condition monitoring system. En International Federation of Automatic
Control 15th IFAC World Congress. Barcelona, Spain, 2002.
[21] Abel A. Cuadrado, Ignacio Dı́az, Alberto B. Diez, Faustino Obeso y
Juan A. González. Fuzzy inference maps for condition monitoring with
self-organizing maps. En Second Conference of the European Society for
Fuzzy Logic and Technology, EUSFLAT 2001 , páginas 55–58. Leicester,
UK, 2001.
[22] Abel A. Cuadrado, Ignacio Dı́az, Alberto B. Diez, Faustino Obeso y
Juan A. González. Visual data mining and monitoring in steel processes. En 37th Annual IEEE Industry Applicatons Society (IAS) Meeting,
páginas 493–500. Pittsburgh, PA, USA, 2002.
[23] Pierre Demartines y Jeanny Herault. Curvilinear component analysis:
a self-organizing neural network for nonlinear mapping of data sets.
IEEE Transactions on Neural Networks, 8(1):148–154, enero 1997.
[24] Duane DeSieno. Adding a conscience to competitive learning. En
Proc. ICNN’88, Int. Conf. on Neural Networks, páginas 117–124. IEEE
Service Center, Piscataway, NJ, 1988.
[25] Ignacio Dı́az, Abel A. Cuadrado y Alberto B. Diez. Correlation visualization of high dimensional data using topographic maps. En International Conference on Artificial Neural Networks, ICANN’02 (Madrid,
Spain), Lecture Notes in Computer Science vol. 2415 , páginas 1005–
1010. Springer, 2002.
[26] Ignacio Dı́az, Alberto B. Diez y Abel A. Cuadrado. Complex process
visualization through continuous self organizing maps using radial basis
functions. En International Conference on Artificial Neural Networks,
ICANN’01, (Viena, Austria), Lecture Notes in Computer Science vol.
2130 , páginas 443–450. Springer, 2001.
[27] Ignacio Dı́az, Alberto B. Diez, Abel A. Cuadrado y Manuel Domı́nguez.
Prior knowledge integration in self organizing maps for complex process
supervision. En International Federation of Automatic Control 15th
IFAC World Congress. Barcelona, Spain, 2002.
[28] Ignacio Dı́az, Alberto B. Diez, Abel A. Cuadrado, Armandino Fombona, Faustino Obeso y Juan A. González. Kernel regression interpolation
128
BIBLIOGRAFÍA
in SOM-based process condition monitoring. En DIAGNOS’2000 . La
Habana, 2000.
[29] Ignacio Dı́az, Alberto B. Diez González, Abel A. Cuadrado Vega y
José M. Enguita González. RBF approach for trajectory interpolation in self-organizing map based condition monitoring. En J.M. Fuertes, editor, Proceedings of the 7th IEEE International Conference on
Emerging Technologies and Factory Automation (ETFA’99), páginas
1003–1010. UPC, Barcelona, Catalonia, Spain, 1999.
[30] Ignacio Dı́az y Jaakko Hollmén. Residual generation and visualization
for understanding novel process conditions. En International Joint
Conference on Neural Networks (IJCNN, WCCI’2002). Honolulu, Hawaii, USA, 2002.
[31] Ignacio Dı́az Blanco. Detección e Identificación de Fallos en Procesos
Industriales Mediante Técnicas de Procesamiento Digital de Señal y
Redes Neuronales. Aplicación al Mantenimiento Predictivo de Accionamientos Eléctricos. Tesis Doctoral, Universidad de Oviedo, 2000.
[32] Richard O. Duda, Peter E. Hart y David G. Stork. Pattern Classification. Wiley-Interscience, 2000.
[33] Alberto J. Ferrer Riquelme. Aplicación del control estadı́stico multivariante. Automática e Instrumentación, (326):62–72, febrero 2002.
[34] Fiorenzo Filippetti, Giovanni Franceschini, Carla Tassoni y Peter Vas.
Recent developments of induction motor drives fault diagnosis using AI
techniques. IEEE Transactions on Industrial Electronics, 47(5):994–
1004, octubre 2000.
[35] Kenneth D. Forbus. Qualitative process theory. Artificial Intelligence,
24:85–168, 1984.
[36] Toshio Fukuda y Takanori Shibata. Theory and applications of neural
networks for industrial control systems. IEEE Transactions on industrial electronics, 39(6):472–489, diciembre 1992.
[37] J.J. Gertler. Survey of model-based failure detection and isolation in
complex plants. IEEE Control Systems Magazine, 8(6):3–11, diciembre
1988.
[38] J.J. Gertler. An evidential reasoning extension to quantitative modelbased failure diagnosis. IEEE Transactions on Systems, Man and Cybernetics, 22(2):275–289, marzo 1992.
BIBLIOGRAFÍA
129
[39] Tom Harris. A Kohonen S.O.M. based, machine health monitoring system which enables diagnosis of faults not seen in the training set. En
International Joint Conference on Neural Networks, IJCNN’93 (Nagoya, Japan), páginas 947–950. IEEE Service Center, Piscataway, NJ,
1993.
[40] T. Hastie y W. Stuetzle. Principal curves. Journal of the American
Statistical Association, 84:502–516, 1989.
[41] Simon Haykin.
Neural Networks, a Comprehensive Foundation.
Prentice-Hall, Inc., 1999.
[42] Akram Hossain, Zafar Ahmed Choudhury y Suzali Suyut. Statistical
process control of an industrial process in real time. IEEE Transactions
on Industry Applications, 32(2):243–249, marzo 1996.
[43] A. Hyvärinen y E. Oja. Independent component analisis: algorithms
and applications. Neural Networks, 13(4–5):411–430, 2000.
[44] Rolf Isermann. On fuzzy logic applications for automatic control, supervision, and fault diagnosis. IEEE Transactions on Systems, Man
and Cybernetics, Part A, 28(2):221–235, marzo 1998.
[45] Rolf Isermann y Peter Ballé. Terminology in the field of supervision, fault detection and diagnosis. Technische Universität Darmstadt, World Wide Web. http://w3.rt.e-technik.tu-darmstadt.
de/institut/terminology.en.html.
[46] Rolf Isermann y Mihaela Ulieru. Integrated fault detection and diagnosis. En IEEE International Conference on Systems, Man and Cybernetics. “Systems Engineering in the Service of Humans”, tomo 1,
páginas 743–748. 1993.
[47] Yumi Iwasaki. Real-world applications of qualitative reasoning. IEEE
Expert Intelligent Systems and their Applications, páginas 16–21, mayo
1997.
[48] J.-S.R. Jang, C.-T. Sun y E. Mizutani. Neuro-Fuzzy and Soft Computing. A Computational Approach to Learning and Machine Intelligence.. Prentice Hall, 1997.
[49] Samuel Kaski. Dimensionality reduction by random mapping: Fast
similarity computation for clustering. En International Joint Conference on Neural Networks, IJCNN’98 , páginas 413–418. IEEE Service
Center, Piscataway, NJ, Anchorage, Alaska, 1998.
130
BIBLIOGRAFÍA
[50] Daniel A. Keim. Designing pixel-oriented visualization techniques:
Theory and applications. IEEE Transactions on Visualization and
Computer Graphics, 6(1):59–78, enero–marzo 2000.
[51] Daniel A. Keim. Visual exploration of large data sets. Communications
of the ACM , 44(8):39–44, agosto 2001.
[52] Stuart K. Kim et al. A gene expression map for caenorhabditis elegans.
Science, 293:2087–2092, septiembre 2001.
[53] Teuvo Kohonen. The self-organizing map. Proceedings of the IEEE ,
78(9):1464–1480, septiembre 1990.
[54] Teuvo Kohonen. Self-Organizing Maps. Springer-Verlag, 1995.
[55] Teuvo Kohonen, Samuel Kaski, Krista Lagus, Jarkko Salojärvi, Jukka
Honkela, Vesa Paatero y Antti Saarela. Self organization of a massive document collection. IEEE Transactions on Neural Networks,
11(3):574–585, mayo 2000.
[56] Teuvo Kohonen, Erkki Oja, Olli Simula, Ari Visa y Jari Kangas. Engineering applications of the self-organizing map. Proceedings of the
IEEE , 84(10):1358–1384, octubre 1996.
[57] Benjamin Kuipers. Qualitative simulation. Artificial Intelligence, 1986.
Reprinted in Qualitative Reasoning about Physical Systems, ed. Daniel
Weld and J. De Kleer, Morgan Kaufmann, 1990, p.236-260 , 26:289–
338, 1986.
[58] Chin-Teng Lin y C.S. George Lee. Neural Fuzzy Systems: A NeuroFuzzy Synergism to Intelligent Systems. Prentice-Hall, 1996.
[59] Yi Lu, Tie Qi Chen y Brennan Hamilton. A fuzzy system for automotive fault diagnosis: Fast rule generation and self-tuning. IEEE Transactions on Vehicular Technology, 49(2):651–660, marzo 2000.
[60] Man-Wai Mak y Sun-Yuan Kung. Estimation of elliptical basis function parameters by the EM algorithm with application to speaker verification. IEEE Transactions on Neural Networks, 11(4):961–969, julio
2000.
[61] Richard J. Mammone, Xiaoyu Zhang y Ravi P. Ramachandran. Robust
speaker recognition. A feature-based approach. IEEE Signal Processing
Magazine, páginas 58–71, septiembre 1996.
BIBLIOGRAFÍA
131
[62] Jianchang Mao y Anil K. Jain. Artificial neural networks for feature
extraction and multivariate data projection. IEEE Transactions on
Neural Networks, 6(2):296–316, marzo 1995.
[63] E.B. Martin, A.J. Morris y J. Zhang. Process perfomance monitoring
using multivariate statistical process control. IEE Proc.-Control Theory
Appl., 143(2):132–144, marzo 1996.
[64] Andrew Craig McCormick. Cyclostationary and Higher-Order Statistical Signal Processing Algorithms for Machine Condition Monitoring.
Tesis Doctoral, Department of Electronic and Electrical Engineering.
University of Strathclyde, mayo 1998.
[65] Jerry M. Mendel. Tutorial on higher order statistics (spectra) in signal
processing and system theory: Theoretical results and some applications. Proceedings of the IEEE , páginas 278–304, 1991.
[66] Sushmita Mitra y Yoichi Hayashi. Neuro fuzzy rule generation: Survey
in soft computing framework. IEEE Transactions on Neural Networks,
11(3):748–768, mayo 2000.
[67] A. Murray y J. Penman. Extracting useful higher order features for
condition monitoring using artificial neural networks. IEEE Transactions on Signal Processing, 45(11):2821–2828, noviembre 1997.
[68] Y. Nakamori y M. Ryoke. Identification of fuzzy prediction models
through hyperellipsoidal clustering. IEEE Transactions on Systems,
Man, and Cybernetics, 24(8):1153–1173, agosto 1994.
[69] Katsuhiko Ogata. Ingenierı́a de Control Moderna. Prentice Hall, 1998.
[70] R.J. Patton, C.J. Lopez-Toribio y F.J. Uppal. Artificial intelligence
approaches to fault diagnosis. En IEE Colloquium on Condition Monitoring Machinery, External Structures and Health (Ref. No. 1999/034).
abril 1999.
[71] W. Pedrycz y H. C. Card. Linguistic interpretation of self-organizing
maps. En IEEE Int. Conf. on Fuzzy Systems, páginas 371–378. IEEE
Service Center, Piscataway, NJ, 1992.
[72] J. Penman y A. Stavrou. Broken rotor bars: their effect on the transient performance of induction machines. IEE Procceedings on Electric
Power Applications, 143(6), noviembre 1996.
132
BIBLIOGRAFÍA
[73] Alberto Pintado Sánchez, Ignacio Dı́az Blanco, Abel A. Cuadrado Vega, Alberto B. Diez González, Faustino Obeso Carrera y Vanesa Lobato Rubio. Virtual sensor design for coating thickness estimation in
a hot dip galvanising line based on interpolated SOM local models.
En 28th Annual Conference of the IEEE Industrial Electronics Society
(IECON’02). Sevilla, España, 2002.
[74] Tomaso Poggio y Federico Girosi. Networks for approximation and
learning. Proceedings of the IEEE , 78(9):1481–1497, septiembre 1990.
[75] John G. Proakis y Dimitris G. Manolakis. Digital Signal Processing.
Principles, Algorithms and Applications. Prentice Hall, 1998.
[76] Mysore Ramaswamy, Sumit Sarkar y Ye-Sho Chen. Using directed
hypergraphs to verify rule-based expert systems. IEEE Transactions
on Knowledge and Data Engineering, 9(2):221–237, marzo–abril 1997.
[77] H. Ritter. Parametrized self-organizing maps. En S. Gielen and
B. Kappen, editors, ICANN93-Proceedings, páginas 568–575. Springer
Verlag, Berlin, Amsterdam, 1993.
[78] R. A. Roberts y C. T. Mullis. Digital signal processing. AddinsonWesley, 1987.
[79] Sam T. Roweis y Lawrence K. Saul. Nonlinear dimensionality reduction
by locally linear embedding. Science, 290:2323–2326, diciembre 2000.
[80] Bernhard Schölkopf. Support Vector Learning. Tesis Doctoral, Technischen Universitat Berlin, septiembre 1997.
[81] Bernhard Schölkopf, Christopher J.C. Burges y Alexander J. Smola,
editores. Advances in Kernel Methods: Support Vector Learning. MIT
Press, 1999.
[82] Bernhard Schölkopf, Alexander Smola y Klaus-Robert Müller. Nonlinear component analysis as a kernel eigenvalue problem. Neural Computation, 10(5):1299–1319, 1998.
[83] O. Simula y E. Alhoniemi. SOM based analysis of pulping process data. En Engineering Applications of Bio-Inspired Artificial Neural Networks. International Work-Conference on Artificial and Natural Neural
Networks, IWANN’99. Proceedings, Vol.2 (Lecture Notes in Computer
Science Vol.1607), páginas 567–77. Springer-Verlag, Berlin, Germany,
1999.
BIBLIOGRAFÍA
133
[84] Timo Sorsa, Hiekki N. Koivo y Hannu Kovisto. Neural networks in
process fault diagnosis. IEEE Transacions on Systems Man and Cybernetics, 21(4):815–849, julio–agosto 1991.
[85] Donald F. Specht. A general regression neural network. IEEE Transactions on Neural Networks, 2(6):568–576, noviembre 1991.
[86] Michio Sugeno y Takahiro Yasukawa. A fuzzy-logic-based approach to
qualitative modeling. IEEE Transactions on Fuzzy Systems, 1(1):7–31,
febrero 1993.
[87] Johan Fredrik Markus Svensen. The Generative Topographic Mapping.
Tesis Doctoral, Aston University, abril 1998.
[88] Peter J. Tavner y James Penman. Condition Monitoring of Electrical
Machines. Research Studies Press Ltd., John Wiley and Sons Inc.,
1987.
[89] Joshua B. Tenenbaum, Vin de Silva y John C. Langford. A global
geometric framework for nonlinear dimensionality reduction. Science,
290:2319–2323, diciembre 2000.
[90] Sergios Theodoridis y Konstantinos Koutroumbas. Pattern Recognition. Academic Press, 1999.
[91] M. Tipping y C. Bishop. Mixtures of probabilistic principal component
analyzers. Neural Computation, 11(2):443–482, 1999.
[92] Zekeriya Uykan, Cüneyt Güzeliş, M. Ertugrul Çelebi y Heikki N. Koivo.
Analysis of input-output clustering for determining centers of RBFN.
IEEE Transactions on Neural Networks, 11(4):851–858, julio 2000.
[93] Juha Vesanto. SOM-based data visualization methods. Intelligent Data
Analysis, 3(2):111–126, 1999.
[94] Juha Vesanto. Data Exploration Process Based on the Self-Organizing
Map. Tesis Doctoral, Helsinki University of Technology, 2002.
[95] Marcos R. Vescovi, Marcelo M. Lamego y Adam Farquhar. Modeling
and simulation of a complex industrial process. IEEE Expert Intelligent
Systems and their Applications, páginas 42–46, mayo 1997.
[96] Thomas Villmann, Ralph Der, Michael Herrmann y Thomas M. Martinetz. Topology preservation in self-organizing feature maps: Exact
definition and measurement. IEEE Transactions on Neural Networks,
8(2):256–266, marzo 1997.
134
BIBLIOGRAFÍA
[97] Jörg Walter. PSOM network: Learning with few examples. En Proc.
Int. Conf. On Robotics and Automation (ICRA) IEEE . 1998.
[98] Jörg Walter y Helge Ritter. Rapid learning with parameterized selforganizing maps. Neurocomputing, 12:131–153, 1996.
[99] Zhenyuan Wang, Yilu Liu y Paul J. Griffin. Neural net and expert
system diagnose transformer faults. IEEE Computer Applications in
Power , páginas 50–55, enero 2000.
[100] Paul J. Werbos. Neurocontrol and elastic fuzzy logic: Capabilities, concepts, and applications. IEEE Transactions on Industrial Electronics,
40(2):170–180, abril 1993.
[101] James R. Whiteley y James F. Davis. Qualitative interpretation of
sensor patterns. IEEE Expert, páginas 54–63, abril 1993.
[102] Bernard Widrow. 30 years of adaptive neural networks: Perceptron,
madaline, and backpropagation. Proceedings of the IEEE , 78(9):1415–
1440, septiembre 1990.
[103] David J. H. Wilson y George W. Irwin. RBF principal manifolds
for process monitoring. IEEE Transactions on Neural Networks,
10(6):1424–1434, noviembre 1999.
[104] Seongkyu Yoon y John F. MacGregor. Fault diagnosis with multivariate statistical models part I: using steady state fault signatures. Journal
of Process Control , 11:387–400, 2001.
[105] Alexander Ypma y Robert P.W. Duin. Novelty detection using selforganizing maps. En International Conference on Neural Information
Processing (ICONIP’97), páginas 1322–1325. Dunedin, New Zealand,
1997.
Descargar