aplicación de técnicas quimiométricas a la resolución de señales

Anuncio
Departamento de Química Analítica
Facultad de Ciencias
Universidad de Cádiz
APLICACIÓN DE TÉCNICAS
QUIMIOMÉTRICAS A LA RESOLUCIÓN DE
SEÑALES ELECTROQUÍMICAS
SOLAPADAS
José María Palacios Santander
Tesis Doctoral
2003
APLICACIÓN DE TÉCNICAS
QUIMIOMÉTRICAS A LA RESOLUCIÓN DE
SEÑALES ELECTROQUÍMICAS
SOLAPADAS
Tesis Doctoral
José María Palacios Santander
Director
Director
José Luis Hidalgo Hidalgo de
Cisneros
Ignacio Naranjo Rodríguez
Profesor Titular del Departamento de
Química Analítica
Universidad de Cádiz
Profesor Titular del Departamento de
Química Analítica
Universidad de Cádiz
Memoria presentada para optar al grado
de Doctor en Ciencias Químicas
José María Palacios Santander
JOSÉ LUIS HIDALGO HIDALGO DE CISNEROS, PROFESOR TITULAR DE
UNIVERSIDAD, E IGNACIO NARANJO RODRÍGUEZ, PROFESOR TITULAR DE
UNIVERSIDAD,
DEL
DEPARTAMENTO
DE
QUÍMICA
ANALÍTICA
DE
LA
UNIVERSIDAD DE CÁDIZ,
CERTIFICAN:
Que el presente trabajo de investigación ha sido realizado en los
laboratorios del Departamento de Química Analítica bajo nuestra dirección,
reuniendo las condiciones exigidas para optar al Grado de Doctor en Ciencias
Químicas.
Y para que conste, expedimos y firmamos el presente certificado.
Cádiz, 22 de Septiembre de 2003
J. L. Hidalgo Hidalgo de Cisneros
I. Naranjo Rodríguez
JUAN ANTONIO PÉREZ-BUSTAMANTE DE MONASTERIO, CATEDRÁTICO DE
UNIVERSIDAD Y DIRECTOR DEL DEPARTAMENTO DE QUÍMICA ANALÍTICA DE LA
UNIVERSIDAD DE CÁDIZ,
CERTIFICA:
Que el presente trabajo de investigación, realizado en los laboratorios del
Departamento de Química Analítica bajo la dirección conjunta de los Profesores
José Luis Hidalgo Hidalgo de Cisneros e Ignacio Naranjo Rodríguez, reúne las
condiciones exigidas para optar al Grado de Doctor en Ciencias Químicas.
Y para que conste, expido y firmo el presente certificado.
Cádiz, 22 de Septiembre de 2003
Juan Antonio Pérez-Bustamante de Monasterio
AGRADECIMIENTOS
Quisiera expresar mi más sincero y profundo agradecimiento a mis Directores de
Tesis: los Profesores Titulares de Universidad, D. José Luis Hidalgo Hidalgo de Cisneros y
D. Ignacio Naranjo Rodríguez, pertenecientes al Departamento de Química Analítica de la
Universidad de Cádiz. A José Luis Hidalgo por dirigirme y animarnos (a él mismo y a mí)
a introducirnos en el complejo mundo de la Quimiometría, fundamentalmente, el
relacionado con las redes neuronales, así como en el de los electrodos sol-gel; dos áreas en
las que no aconsejo a nadie que se inmiscuya si no se ha confesado previamente: nosotros
lo hicimos, pero aún así costó lo suyo (Dios no da nada por nada). Gracias de todo corazón
por inculcarme paciencia y tranquilizarme cuando ésta me fallaba, además de por darle la
vuelta completamente a cada trozo de manuscrito de la Tesis que te entregaba para que me
corrigieras. Y a Ignacio Naranjo también por dirigirme y, sobre todo, por la gran cantidad
de explicaciones y consejos prácticos que me dio durante el desarrollo de la Tesis; gracias
por tomarte con buen humor los momentos difíciles y por ayudarme a poner los pies en el
suelo en muchas ocasiones.
También quiero dar las gracias de un modo sincero y especial al Prof. Renato
Seeber, perteneciente al Dipartimento di Chimica de la Università degli Studi di Modena e
Reggio Emilia (Italia), por la maravillosa acogida, tanto personal como profesional, que me
dispensó en su grupo de investigación durante los ocho meses que viví en Modena: Grazie
mille, Prof!! Del mismo modo, aprovecho para extender mi agradecimiento a todos los
componentes del grupo de investigación liderado por el Prof. Seeber; en particular a
Marina y Alle (que ya es padre), quienes me introdujeron hasta límites insospechados en el
mundo de la transformada wavelet y de la Quimiometría de alto nivel: gracias por ser tan
pacientes con un neófito como yo; al Prof. Lorenzo Tassi, por tutearme, portarse tan bien
conmigo y tratarme como a uno de sus numerosos “hijos” (mai in mia vita dimenticheró il
viaggio a Pompei, Prof!!); a Caterina, Giorgia y Giorgina (la Principessa dei Puffi), tres de
mis muchas sufridoras, por su sinceridad y dulzura; a Matteo, una de las mejores personas
que conozco; a Andrea, Laura y Chiara, por ser como son (aunque el primero se las traiga);
a Moris, que quiso llevarme siempre de juerga y yo no lo dejé; a Enrico, por prestarnos
siempre su garaje- trastero-casadecampo-loquefueseaquello para reunirnos y echar un buen
rato juntos; al Prof. Baraldi y esposa y al Prof. Zanini y esposa, por acogerme en un
momento u otro en sus respectivos hogares y enseñarme tantas cosas; y, finalmente, al Prof.
Franchini, por su sencillez y simpatía (dije ‘pura’, Prof, y no ‘pure’!). Si me olvido de
alguno, no os preocupéis que os tengo presentes a todos.
A Dª. Mª Purificación Hernández Artiga y Dª. Mª Dolores Bellido Milla: Profesoras
Titular y Asociada, respectivamente, del departamento de Química Analítica de la
Universidad de Cádiz. Muchas gracias por todos vuestros consejos, siempre dados con
verdadera ilusión, por los buenos ratos que hemos pasado juntos y por el interés que
siempre habéis demostrado en el campo de la investigación: mientras existan personas
como vosotras en el mundo, la Ciencia saldrá adelante. Yo también espero que con el
tiempo os llevéis bien con los ordenadores.
A mis compañeros de grupo: Laura, María del Mar, Carlos, Anabel, José Antonio,
Yoquin, Miguel, Marta y Patricia; simplemente, no hay palabras para expresaros toda mi
gratitud por vuestro apoyo, cariño y amistad, hasta cuando estáis lejos. Siempre habéis
sido, sois y seréis los mejores. Además, a vosotros también os gusta la juerga y eso siempre
es de agradecer. Gracias por conocer mi lado más oscuro y respetarlo la mayoría de las
veces. Y no me olvido de todos aquellos que han formado parte en alguno u otro momento
de nuestro grupo, sobre todo de los italianos, marroquíes y cubanos que han trabajado o
continúan trabajando con nosotros: Bárbara, siempre dulce y cariñosa; Mohammed,
Hicham y Nissrin, a quienes, respectivamente, les gusta mucho la política, los tacos en
cualquier idioma (éste es de los míos), y que yo arregle los desaguisados que arma en los
ordenadores (y van tres, al menos); y Osvaldo, mi cubano preferido, aunque atípico, que
habla poco, pero cuando lo hace, no tiene desperdicio.
Muchas gracias también a Andrés Jiménez, integrante del Servicio de Informática
Científica y Estadística de la Universidad de Cádiz, por iniciarme en la estadística y
quimiometría. Ya se sabe que todos los comienzos son duros, pero tú facilitaste bastante la
labor, sobre todo cuando no me exigías que el trabajo estuviese hecho para ayer.
A todo el personal del Departamento de Química Analítica de la Universidad de
Cádiz: sin papeles, becari@s, compañer@s, profesores y profesoras en general, gracias a
todos por ser como sois, por vuestras palabras de ánimo, por el interés tanto personal como
científico demostrado en todo momento y, particularmente, por vuestras sonrisas y bromas
(ya sabéis lo que me gusta una buena juerga). En particular, doy las gracias a Patricia, por
aguantar mis “curiosos” saludos y, sobre todo por responder a ellos con alegría y buen
humor (que siempre hacen buena falta); a Juan, por su amabilidad e interés; a Mariló y a
José Antonio, por pedirnos siempre las lámparas (no cojáis complejo de electricistas, ¿eh?);
a Domi, por las buenas charlas de despacho que nos hemos pegado algunas veces (bueno,
charlaba yo y tú “escuchabas”); y a Mauricio por su sonrisa pronta. Quiero expresar
especialmente mi agradecimiento a Pepe Reino y José Luis Insúa, por compartir siempre
sus bromas conmigo, por proporcionarme al momento todo aquello que he necesitado y por
su simpática amistad. No me olvido de Mª Carmen, siempre al pie del cañón, quien me ha
mostrado la necesidad de limpiar de vez en cuando la mesa del despacho: perdona por
haberte impedido realizar tu trabajo tantas veces y por pisar el suelo mojado acabado de
fregar (nunca olvidaré la primera vez que lo hice, hace ya unos cuantos años).
Al Ministerio de Ciencia y Tecnología por conceder la financiación para el Proyecto
BQU2000-0455, que ha contribuido en parte a la realización de la presente Memoria. Al
Ministerio de Educación, Cultura y Deportes por la beca FPU que me fue concedida y que
ha hecho posible el desarrollo de esta Tesis. Asimismo, hay que agradecer también la
financiación prestada por la Junta de Andalucía a nuestro grupo de investigación.
A todos aquellos que conocí durante mi estancia en Módena: españoles, italianos,
franceses, alemanes, ingleses, escoceses, finlandeses, austriacos, rumanos, portugueses,
brasileños, ¡¡¡australianos!!! y un largo etcétera. En especial a: mi buen amigo Stelian, mi
rumano preferido, que pasamos juntos tan buenos momentos con el lambrusco, la grappa y
el frizzantino (qué pena que no te gustase el chorizo ‘metío’ en manteca); Giuseppe, mi
buen amigo y granuja siciliano; Susana y Carmen, por ser tan buenas amigas; Luis, Carlos,
Jesús I y Jesús II, por reírse tanto conmigo y por las inolvidables salidas nocturnas. En
definitiva, gracias a todos, Erasmus y no Erasmus por haber compartido aquellos
momentos de mi vida.
A mi hermano Sito, al que pocas veces he confesado cuánto lo quiero, por todo lo
que me ha ayudado siempre y por todas las cosas que ha compartido conmigo, a pesar de
que sea un cascarrabias algunas veces (como yo).
A mis padres, María y Pedro por amarme tanto y aguantarme aún más: gracias por
inculcarme tan buenos valores y por permitirme estar hoy aquí, defendiendo mi Tesis
Doctoral; en definitiva, gracias por darme la vida y darme la oportunidad de gozarla, tanto
en las alegrías como en las penas.
A toda mi familia, tanto natural como política; en particular a mis tías Pepi y Ana,
por preocuparse siempre por mí y desearme lo mejor; a Miguel y Paqui, mis segundos
padres; y, finalmente, a Miguelón y María, mis hermanos pequeños.
A mis fieles y eternos amigos Marco y María del Mar, por estar ahí siempre que os
he necesitado y también por tantos momentos inolvidables que hemos pasado juntos. Y a
mi buen amigo Sergio, compañero de penurias durante el Servicio Militar, por estar
también ahí, aunque haya sido al otro lado de la red.
Para terminar, quiero dar las gracias a la persona más importante de mi vida, a la
mujer que me va a aguantar hasta que la muerte nos separe, a mi compañera y amiga, a mi
novia y confidente, a mi amor y mi vida: Laura. Ella ha sido un pilar fundamental en el que
sustentar mi vida y ha participado tanto directa como indirectamente en la presente Tesis
Doctoral: dando apoyo moral y físico, soportando mis rabietas y parrafadas soeces cuando
algo no salía como yo esperaba, estando siempre a mi lado (muchas veces, literalmente),
animándome en los buenos y malos momentos, y un infinito etcétera. Gracias por tu amor,
por tu simpatía, tu cariño, tus risas y llantos, y, en definitiva, por ser quien eres: una
persona maravillosa.
A la persona que lo es Todo
en mi vida: Laura.
A mis padres y hermanos,
naturales y políticos.
“Comprender las cosas que nos rodean es
la mejor preparación para comprender las
cosas que hay más allá.”
Hipatia, filósofa y matemática egipcia
(aprox. 370 – aprox. 415).
Índice
i
ÍNDICE
ÍNDICE
ÍNDICE DE FIGURAS
ÍNDICE DE TABLAS
i
ix
xv
OBJETO DEL TRABAJO
1
CCAAPP ÍÍTT UULLOO II::INTRODUCCIÓN
1) El Método Sol-Gel
1.1. Breve descripción del proceso sol-gel
1.2. Utilización de ultrasonidos de alta potencia para sintetizar
geles: sonogeles
2) Aplicaciones Electroquímicas De Los Materiales SolGel
3) Características Generales De La Fabricación De
Materiales Sol-Gel Con Fines Electroquímicos
4) Técnicas Voltamperométricas Empleadas En Esta
Memoria
4.1. Voltamperometría de impulso diferencial
4.2. Voltamperometría de redisolución anódica de impulso
diferencial
5) Contribuciones Del Grupo De Trabajo En El Campo
De Los Materiales Sol-Gel
5.1. Procedimiento de preparación de los electrodos
6) El Problema De La Superposición De Señales Y Su
Resolución
7) Transformadas De Funciones
7.1. Conceptos fundamentales: visión global de la teoría del
procesamiento de señales
7.2. Fundamentos de la transformada de Fourier (FT)
Aplicaciones de la FT
7.3. Fundamentos de la transformada de Fourier dependiente del
tiempo (STFT)
Aplicaciones de la STFT
7.4. Fundamentos de la transformada wavelet (WT)
Antecedentes históricos y aspectos generales de las wavelets
Transformada wavelet continua (CWT)
El parámetro de escala
Cálculo de la CWT
Resolución del tiempo y la frecuencia
Aproximación matemática de la teoría wavelet
Vectores de una base
Producto interno, ortogonalidad y ortonormalidad
La síntesis wavelet
Discretización de la transformada wavelet continua: las
Series Wavelet
El análisis multirresolución: la transformada wavelet discreta
5
7
7
9
11
21
24
26
27
29
30
32
34
34
38
40
44
49
50
51
52
53
54
59
61
61
63
66
66
71
ii
Índice
La codificación sub-banda y el análisis multirresolución
Generalización de la transformada wavelet: la transformada
wavelet en “paquetes”
Aplicaciones de la WT
8) Calibración Multivariante
8.1. Técnicas empleadas en calibración multivariante
Regresión lineal múltiple (MLR)
Análisis de componentes principales (PCA)
Regresión de componentes principales (PCR)
Regresión por mínimos cuadrados parciales (PLS)
Redes neuronales artificiales (ANN)
8.2. Validación de los modelos de calibración multivariante
8.3. Otros aspectos relacionados con la calibración multivariante
Diseño de calibración
Pretratamiento de datos
Outliers
8.4. Últimos avances en calibración multivariante
Selección de características
Modelos de transferencia de calibración
8.5. Métodos no lineales de calibración multivariante
9) Redes Neuronales Artificiales (ANNs)
9.1. Antecedentes históricos
9.2. Estructura de una red neuronal y conceptos relacionados
9.3. Mecanismos de aprendizaje de las redes neuronales
Aprendizaje supervisado
Aprendizaje no supervisado
9.4. Entrenamiento de la red neuronal
9.5. Tipos de redes neuronales
Perceptrones
Red neuronal de Hopfield
Memoria asociativa bidireccional adaptativa
Red neuronal de Kohonen
9.6. Red neuronal de alimentación directa
Algoritmo de retropropagación
Validación de redes MLF
Inconvenientes que presentan las redes MLF
9.7. Aplicaciones químicas de las redes neuronales
Reconocimiento de patrones
Interpretación de espectros
Control de calidad y análisis de procesos
Dilucidación de estructuras
Modelización y calibración multivariante no lineal
Relaciones cuantitativas de estructura-actividad (QSAR)
Procesamiento de señales
Otras aplicaciones
71
80
81
85
87
88
90
93
96
100
101
102
102
103
108
109
109
110
115
116
118
119
124
125
127
128
130
130
131
132
133
136
137
140
141
142
143
145
146
146
147
150
151
152
CCAAPP ÍÍTTUULLOO IIII::INSTRUMENTACIÓN, REACTIVOS Y PROCEDIMIENTOS
1) Aparatos Y Materiales
1.1. Aparatos
1.2. Materiales
153
155
155
156
Índice
iii
2) Software
3) Reactivos Empleados
3.1. Especies orgánicas
3.2. Especies inorgánicas
3.3. Especies de los electrodos y del sistema electroquímico
4) Preparación De Disoluciones
4.1. Disoluciones de especies inorgánicas
4.2. Disoluciones de especies orgánicas
4.3. Disolución de HCl
4.4. Reguladoras y otros medios electrolíticos
Reguladora ácido acético / acetato amónico
Reguladora Britton-Robinson (0,04 M, I = 0,01)
4.5. Disolución de polietilenglicol
5) Procedimiento De Preparación De Los Electrodos
157
157
157
157
158
158
158
159
159
159
159
159
160
160
CCAAPPÍÍTTUULLOO IIIIII::CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA TL+ /
PB2+
1) Características Del Sistema
1.1. El elemento talio
Antecedentes históricos
Descripción
Obtención
Aplicaciones
Toxicidad en seres humanos y mamíferos
Toxicidad en plantas
Comportamiento en el medio ambiente
1.2. El elemento plomo
Antecedentes históricos
Descripción
Obtención
Aplicaciones
Toxicidad en seres humanos y mamíferos
Toxicidad en plantas
Comportamiento en el medio ambiente
2) Antecedentes En El Estudio De Mezclas De Tl+ y Pb2+
3) Descripción Del Método Experimental
3.1. Parámetros empleados en la determinación voltamperométrica
Etapa de purga
Etapa de electrodeposición
Etapa de redisolución y medida
Otros parámetros
3.2. Procedimiento experimental
4) Resultados De La Determinación Voltamperométrica
4.1. Patrones puros de talio y plomo
4.2. Mezclas de los patrones de talio y plomo
Parámetros para las muestras del patrón Tl+ puro
Parámetros para las muestras del patrón Pb2+ puro
Parámetros para las mezclas de calibración
Parámetros para las mezclas de comprobación externas (test set
externo)
163
165
165
165
165
165
165
166
167
167
168
168
168
168
169
169
171
171
173
175
177
177
177
178
178
178
179
180
181
183
183
183
184
iv
5) Estudios Previos Realizados Sobre El Sistema Tl+ /
Pb2+
5.1. Aplicación de técnicas para el análisis exploratorio de datos
Análisis lineal discriminante
Análisis de componentes principales
5.2. Métodos de predicción o de separación de señales
Estimación por interpolación
Redes neuronales artificiales
Redes neuronales como método de reconocimiento de
patrones
Redes neuronales como método de calibración
multivariante
6) Métodos
De
Reducción
De
Dimensiones
En
Conjunción Con Redes Neuronales Artificiales.
Estudio Comparativo Incluyendo Otros Métodos
Estadísticos
6.1. Objetivo y resumen del trabajo
6.2. Descripción del proceso de reducción de dimensiones
Reducción de dimensiones mediante FT
Reducción de dimensiones mediante WT
Comparación de ambos procesos de reducción de dimensiones
6.3. Aplicación de métodos de calibración multivariante
Redes neuronales artificiales
Redes neuronales artificiales basadas en coeficientes de
Fourier
Redes neuronales artificiales basadas en coeficientes
wavelet
Estudio comparativo de los dos tipos de modelos
neuronales
Métodos de calibración multivariante tradicionales
Regresión de componentes principales (PCR)
Regresión de mínimos cuadrados parciales (PLS)
Estudio comparativo de los métodos estadísticos empleados
6.4. Conclusiones
7) Análisis Multicomponente De Señales Electroquímicas En El Dominio Wavelet
7.1. Objetivo y resumen del trabajo
Algunos aspectos relacionados con el análisis multirresolución y
la selección de caracteres
Resumen de la metodología empleada
7.2. Breve descripción del algoritmo y de las técnicas empleadas
Algoritmo empleado en el proceso de selección de caracteres
Filtros wavelet y valores de los parámetros empleados en
el algoritmo
Regresión por mínimos cuadrados parciales (PLS)
Regresión multilineal (MLR)
Redes neuronales artificiales (ANN)
7.3. Discusión de los resultados obtenidos
7.4. Conclusiones
Índice
184
185
185
186
188
188
191
192
194
198
200
204
205
207
208
208
209
212
214
216
218
218
219
219
222
223
223
225
227
228
228
233
235
236
237
238
248
Índice
v
8) Estudio De La Importancia De Los Parámetros De Pico
A La Hora De Resolver Señales Electroquímicas
Solapadas
8.1. Objetivo y resumen del trabajo
8.2. Parámetros que definen los picos voltamperométricos
8.3. Características de los modelos de calibración multivariante
Regresión multilineal (MLR)
Regresión por mínimos cuadrados parciales (PLS)
Redes neuronales artificiales (ANN)
8.4. Discusión de los resultados obtenidos
Regresión multilineal (MLR)
Regresión por mínimos cuadrados parciales (PLS)
Redes neuronales artificiales (ANN)
8.5. Conclusiones
9) Conclusiones Finales A La Calibración Multivariante Del Sistema Tl+ / Pb2+
249
252
253
254
254
255
256
257
257
259
260
264
CCAAPPÍÍTTUULLOO IIV
V::CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4CLORO-3-METILFENOL, 4-CLOROFENOL, 2,4-DICLOROFEN OL Y 2,4,6-TRICLOROFEN OL
1) Fenoles Y Clorofenoles En General
1.1. El fenol y los fenoles en general
1.2. Los clorofenoles
2) Características Del Sistema
2.1. El compuesto orgánico 4-cloro-3-metilfenol (MF)
Descripción
Aplicaciones
Toxicidad
Comportamiento en el medio ambiente
2.2. El compuesto orgánico 4-clorofenol (CF)
Descripción
Aplicaciones
Toxicidad
Comportamiento en el medio ambiente
2.3. El compuesto orgánico 2,4-diclorofenol (DCF)
Descripción
Aplicaciones
Toxicidad
Comportamiento en el medio ambiente
2.4. El compuesto orgánico 2,4,6-triclorofenol (TCF)
Descripción
Aplicaciones
Toxicidad
Comportamiento en el medio ambiente
3) Antecedentes En El Estudio De Mezclas De
Clorofenoles
4) Estudios Previos Realizados Sobre El Sistema De Los
Clorofenoles
4.1. Establecimiento de las condiciones experimentales
Composición y pH del medio regulador
264
267
269
269
273
274
274
275
275
276
276
277
278
278
278
279
279
279
279
280
280
281
281
281
282
282
283
286
286
287
vi
Técnica voltamperométrica
Preacondicionamiento y estabilización de los electrodos
Sonogel-Carbono
4.2. Selección de los analitos
4.3. Determinación de las concentraciones de los analitos: cálculo
del límite de detección
5) Descripción Del Método Experimental Empleado
Finalmente Durante El Proceso De Calibración
Multivariante
5.1. Parámetros empleados en la determinación voltamperométrica
Etapa de limpieza electroquímica: pretratamiento
Etapa de medida: pretratamiento
Etapa de limpieza electroquímica y medida: barrido
5.2. Procedimiento experimental
6) Resultados De La Determinación Voltamperométrica
6.1. Patrones puros de los clorofenoles
6.2. Mezclas de los patrones de los clorofenoles
Parámetros para los patrones puros de los clorofenoles
4-cloro-3-metilfenol (MF)
4-clorofenol (CF)
2,4-diclorofenol (DCF)
2,4,6-triclorofenol (TCF)
Parámetros para las mezclas de los patrones de los clorofenoles
Grupo del diseño de experimentos completo 34 (81
mezclas)
Grupo del diseño de experimentos completo 24 (16
mezclas)
Grupo del diseño de experimentos fraccionario (60
mezclas)
Discusión de ciertos datos experimentales obtenidos en la
determinación de las mezclas
El problema de la no aditividad entre las señales
Tendencias en los valores de intensidad de las mezclas
7) Estudios Desarrollados Para La Calibración Multivariante Del Sistema De Los Clorofenoles
7.1. Objetivo y resumen del trabajo
Resumen de la metodología empleada
7.2. Aplicación de técnicas para el análisis exploratorio de datos
Representación de las señales en un espacio multidimensional
Análisis de clusters
Análisis de componentes principales (PCA)
7.3. Selección de los diferentes conjuntos de muestras:
entrenamiento (trn), validación interna (val) y validación
externa (tst)
Distribución original de las mezclas (orig)
Distribución aleatoria de las mezclas basada en dos conjuntos
(rand2)
Distribución aleatoria de las mezclas basada en los tres
conjuntos (rand3)
Distribución de las mezclas basada en un diseño ortogonal (OA)
Índice
287
287
289
294
298
300
301
301
301
301
303
303
305
310
310
310
310
311
311
311
313
314
316
316
318
323
323
325
328
328
332
334
336
337
339
340
341
Índice
vii
7.4. Aplicación de técnicas para el pretratamiento de las señales
Corrección de línea base manual (LB)
Standard Normal Variate (SNV)
Multiplicative Scatter Correction (MSC)
Orthogonal Signal Correction (OSC)
7.5. Breve descripción del algoritmo WILMA y de las técnicas
empleadas en la calibración multivariante
Regresión por mínimos cuadrados parciales (PLS)
Algoritmo WILMA (Wavelet Interface to Linear Modelling
Analysis)
Procedimiento basado en MLR
Procedimiento basado en PLS
7.6. Discusión de los resultados obtenidos
Resultados de la aplicación del método PLS sin selección de
caracteres (PLS ssc)
Resultados de la aplicación del algoritmo WILMA
Procedimiento de transferencia de calibración (CT)
7.7. Conclusiones
8) Estudios Actualmente En Desarrollo Y A Culminar
En Un Futuro Próximo
8.1. Investigaciones que se encuentran actualmente en fase de
desarrollo
8.2. Investigaciones que se prevé abordar en un futuro próximo
344
344
346
347
348
CCAAPP ÍÍTT UULLOO V
V::CONCLUSIONES FINALES
399
AAPP ÉÉNNDDIICCEE II::RESUMEN EN INGLÉS
1) Objective
2) Introduction
2.1. The problem of overlapped signals in voltammetric techniques
2.2. Electrochemical systems and some aspects of instrumentation
2.3. The Sonogel-Carbon composite electrode
Electrode preparation procedure
3) First Steps In The Resolution Of The Inorganic
Electrochemical System
3.1. Voltammetric parameters used
3.2. Exploratory data analysis
3.3. Prediction and separation of signals
Method of estimation based on interpolation
Artificial neural networks
ANN as a pattern recognition method
ANN as a multivariate calibration technique
4) Article Published In The Scientific Journal:
‘Microchimica Acta’
5) Article Published In The Scientific Journal: ‘Talanta’
6) Study of Importance of Peak Parameters to Resolve
Overlapped Electrochemical Signals
6.1. Parameters defining the voltammetric peaks
6.2. Results obtained
407
409
409
409
410
412
413
350
350
351
353
354
360
360
367
377
391
394
394
397
414
414
416
417
417
419
419
420
422
422
422
424
425
viii
Índice
7) Multivariate Calibration On Highly Overlapped
Electrochemical Signals Of Quaternary Mixtures Of
Chlorophenols Determined By A Peg-Modified
Sonogel-Carbon Electrode
7.1. Defining the problem
7.2. Application of chemometric techniques
Partial least-square regression (PLS)
The wavelet-based calibration algorithm
Calibration transfer procedure
7.3. Future work
8) References
428
428
430
432
433
436
438
438
AAPP ÉÉNNDDIICCEE IIII::AARRTTÍÍCCUULLOO PPUUBBLLIICCAADDOOEENNLLAARREEVVIISSTTAACCIIEENNTTÍÍFFIICCAA““M
MIICCRROOCCHHIIM
MIICCAA
AACCTT AA””
443
AAPPÉÉNNDDIICCEE IIIIII:: AARRTTÍÍCCUULLOO PPUUBBLLIICCAADDOO EENN LLAA RREEVVIISSTTAA CCIIEENNTTÍÍFFIICCAA ““TTAALLAANNTTAA””
455
BBIIBBLLIIOOGGRRAAFFÍÍAA
473
Índice de figuras
ix
ÍNDICE DE FIGURAS
CCAAPP ÍÍTT UULLOO II
Figura I.1.Figura I.2.Figura I.3.Figura I.4.Figura I.5.Figura I.6.Figura I.7.Figura I.8.Figura I.9.Figura I.10.Figura I.11.Figura I.12.Figura I.13.Figura I.14.Figura I.15.Figura I.16.Figura I.17.Figura I.18.Figura I.19.Figura I.20.Figura I.21.Figura I.22.Figura I.23.Figura I.24.Figura I.25.-
Señal de excitación en voltamperometría de impulso
diferencial.
Insonación de la mezcla precursora de un sol mediante un
sistema generador de ultrasonidos de alta potencia.
Esquema gráfico de las etapas que constituyen el proceso de
separación de los electrodos compuestos Sonogel-Carbono.
Comparación de señales estacionarias (A) y no-estacionarias
(B).
Esquema de un proceso de reducción de dimensiones
utilizando la FT.
Ejemplo de una señal no-estacionaria.
STFT de una señal no-estacionaria.
Diferentes funciones de ventana con diverso “soporte”.
Resultado de aplicar la STFT con cada ventana.
Ejemplo de una señal obtenida de una aplicación práctica.
Ejemplos de funciones wavelet madre.
Ejemplo de aplicación de la transformada wavelet continua:
A) s=1; B) s=5 y C) s=20.
Resultado de aplicar una transformación wavelet sobre una
señal no-estacionaria
Esquema representativo de la resolución en tiempo y
frecuencia tras aplicar una transformación wavelet.
Esquema de las diferencias de resolución obtenidas tras
aplicar FT, STFT y WT.
Ejemplo de A) señal no-estacionaria y B) su respectiva CWT.
Rejilla de muestreo diádica.
Esquema de aplicación del algoritmo de Mallat.
Ejemplo de A) señal y B) su respectiva DWT.
Esquema del algoritmo de Mallat para un proceso de
descomposición en “paquetes”.
Esquema de aplicación de la SNV sobre un voltamperograma.
Ejemplo de aplicación de la MSC sobre un conjunto de datos
espectrales.
Esquema comparativo entre una neurona biológica y una
neurona artificial.
Esquema de una red neuronal artificial.
Esquema de los procesos que se producen en el interior de una
neurona artificial.
CCAAPP ÍÍTT UULLOO IIII
Figura II.1.-
Esquema de fabricación de los electrodos Sonogel-Carbono
modificados con PEG.
27
31
32
36
41
45
46
48
48
50
55
56
58
59
61
65
68
75
77
81
105
107
120
121
123
161
x
Índice de figuras
CCAAPP ÍÍTT UULLOO IIIIII
Figura III.1.Figura III.2.Figura III.3.Figura III.4.Figura III.5.Figura III.6.Figura III.7.Figura III.8.Figura III.9.Figura III.10.Figura III.11.Figura III.12.Figura III.13.-
Figura III.14.Figura III.15.Figura III.16.Figura III.17.Figura III.18.Figura III.19.-
Superposición de los voltamperogramas de Tl+ a 1,0 mg·L-1 ,
Pb2+ a 1,0 mg·L-1 y de la mezcla de ambos.
Voltamperogramas de los patrones puros de Tl+ y Pb2+, en el
intervalo de concentraciones de 0,1 a 1,0 mg·L-1 .
Rectas de calibración de los patrones puros de Tl+ y Pb2+, en
el intervalo de concentraciones de 0,1 a 1,0 mg·L-1 .
Voltamperogramas de las mezclas de Tl+ y Pb2+ para el
conjunto de calibración y el test set externo.
Análisis lineal discriminante de las muestras de talio y plomo.
Análisis de componentes principales de las muestras de talio y
plomo.
Gráfico de loadings realizado sobre los parámetros de pico de
las señales: A) mean-centering y B) autoescalado de los datos.
Hipótesis de la linealidad existente entre las mezclas de talio y
plomo.
Ejemplo de topología para un modelo neuronal basado en los
parámetros de altura, semianchura y potencial de pico.
Superficies de error RMS para A) el conjunto de
entrenamiento y B) el conjunto de validación, en función de
los valores de la velocidad de aprendizaje y el momentum.
Diferentes grados de solapamiento que pueden darse en un
sistema binario.
Procedimiento utilizado en el preprocesamiento y tratamiento
quimiométrico de las señales electroquímicas del sistema Tl+ /
Pb2+.
Esquema de la distribución de las distintas muestras de talio y
plomo según el conjunto al que pertenecen: entrenamiento
(trn), validación interna (mon) y validación externa (tst) (los
espacios en blanco se corresponden con las mezclas no
determinadas experimentalmente).
Recopilación de los errores RMS para los mejores modelos de
calibración multivariante: ANNs, PCR y PLS.
Gráfico de los “box & whiskers” para las distribuciones de
error de los mejores modelos de calibración multivariante: A)
Tl+, B) Pb2+.
Árbol wavelet obtenido mediante la aplicación sucesiva de la
DWT.
Esquema del proceso de selección de caracteres basado en la
FWT y desarrollado por el algoritmo.
Esquema explicativo de los diferentes tipos de ‘padding’
aplicados a una señal voltamperométrica cualquiera.
Esquema de la distribución de las distintas muestras de talio y
plomo según el conjunto al que pertenecen: entrenamiento
(trn), validación interna (mon) y validación externa (tst) (los
espacios en blanco se corresponden con las mezclas no
determinadas experimentalmente).
177
180
181
182
185
186
188
190
193
197
203
209
213
220
221
229
230
234
236
Índice de figuras
xi
Figura III.20.- Resultados obtenidos con el criterio de selección automática
para cada técnica quimiométrica aplicada: a) selección
automática de coeficientes – ordenación por varianza (AV),
valores de SDEC frente al número de ciclos para los diferentes
criterios de ‘padding’; b) selección automática de coeficientes
– ordenación por varianza (AV), valores de SDEPMON frente al
número de ciclos para los diferentes criterios de ‘padding’; c)
selección automática de coeficientes – ordenación por
coeficiente de correlación (AR), valores de SDEC frente al
número de ciclos para los diferentes criterios de ‘padding’; d)
selección automática de coeficientes – ordenación por
coeficiente de correlación (AR), valores de SDEPMON frente al
número de ciclos para los diferentes criterios de ‘padding’.
Figura III.21.- Gráfico de los residuos frente a las concentraciones
experimentales de a) Tl+ y b) Pb2+, respectivamente, para el
modelo de calibración MLR / zpd / sym7 / AR (10
coeficientes wavelet).
Figura III.22.- Gráfico de los residuos frente a las concentraciones
experimentales de a) Tl+ y b) Pb2+, respectivamente, para el
modelo de calibración ANN / spd / coif1 / FV (4 coeficientes
wavelet).
Figura III.23.- Comparación entre las señales originales de algunas de las
muestras estudiadas y sus correspondientes señales
reconstruidas mediante el modelo de calibración MLR / zpd /
sym7 / AR (10 coeficientes wavelet).
Figura III.24.- Comparación entre las señales originales de algunas de las
muestras estudiadas y sus correspondientes señales
reconstruidas mediante el modelo de calibración ANN / spd /
coif1 / FV (4 coeficientes wavelet).
Figura III.25.- Recopilación de los errores RMS para los mejores modelos de
calibración multivariante: MLR, PLS y ANN.
Figura III.26.- Gráfico de los residuos frente a las concentraciones
experimentales de a) Tl+ y b) Pb2+, respectivamente, para el
modelo de calibración ISD lgg basado en redes neuronales
artificiales.
239
244
245
247
247
261
262
CCAAPP ÍÍTT UULLOO IIV
V
Figura IV.1.Figura IV.2.Figura IV.3.Figura IV.4.-
Variación de la intensidad de pico con respecto al tiempo
durante el proceso de preacondicionamiento y estabilización
de los electrodos Sonogel-Carbono.
Superposición de los voltamperogramas correspondientes a
diferentes compuestos fenólicos.
Superposición de los voltamperogramas correspondientes a
los cuatro clorofenoles: MF, 2CF, DCF y TCF a una
concentración de 1 mg·L-1 .
Superposición de los voltamperogramas correspondientes a
todas las posibles mezclas binarias y ternarias constituidas por
los cuatro clorofenoles: MF, 2CF, DCF y TCF a una
concentración de 1 mg·L-1 .
288
290
291
292
xii
Figura IV.5.Figura IV.6.Figura IV.7.Figura IV.8.Figura IV.9.Figura IV.10.Figura IV.11.-
Figura IV.12.Figura IV.13.Figura IV.14.Figura IV.15.-
Figura IV.16.-
Figura IV.17.-
Figura IV.18.Figura IV.19.Figura IV.20.-
Figura IV.21.-
Índice de figuras
Superposición de los voltamperogramas correspondientes a
los cuatro clorofenoles seleccionados: MF, CF, DCF y TCF a
una concentración de 1 mg·L-1 .
Valores de intensidad de pico obtenidos para los diferentes
clorofenoles en el intervalo de concentraciones de 0,01 a 0,1
mg·L-1 .
Curvas de calibrado para los clorofenoles seleccionados, junto
con sus respectivos coeficientes de correlación.
Superposición de los voltamperogramas de MF, CF, DCF y
TCF a 0,25 mg·L-1 , así como de su correspondiente mezcla,
con corrección de línea base.
Superposición de los voltamperogramas correspondientes a la
determinación del MF (1 mg·L-1 ) y del primer y tercer
barridos de limpieza electroquímica posteriores.
Superposición de los voltamperogramas correspondientes a las
señales individuales de cada uno de los analitos en el intervalo
de concentraciones de 0,05 a 0,25 mg·L-1 .
Superposición de los voltamperogramas correspondientes a las
señales individuales de cada uno de los analitos en el intervalo
de concentraciones de 0,05 a 0,25 mg·L-1 con la línea base
corregida.
Esquema de la distribución de las distintas mezclas de cada
uno de los analitos de acuerdo con su concentración en el
intervalo comprendido entre 0,05 y 0,25 mg·L-1 .
Superposición de los voltamperogramas correspondientes a las
mezclas cuaternarias de los analitos en el intervalo de
concentraciones de 0,05 a 0,25 mg·L-1 .
Superposición de los valores de intensidad real e intensidad
esperada para las 157 mezclas cuaternarias: Principio de
Aditividad.
Esquema representativo de las diferentes mezclas de
clorofenoles
determinadas
voltamperométricamente,
manteniendo la concentración de TCF constante.
Proyección en el plano de la representación tridimensional de
las diferentes mezclas de clorofenoles determinadas
voltamperométricamente, manteniendo la concentración de
TCF constante.
Representación en cuatro dimensiones de las diferentes
mezclas de clorofenoles determinadas voltamperométricamente: la dirección diagonal representa los valores de
concentración de TCF.
Proyección en el plano MF – CF de las diferentes mezclas de
clorofenoles determinadas voltamperométricamente.
Resultado del análisis de clusters mediante el algoritmo KNN
con los datos centrados con respecto a la media.
Gráfico de los scores para las dos primeras componentes
principales obtenido a partir del PCA sobre los
voltamperogramas de las mezclas.
Ampliación de la Figura IV.13 correspondiente a la zona
donde se produce la deriva horizontal.
293
295
296
300
302
304
305
306
309
316
329
329
331
331
333
334
335
Índice de figuras
Figura IV.22.- Representación de los voltamperogramas de las mezclas
correspondientes a la distribución original.
Figura IV.23.- Representación de los voltamperogramas de las mezclas
correspondientes a la distribución aleatoria basada en dos
conjuntos.
Figura IV.24.- Representación de los voltamperogramas de las mezclas
correspondientes a la distribución aleatoria basada en los tres
conjuntos.
Figura IV.25.- Representación de los voltamperogramas de las mezclas
correspondientes a la distribución basada en un diseño
ortogonal.
Figura IV.26.- Resultados de la aplicación de una corrección de línea base
manual sobre los voltamperogramas de las mezclas de
clorofenoles.
Figura IV.27.- Resultados de la aplicación de la Standard Normal Variate
(SNV) sobre los voltamperogramas de las mezclas de
clorofenoles.
Figura IV.28.- Resultados de la aplicación de la Multiplicative Scatter
Correction (MSC) sobre los voltamperogramas de las mezclas
de clorofenoles.
Figura IV.29.- Resultados de la aplicación de la Orthogonal Signal
Correction (OSC) sobre los voltamperogramas de las mezclas
de clorofenoles.
Figura IV.30.- Representación del artificio introducido en las señales tras la
aplicación de las técnicas de normalización.
Figura IV.31.- Esquema del funcionamiento del algoritmo WILMA en las
etapas previas a la selección de los coeficientes wavelet.
Figura IV.32.- Esquema del funcionamiento del algoritmo WILMA en las
últimas etapas del mismo.
Figura IV.33.- Esquema recopilatorio del procedimiento desarrollado por el
algoritmo WILMA.
Figura IV.34.- Gráfico de los residuos frente a las concentraciones
experimentales de: A) MF y B) CF, respectivamente, para el
modelo de calibración PLS ssc / OSC / rand2 (basado en 7 y 8
coeficientes wavelet, respectivamente).
Figura IV.35.- Gráfico de los residuos frente a las concentraciones
experimentales de: A) DCF y B) TCF, respectivamente, para
el modelo de calibración PLS ssc / OSC / rand2 (basado en 10 y
9 coeficientes wavelet, respectivamente).
Figura IV.36.- Gráfico de los scores para las dos primeras componentes
principales obtenido a partir del PCA sobre los
voltamperogramas de las mezclas.
Figura IV.37.- Esquema del procedimiento de transferencia de calibración
basado en la técnica de normalización OSC (CT-OSC).
Figura IV.38.- Gráfico de los scores para las dos primeras componentes
principales obtenido a partir del PCA sobre los
voltamperogramas de las mezclas después del procedimiento
CT-OSC (2 grupos).
xiii
338
339
340
343
345
346
347
348
349
353
356
359
364
365
378
379
381
xiv
Índice de figuras
Figura IV.39.- Gráfico de los scores para las dos primeras componentes
principales obtenido a partir del PCA sobre los
voltamperogramas de las mezclas (9 grupos desde A hasta I).
Figura IV.40.- Gráfico de los scores para las dos primeras componentes
principales obtenido a partir del PCA sobre los
voltamperogramas de las mezclas después del procedimiento
CT-OSC (9 grupos).
Figura IV.41.- Reconstrucción de las señales de las mezclas de clorofenoles a
partir de los 8 coeficientes wavelet seleccionados por el
modelo de calibración CT-OSC (2 grupos) / db2 / sp0 / V /
MLR.
Figura IV.42.- Reconstrucción de las señales de las mezclas de clorofenoles a
partir de los coeficientes de regresión correspondientes al
modelo de calibración CT-OSC (2 grupos) / db2 / sp0 / V /
MLR.
Figura IV.43.- Representación de los residuos correspondientes a la
predicción de MF frente al número de medidas realizadas con
el electrodo Sonogel-Carbono modificado.
386
387
390
390
395
Índice de tablas
xv
ÍNDICE DE TABLAS
CCAAPP ÍÍTT UULLOO II
Tabla I.1.-
Clasificación de las funciones wavelet.
54
CCAAPP ÍÍTT UULLOO IIIIII
Tabla III.1.- Composición de las muestras de calibración: patrones puros de
talio (10); patrones puros de plomo (10); mezclas de calibración
(20); mezclas de comprobación (8).
Tabla III.2.- Valores de los parámetros de pico para las muestras de Tl+.
Tabla III.3.- Valores de los parámetros de pico para las muestras de Pb2+.
Tabla III.4.- Valores de los parámetros de pico para las mezclas de
calibración.
Tabla III.5.- Valores de los parámetros de pico para las mezclas de
comprobación externas (test set externo).
Tabla III.6.- Mejores modelos neuronales basados en los parámetros de
altura, semianchura y potencial de pico.
Tabla III.7.- Mejores modelos neuronales basados en las amplitudes
fundamentales obtenidas a partir de los voltamperogramas
mediante un método de reducción de dimensiones por
transformada de Fourier.
Tabla III.8.- Resumen de las pruebas conducentes a la obtención de la
frecuencia de corte adecuada para reducir la información
contenida en las señales mediante transformada de Fourier.
Tabla III.9.- Comparación de la eficacia de los métodos para reducir
dimensiones: FT y WT.
Tabla III.10.- Errores RMS para los mejores modelos neuronales basados en
coeficientes de Fourier.
Tabla III.11.- Errores RMS para los mejores modelos neuronales basados en
coeficientes wavelet (Symlet 3).
Tabla III.12.- Errores RMS para los mejores modelos neuronales basados en
coeficientes wavelet (Symlet 4).
Tabla III.13.- Recopilación de los errores RMS para los mejores modelos
neuronales.
Tabla III.14.- Errores RMS para los modelos basados en PCR.
Tabla III.15.- Errores RMS para los modelos basados en PLS.
Tabla III.16.- Tabla de las desviaciones estándar de los errores calculados
(SDEC) para el conjunto de entrenamiento y del error de las
predicciones para los conjuntos de validación interna
(SDEP MON) y externa (SDEP TST ) de los mejores modelos de
calibración obtenidos a partir de las distintas técnicas
quimiométricas aplicadas.
Tabla III.17.- Tabla recopilatoria de los errores RMS obtenidos en estudios
anteriores tras la aplicación de los mejores modelos de
calibración obtenidos a partir de las distintas técnicas
quimiométricas aplicadas.
179
183
183
184
184
194
196
206
208
214
215
216
216
218
219
241
250
xvi
Índice de tablas
Tabla III.18.- Tabla comparativa de las características del sistema estudiado
por Alpízar et al. y del presentado en esta memoria.
Tabla III.19.- Tabla de los modelos de calibración multivariante elaborados a
partir de los parámetros de pico para las diferentes técnicas
quimiométricas aplicadas.
Tabla III.20.- Tabla compilatoria del número de componentes principales
empleado para la construcción de modelos de calibración
multivariante basados en PLS.
Tabla III.21.- Errores RMS para los mejores modelos MLR basados en los
parámetros de pico.
Tabla III.22.- Errores RMS para los mejores modelos PLS basados en los
parámetros de pico.
Tabla III.23.- Errores RMS para los mejores modelos neuronales basados en
los parámetros de pico.
Tabla III.24.- Errores relativos (%) para los mejores modelos de calibración
multivariante basados en los parámetros de pico.
253
254
256
257
259
260
263
CCAAPP ÍÍTT UULLOO IIV
V
Tabla IV.1.- Datos de concentraciones de 4-cloro-3-metilfenol detectadas en
diversos tipos de efluentes o destinos medioambientales.
Tabla IV.2.- Datos de intensidad de los cuatro clorofenoles empleados para la
obtención de las curvas de calibrado y el límite de detección de
los analitos.
Tabla IV.3.- Límites de detección para cada analito, así como los parámetros
empleados para su cálculo.
Tabla IV.4.- Límites de cuantificación para cada analito, así como los
parámetros empleados para su cálculo.
Tabla IV.5.- Valores de los parámetros de pico para los patrones puros de 4cloro-3-metilfenol.
Tabla IV.6.- Valores de los parámetros de pico para los patrones puros de 4clorofenol.
Tabla IV.7.- Valores de los parámetros de pico para los patrones puros de
2,4-diclorofenol.
Tabla IV.8.- Valores de los parámetros de pico para los patrones puros de
2,4,6-triclorofenol.
Tabla IV.9.- Valores de los parámetros de pico para el grupo de mezclas
correspondiente al diseño de experimentos completo 34 (81
mezclas).
Tabla IV.10.- Valores de los parámetros de pico para el grupo de mezclas
correspondiente al diseño de experimentos completo 24 (16
mezclas).
Tabla IV.11.- Valores de los parámetros de pico para el grupo de mezclas
correspondiente al diseño de experimentos fraccionario (60
mezclas).
Tabla IV.12.- Intervalos de variación y porcentaje de variación media
(calculados para la intensidad real con respecto a la intensidad
esperada) para diferentes grupos de mezclas.
Tabla IV.13.- Valores de intensidad real para cada mezcla perteneciente al
diseño de experimentos completo 34 (grupo de las 81 mezclas).
277
297
298
298
310
310
310
311
311
313
314
317
319
Índice de tablas
Tabla IV.14.- Valores de intensidad real para cada mezcla perteneciente al
diseño de experimentos completo 24 (grupo de las 16 mezclas).
Tabla IV.15.- Valores de intensidad real para cada mezcla perteneciente al
diseño de experimentos fraccionario (grupo de las 36 mezclas:
concentraciones de 0,05; 0,15 y 0,25 mg·L-1 para el TCF).
Tabla IV.16.- Valores de intensidad real para cada mezcla perteneciente al
diseño de experimentos fraccionario (grupo de las 24 mezclas:
concentraciones de 0,10 y 0,20 mg·L-1 para el TCF).
Tabla IV.17.- Efecto de algunos clorofenoles sobre la determinación del 4cloro-3-metilfenol a la concentración de 1 mg·L-1 .
Tabla IV.18.- Matriz de las mezclas constituyentes de un diseño matricial
ortogonal OA9 (34 ).
Tabla IV.19.- Resultados obtenidos para las mejores pruebas con el método de
calibración multivariante PLS sin selección de caracteres.
Tabla IV.20.- Errores relativos para cada conjunto de muestras obtenidos a
partir de las predicciones dadas por el modelo de calibración
multivariante PLSssc / OSC / rand2.
Tabla IV.21.- Resultados obtenidos de las mejores pruebas con el algoritmo
WILMA para el analito MF.
Tabla IV.22.- Resultados obtenidos de las mejores pruebas con el algoritmo
WILMA para el analito CF.
Tabla IV.23.- Resultados obtenidos de las mejores pruebas con el algoritmo
WILMA para el analito DCF.
Tabla IV.24.- Resultados obtenidos de las mejores pruebas con el algoritmo
WILMA para el analito TCF.
Tabla IV.25.- Errores relativos para cada conjunto de muestras obtenidos a
partir de las predicciones dadas por el modelo de calibración
multivariante MLR / SNV / rand2, basado en el algoritmo
WILMA.
Tabla IV.26.- Resultados obtenidos de las mejores pruebas con el algoritmo
WILMA tras la aplicación del procedimiento CT-OSC basado
en 2 grupos de muestras.
Tabla IV.27.- Resultados obtenidos con el algoritmo WILMA tras la
eliminación de ocho señales outliers y la posterior aplicación del
procedimiento CT-OSC basado en 2 grupos de muestras.
Tabla IV.28.- Errores relativos para cada conjunto de muestras obtenidos a
partir de las predicciones dadas por los modelos de calibración
multivariante basados en el algoritmo WILMA tras el proceso
CT-OSC (2 grupos).
Tabla IV.29.- Resultados obtenidos para las mejores pruebas con el método de
calibración multivariante PLS sin selección de caracteres una
vez aplicado el procedimiento CT-OSC basado en 9 grupos de
muestras.
Tabla IV.30.- Resultados obtenidos de las mejores pruebas con el algoritmo
WILMA tras la aplicación del procedimiento CT-OSC basado
en 9 grupos de muestras.
Tabla IV.31.- Resultados obtenidos de las mejores pruebas con el algoritmo
WILMA tras la aplicación del procedimiento CT-OSC basado
en 9 grupos de muestras, con la mitad de señales seleccionadas.
xvii
320
321
322
323
342
360
366
368
370
372
374
375
382
384
385
388
388
389
OBJETO DEL TRABAJO
Objeto del trabajo
3
OBJETO DEL TRABAJO
La problemática de la selectividad de las señales electroquímicas se ha abordado en
esta Memoria mediante el empleo de técnicas quimiométricas. Nuestro planteamiento, y
por tanto la finalidad de nuestro trabajo, ha ido dirigido hacia la resolución de señales
electroquímicas que presenten un grado de solapamiento muy severo, utilizando para ello
técnicas estadísticas novedosas en el diseño e interpretación de experimentos. Con este fin,
se han desarrollado una serie de algoritmos matemáticos, en colaboración con el grupo de
investigación italiano dirigido por el Prof. Renato Seeber, de la Università degli Studi di
Modena e Reggio Emilia (Módena – ITALIA), donde se ha llevado a cabo una parte de los
estudios que aquí se presentan. Entre las técnicas estadísticas aplicadas, caben destacar la
Transformada Wavelet y las Redes Neuronales Artificiales, así como también diversos
métodos de calibración multivariante.
La
metodología
quimiométrica
desarrollada
se
ha
aplicado
a
sistemas
electroquímicos de complejidad diversa: uno de naturaleza inorgánica constituido por iones
de talio y de plomo, y otro de naturaleza orgánica constituido por cuatro clorofenoles. Los
sistemas se han estudiado con sensores electroquímicos de tipo amperométrico: el
electrodo de gota colgante de mercurio, para la mezcla inorgánica, y los electrodos
Sonogel-Carbono, recientemente desarrollados en nuestro grupo de investigación, para el
sistema orgánico.
El trabajo de investigación que se describe en la presente Memoria representa la
incursión de nuestro grupo de investigación en un tema que requiere conocimientos
complejos y a menudo alejados de lo que constituye la formación fundamental de un
químico, y no hubiéramos sido capaces de hacerlo sin el asesoramiento de especialistas a
los que mostramos nuestro agradecimiento. Estos hechos dotan a este trabajo de un
carácter laborioso, arduo en su realización, y sobre todo en su preparación previa, y
también de unas perspectivas amplias y asociadas a personas que dominen en profundidad
estas cuestiones. Desde el grupo de investigación es, por tanto, de justicia, destacar ante
todo el esfuerzo del doctorando en el conocimiento de estos temas quimiométricos, tanto
por su dificultad en sí como por el obstáculo que supone introducirse de manera profunda
en materias que incluso podrían considerarse más cercanas a otras especialidades.
CAPÍTULO I
Capítulo I
7
INTRODUCCIÓN
1) El Método Sol-Gel
Los antecedentes históricos y el fundamento de los procesos sol-gel se han
abordado ya con profundidad en una Tesis Doctoral anterior del grupo [1], por lo que en
esta Memoria se recogerán de forma más resumida; se profundizará, en cambio, en los
aspectos más recientes de esta tecnología.
1.1. Breve descripción del proceso sol-gel
La técnica sol-gel fue descubierta de modo casual hacia 1840 por Ebelman [2],
quien sintetizó una sustancia (SiO 2 ) de aspecto cristalino mediante la hidrólisis de
tetraetoxisilano (TEOS) en condiciones ácidas. Una primera teoría, basada en estudios
realizados con dichos materiales [3], surgió en 1864. Gracias a los trabajos de Hurd [4], la
citada teoría alcanzó gran aceptación hacia los años 30.
Posteriormente, durante el periodo 1950-60, la preparación de redes inorgánicas de
metales diversos (Al, Si, Ti, Zr) mediante procesos sol-gel se empleó en gran medida en la
industria cerámica [5, 6]. La elaboración de materiales cerámicos multicompuestos, basada
en la hidrólisis controlada y la policondensación de alcóxidos, fue investigada, simultánea
pero independientemente, por Levene y Thomas [7] y por Dislich [8], suponiendo un
importante avance en la química sol-gel.
No obstante, el avance más significativo se produjo probablemente a mediados de
los años 70, cuando se demostró que la aplicación de una cuidadosa etapa de secado sobre
un gel daba como resultado monolitos (piezas rígidas) [9-11]. En la actualidad, el proceso
sol-gel permite obtener diversos tipos de configuraciones: fibras, recubrimientos, películas
delgadas, etc.; teóricamente, disponiendo del molde adecuado, cualquier forma física es
posible.
De un modo muy resumido, el proceso sol-gel consiste en la hidrólisis a baja
temperatura de un alcóxido monomérico precursor, seguida de una policondensación que
conduce a una red porosa de tipo óxido. De acuerdo con esto, sólo es necesaria la
existencia de alcóxido y agua; sin embargo, generalmente también se utiliza un catalizador
INTRODUCCIÓN
8
ácido o básico para acelerar el inicio de la hidrólisis y un alcohol para lograr
homogeneidad entre las fases acuosa y orgánica, inmiscibles.
La hidrólisis inicial del alcóxido seguida de reacciones de condensación en regiones
localizadas
origina
una
suspensión
de
partículas
coloidales
denominada sol. La
policondensación de dichas partículas aumenta la interconexión entre éstas, de modo que la
viscosidad crece rápidamente y conduce a la formación de una red rígida, polimérica y
húmeda denominada gel, compuesta fundamentalmente de unidades de siloxano (SiO 2 ); en
el caso más frecuente, estas unidades se encuentran conectadas por puentes de oxígeno. Se
genera alcohol durante la hidrólisis y agua en la polimerización. Ambos productos, junto
con el agua en exceso existente en la mezcla precursora y la humedad procedente del
medio externo, se encuentran en el interior de la red, pero se van liberando a medida que
avanza el proceso, aunque no completamente. Incluso después del punto de gelificación, en
el cual todo el volumen del sólido está interconectado, la estructura y propiedades del gel
continúan evolucionando puesto que existe disolvente en los poros y el gel permanece
húmedo. Además, siguen produciéndose reacciones de policondensación, con lo que se
extiende el entrecruzamiento.
Como consecuencia, y de forma dinámica, el gel experimenta una progresiva
contracción espontánea, produciéndose la expulsión de líquido de los poros, un aumento en
las fuerzas internas del gel y una disminución del tamaño de los poros. Sin embargo, la
mayor parte del agua y del alcohol generados durante todo el proceso quedan retenidos en
la red durante la gelificación. Por ello, un gel envejecido puede definirse como un material
vítreo en fase sólida con una fase acuosa interna.
Si se somete esta red a un tratamiento térmico suave (normalmente, menos de 100
°C), se logra un gel seco denominado xerogel que no experimenta pérdidas posteriores de
líquido y puede considerarse estable en el tiempo. Existe, no obstante, la posibilidad de
continuar el proceso exponiendo el xerogel a altas temperaturas, lo que origina la
densificación y conduce a un cristal totalmente compacto.
Químicamente, el proceso sol-gel puede esquematizarse en tres etapas elementales,
cuyo resultado final es un material inorgánico. Dichas etapas son las siguientes:
1. Preparación del sol: dispersión coloidal de partículas en un líquido.
Capítulo I
9
2. Gelificación del sol: que resulta en una red rígida interconectada de cadenas
poliméricas y poros microscópicos.
3. Eliminación del disolvente de la red: obteniéndose un sólido condensado.
Todo el proceso anterior se produce a temperatura ambiente, lo que constituye una
de las principales características de este tipo de ruta sintética. Gracias a ello, es
perfectamente factible la introducción de especies variadas durante la primera etapa,
incluso en el caso de especies termolábiles. Ciertos sólidos sintetizados vía sol-gel poseen
capacidad para la conducción iónica o electrónica y esta propiedad los convierte en
adecuados
para,
por
ejemplo,
técnicas
electroquímicas convencionales como las
voltamperometrías.
Existen, en principio, dos opciones para sintetizar materiales mediante procesos solgel:
a. Métodos acuosos: parten de una disolución de una sal metálica. El sol se
genera cuando se hidroliza la sal metálica y el gel se forma por eliminación
del disolvente o por un aumento del pH, evolucionando posteriormente
desde una agrupación de partículas coloidales hacia la formación de una red.
b. Métodos alcohólicos: parten de un precursor organometálico disuelto en el
alcohol apropiado (en función de los sustituyentes orgánicos del metal). En
este caso, no se distingue una etapa de formación del sol, sino que
reacciones de hidrólisis y condensación progresan de forma simultánea
hasta originar el gel, que después evoluciona, transformándose también en
una red de conexiones tridimensionales.
1.2 Utilización de ultrasonidos de alta potencia para sintetizar geles: sonogeles
En general, podemos clasificar en dos áreas las diferentes aplicaciones de los
ultrasonidos en función del efecto estudiado. El primer área se relaciona con el efecto del
medio sobre la onda [12, 13], mientras que el segundo área, basada en la utilización de
ultrasonidos de alta intensidad y/o baja frecuencia, se centra en el estudio del efecto de la
onda sobre el medio como, por ejemplo, la formación de emulsiones. Los estudios
realizados con relación a este segundo área [14, 15] coinciden en que debe tener lugar el
fenómeno de la cavitación ultrasónica para que los efectos de la onda sobre el medio se
INTRODUCCIÓN
10
hagan patentes. Una definición general de cavitación ultrasónica sería la creación de una
nueva superficie en el seno de un líquido mediante la irradiación de ondas ultrasonoras.
Mediante la aplicación de ultrasonidos en general, a sistemas inmiscibles (por
ejemplo, alcóxido–agua), se logra generar emulsiones extremadamente finas, en las cuales
las superficies de contacto entre ambas fases aumentan notablemente, facilitando el
intercambio de moléculas entre ellas. La aplicación de ultrasonidos de alta potencia a la
mezcla precursora alcóxido-agua, en presencia de un catalizador ácido, sin utilización de
disolvente,
constituye
sonocatálisis.
Este
una
método
alternativa
diferente
proporciona
para
materiales
sintetizar
con
geles
características
denominada
especiales
denominados sonogeles [16].
La onda ultrasonora actúa sobre la interfase líquido-líquido de la mezcla alcóxido–
agua provocando la formación de burbujas de gas disueltas en el líquido, en las que se
alcanzan unas condiciones extremas de presión y temperatura. Durante el colapso de estas
burbujas se produce la hidrólisis, obteniéndose un líquido homogéneo (que polimerizará
posteriormente en forma de gel).
Así, la ausencia de disolvente y la cavitación inducida mediante el empleo de
ultrasonidos configuran un medio único para la consecución del proceso sol-gel que se
traduce, finalmente, en la existencia de particulares características en los sonogeles tales
como la alta densidad, textura fina, estructura homogénea, etc.
El primer intento de utilizar ultrasonidos para realizar un proceso sol-gel sin
adicionar disolvente fue llevado a cabo por Tarasevich [17] en 1984; concretamente, este
investigador describió la exposición de una mezcla TEOS–agua a una intensa radiación
ultrasónica. Desde entonces, los grupos de investigación dirigidos por los profesores
Zarzycki y Esquivias han desarrollado un amplio trabajo con el objetivo de establecer las
consecuencias prácticas de esta modificación del procedimiento, en lo que se refiere a la
cinética del proceso y a las características estructurales de los sonogeles.
Para la preparación de un sonogel, la hidrólisis de la mezcla precursora se lleva a
cabo, pues, sometiendo ésta a ondas ultrasónicas en un contenedor de cristal abierto. Para
ello, el equipo más sencillo y accesible sería un baño de ultrasonidos. Sin embargo, tiene el
inconveniente de que la potencia suministrada por el aparato oscila según el tamaño del
Capítulo I
11
baño, el vaso de reacción y su posición dentro del baño, de manera que la energía se
dispersa en un volumen mayor, por lo que no alcanza en la mezcla reaccionante los niveles
requeridos para la cavitación.
Sin duda, el método más eficaz para la transmisión de energía ultrasonora a la
mezcla es la inmersión directa de una sonda en el líquido reaccionante. La función de esta
sonda es amplificar el movimiento vibracional originado en el generador (el cual suele
resultar insuficiente para casos prácticos). El material más adecuado para la fabricación de
sondas acústicas es una aleación de titanio. Gracias a la inmersión directa de la sonda en el
sistema reaccionante es posible acceder a potencias ultrasónicas muy superiores a las
alcanzadas en el baño, ya que en este sistema no existen pérdidas de energía en la
transferencia de ultrasonidos entre la sonda y la mezcla reaccionante. La cantidad de
energía comunicada al sistema viene determinada por el tiempo de insonación,
principalmente, existiendo pues un parámetro adicional para controlar las propiedades del
sol-gel.
En comparación con los métodos clásicos de obtención de geles, que pueden incluir
la presencia de un alcohol como disolvente, el primer efecto notable es la considerable
disminución del tiempo de gelificación. Este parámetro disminuye, además, al aumentar la
dosis de ultrasonidos aplicada a la mezcla. Cuando se emplea el método clásico, la dilución
existente al principio origina una gran disminución de la densidad del gel debido al exceso
de porosidad resultante de la eliminación del disolvente. Este efecto no es deseable cuando
se requieren matrices de alta densidad y escasa posibilidad de contracción.
2) Aplicaciones Electroquímicas De Los Materiales Sol-gel
La tecnología sol-gel encuentra numerosas aplicaciones en el campo de la química:
matrices
ópticamente
transparentes
[18-22],
dispositivos
electrocrómicos
[23-26],
construcción de cátodos [27-31] y soportes para extracciones en fase sólida (SPE) [32, 33]
y, por último, en cromatografía líquida y gaseosa [34-38], entre otras. A continuación se
describirán, no obstante, algunas de las aplicaciones electroquímicas más comunes de los
materiales sol-gel.
INTRODUCCIÓN
12
Dentro del campo del electroanálisis la utilización de materiales sol-gel es reciente
y requiere un tipo especial de material sol-gel que ha de ser conductor de la corriente
eléctrica [27].
Podríamos concebir un sol-gel electroquímico como aquél en que la matriz
inorgánica ha sido modificada con materiales conductores, con la intención de utilizarla
como
electrodo
en
un
sistema
electroquímico.
Sin
embargo,
existen
referencias
bibliográficas que enfocan este tema justo al contrario, es decir, bajo la perspectiva de que
un electrodo convencional puede ser modificado con diversas matrices inorgánicas, lo que
constituiría una categoría dentro del campo de los electrodos modificados químicamente
(CMEs). Dentro de ella, junto a una extensa gama de agentes modificantes (óxidos
metálicos, ftalocianinas y porfirinas metálicas, fosfatos y fosfonatos, ã –alúmina,...), se
incluyen los electrodos modificados con óxidos sintetizados mediante procesos sol-gel y,
concretamente, óxidos de silicio, esto es, sílice (SiO 2 –MEs).
La investigación relacionada con SiO 2 –Mes comenzó lentamente a principios de los
90, experimentando después un crecimiento exponencial a lo largo de esta última década.
Sin embargo, su aplicación en el campo electroquímico es aún incipiente a pesar de las
apropiadas características de estos materiales (capacidad de adsorción, química ácido/base,
estabilidad térmica) para, por ejemplo, acumular especies electroactivas antes de la
detección electroquímica de éstas.
Un ejemplo de aplicación de material electroactivo obtenido vía sol-gel en forma de
película delgada fue desarrollado por Lundgren y Murray [34] en 1987. Utilizaron
electrodos de carbono vítreo y de platino como soportes para depositar finas capas de
silicato microporoso sintetizado vía sol-gel, en cuyos poros incorporaban después una
especie electroactiva; para estudiar la microporosidad de la película sol-gel, realizaron
voltamperometría cíclica de un complejo de osmio, utilizado como soluto electroactivo, y
encontraron serias limitaciones de difusión concordantes con las bajas difusividades
observadas en geles de tetrametoxisilano [35]. Dvorak y De Armond [36] aplicaron,
posteriormente, un procedimiento similar para modificar electrodos de platino y de óxido
de indio con recubrimientos de gel de sílice y describieron el comportamiento de la película
estudiando la respuesta electroquímica del catión tris(2,2’–bipiridil)rutenio(II). Algunas de
las
aplicaciones
más
encontrarse en [39, 40].
recientes
relacionadas
con
materiales
electroactivos
pueden
Capítulo I
13
Hacia 1994, otro campo de aplicaciones electroquímicas fue iniciado y desarrollado
por el grupo de Lev. Se trataba de la fabricación de electrodos sólidos compuestos de
carbono y sílice (comúnmente denominados CCEs, Carbon Ceramic Electrodes). Estos
CCEs estaban constituidos por una red de sílice porosa con un contenido de carbono
distribuido homogéneamente. Mediante una adecuada selección de precursores, podían
obtener tanto materiales hidrofílicos como hidrofóbicos. Los electrodos hidrofóbicos
presentaban buenas relaciones señal–corriente de fondo porque repelían el agua, de modo
que sólo la superficie más externa del electrodo estaba en contacto con el medio
electrolítico. En relación con los electrodos de pasta de carbono, los CCEs son fuertes,
poseen mayor estabilidad y pueden ser moldeados en formas muy diversas (monolitos,
recubrimientos, láminas, series de microelectrodos, ...). Investigaron aplicaciones de estos
electrodos como indicadores (con la posibilidad de modificarlos con especies orgánicas o
inorgánicas)
y
como
soportes
para
inmovilizar
biomoléculas.
Comparando
las
características voltamperométricas de los CCEs con las de otros electrodos de carbono
mediante el uso de varios pares redox orgánicos e inorgánicos, observaron mejor
estabilidad y un comportamiento más reproducible en medio acuoso y medios mixtos. El
mismo grupo de investigación llevó a cabo posteriormente la preparación de CCEs
hidrofóbicos dopados con oro o paladio, mediante la adición de una sal del metal a la
mezcla precursora, que luego sería reducida para generar el metal en el interior del xerogel
[41, 42]. Aplicaciones más recientes de electrodos sólidos compuestos de carbono y silicio
pueden encontrarse en [43-45].
Los híbridos silicato-polímeros conductores constituyen un tipo de material
sintetizado combinando la química sol-gel con la polimerización de polímeros ð conjugados. Ejemplos de estos materiales son los compuestos por sílice y polipirrol,
politiofeno o polianilina. La preparación de estos híbridos puede realizarse de diferentes
maneras; usando un precursor común para la policondensación del sol-gel y la
polimerización orgánica (por ejemplo, derivados alcóxidos de pirrol [46] o tiofeno [47]),
copolimerizando los precursores del sol-gel y los monómeros orgánicos [48, 49] o
realizando la polimerización electroquímica del polímero conductor en una red porosa
previamente preparada utilizando el método sol-gel [50].
Audebert y el grupo de Corriu [51, 52] prepararon otro tipo de materiales híbrido
orgánico–inorgánico. Aprovechando la robustez y no-reactividad de un soporte como la
INTRODUCCIÓN
14
sílice, desarrollaron diferentes posibilidades de modificación orgánica del soporte mediante
enlaces
covalentes.
Utilizaron
una
mezcla
inicial
de
tetrametoxisilano
y
1,1’–
bis(trimetoxisilil)ferroceno como precursores para una película de gel depositada en un
electrodo de platino y estudiaron su comportamiento electroquímico, observando señales
reversibles y alta estabilidad en diversos disolventes, lo que permitía su uso como
electrodos de referencia.
Diversas
investigaciones
han
tenido
como
objetivo
la
preparación
de
electrocatalizadores mediante el método sol-gel, principalmente, con sistemas RuO2 –TiO 2 .
Guglielmi et al. [53] han descrito varias rutas para sintetizarlos pero no han llevado a cabo
estudios de electrocatálisis. La actividad electroquímica del sistema Ru–Ti sí ha sido
comparada con la del mismo sistema preparado por vías convencionales y es probable que
la estructura más porosa obtenida en el caso de utilizar el método sol-gel sea lo que
proporcione un mayor número de sitios activos y mayor capacidad de carga. Otros sistemas
empleados recientemente han sido SnO 2 -Sb [54] y perovskitas del tipo La 1-x Srx MnO3 [55].
Es también destacable el hecho de que las transiciones sol-gel y gel-xerogel pueden
ser controladas mediante pruebas electroquímicas. Así, mediante la inclusión de un
derivado de ferroceno como analito electroactivo de prueba en una mezcla precursora de
TEOS, agua y catalizador ácido, Olivier et al. [56] siguieron la conversión de gel a xerogel
mediante la realización de medidas voltamperométricas, observando que la respuesta
electroquímica del analito dependía del grado de interconexión del polímero inorgánico.
Por otro lado, también se ha utilizado una sistemática similar [57] (observación del
comportamiento electroquímico de un analito de prueba incorporado a una película de
sílice sintetizada vía sol-gel) para obtener información acerca de la efectividad del
encapsulamiento y de la estabilidad de la especie encapsulada en la matriz, así como de su
actividad y el grado de “caída” de la red.
Las aplicaciones en las que el dispositivo fabricado no es un biosensor son
relativamente menos abundantes, constituyendo, pues, un ámbito aún por explorar. No
obstante, se recogen en la bibliografía diversas aplicaciones de las cuales se resumen
algunas a continuación.
Capítulo I
15
Siguiendo el método desarrollado por Lev, Oskam y Searson fabricaron CCEs y los
caracterizaron mediante varias técnicas físico-químicas [58]. Algunos de los electrodos
desarrollados por Lev se utilizaron como sensores de oxígeno [41, 42].
Los autores anteriores y otros colaboradores [59] publicaron una revisión enfocada
hacia sensores basados en procesos sol-gel, cuya matriz está modificada con grupos
orgánicos. Comentan la estrecha gama de aplicaciones electroanalíticas de matrices sol-gel
modificadas orgánicamente existente hasta 1995, limitada a biosensores amperométricos y
algunos electrodos con recubrimientos sol-gel. Destacan, por último, las propiedades de los
electrodos compuestos de carbono y sol-gel, sus posibilidades ilimitadas de configuración y
las alternativas para conferir mayor o menor carácter hidrofóbico a la superficie activa del
electrodo en función del alcóxido precursor. Concluyen, finalmente, subrayando la
eficiencia de la tecnología sol-gel como herramienta aplicable en el campo analítico y la
versatilidad y simplicidad de los procesos sol-gel, características que permiten su uso de
forma más eficiente que otras matrices más comunes en aplicaciones con sensores.
Como detector electroquímico, estos electrodos se han empleado como dispositivos
amperométricos en sistemas de cromatografía líquida [60, 61] y electroforesis capilar [62,
63].
Mediante el dopado del sol-gel de sílice al principio del proceso o durante la
polimerización, Hsueh y Collinson [64] fabricaron electrodos de carbono vítreo con un
recubrimiento de sílice orgánicamente modificada con grupos –NH2 o –COOH y los
caracterizaron mediante voltamperometría de intercambio iónico, encontrando una notable
capacidad de intercambio, atribuida a las interacciones electrostáticas entre el analito y la
función ácida o básica del organosilano. La mayor ventaja que proporcionan los materiales
sol-gel modificados orgánicamente es la posibilidad de combinar las propiedades de
cristales inorgánicos con las propiedades intrínsecas de las moléculas orgánicas. Wang et
al. [65] ampliaron esta posibilidad fabricando electrodos compuestos de sol-gel y carbono
modificados con dimetilglioxima para la detección voltamperométrica de trazas de Ni (II)
y, así, aprovecharon en un mismo dispositivo las ventajas de la química sol-gel y de la
voltamperometría de preconcentración. También emplearon este sistema, modificado con
ftalocianina de cobalto para la detección electrocatalítica [66] de peróxido de hidrógeno,
hidrazina, ácido oxálico, cisteína y tiourea, utilizando voltamperometría cíclica y análisis
por inyección en flujo para comparar el nuevo electrodo con el equivalente en pasta de
INTRODUCCIÓN
16
carbono modificada. El sistema sol-gel resultó mostrar mayor sensibilidad y estabilidad a
largo plazo ya que no existía paso del modificante a la disolución, permaneciendo
encapsulado efectivamente en la red, contrariamente a los electrodos de pasta de carbono
modificados.
Otros
modificantes
orgánicos
empleados
recientemente
son
polidimetilsiloxano (PDMS) [67] y tetrapropilortotitanato (TPOT) [68].
Dulebohn et al. [69] propusieron un sensor para CO mediante el encapsulamiento de
un complejo de Rh (I) en películas de zirconio y titanio depositadas sobre un electrodo de
Pt.
Mediante
voltamperometría
cíclica,
estudiaron
el
comportamiento
del
sensor
encontrando un pico cuya intensidad estaba relacionada con la exposición de éste al gas.
Además, la señal base del sensor era recuperable tras 10 minutos de paso de gas inerte por
la celda electroquímica. Recientemente, Tess y Cox han propuesto un microsensor
recubierto con una película de sílice fabricada vía sol-gel para la cuantificación de CO
gaseoso aplicando voltamperometría de barrido lineal y amperometría de inyección en flujo
[70]. Este electrodo demostró ser una interesante alternativa a los ionómeros orgánicos tipo
Nafion, puesto que ofrecía estabilidad prolongada y una respuesta al CO independiente del
grado de humedad en un rango muy amplio.
Aplicando
los
procesos
sol-gel,
también
se
ha
sintetizado
NASICON
(superconductor iónico de sodio) para desarrollar un sensor potenciométrico para CO2 [71].
Kimura et al. [72] propusieron un sensor potenciométrico para Na+ en disolución
con una membrana obtenida vía sol-gel con un portador neutro. Este sensor funcionaba
como un transistor de efecto de campo sensible al Na+. Kim et al. [73] realizaron algo
similar para iones Cl- obteniendo mejora en la determinación de estos iones en
comparación con electrodos con recubrimiento de membrana orgánica.
Hay que destacar que todavía en 1997, Alber y Cox [18] realizaron una revisión
enfocada en sólidos preparados mediante procesos sol-gel desde el punto de vista
electroquímico, subrayando la escasez que existía aún en aplicaciones de procesos sol-gel
al campo del electroanálisis.
Alain Walkarius [27] publica en 1998 una amplia revisión enfocada en las
aplicaciones analíticas de electrodos modificados con sílice. Además de una breve
introducción a la química de la sílice y diversos comentarios sobre la respuesta
Capítulo I
17
electroquímica de este tipo de electrodo, presenta una extensa recopilación de los usos de
electrodos con algún contenido en sílice para la detección electroquímica de diversas
sustancias químicas.
Y. Guo y Ana R. Guadalupe [74] desarrollan en 1998 un procedimiento de
preparación de electrodos compuestos grafito/sol-gel, aplicando la mezcla precursora con
técnicas de impresión en plantilla. No incluyen codisolventes alcohólicos ni catalizadores,
lo que permite fabricar electrodos modificados mediante dicha técnica en un solo paso más
económico que en la forma habitual. Adicionan únicamente un compuesto tensioactivo que
realiza todas esas funciones de manera que disminuye el número de parámetros que afecta
al proceso, y lo abarata. Realizan aplicaciones con tales electrodos como sensores y
biosensores para demostrar el método, destacando la necesidad de mejorar la
reproducibilidad debida al hecho de que el dispositivo de impresión es de fabricación
casera.
Z. Ji y Ana R. Guadalupe [75] informan un año más tarde sobre la preparación de
un electrodo compuesto grafito/sol-gel modificado con un ligando y con polietilenglicol,
PEG (para controlar la reducción de la red de sílice, mejorar la estabilidad operacional del
sensor y controlar su porosidad). Estudian las variables que afectan la respuesta del
electrodo y procedimientos para pretratar y renovar la superficie del electrodo, realizando
una aplicación mediante detección de iones metálicos. Demuestran la similitud del
comportamiento del ligando en la red y en disolución y la validez del PEG para estabilizar
la respuesta del sensor (en su caso) y mejorar de forma significativa la reproducibilidad
entre diferentes electrodos, así como para admitir la renovación mecánica de la superficie
del electrodo varias veces, manteniendo la estabilidad operacional de éste. Proponen la
aplicación de pretratamientos electroquímicos a la superficie del electrodo como alternativa
para controlar la porosidad de la matriz (también el uso de ligandos unidos por enlace
covalente al silano). En último lugar, resaltan la necesidad de optimizar la reproducibilidad
en el proceso de preparación de los electrodos en el momento de realizar producción en
masa.
Finalmente, una investigación reciente [76], pone de manifiesto una utilidad
diferente del PEG, empleándolo para la estabilización de complejos de iones In3+, Eu3+ y
Tb3+ con terpiridina, encapsulados en matrices sol-gel.
INTRODUCCIÓN
18
Bastantes de las aplicaciones electroanalíticas de la química sol-gel aparecidas hasta
ahora están referidas a biosensores (por ejemplo, usando amperometría para seguir
reacciones enzimáticas en ellos o usando sistemas de inyección en flujo) y generalmente,
están basados en procesos de atrapamiento en materiales sol-gel. Un biosensor consta de un
sistema
de
detección
biológica,
un
transductor
(piezoeléctrico,
acústico,
óptico,
calorimétrico o electroquímico) y un sistema de salida de señal. Un biosensor
amperométrico es un dispositivo analítico que posee algún material sensible biológico
inmovilizado en su interior (enzima, anticuerpo, antígeno, ADN, moléculas orgánicas, etc.)
y que se encuentra en contacto o bien integrado en un transductor de tipo electroquímico, el
cual transforma la señal biológica en una señal eléctrica mensurable cuantitativamente. Las
aplicaciones con biosensores parten de la aserción de que el material biológico contenido
en el biosensor mantendrá un comportamiento similar al que posee en disolución acuosa y,
además, se encontrará incorporado en la matriz de forma que no pasará a la disolución por
permeabilidad Estas hipótesis se comprobaron mediante pruebas ópticas de la actividad
enzimática, en el caso concreto de las enzimas. En el caso de materiales no aptos para
medidas ópticas, se aplicaron métodos electroquímicos para los estudios de actividad
biológica. El método de incorporación y retención estable de la biomolécula en el biosensor
es una de las claves en la construcción de éstos. Entre los métodos descritos, se encuentran
la adsorción física o química en una superficie sólida, el enlace covalente con la superficie,
atrapamiento en el interior de una membrana, entrecruzamiento entre moléculas y, más
recientemente, deposición de Langmuir–Blodgett, atrapamiento en materiales sol-gel o
electropolimerización. Últimamente, se ha hecho especial énfasis en los materiales
inorgánicos como matrices soporte para enzimas que permiten controlar o mantener la
actividad de éstas en su interior. Entre estos materiales inorgánicos, los silicatos obtenidos
vía sol-gel destacan como soportes adecuados para las biomoléculas.
Se recogen, pues, a continuación, algunos ejemplos resumidos de aplicaciones sobre
biosensores.
Se puede considerar que el campo de los biosensores con matrices sol-gel comenzó
a ser desarrollado por varios grupos de investigación que centraron sus esfuerzos en tratar
de probar la actividad enzimática de la glucosa oxidasa (GOD) encapsulada en una matriz
sol-gel mediante pruebas ópticas y electroquímicas. Se demostró por primera vez la
actividad del sensor sol-gel–GOD electroquímicamente con la fijación del gel en el
Capítulo I
19
extremo de un electrodo de oxígeno [77] pero, más tarde, también se hizo utilizando
derivados de ferroceno [78]. Quedó, así, patente, la capacidad de detección de glucosa de
estos sistemas de sol-gel modificados con GOD y la aplicación se extendió a otras enzimas,
desde 1994 hasta ahora: ureasa para detectar metales pesados [79], tirosinasa para fenoles
[40], peroxidasa para peróxido de hidrógeno [80] y lactato oxidasa y malato
deshidrogenasa para determinar ácido láctico y málico en vinos [81], respectivamente, por
destacar algunas.
En un primer momento, la detección óptica pareció ser mejor que la electroquímica
debido a la baja conductividad de las redes de sílice pero, enseguida, la adición de
elementos conductores electrónicos a la red (partículas conductoras o mediadores) surgió
como posibilidad para solucionar el problema y, de esta manera, se expandió el desarrollo
de los biosensores amperométricos preparados vía sol-gel. Uno de los primeros tipos de
configuraciones desarrollados se basaba en un electrodo de pasta de carbono sobre el que
se depositaba la especie bioactiva, utilizándose el material sol-gel únicamente como
recubrimiento para inmovilizar dicha especie. Así, para detectar H2 O2 en medio acuoso en
presencia de hexacianoferrato (II) como mediador, se ha llevado a cabo la deposición de
una película de HRP (peroxidasa de rábano picante) en un electrodo base de pasta de
carbono cubriendo luego el sistema con una delgada película de sol-gel [82]. Este sensor
fue utilizado como detector electroquímico en un sistema de análisis de flujo. Este diseño
también se ha utilizado para otras enzimas en sensores de glucosa y compuestos fenólicos.
El sistema de HRP fue igualmente aplicado para el diseño de un biosensor con
configuración “sandwich” [83], lo que permitió mejorar la sensibilidad, la selectividad
hacia el mediador de ferroceno y la estabilidad de la enzima encapsulada. También se ha
extendido esta configuración para un biosensor de L–lactato [84], ampliando rangos
lineales de concentración obtenidos con sistemas previos. Otro tipo de configuración es
aquel en que la especie biosensible está incorporada en el material sol-gel que está
constituido por una matriz de carbono y sílice. Esta área de biosensores fue iniciada por
Pankratov y Lev en 1995 [85] y ha sido desarrollada mediante posteriores modificaciones y
aplicaciones, extendiendo así su campo de utilización. El principal objetivo de estos
trabajos era superar la limitación de estos biosensores de una baja difusión de especies
orgánicas hacia el interior de la matriz, lo que implicaba tiempos de respuesta demasiado
largos. En los biosensores con matriz sol-gel orgánicamente modificada, cada componente
desarrolla una función claramente establecida:
INTRODUCCIÓN
20
§
El carbono asegura la conductividad del electrodo.
§
La matriz de sílice proporciona un soporte rígido y seguro para el
encapsulamiento de la enzima (en general, de la biomolécula).
§
El catalizador o mediador de la transferencia de carga ejerce el papel de
enlace en la conducción electrónica entre el centro activo de la enzima y la
superficie conductora del electrodo.
§
Los grupos orgánicos del silicato orgánicamente modificado poseen gran
actividad hacia la enzima y, además, regulan la hidrofobicidad de la
superficie del electrodo y, por tanto, su sección electroactiva.
El sistema glucosa–GOD ha sido, desde un principio, el utilizado como base para el
estudio de los biosensores sol-gel–carbono, utilizando la matriz sol-gel como soporte para
la enzima y el mediador redox. Éste es añadido durante la etapa de gelificación, de manera
que queda físicamente atrapado en la red o bien químicamente enlazado a ella. Mediante
diversos trabajos, ha quedado patente la versatilidad de los procesos sol-gel para desarrollar
electrodos multifuncionales, compuestos e integrados, con suficiente estabilidad en el
tiempo y actividad bioelectrocatalítica. Una alternativa distinta al uso de mediadores es la
preparación de biosensores amperométricos sol-gel–carbono inertes modificados con
metales. Las partículas de grafito son modificadas con átomos metálicos (rodio [86],
paladio [87]) antes de ser incorporadas, junto con la enzima, en la mezcla precursora. Este
tipo de electrodo posee una superficie activa renovable mecánicamente y de grosor
regulable, alta sensibilidad y estabilidad. Se caracterizan, además, por ser muy selectivos
gracias al efecto electrocatalítico de las partículas metálicas depositadas en el grafito. Es,
también, posible sustituir las partículas de grafito por otras partículas conductoras (por
ejemplo, nanocristales de oro [88]) que realizan las mismas funciones. Finalmente, existe la
posibilidad de construir biosensores sin mediadores que operan mediante la inmovilización
simultánea de dos enzimas (por ejemplo, HRP y GOD [89, 90]).
Con respecto a las tecnologías de fabricación de biosensores amperométricos
desechables (esto es, de un solo uso), recientemente ha surgido una nueva modalidad de
incipiente desarrollo, basada en técnicas de “impresión en plantilla” (del término inglés
screen-printing), concretamente para la fabricación de biosensores amperométricos
desechables sol-gel modificados con enzimas y con carbono [81, 91-94]. Para evitar la
aplicación de altas temperaturas durante la etapa de curado asociada a la preparación de
Capítulo I
21
configuraciones de película delgada para biosensores, se han desarrollado tintas con
carbono, sol-gel precursor y enzimas que son compatibles con el proceso de impresión en
plantilla pero sin necesidad de curado a altas temperaturas. De hecho, ambas tecnologías –
sol-gel e impresión en plantilla– constituyen una herramienta muy valiosa para la
inmobilización de biomoléculas a baja temperatura y para la producción en masa de
biosensores de usar y tirar. De igual manera, se han desarrollado bandas con enzimas
dopadas con metales para utilizarlas como biosensores amperométricos desechables, por
ejemplo, con glucosa oxidasa, observándose una selectividad destacable hacia la glucosa,
además de una notable mejora en la sensibilidad en comparación con el mismo electrodo
no modificado con GOD.
En 1998, Wang, Pamidi y Rogers [95] preparan por primera vez un inmunosensor
electroquímico utilizando procesos sol-gel, en configuración de película delgada sobre un
sustrato cerámico. Los resultados demuestran la retención de la actividad antigénica de la
proteína inmovilizada en la matriz inorgánica y la accesibilidad del anticuerpo desde el
medio electrolítico, dejando la puerta abierta para hacerlo extensible a medidas de otros
compuestos importantes en ámbitos clínicos o medioambientales. Otros ejemplos recientes
de aplicaciones de este tipo pueden encontrarse en [96, 97].
Información más detallada sobre los fundamentos y aplicaciones de los biosensores
o sensores bioanalíticos pueden encontrarse en las siguientes referencias bibliográficas [98100].
3) Características Generales De La Fabricación De Materiales
Sol-gel Con Fines Electroquímicos
La descripción de los materiales empleados para la fabricación de dispositivos solgel, así como su fundamento teórico y sus aplicaciones han sido ya descritos en la sección
anterior. A continuación, se abordará un pequeño resumen que, a modo de conclusión,
permitirá aclarar y concretar los aspectos relacionados con las aplicaciones electroquímicas
de estos materiales.
En general, la síntesis vía sol-gel de un material para aplicaciones electroquímicas
requiere de un alcóxido precursor, un catalizador, un disolvente para homogeneizar los
componentes, agua y una sustancia conductora. Partiendo de esta configuración inicial, sin
INTRODUCCIÓN
22
embargo, la diversificación que puede conseguirse en el proceso de preparación es enorme
y ha sido poco explorada hasta el momento.
Como alcóxidos precursores, se emplean habitualmente tetrametoxisilano (sol-gel
hidrofílico) y metiltrimetoxisilano (sol-gel hidrofóbico). Recientemente, se han utilizado 3glicidoxipropiltrimetoxisilano (GLYMO) [101], mezclas de metiltrimetoxisilano (MTES),
3-metacriloxipropiltrimetoxisilano (MEMO) y también GLYMO [102], dimetildimetoxisilano (DiMe - DMOS) [103] y, por último, (3-mercaptopropil)trimetoxisilano (MPS)
[104], por citar algunos. Aunque, en principio, tanto la catálisis ácida como la básica es
teóricamente
posible
para
la
síntesis
vía
sol-gel
de
materiales
con
aplicación
electroquímica, la catálisis ácida conduce a materiales de características estructurales más
convenientes. La catálisis básica proporciona, en general, materiales más porosos y, por
tanto, más frágiles, que llegan a fracturarse en el proceso de polimerización. En general, se
emplea HCl en concentración suficiente para obtener en la mezcla un pH 2. La
concentración empleada depende de la cantidad de agua que se añade al medio y del
volumen total de reactivos.
La adición de un disolvente que consiga la homogeneización de la mezcla puede
llegar a ser sustituida por otros procesos. Se emplean alcoholes de bajo peso molecular
como disolvente, generalmente etanol y, sobre todo metanol, ya que la hidrólisis de los
silanos precursores más utilizados origina tales alcoholes (que luego quedarán eliminados
del sol-gel), con lo que no se diversifican las sustancias del medio. Sin embargo, la
utilización de ultrasonidos puede complementar la acción de este disolvente, e incluso
sustituirlo, ya que si se dispone de instrumentación adecuada el empleo de ultrasonidos
puede hacer innecesario el uso de un disolvente [105]. La utilización de cantidades
menores de disolventes, o incluso su total eliminación presenta la ventaja adicional de
evitar disminuciones drásticas en el volumen de la matriz precursora, con lo que el relleno
de los soportes adecuados para los electrodos (capilares, ...) es en la práctica menos
problemático.
El agua es necesaria para llevar a cabo la hidrólisis. Sin embargo, tal y como ha
quedado descrito en secciones anteriores, en la etapa de condensación se produce agua, de
forma que a la hora de establecer la cantidad de la misma necesaria para el proceso global,
es preciso considerar ambos efectos. Puede decirse que, en la etapa de hidrólisis, se
requiere una molécula de agua por cada grupo hidrolizable del alcóxido precursor. Por
Capítulo I
23
tanto, la cantidad estequiométrica necesaria de agua vendría determinada por el alcóxido
empleado. No obstante, el solapamiento de las etapas de hidrólisis y condensación también
da lugar a la producción de agua, y ésta también deberá ser tenida en cuenta a la hora de
establecer la cantidad necesaria. Dicha cantidad no será, por tanto, la estequiométrica
respecto a la reacción de hidrólisis, sino inferior. De hecho, es incluso habitual considerar
la humedad ambiental como posible fuente de H2 O, en caso de que el proceso de
estructuración lo requiera. Disminuir en lo posible la cantidad de agua presenta en cuanto a
la reducción del volumen de la mezcla reactiva las mismas ventajas que la disminución o
eliminación del disolvente.
Con respecto a la adición de una especie conductora, se han descrito en la
bibliografía algunos ejemplos como metales pulverizados [94], polímeros conductores [27]
y, fundamentalmente, grafito [104, 105]. Algunos autores han empleado también mezclas
de especies conductoras, como sales de Cu2+ y grafito [106]. Las ventajas del grafito como
material conductor electroquímico son bien conocidas, y basta revisar someramente la
bibliografía electroquímica para comprobar el alto porcentaje de aplicaciones que emplean
algún tipo de configuración del grafito como electrodo. La incorporación de grafito se
realiza en general después de mezclar convenientemente los otros reactivos, y cuando ya se
han iniciado las reacciones de hidrólisis y polimerización en el sol. La cantidad de grafito a
añadir difiere en la bibliografía, fundamentalmente porque las cantidades de los reactivos
empleados son también diferentes.
Aparte de estos componentes básicos, se ha descrito la incorporación de una amplia
gama de modificantes, cada uno con su finalidad y aplicabilidad determinadas, y cuya
máxima complejidad en la práctica es la de mantener las características estructurales del
material para su empleo como electrodos. Como resumen, se podrían citar como
modificantes:
§
Polímeros solubles en agua. Se emplean con el fin de controlar el tamaño de
poro, la reducción de volumen del electrodo y su carácter hidrofílico. El
polímero más utilizado con fines electroquímicos es el polietilenglicol [75,
86], en cantidades variables que han sido objeto de estudio con el fin de
determinar su influencia sobre la estabilidad del electrodo y su respuesta
electroquímica. Recientemente [40], se ha empleado también nafión con el
propósito de estabilizar el sensor, así como para dar una mayor consistencia
INTRODUCCIÓN
24
al sol-gel, evitando problemas de fragilidad en la estructura. Con idéntico
fin, algunos autores han utilizado el polímero natural poli(1÷4)-â-Dglucosamina, comercialmente conocido con el nombre de chitosan [107]. En
[108], pueden encontrarse gran cantidad de citas sobre polímeros empleados
para fabricar materiales nanocompuestos mediante el proceso sol-gel.
§
Enzimas. La incorporación de enzimas es otra de las posibilidades de los
materiales
electroquímicos
sintetizados
por
procesos
sol-gel.
La
incorporación se realiza a temperatura ambiente y no es necesario modificar
ésta para llegar a la forma final del electrodo. En general, la forma de
encapsulamiento se limita a la adición de la enzima al principio del proceso
de gelificación, o bien a la colocación de la enzima sobre un sustrato
conductor (pasta de carbono [82], carbono vitrificado [109]) y el
recubrimiento posterior del electrodo con una película de sol-gel. Los
sistemas mejor descritos hasta el momento son la glucosa oxidasa [110], la
peroxidasa [111] y la tirosinasa [40], aunque se han descrito también
ejemplos
de
la
incorporación
de
xantina
oxidasa
[112],
lactato
deshidrogenasa [88], ureasa [79] y lactato oxidasa y malato deshidrogenasa
[81].
Como
inmunosensor,
se
ha
realizado
la
incorporación
de
inmunoglobulina G de conejo [95] y también humana [113], así como de
otros anticuerpos [96, 97].
§
Complejantes.
El
análisis
de
metales
mediante
incorporación
de
complejantes al electrodo constituye aún un campo de grandes posibilidades
de estudio. Se han descrito aplicaciones de dimetilglioxima para Ni (II) [32,
65], difeniltiocarbazona para Pb (II) [74], 1,10-fenantrolina para Fe (II) y
neocuproína para Cu (I) [75].
4) Técnicas Voltamperométricas Empleadas En Esta Memoria
Durante el desarrollo de la parte experimental de este trabajo, se han utilizado dos
técnicas voltamperométricas. Así pues, este apartado se ha incluido con el fin de revisar
someramente los fundamentos generales de la voltamperometría y las características
propias de ambas técnicas empleadas.
La voltamperometría engloba un conjunto de métodos electroanalíticos que fueron
desarrollados a partir de la polarografía. En realidad, la voltamperometría supuso la
Capítulo I
25
respuesta a los múltiples problemas que planteaba el uso de las técnicas polarográficas en
cuanto a sensibilidad y selectividad.
La principal característica de la polarografía de corriente continua es que está
basada en el uso de un electrodo de gotas de mercurio como electrodo de trabajo; así, si el
electrodo de trabajo no es éste, entonces se hablará de voltamperometría.
La voltamperometría se aplica en diversos campos tal como el análisis de procesos
de oxidación y reducción, procesos de adsorción sobre superficies, mecanismos de
transferencia de electrones en superficies de electrodos químicamente modificados, entre
otros. Algunas de las aplicaciones más interesantes aparecen revisadas en la literatura [114116]. También hay que destacar el gran número de publicaciones relacionadas con
determinaciones electroquímicas en el medioambiente [117-119], constituyendo una de las
áreas de aplicación más estudiadas en la actualidad.
La voltamperometría se basa en aplicar una señal de excitación a un electrodo de
trabajo situado en una celda electroquímica que contiene un medio electrolítico. Dicha
señal es, sencillamente, un potencial variable y la respuesta del electrodo ante esta
excitación es una intensidad de corriente determinada. En función del tipo de señal de
excitación, se originan las diferentes técnicas voltamperométricas.
En la actualidad, las técnicas voltamperométricas utilizan un sistema de tres
electrodos, que se sumergen en un electrolito soporte situado en la celda electroquímica.
Dicho electrolito contendrá la especie que se pretenda analizar y tiene la misión de evitar la
migración de ésta debida al campo eléctrico. La principal característica del electrodo de
trabajo es que su potencial se hace variar con el tiempo, por tanto, debe ser fácilmente
polarizable. Existe también el electrodo de referencia, cuyo potencial es constante durante
la medición. Por último, se tiene el electrodo auxiliar o contraelectrodo (que suele ser de
platino), cuya función es conducir la electricidad desde la fuente que la produce hasta el
electrodo de trabajo a través de la disolución.
Para mayor información sobre los fundamentos de las técnicas y sus aplicaciones, se
aconseja la lectura de [120-123].
INTRODUCCIÓN
26
4.1. Voltamperometría de impulso diferencial
En general, las técnicas voltamperométricas de impulso fueron ideadas con el
propósito de corregir los inconvenientes de la polarografía de corriente continua. La
primera en desarrollarse fue la polarografía de impulso diferencial y, gracias a ella, se
vencieron las deficiencias derivadas del uso del electrodo de gotas de mercurio. Así, con
dicha técnica sólo se registraban datos de intensidad al final de la vida de la gota y,
aplicando impulsos de potencial, se maximizó dicha intensidad. Igualmente, se logró hacer
despreciable la corriente de carga y se restó la mayor parte de la corriente del fondo. Con
tales avances, se consiguió disminuir considerablemente el límite de detección y mejorar la
presentación de los datos.
Por otro lado, más adelante, se descubrió que tales mejoras no sólo eran aplicables
al electrodo de gotas de mercurio, sino también a electrodos sólidos y electrodos de
película de mercurio, y de esta manera surgió la voltamperometría de impulso diferencial,
cuyas características se describirán a continuación.
Para entender bien la descripción, ésta se hará tomando como base la Figura I.1. La
técnica consiste en aplicar (superponer) un impulso de potencial constante ( ÄEp ) de
duración tp (s) al final de cada escalón de altura ÄEs y duración T(s) de una escalera de
potencial. El hecho de aplicar una escalera de potencial en lugar de una rampa se debe al
advenimiento de la aplicación digital a los experimentos electroquímicos, ya que con ello
no es posible generar una rampa ideal de potencial y, en consecuencia, se realiza una
aproximación a ella generando series de pequeños pasos de potencial. Sin embargo, dicha
aproximación tiene la ventaja de aportar mejoras considerables gracias a que el muestreo de
intensidad de corriente se realiza al final de cada paso o escalón, cuando ha desaparecido la
carga no faradaica (por tanto, sólo debería existir corriente faradaica). Se registran los
valores de intensidad de corriente en dos puntos: justo antes de aplicar el impulso de
potencial (S1 ) y justo al final de éste (S2 ), como se observa en la Figura I.1:
Capítulo I
27
Figura I.1.- Señal de excitación en voltamperometría de impulso
diferencial.
Cuando se persiguen fines analíticos, la amplitud del impulso suele aumentarse
hasta 100 mV. Valores mayores de este parámetro proporcionan intensidades de corriente
mayores, pero también originan pérdidas de resolución y aumento de la corriente de carga;
normalmente, se prefiere aplicar valores de como máximo 100 mV ya que se consigue un
buen compromiso entre tales efectos [124].
4.2. Voltamperometría de redisolución anódica de impulso diferencial
Mediante esta técnica, conocida también como DPASV (Differential Pulse Anodic
Stripping Voltammetry), el analito se deposita primero sobre un electrodo, normalmente a
partir de una disolución agitada. Después de un tiempo perfectamente medido, se detiene la
electrólisis y la agitación y el analito depositado se determina mediante otro procedimiento
voltamperométrico. Durante esta segunda etapa del análisis, el analito del electrodo es
redisuelto, lo que da nombre al método.
En los métodos de redisolución anódica, el electrodo se comporta como un cátodo
durante la etapa de deposición y como un ánodo durante la etapa de redisolución, en la que
el analito es reoxidado a su forma original. En un método de redisolución catódica, el
electrodo se comporta como un ánodo durante la etapa de deposición y como un cátodo
durante la redisolución. La etapa de deposición equivale a una preconcentración
electroquímica del analito; esto es, la concentración del analito en la superficie del
electrodo es mucho mayor que en el seno de la disolución.
La voltamperometría de redisolución anódica de diferencial de impulso diferencial
consta de dos etapas bien diferenciadas:
§
Etapa de electrodeposición: normalmente, durante esta etapa sólo se
deposita una fracción del analito y, por tanto, los resultados cuantitativos
INTRODUCCIÓN
28
dependen no sólo del control del potencial del electrodo, sino también de
factores tales como el tamaño del electrodo, la duración de la deposición y
de la velocidad de agitación, tanto de las disoluciones de la muestra como de
los estándares utilizados en el calibrado. El electrodo más popular es el
electrodo de gota colgante de mercurio (HMDE), que consiste en una única
gota de mercurio en contacto con un hilo de platino; no obstante, existen
otros tipos de electrodos: de oro, plata, platino y el carbono en formas
diversas. Sin embargo, el electrodo de mercurio parece dar resultados más
reproducibles, especialmente a concentraciones elevadas del analito. Por
tanto, en la mayoría de las aplicaciones se utiliza el HMDE.
Por ejemplo, para llevar a cabo la determinación de un ión metálico por
redisolución anódica, se forma una nueva gota de mercurio, se empieza la agitación y se
aplica un potencial que es unas cuantas décimas de voltio más negativo que el potencial de
pico del ión que interesa. La deposición tiene lugar mediante un tiempo cuidadosamente
medido. Hay que resaltar que estos tiempos rara vez dan lugar a una eliminación completa
del ión. El periodo de electrólisis se determina en función de la sensibilidad del método
utilizado posteriormente para la realización del análisis.
§
Etapa del análisis voltamperométrico: El analito recogido en el electrodo de
gota
colgante
puede
determinarse
por
cualquiera
de
los
distintos
procedimientos voltamperométricos existentes, siendo el más ampliamente
utilizado el método de impulso diferencial. Por medio de él, se obtienen a
menudo picos estrechos que son especialmente adecuados cuando se han de
analizar mezclas.
Los métodos de redisolución son de gran importancia en el análisis de trazas, ya que
el efecto de concentración de la electrólisis permite la determinación en pocos minutos de
un analito con una exactitud razonable. De modo que es factible el análisis de disoluciones
en el intervalo entre 10-6 y 10-9 M, por métodos que son a la vez sencillos y rápidos.
En esta Tesis Doctoral, se ha utilizado una variante de la voltamperometría de
impulso diferencial, denominada voltamperometría adsortiva de impulso diferencial, cuyo
fundamento es similar al descrito anteriormente. La diferencia estriba en que el analito se
preconcentra por adsorción sobre la superficie del electrodo al aplicar un potencial de
Capítulo I
29
acumulación durante un tiempo determinado, como etapa previa a la determinación. Esta
técnica es muy útil en aquellos casos donde la concentración del analito en disolución es
muy pequeña.
5) Contribuciones Del Grupo De Trabajo En El Campo De Los
Materiales Sol-Gel
Nuestras investigaciones en los últimos años se han orientado hacia la utilización de
grafito pulverizado como material para la fabricación de electrodos de pasta de carbono,
tanto modificada como sin modificar [125-127]. No obstante, recientemente, hemos
empleado dicha especie conductora para la elaboración de sensores amperométricos
basados en la tecnología sol-gel. La puesta a punto de estos últimos dispositivos ha
permitido el desarrollo de un interesante trabajo de investigación compuesto por una Tesis
Doctoral [1], una patente [128] y varias publicaciones científicas en revistas internacionales
de prestigio [105, 129]. Los resultados obtenidos son realmente satisfactorios y abren un
gran abanico de posibilidades para futuros estudios.
Como se ha comentado en apartados anteriores, los procedimientos clásicos
recogidos en la literatura para la síntesis de materiales de electrodo basados en la
tecnología sol-gel (catálisis ácida) incluyen la adición de un disolvente alcohólico a la
mezcla precursora inicial para hacerla homogénea, ya que el sistema no es miscible. La
posterior evaporación de este componente implica una inevitable y marcada reducción del
volumen del material, la cual es completamente indeseable en la fabricación de electrodos
sólidos. Además, estos procedimientos requieren, generalmente, de un tiempo de
insonación superior a 10 minutos en un baño de ultrasonidos para desencadenar la reacción
de hidrólisis, es decir, iniciar el proceso sol-gel.
La metodología de fabricación propuesta en el citado trabajo para sintetizar
materiales sólidos compuestos de carbono con el fin de preparar electrodos se caracteriza
por su novedad y se basa, fundamentalmente, en el uso de la sonocatálisis [16, 130]. Por
medio de ella, se aplican ultrasonidos de elevada energía directamente sobre los
precursores, alcanzándose la cavitación ultrasónica. De este modo, la hidrólisis catalizada
de forma ácida se desencadena en ausencia de un disolvente adicional. Gracias al
fenómeno de la cavitación ultrasónica, las reacciones sol-gel suceden en un único
ambiente, permitiendo la obtención de geles con especiales características. El sol-gel
INTRODUCCIÓN
30
obtenido de este modo se denomina sonogel y presenta una gran densidad, una textura fina
y una estructura homogénea. La mezcla de sonogel con grafito de grado espectroscópico
conduce a un nuevo tipo de electrodo denominado electrodo Sonogel-Carbono [1, 128].
El electrodo Sonogel-Carbono está siendo utilizado por nuestro grupo de
investigación en algunas de sus múltiples posibilidades. A parte de las aplicaciones
descritas en la presente Memoria, se ha desarrollado un biosensor de tirosinasa para la
determinación de fenoles, basado en una matriz Sonogel-Carbono recubierta con el
enzima; paralelamente, se están realizando pruebas del comportamiento del dispositivo con
incorporación directa del enzima en el soporte Sonogel-Carbono. Igualmente, se está
trabajando en un sensor con incorporación de ciclodextrina para el análisis de fenoles y, al
mismo tiempo, se está avanzando en la incorporación de tioureas modificadas con el fin de
obtener un dispositivo potenciométrico sensible a cationes metálicos.
En el siguiente epígrafe, se describe el procedimiento para preparar los electrodos
Sonogel-Carbono.
5.1. Procedimiento de preparación de los electrodos
1. PREPARACIÓN DE LOS SOLES.
Para sintetizar los soles, se adicionan, en un recipiente de vidrio (5,5 cm de altura y
17 mm de diámetro) y en el orden dado, los siguientes precursores: un volumen de
disolución de HCl de la concentración necesaria tal que la relación molar MTMS:H2 O sea
1:1,5 y 0’5 ml de MTMS. A continuación, se coloca el recipiente bajo la sonda del
transductor, como se indica en la Figura I.2, y se lleva a cabo la insonación durante cinco
segundos. Se obtiene, de este modo, una única fase homogénea que constituye el sol
(desencadenamiento de la hidrólisis). Posteriormente, se añade 1 g de grafito en polvo y se
homogeneiza el conjunto. Si se pretende modificar el electrodo, la cantidad de agente
modificante adecuada se adiciona antes de la homogeneización; en el caso del
politelinglicol se adicionan 25 µl de disolución PEG:H2 O (5:2 en masa) al sol.
Capítulo I
31
Transductor
Sonda
Recipiente con
precursores
Vaso con agua
Punta
Figura I.2.- Insonación de la mezcla precursora de un sol mediante un
sistema generador de ultrasonidos de alta potencia.
2. PROCEDIMIENTO DE LLENADO DEL SOPORTE DEL ELECTRODO.
El llenado de los capilares se lleva a cabo mediante la inserción de los mismos,
rotándolos en ambos sentidos con respecto a su eje vertical, dentro del seno del sol
contenido en el recipiente, evitando que queden huecos; esto es relativamente complicado,
teniendo en cuenta la elevada viscosidad del sol y el reducido diámetro interno del capilar,
no obstante, asegura la correcta distribución del sol-gel a lo largo del tubo de vidrio.
3. PROCEDIMIENTO DE SECADO.
Una vez rellenados los capilares, se introduce en cada uno un hilo de cobre con el
fin de apelmazar el sol dentro de los mismos, eliminándose pequeños espacios libres. Se
continúa presionando con el hilo para que una pequeña cantidad de sol quede fuera del
capilar, lo que facilitará su posterior lijado y pulido.
4. PROCEDIMIENTO DE PULIDO.
En los momentos previos a la medida, se elimina el material que sobresale por la
base del electrodo utilizando una lija de grano fino. Si el exceso es grande, puede utilizarse
primero una lija de grano grueso para acelerar el proceso y, posteriormente, utilizar la de
grano fino. A continuación, se frota la superficie resultante con un papel satinado colocado
sobre una superficie lisa. De esta manera, la superficie queda pulida (aspecto brillante y
liso).
Con respecto al contacto eléctrico (hilo de Cu), se establece una vez que la pasta se
endurece, asegurando la perfecta inmovilización del mismo.
INTRODUCCIÓN
32
La Figura I.3 es un esquema gráfico de las etapas que constituyen el proceso de
preparación de los electrodos compuestos Sonogel-Carbono.
Figura I.3.- Esquema gráfico de las etapas que constituyen el proceso de
separación de los electrodos compuestos Sonogel-Carbono.
Las aplicaciones de los sonogeles en el campo de la electroquímica son todavía
bastante escasas [129, 131-133], sin embargo, se utilizan bastante como superconductores
[134] o en dispositivos ópticos [16, 135].
6) El Problema De La Superposición De Señales Y Su Resolución
El problema de la determinación simultánea de dos o más especies con señales
analíticas similares ha suscitado un enorme interés desde el nacimiento de las técnicas
electroanalíticas. En la actualidad, dichas técnicas instrumentales en combinación con
determinados procedimientos químicos tales como modificación del pH del medio y el uso
de diversos electrólitos soporte o de electrodos modificados, permiten resolver este
problema en muchas situaciones; sin embargo, los resultados no son tan satisfactorios en
otras.
Capítulo I
33
Una de las principales limitaciones de las técnicas electroanalíticas en el campo del
análisis cuantitativo, a pesar de sus numerosas aplicaciones [119, 121], bajo coste y
simplicidad, se debe fundamentalmente a la ausencia de selectividad. En efecto, muchas
especies químicas pueden interferirse mutuamente si sufren procesos de oxidación o
reducción a valores de potenciales muy próximos unos a otros o si se encuentran en
concentraciones elevadas sobre los demás componentes presentes en la muestra. Esto
provoca la superposición de señales de dos o más especies existentes en la disolución,
haciendo mucho más difícil la determinación voltamperométrica. El grado de solapamiento
puede ser tal que la existencia de dos procesos en paralelo no se distinga visualmente. En
estos casos, pueden producirse malas interpretaciones y resultados erróneos. En el caso de
la voltamperometría de impulso diferencial (DPV), se produce un solapamiento serio
cuando la diferencia entre los potenciales de pico es inferior a 100 mV dividido por el
número de electrones envueltos en la reducción u oxidación electroquímica, especialmente
cuando la relación de concentraciones de las especies es mayor de 3:1 [136].
Este fenómeno de superposición o solapamiento de señales ocurre más comúnmente
en voltamperometría que en cromatografía o la mayoría de métodos espectroscópicos,
puesto que la semianchura de una señal voltamperométrica en forma de pico (típicamente
de 100 mV a la altura media) supone una fracción apreciable del rango de potenciales
accesible para esta técnica (normalmente 1500 mV) [137].
Es, en estos casos, cuando la Quimiometría ofrece alternativas eficaces a la
separación de las señales, incluso en los casos de solapamiento más severo. Entre las
técnicas estadísticas más utilizadas para la evaluación simultánea de señales solapadas,
independientemente del tipo de señal, se encuentran la deconvolución o técnicas
semidiferenciales acopladas con ajuste de curvas [138-142], el método de resolución de
curvas multivariante [143-145] y la calibración multivariante [146-148]. En la literatura
reciente se pueden encontrar un gran número de aplicaciones de calibración multivariante
en el campo de la electroquímica [149-157], usando diferentes métodos de regresión, tales
como la regresión multilinear (MLR) [153], regresión de componentes principales [152,
154, 157], regresión continua [150], regresión por mínimos cuadrados parciales (PLS)
[149, 151, 154, 157] y redes neuronales artificiales (ANN) [155, 156].
INTRODUCCIÓN
34
7) Transformadas de funciones
Las transformaciones matemáticas o transformadas de funciones se aplican a
señales con el fin de obtener una representación de la señal en un dominio alternativo.
Dicha representación permite lo siguiente:
§
Analizar la señal desde un punto de vista diferente, poniendo en evidencia
aspectos que fácilmente quedarían ocultos en el dominio original.
§
Efectuar operaciones sobre la señal transformada de un modo mucho más
sencillo de cuanto sería posible con la señal original.
Existe un gran número de transformaciones [158], entre las cuales, la más popular y
conocida, en el ámbito de cualquier disciplina científica, es la Transformada de Fourier
(FT). Entre otras podemos destacar también la Transformada de Hilbert, la de Radon, las
Distribuciones de Wigner, la Transformada de Fourier Dependiente del Tiempo (STFT) y
la Transformada Wavelet (WT). Cada una de ellas posee su propia área de aplicación y
presenta ventajas e inconvenientes.
Este apartado se centrará fundamentalmente en la FT, STFT y WT. A continuación,
se incluye un pequeño resumen acerca de los conceptos básicos relacionados con el
procesamiento de señales, la FT y la WT.
7.1. Conceptos fundamentales: visión global de la teoría del procesamiento de señales
La mayoría de las señales, en la práctica, se representan en el dominio temporal; es
decir, aparecen expresadas en función del tiempo. En otras palabras, cuando se lleva a cabo
la representación gráfica de la señal, uno de los ejes es el tiempo (variable independiente),
mientras que el otro (variable dependiente), generalmente, se corresponde con la amplitud.
No obstante, esta forma de representación no suele ser la más adecuada a la hora de aplicar
una técnica de procesamiento de señales. En la mayoría de los casos, la parte más
importante de la información se encuentra oculta en el contenido de frecuencias de la
señal. El espectro de frecuencias de una señal consiste básicamente en las componentes de
frecuencia (componentes espectrales) de la misma.
Intuitivamente, el término “frecuencia” se relaciona con la velocidad a la que
cambia cierta propiedad; esto es, si una propiedad varía rápidamente, se dice que posee alta
Capítulo I
35
frecuencia; en cambio, si lo hace lentamente, tendrá baja frecuencia. Si la propiedad no
cambia en absoluto, entonces posee frecuencia cero.
A la hora de medir la frecuencia o encontrar el contenido en frecuencias de una
señal, se utiliza la FT. Cuando se aplica esta transformación matemática a una señal, se
obtiene, por tanto, la representación frecuencia-amplitud de la señal original. En este caso,
se ha sustituido el eje temporal por el de las frecuencias.
La razón por la cual es necesaria esta transformación se debe, fundamentalmente, a
que no toda la información contenida en una señal se puede extraer de forma inmediata y
directa en el dominio temporal. Por ejemplo, en el caso de las señales correspondientes a
un electrocardiograma (ECG), su forma es bien conocida para los cardiólogos y cualquier
desviación significativa de la misma se considera el síntoma de una patología. Sin
embargo, esta condición patológica no se reconoce siempre de un modo obvio en el
dominio temporal de la señal. Para facilitar y asegurar el diagnóstico de una enfermedad de
este tipo es mejor utilizar el contenido de frecuencias de estas señales.
La FT implica una transformación reversible, es decir, permite pasar sin ningún
problema de la señal original a la señal en el dominio de las frecuencias y viceversa. Sin
embargo, ambas señales no pueden coexistir; esto es, en el dominio temporal no se puede
obtener información sobre las frecuencias, del mismo modo que en el dominio de las
frecuencias es imposible extraer información temporal. Esto plantea la cuestión de si es
necesario disponer de ambos tipos de información al mismo tiempo.
La respuesta a esta pregunta depende de la aplicación de que se trate en particular,
así como de la naturaleza de la señal. Hay que recordar que la FT genera la información de
frecuencias de una señal, indicando de este modo las frecuencias que existen dentro de la
misma; sin embargo, no indica en qué momento del tiempo existen dichas frecuencias.
Esta información es irrelevante cuando se dispone de las denominadas señales
estacionarias o señales cuyo contenido de frecuencias no cambia con el tiempo. Esto
significa que todas las componentes de frecuencia existen en todo momento.
La Figura I.4 representa dos señales diferentes: A) estacionaria y B) noestacionaria, con sus respectivos espectros de frecuencias.
INTRODUCCIÓN
36
Figura I.4.- Comparación de señales estacionarias (A) y no-estacionarias
(B).
La similitud entre ambas es enorme: las dos presentan cuatro componentes
espectrales exactamente a los mismos valores de frecuencias. No obstante, se puede
comprobar, que en el dominio temporal, son completamente diversas. Aunque las dos
señales posean las mismas componentes de frecuencias, en el primer caso (señal
estacionaria), las frecuencias aparecen en todos los tiempos, mientras que en el segundo
(señal no-estacionaria), se encuentran a intervalos de tiempo distintos. ¿Cómo es posible
que dos señales tan diferentes tengan espectros de frecuencias tan parecidos? Hay que
recordar que la FT da información sobre el contenido de frecuencias de una señal, pero
ninguna información acerca del tiempo. Por este motivo, la FT no es una técnica útil para
señales no estacionarias, salvo en aquellos casos donde sólo interesen las componentes de
frecuencias y no el lugar en el tiempo en que éstas aparecen. Además, la FT tampoco
recoge aspectos relacionados con los efectos de deriva, cambios repentinos en la señal,
detección de inicio y fin de eventos en la misma, etc.
Si se requieren resolver estos problemas y obtener simultáneamente información
temporal y de frecuencias (en qué momento se produce determinada componente
espectral), la FT sencillamente no es la solución: para ello es necesaria una transformada
que permita una representación en tiempo-frecuencia de la señal. Entre las transformadas
Capítulo I
37
que proporcionan representaciones de este tipo, se pueden distinguir: la WT, la STFT y las
Distribuciones de Wigner, entre otras.
El modo en como se efectúa este cambio es mediante la aplicación de filtros de
paso alto y de paso bajo a señales en el dominio temporal, logrando el filtrado de las
frecuencias altas y bajas, respectivamente. El proceso se repite eliminándose cada vez
alguna porción de la señal correspondiente a determinadas frecuencias. Por ejemplo, dada
una señal cuyas frecuencias alcanzan hasta los 1000 Hz, en un primer paso, la señal es
dividida en dos partes mediante el uso de los dos tipos de filtros (los cuales deben
satisfacer determinadas condiciones), resultando en dos versiones diversas de la misma
señal: una porción de la misma de 0 a 500 Hz (baja frecuencia) y una segunda porción de
500 a 1000 Hz (alta frecuencia). En una segunda etapa, se toma una de dichas porciones
(normalmente la correspondiente a las frecuencias bajas) o ambas y se repite de nuevo el
procedimiento. Ahora la señal se haya dividida en tres partes: 0 a 250, 250 a 500 y 500 a
1000 Hz. Repitiendo el proceso se obtienen cuatro partes de la señal y así sucesivamente
hasta alcanzar un cierto nivel predefinido. Esta operación se denomina descomposición.
De este modo, al final se obtiene un conjunto de señales que representan la señal original,
pero a diferentes bandas de frecuencias. Haciendo la representación gráfica en tres
dimensiones, tendremos el tiempo en el primer eje, la frecuencia en el segundo y la
amplitud en el tercero. Esto permite identificar qué frecuencias existen en un determinado
momento.
Sin embargo, existe una regla conocida con el nombre de “Principio de
Incertidumbre”, formulado por Heisenberg, según el cual el momento y la posición de una
partícula en movimiento no pueden determinarse de manera simultánea. Extrapolando esta
definición al dominio tiempo-frecuencia, significa que la información temporal y de
frecuencias de una señal en un punto determinado del plano tiempo-frecuencia no puede
ser conocida. En otras palabras: no podemos saber qué componentes espectrales existen en
un instante determinado de tiempo. Como máximo se podrían determinar qué componentes
espectrales existen en un intervalo de tiempo. El problema radica en una cuestión de
resolución y supone la razón principal por la cual los investigadores han preferido la WT
frente a la STFT, como se verá luego. La STFT ofrece siempre la misma resolución
tiempo-frecuencia, mientras que la WT proporciona la siguiente resolución de las
variables: las frecuencias altas son resueltas de un mejor modo en el dominio temporal, y
INTRODUCCIÓN
38
las frecuencias bajas lo son a su vez en el dominio de las frecuencias. Esto significa que
una cierta componente de alta frecuencia puede ser localizada mejor en el tiempo (con
menor error relativo) que una componente de baja frecuencia. Por el contrario, una
componente de baja frecuencia se localiza mejor en el dominio de las frecuencias si la
comparamos con una componente de alta frecuencia.
A continuación, se resumirán los aspectos más importantes de la FT, STFT y WT,
aprovechando la evolución histórica para facilitar su comprensión.
7.2. Fundamentos de la Transformada de Fourier (FT)
Como se ha comentado anteriormente, es inútil aplicar la FT a señales no
estacionarias, puesto que señales diferentes en el dominio temporal pueden tener el mismo
espectro de frecuencias, es decir, la misma FT. Para comprender esto hay que conocer el
funcionamiento de dicha transformada.
En el siglo XIX, exactamente en 1822, el matemático francés J. Fourier, demostró
que cualquier función periódica podía expresarse como una suma infinita de funciones
exponenciales complejas y periódicas. Años después, sus ideas fueron generalizadas:
primero, a funciones no-periódicas y, posteriormente, a señales temporales discretas, tanto
periódicas
como
no-periódicas.
Fue
después
de
esta
generalización
cuando
su
descubrimiento se convirtió en una herramienta muy útil para el cálculo computacional,
culminando en 1965 con el desarrollo de un nuevo algoritmo denominado Transformada de
Fourier Rápida (FFT). A partir de entonces, la FT se hizo cada día más popular.
En pocas palabras y de forma muy sencilla, el funcionamiento de la FT es el
siguiente: descompone una señal en funciones exponenciales complejas de diferentes
frecuencias. Dicho proceso se recoge en estas dos ecuaciones:
∞
X(f ) = ∫ x(t ) ⋅ e −2 j ⋅π⋅f ⋅t dt
(1)
−∞
∞
x( t ) = ∫ X(f ) ⋅ e 2 j⋅π⋅ f ⋅ t df
(2)
−∞
donde, t es el tiempo, f la frecuencia y x hace referencia a la señal en cuestión: x para el
dominio temporal y X para el de las frecuencias. La ecuación (1) recibe el nombre de
Capítulo I
39
Transformada de Fourier de x(t), mientras que la ecuación (2) se corresponde con la
Transformada de Fourier Inversa de X(f), la cual es x(t).
Si observamos detenidamente la ecuación (1), la señal x(t) es multiplicada por un
término exponencial, para una cierta frecuencia f, y luego integrada para “todo el dominio
temporal”. Y es aquí donde está la clave. La ecuación (1) puede escribirse también como:
cos (2π ⋅ f ⋅ t ) + j ⋅ sen (2π ⋅ f ⋅ t )
(3)
La expresión posee una parte real (coseno de la frecuencia f) y una parte imaginaria
(seno de la frecuencia f). Lo que en realidad hace la FT es proyectar (multiplicar) la señal
original por una expresión compleja constituida por senos y cosenos (funciones de base) de
la frecuencia f, para luego integrar el resultado (sumar todos los puntos de este producto).
Si el resultado de esta integración (que se trata ni más ni menos de una suma infinita) es un
valor muy grande, entonces puede decirse que la señal x(t) posee una componente espectral
dominante a la frecuencia f. Esto significa que una gran porción de esta señal está
compuesta por dicha frecuencia f. Por el contrario, si el resultado de la integral es un valor
pequeño, la señal no posee una componente de frecuencia principal para ese valor de f. Si
la integral da un valor nulo, entonces la señal no contiene la frecuencia f en absoluto.
Esto se comprende del siguiente modo: en la integral, la señal aparece multiplicada
por un término sinusoidal de la frecuencia f; si la señal posee una componente de elevada
amplitud para la frecuencia f, entonces, esa componente y el término sinusoidal coincidirán
y el producto de ambos resultará en un valor (relativamente) grande: la señal x tendrá una
componente de frecuencias principal en f. Por otro lado, si la señal no tiene una
componente de frecuencias en f, el producto alcanzará el valor de cero. Finalmente, si la
frecuencia f no es una componente principal de la señal x(t), entonces, el producto dará un
valor (relativamente) pequeño. Esto significa que la componente de frecuencia f en la señal
x posee una amplitud muy pequeña o, en otras palabras, que no es una componente
principal de x.
Como se ha comentado anteriormente, la integral de la ecuación (1) se extiende
para todo el intervalo de tiempo (de -
a +
) y se calcula para cada valor de f. Esto
significa que no importa en qué valor de t aparezca la frecuencia f, ya que el resultado de la
integración se verá afectado del mismo modo. En otras palabras, si la componente de
INTRODUCCIÓN
40
frecuencia aparece a t 1 o a t 2 , tendrá el mismo efecto en la ecuación. El resultado obtenido
por la FT sólo tendría sentido cuando la señal poseyese la componente de frecuencia f en
todos los valores de tiempo (para todos los valores de f).
Hay que notar que la FT indica si una cierta componente de frecuencia existe o no.
Esta información es independiente del instante en el tiempo al que aparece dicha
componente. Por tanto, es muy importante saber si una señal es estacionaria o no, antes de
procesarla con la FT.
Ahora puede comprenderse mejor el ejemplo ofrecido anteriormente, cuando daba
una visión global sobre la teoría del procesamiento de señales: dos señales totalmente
diferentes en el dominio temporal, pero que a la hora de aplicar la FT, se obtenía idéntico
resultado (Figura I.4). Para la FT, ambas señales son idénticas porque están constituidas
por las mismas componentes de frecuencia. Por esta razón, la FT no es una herramienta útil
para analizar señales no-estacionarias (señales que varían en el tiempo). Naturalmente, si
no se está interesado en el tiempo al que aparecen las componentes de frecuencia, sino tan
sólo en que dichas componentes de frecuencia existan, entonces la FT puede ser una
herramienta útil.
Aplicaciones de la FT
Hay que resaltar que los campos de aplicación de la transformada de Fourier han
sido y continúan siendo bastante amplios, sobre todo como método de preprocesamiento de
señales: eliminación de ruido (denoising) y suavizado de señales (smoothing) [159, 160] y
como técnica de reducción de dimensiones [161, 162].
El empleo de la FT como técnica de reducción de dimensiones consiste en la
transformación de una señal del dominio original (temporal) al dominio de las frecuencias,
y el posterior filtrado (de paso bajo) de la misma, a partir de un valor de frecuencias
determinado, con el fin eliminar la información redundante y de alta frecuencia (ruido). De
este modo, se seleccionan una serie de frecuencias y amplitudes dominantes en el espacio
de Fourier, las cuales contienen casi toda la información útil de la señal, que luego son
utilizadas como parámetros de entrada a otros métodos estadísticos. Finalmente, se
recompone la señal en el dominio original mediante la transformada de Fourier inversa. En
la presente Tesis Doctoral, se ha hecho uso de la FT en este sentido.
Capítulo I
41
La forma como se resolvió el problema de las señales no-estacionarias fue con las
representaciones lineales tiempo-frecuencia: Transformada de Fourier Dependiente del
Tiempo (STFT).
En la siguiente figura, aparece recogido el esquema correspondiente al proceso
descrito anteriormente:
-7
8
Señal original s(t)
Modulo (FFT)
4
-6
x 10-7
s(t)
3
2
1
0
0
0.5
t
-6
x 10
4
2
4
0
x 10
20
Frec Hz .
40
3
4
2
0
0
-7
S(t) Recompuesta
FFT Filtrada
6
s(t) y S(t)
Modulo (FFT)
8
FFT(Original)
6
0
1
x 10 -6
20
Frec Hz .
40
2
1
0
0
0.5
t
1
Figura I.5.- Esquema de un proceso de reducción de dimensiones
utilizando la FT.
Recientemente se han empleado algunas variantes de la FT como herramientas de
preprocesamiento. Podemos destacar la transformada de Fourier fraccionaria discreta
(DFRT: Discrete Fractional Fourier Transform) [163], la transformada de Fourier de
convolución
Shah
(SCOFT:
Shah
Convolution
Fourier
Transform)
[164]
y
la
autodeconvolución de Fourier (FSD: Fourier Self-Deconvolution) [165].
Por otro lado, la FT se ha utilizado en gran medida para la deconvolución de picos
en electroquímica [136, 141, 166-168], cromatografía [169-171] y espectroscopía [159]. A
la hora de llevar a cabo un análisis multianalito, la transformada de Fourier es más sencilla
y rápida de aplicar que cualquier otro método matemático, algunos de los cuales requieren
algoritmos mucho más complejos que éste, puesto que la FT trabaja en el dominio de las
frecuencias [136]. Sin embargo, suele perderse en un exceso de ecuaciones matemáticas y
INTRODUCCIÓN
42
en la aplicación de funciones o formas de onda arbitrarias [159], tal como sucede con el
ajuste de curvas (curve fitting), aunque en menor medida.
El procedimiento a seguir para llevar a cabo la deconvolución de señales
electroquímicas es el siguiente: se divide la transformada de Fourier de la función a
deconvolucionar por la transformada de Fourier de la función deconvolución. Al resultado
se le aplica la transformada de Fourier inversa y se obtiene la función deconvolucionada.
Normalmente, la función deconvolución se elige de forma empírica: mediante el uso de
una función modelo que describe con exactitud la forma de las señales en estudio. Tales
funciones pueden determinarse también mediante la aplicación de un análisis de regresión
o con el fin de minimizar o eliminar en lo posible cierto efecto, como la cinética de
transferencia de carga heterogénea [136]. Sin embargo, otros autores han propuesto la
señal individual de uno de los componentes de la mezcla como función deconvolución
[166, 172].
No obstante, el uso de la FT presenta una clara desventaja basada en la introducción
de cierto ruido matemático, denominado ruido de resolución que, en determinadas
situaciones, hace imposible su aplicación para alcanzar una correcta resolución del sistema
multianalito. De modo particular, la transformada de Fourier no es útil cuando uno de los
analitos de la mezcla se encuentra en concentración muy elevada con respecto a los
restantes.
El ruido de resolución tiene su origen en varios factores: por un lado, en el número
final de puntos que, a veces, es modificado mediante la adición de ceros (padding), puesto
que muchos programas para realizar la deconvolución por transformada de Fourier
precisan de un número concreto de datos: 2N (siendo N un número entero positivo); y, por
otro lado, en los errores de redondeo, inherentes a las matemáticas. Algunos autores [136,
173] relacionan directamente el fenómeno de sobreagudización o la formación de picos
laterales o “spikes” con estos errores, lo que induce a equivocaciones a la hora de
determinar y diferenciar las señales de los analitos procedentes de la mezcla.
El grado de agudización de los picos es función de la amplitud media de la función
deconvolución. Si éste valor se aproxima a la amplitud media del componente más
estrecho en la señal solapada de la mezcla que se va a deconvolucionar, se obtienen picos
sobreagudizados, es decir, aparecen otros picos más pequeños a ambos lados de los picos
Capítulo I
43
principales. El efecto de sobreagudización no influye en la posición del pico, a menos que
se produzca en tal extensión que el resultado de la deconvolución sea una función oscilante
a lo largo de todo el rango de potenciales aplicado.
La sobreagudización, aunque sea moderada, impide un buen reconocimiento de los
picos del voltamperograma. El grado de resolución del solapamiento es función de un
parámetro, cuyo valor óptimo debe determinarse inspeccionando los picos resultantes de la
deconvolución. Valores pequeños del citado parámetro permiten deconvoluciones más
agudas y estrechas. Sin embargo, cuanto menor sea este valor, mayor grado de
sobreagudización se producirá.
Como consecuencia de todo esto algunos autores [171] aconsejan el uso de la
transformada de Fourier como método de deconvolución única y exclusivamente en
aquellos análisis que no requieran una exactitud elevada. Además, hay que tener en cuenta
que la deconvolución por transformada de Fourier es menos efectiva cuando los
componentes de la mezcla poseen diferentes valores de n (número de electrones
implicados).
Kirmse y Westerberg [170] establecieron la base teórica de la agudización de picos
simétricos
en
el
campo
de
las
frecuencias,
aplicándola
fundamentalmente
a
la
cromatografía de gases. Küllik et al. [171] utilizaron también la transformada de Fourier
para resolver mezclas en cromatografía gaseosa, empleando funciones lineales como
funciones de deconvolución.
La FT se ha aplicado también para la interpolación de datos de señales
electroquímicas [174], con el fin de evaluar distintos parámetros, tales como la posición y
magnitud del pico, su amplitud de área a la altura media, potenciales de onda media y la
separación de los picos, entre otros.
Por último, la transformada de Fourier permite llevar a cabo gran cantidad de
estudios, tales como: el procesamiento de datos a partir del espectro de admitancia
faradaica para estudios cinético-mecanísticos en electroquímica, la obtención de espectros
de respuesta de medidas de relajación electroquímica de pequeña amplitud, la
investigación de características de no linealidad faradaica y su aplicación a procesos de
INTRODUCCIÓN
44
correlación y decorrelación, siendo los dos últimos muy útiles en ensayos cualitativos y
cuantitativos [175-178].
7.3. Fundamentos de la Transformada de Fourier Dependiente del Tiempo (STFT)
El problema de la FT es que no servía para señales no-estacionarias. Esto condujo a
la siguiente pregunta: ¿podrían asumirse como estacionarias partes de señales noestacionarias? La respuesta es afirmativa. Sólo hay que observar la Figura I.4-B: la señal es
estacionaria cada 250 unidades de tiempo. Esta consideración puede aplicarse aunque el
intervalo en el que consideremos la señal como estacionaria sea demasiado pequeño. En
estos casos, se utilizan las mismas herramientas que los físicos: “ventanas” lo
suficientemente estrechas para que la porción de señal a considerar dentro de ellas sea,
efectivamente, estacionaria.
Esta aproximación llevada a cabo por los investigadores les condujo a la versión
revisada de la FT, la denominada Transformada de Fourier Dependiente del Tiempo
(STFT) [179-186]. Dicha transformación también se conoce como Transformada de Gabor
o Transformada de Fourier de Tiempo Corto.
La única diferencia existente entre STFT y FT es que en el primer caso la señal se
divide en pequeños segmentos o porciones iguales, dentro de los cuales se asume que la
señal es estacionaria. Para este propósito, se utiliza una función de ventana, w, cuya
anchura coincide con la longitud de los citados segmentos.
Esta función ventana se localiza inicialmente al comienzo de la señal original, es
decir, a un valor de tiempo, t, igual a cero. Si la anchura de la “ventana” viene definida por
T (en segundos), para el instante t=0, la función ventana cubrirá los primeros T/2
segundos. La función ventana y la señal se multiplican posteriormente, de tal modo, que
sólo se seleccionan los primeros T/2 segundos de la señal, con un pesaje apropiado por
parte de la ventana (si la ventana es un rectángulo de amplitud 1, entonces el producto será
igual a la señal original). Dicho producto se considera una nueva señal, a la que se aplica la
FT, como si de cualquier señal se tratase.
El resultado de esta transformación es la FT de los primeros T/2 segundos de la
señal. Si esta porción de la señal es estacionaria, como se asumió al principio, entonces no
Capítulo I
45
habrá ningún problema y el resultado obtenido será una representación verdadera en el
dominio de las frecuencias de esos primeros T/2 segundos.
El próximo paso consiste en cambiar la posición de la ventana (para t 1 segundos)
hasta una nueva localización, multiplicarla de nuevo por la señal original y tomar el
producto de la FT. Este procedimiento se repite hasta alcanzar el extremo final de la señal,
siempre trasladando la ventana en intervalos de t 1 segundos.
La siguiente definición de la STFT resume toda la explicación anterior:
[
]
STFTX( w ) (t ′, f ) = ∫ x (t )⋅ w* ( t − t ′) ⋅ e −2 j⋅π⋅f ⋅t dt
(4)
t
donde x(t) es la señal original, w(t) es la función ventana y * es el complejo conjugado.
Como puede observarse, la STFT no es más que la FT de la señal original multiplicada
(convolución) por una función ventana. Para cada valor de t’ y f se calcula un nuevo
coeficiente STFT.
Sin embargo, la mejor forma de comprender esto es mediante un ejemplo. Antes
que nada, como la transformación STFT es una función tanto del tiempo como de la
frecuencia (a diferencia de la FT, que sólo depende de la frecuencia), el resultado vendría
expresado en dos dimensiones (tres, si se considera también la amplitud). Un ejemplo de
señal no estacionaria sería el que aparece en la Figura I.6:
Figura I.6.- Ejemplo de una señal no-estacionaria.
INTRODUCCIÓN
46
En la señal, aparecen cuatro componentes de frecuencia en diferentes intervalos de
tiempo. El primero de ellos, que va de 0 a 250 ms, se corresponde con un sinusoide simple
de 300 Hz, mientras que los restantes son de 200, 100 y 50 Hz, respectivamente.
Aparentemente, la señal completa se corresponde con una señal no-estacionaria. Si,
posteriormente, se aplica la STFT, resulta la Figura I.7:
Figura I.7.- STFT de una señal no-estacionaria.
Como se había presupuesto, se trata de una gráfica en dos dimensiones (tres, si se
tiene también en consideración la amplitud). Los ejes X e Y se corresponden con tiempo y
frecuencia, respectivamente. Si se presta atención a la forma del diagrama tiempofrecuencia (también denominado espectrograma de una señal), se puede detectar cierta
simetría con respecto a la mediatriz del eje de frecuencias. Como se vio anteriormente, esto
se debe a que la FT de una señal real es siempre simétrica y, puesto que la STFT es una
versión con ventana de la FT, el resultado no debería sorprender. Sin embargo, lo que más
importancia presentan son los cuatro picos correspondientes a cuatro componentes de
frecuencia distintas. A diferencia de la FT, esos cuatro picos se localizan a intervalos de
tiempo diferentes a lo largo del eje temporal, al igual que la señal original.
Por lo tanto, se ha alcanzado una representación tiempo-frecuencia de una señal noestacionaria. En este momento, no sólo se pueden conocer las componentes de frecuencia
presentes en la señal, sino también dónde se localizan cada una de ellas en el tiempo.
No obstante, la STFT presenta un problema, cuya base nos lleva de vuelta al
Principio de Incertidumbre de Heisenberg: no se pueden conocer las componentes
Capítulo I
47
espectrales que existen en un instante de tiempo determinado. Lo único a lo que se puede
aspirar es a obtener información acerca de los intervalos de tiempo en los que ciertas
bandas de frecuencia aparecen. Esto supone un problema de resolución que se encuentra
íntimamente ligado a la anchura de la función ventana utilizada, conocida técnicamente
con el nombre de soporte de la ventana. Si la función ventana es estrecha, se dice que está
soportada compactamente.
Mientras que con la FT no hay problemas de resolución, puesto que las frecuencias
se conocen exactamente, con la STFT sí lo hay. Esto se debe a que la ventana que ofrece
una resolución de frecuencias perfecta en la FT (denominada kernel: exp{j·ù·t}) posee una
longitud infinita. Por el contrario, en la STFT, la ventana presenta una longitud finita,
cubriendo solamente una porción de la señal, lo que provoca que la resolución de las
frecuencias empeore. Este empeoramiento radica en que ya no se obtendrá información
sobre las componentes de frecuencias exactas de la señal original, sino más bien sobre
bandas de frecuencias.
Llegados a este punto y resumiendo, el dilema con el que se encontró la comunidad
científica fue el siguiente: utilizando una ventana de longitud infinita (FT) se obtenía una
resolución de frecuencias perfecta, pero ninguna información temporal. Para obtener
información de este tipo y aplicar, de este modo, la FT a señales no-estacionarias, debían
utilizar una ventana de longitud finita y pequeña, tal que la señal dentro de ella pudiera
considerarse como estacionaria (STFT). Así, cuanto más estrecha fuese la ventana, mejor
sería la resolución temporal y la asunción del carácter estacionario, empobreciendo, sin
embargo, la resolución de frecuencia:
§
Ventana estrecha
buena resolución temporal, pobre resolución de
frecuencias.
§
Ventana ancha
buena resolución de frecuencias, pobre resolución
temporal.
Con el fin de ver estos efectos, veamos un ejemplo donde se aplican varias ventanas
de longitud diferente para, al aplicar la STFT, ver qué sucede. La función ventana es una
gaussiana simple de la forma:
INTRODUCCIÓN
48
 − a ⋅t2 

w(t ) = exp 
 2 
(5)
donde a es la longitud de la ventana y t el tiempo.
La Figura I.8 muestra 4 funciones de ventana con varias regiones de soporte
determinadas por el valor de a.
Figura I.8.- Diferentes funciones de ventana con diverso “soporte”.
Considerando sólo el soporte de cada ventana, los resultados de aplicar la STFT
con cada una de ellas se muestran en la Figura I.9.
A)
B)
C)
D)
Figura I.9.- Resultado de aplicar la STFT con cada ventana.
Capítulo I
49
Como puede observarse, con la ventana más estrecha, se obtiene una resolución
temporal muy buena, pero una resolución de frecuencias relativamente pobre (Figura I.9A). Conforme el soporte de la ventana aumenta, la resolución en el tiempo va empeorando
y aumentando con respecto a las frecuencias (Figura I.9-B). En el dominio de las
frecuencias, cada pico cubre un rango de frecuencias, en vez de un valor individual de
frecuencia. En el caso de la Figura I.9-C, los picos ya no están bien separados en el tiempo
como en los dos casos anteriores; no obstante, la resolución en el dominio de las
frecuencias es mucho mejor. Finalmente, en la Figura I.9-D, la resolución temporal que
aparece es muy pobre.
Sabiendo, entonces, que ventanas estrechas dan buena resolución temporal, pero
empeoran la resolución de las frecuencias, y que ventanas anchas producen el efecto
contrario y, además, considerando que una excesiva anchura de ventana podría violar el
carácter estacionario, surge la cuestión: ¿qué clase de ventana podría utilizarse?
Este problema es el resultado natural de elegir una única función de ventana
(tamaño fijo) para el análisis completo. La respuesta, por tanto, es la aplicación
dependiente: si las componentes de frecuencia están bien separadas en la señal original,
entonces, podría sacrificarse algo de resolución en las frecuencias para obtener una buena
resolución temporal, ya que las componentes espectrales están de por sí separadas. Sin
embargo, si éste no es el caso, entonces podría ser muy difícil encontrar una buena función
de ventana.
Es en este punto donde la transformada wavelet entra en juego con el fin de
resolver, hasta cierto punto, el dilema planteado. De forma muy resumida, las wavelets
utilizan ventanas de diferentes tamaños que dividen proporcionalmente el eje de las
frecuencias, siendo ésta su principal diferencia con respecto a la STFT.
Aplicaciones de la STFT
A pesar de todo lo comentado anteriormente sobre los problemas que conlleva el
empleo de la STFT, en la actualidad se sigue utilizando con frecuencia [187, 188], y casi
siempre estableciendo comparaciones con la transformada wavelet [189-191]. Su campo de
aplicación es muy diverso: representación y evaluación de medidas de impedancia [187],
análisis
espectrales
[188]
y
de
oscilaciones
electroquímicas
[189],
detección
y
INTRODUCCIÓN
50
caracterización de defectos, así como medición del espesor de materiales delgados [190] y
también se ha utilizado en análisis de calidad de la energía [191], por citar algunos
ejemplos.
7.4. Fundamentos de la Transformada Wavelet (WT)
Aunque los problemas de resolución de frecuencias y tiempo son el resultado de un
fenómeno físico (Principio de Incertidumbre de Heisenberg), el cual se produce
independientemente de la transformada empleada, es posible analizar cualquier señal
usando una aproximación alternativa denominada análisis multirresolución (MRA). Como
su nombre indica, MRA analiza la señal a diferentes frecuencias con diferentes
resoluciones. No obstante, cada componente espectral no se resuelve del mismo modo,
como ocurría en el caso de la STFT.
Generalmente, el MRA ofrece buena resolución temporal y pobre resolución de
frecuencias a altas frecuencias, mientras que a bajas frecuencias se obtiene el resultado
inverso: buena resolución de frecuencias y pobre resolución temporal. Esta aproximación
tiene sentido especialmente cuando la señal en cuestión posee componentes de alta
frecuencia para periodos de tiempo cortos y componentes de baja frecuencia para periodos
largos. Por fortuna, las señales que normalmente se encuentran en las aplicaciones
prácticas son con frecuencia de este tipo. Por ejemplo, la Figura I.10 muestra una señal de
este tipo:
Figura I.10.- Ejemplo de una señal obtenida de una aplicación práctica.
Capítulo I
51
Como puede observarse, posee componentes de frecuencia relativamente bajas a lo
largo de casi toda la señal y componentes de alta frecuencia en un intervalo corto situado
en la parte central de la misma.
Antecedentes históricos y aspectos generales de las wavelets
La palabra wavelet, que significa “onda pequeña”, es un formalismo teórico
acuñado por el sismólogo francés Jean Morlet en 1980 [192-194]. Posteriormente,
colaboró con el físico teórico Alex Grossman [195-197] donde las wavelets fueron
extensamente definidas en el contexto de la física cuántica, lo que proporcionó una
comprensión intuitiva de las mismas desde el punto de vista físico. No obstante, los
aspectos matemáticos sobresalientes de la teoría wavelet fueron establecidos mucho tiempo
antes. En ciertos aspectos, fueron iniciados por Joseph Fourier (1807) con sus teorías sobre
el análisis de frecuencias. Más tarde, en 1909, se mencionaron por primera vez las
wavelets en un apéndice de la tesis de Haar.
De modo gradual, como se ha ido viendo en los epígrafes anteriores, los
matemáticos se trasladaron desde el concepto del análisis de frecuencia al análisis de
escala, el cual implica la creación de una serie de estructuras matemáticas que varíen en
escala. Asumiendo que se desea una aproximación de la señal a estudiar, se crea una
función a la que se somete a pequeños cambios de posición y escala. Dicha estructura se
utiliza posteriormente para aproximar la señal. Este proceso puede repetirse mediante
nuevas traslaciones y escalados de la estructura inicial. En cada paso se obtiene una nueva
aproximación de la señal. Este tipo de análisis de escala es menos sensible al ruido porque
mide las fluctuaciones medias de la señal a diferentes escalas.
En la década de 1930, varios grupos (Levy, Littlewood, Paley, Stein y otros)
contribuyeron al campo de las funciones de base a diferentes escalas, las cuales fueron
fundamentales para la teoría de las wavelets.
En 1985, Stephane Mallat descubrió la relación existente entre los métodos de
compresión de señales basados en filtros y las bases wavelet ortonormales. Este trabajó
inspiró a Yves Meyer para construir las primeras wavelets no triviales y continuamente
diferenciables. Más tarde, Meyer colaboró con Grossman e Ingrid Daubechies para
encontrar una formulación discreta de la transformada wavelet continua, la cual fue
INTRODUCCIÓN
52
referida a los frames wavelet [198]. Meyer intentó probar que no era posible construir
wavelets ortonormales reales, quedando bastante sorprendido cuando encontró bases
ortogonales a partir de wavelets regulares [199, 200]. Posteriormente, Daubechies fue
capaz de construir wavelets ortogonales con soporte compacto [201].
La teoría wavelet puede dividirse en los siguientes apartados:
§
Transformada wavelet continua o CWT.
§ Transformada wavelet discreta o DWT:
a) Bases ortonormales de wavelets.
b) Sistemas discretos redundantes o frames.
Aspectos introductorios sobre las wavelets pueden encontrarse en [202-213] y
conocimientos más avanzados aparecen en [214-219].
A continuación, se tratarán con un poco más de detalle los principales conceptos
relacionados con la CWT y la DWT.
Transformada Wavelet Continua (CWT)
El análisis wavelet fue desarrollado como una aproximación alternativa a la STFT,
con el fin de solventar los problemas que el uso de ésta traía consigo. Este nuevo tipo de
transformación permite usar intervalos largos de tiempo para obtener información más
precisa para las bajas frecuencias e intervalos cortos de tiempo para extraer información
sobre las altas frecuencias. Además, presenta una notable ventaja, puesto que permite
efectuar análisis locales de las señales, cuyo contenido presente bruscas variaciones,
pequeñas discontinuidades, tendencias, etc.
La CWT se lleva a cabo de una forma similar al análisis STFT, en el sentido en que
la señal es multiplicada por cierta función (wavelet), parecida a la función ventana en la
STFT, y la transformación se calcula de forma individual para los diferentes segmentos o
intervalos del dominio temporal de la señal. Sin embargo, hay dos diferencias principales
entre la STFT y la CWT:
1. El cálculo de la FT de las señales usando funciones ventana no se realiza y,
de este modo, se obtendrán picos correspondientes a sinusoides.
Capítulo I
53
2. La anchura de la ventana varía conforme se calcula la transformada para
cada componente espectral individual de la señal (característica más
significativa de la WT).
La CWT se define mediante la siguiente ecuación:
CWTXψ (τ, s ) = ΨXψ (τ, s ) =
1
s
t−τ
dt
s 
∫ X(t )⋅ ψ 
*
(6)
Como puede observarse, la señal transformada es función de dos variables: ô y s,
los parámetros de traslación y escala, respectivamente. Ø(t) es la función transformación,
denominada wavelet madre. El término “wavelet” significa onda pequeña, donde
“pequeño” se refiere a que esta función (ventana) posee una longitud finita (soportada
compactamente) y “onda” indica que es oscilatoria. Por otro lado, el término “madre”
implica que las funciones con diferentes regiones de soporte utilizadas en los procesos de
transformación derivan de una función principal: la wavelet madre. En otras palabras, la
wavelet madre es un prototipo para generar las demás funciones ventana.
El vocablo “traslación” se usa en el mismo sentido que en el caso de la STFT. Se
encuentra relacionado con la localización de la ventana, cómo la ventana se traslada a lo
largo de la señal. Sin embargo, en este caso, no existe un parámetro de frecuencia, como se
venía utilizando antes para la STFT. En vez de ello, se dispone de un parámetro de escala
definido como la inversa de la frecuencia (1/f). El término frecuencia se reserva solamente
para la STFT. Como puede verse en la ecuación (6), cuanto mayor sea el valor de s, más
estrecha será la función wavelet y a la inversa; por otro lado, valores positivos de
traslación, desplazarán la función hacia la derecha.
El parámetro de escala
El parámetro de escala en el análisis wavelet es similar a la escala utilizada en los
mapas. Al igual que en esta situación, escalas altas se corresponden con una visión global
(de la señal) carente de detalles, mientras que escalas bajas se corresponden con una visión
detallada. De forma similar, en términos de frecuencia, bajas frecuencias (altas escalas)
ofrecen una información global de la señal (que normalmente abarca la señal completa),
mientras que altas frecuencias (bajas escalas) se corresponden con información detallada
del patrón oculto en la señal (que normalmente se presenta en un corto espacio de tiempo).
INTRODUCCIÓN
54
Afortunadamente, en las aplicaciones prácticas, las bajas escalas (altas frecuencias)
no se producen a lo largo de todo el intervalo de tiempo que ocupa la señal, sino que, en
general, aparecen de vez en cuando, como pequeñas variaciones o picos. Las altas escalas
(bajas frecuencias) poseen la duración completa de la señal.
El escalado, como una operación matemática, o bien dilata o bien comprime la
señal. Las escalas más grandes dilatan o estiran las señales y pequeñas escalas las
comprimen. En términos de funciones matemáticas, si f(t) es una determinada función, f(st)
equivale a una versión comprimida (contraída) de la misma para s>1, y a una versión
expandida (dilatada) para s<1.
Sin embargo, en la definición de la CWT, el término escalado se utiliza en el
denominador y, por tanto, habría que considerar lo contrario de lo que hemos manifestado;
esto es, para s>1 se dilata la señal, mientras que para s<1 se comprime, interpretación que
se usará de ahora en adelante.
Cálculo de la CWT
Sea x(t) la señal en el dominio temporal a analizar. La wavelet madre se elige como
prototipo para todas las ventanas que se van a utilizar en el proceso. Dichas ventanas, son
versiones dilatadas (o comprimidas) y trasladadas de la misma. Existen una serie de
funciones con este propósito, las cuales podrían clasificarse en dos categorías:
§
Wavelets ortogonales.
§
Wavelets biortogonales.
En la Tabla I.1, se recogen algunas de las wavelets más importantes para ambas
categorías:
Categoría
Tipo
Ortogonales
Biortogonales
Haar Daublets Symlets Coiflets B-spline V-spline
Tabla I.1.- Clasificación de las funciones wavelet.
Información matemática específica y descripciones de cada una de ellas pueden
encontrarse en las referencias [220, 221]. En la siguiente figura, aparecen representados
algunos ejemplos de wavelets:
Capítulo I
55
Figura I.11.- Ejemplos de funciones wavelet madre.
Una vez elegida la wavelet madre, el cálculo comienza con s=1 y la CWT se
calcula para todos los valores de s, mayores y menores que 1. Sin embargo, dependiendo
de la señal, una transformación completa no es necesaria. Con fines prácticos, las señales
poseen una limitación de banda, considerándose adecuado tan sólo el cálculo para un
intervalo limitado de escalas.
Por conveniencia, el procedimiento comienza con valores crecientes de s, es decir,
el análisis progresa desde las frecuencias más altas y continúa hasta las frecuencias más
bajas. El primer valor de s se corresponderá con la wavelet más comprimida. Conforme
este valor aumenta, la wavelet se dilatará.
La wavelet se coloca al principio de la señal en el punto correspondiente a t=0. Esta
función a la escala 1 se multiplica por la señal y luego se integra para todo el intervalo de
tiempo. El resultado de la integral es luego multiplicado por un número constante 1/sqrt(s).
Este producto se realiza con el fin de normalizar la energía, tal que la señal transformada
tenga la misma energía para cada valor de escala. El resultado final es el valor de la
transformación, es decir, el valor de la CWT a t=0 y s=1. En otras palabras, éste es el valor
que corresponde al punto ô=0, s=1 en el plano tiempo-frecuencia.
La wavelet a la escala s=1 es luego trasladada hacia la derecha una cantidad ô, hasta
la localización t=ô, aplicándose la ecuación (6) para conseguir el valor de la
transformación a t=ô, s=1 en el plano tiempo-frecuencia.
INTRODUCCIÓN
56
Este procedimiento se repite hasta que la wavelet alcance el extremo final de la
señal. Una fila de puntos en el plano tiempo-escala para el valor de s=1 ha sido
completada. Posteriormente, s se incrementa una cantidad muy pequeña; como se trata de
una transformación continua, tanto ô como s deben incrementarse continuamente. Sin
embargo, si esta transformación se lleva a cambo mediante un ordenador, entonces, ambos
parámetros son aumentados en cantidades suficientemente pequeñas, con el fin de hacer un
muestreo en el plano tiempo-escala.
El procedimiento anterior se repite para cada valor de s. Cada cálculo para un valor
de s dado, completa una fila del plano tiempo-escala. El cálculo de la CWT para una señal
se da por concluido, cuando el proceso ha sido completado para todos los valores deseados
de s.
La Figura I.12 ilustra con un ejemplo el proceso completo paso a paso:
A)
B)
C)
Figura I.12.- Ejemplo de aplicación de la transformada wavelet continua:
A) s=1; B) s=5 y C) s=20.
Capítulo I
57
La Figura I.12-A muestra la señal y la función wavelet para cuatro valores
diferentes de ô. La señal se corresponde con una versión truncada de la Figura I.10, para un
valor de s=1, que se corresponde con el valor más bajo del parámetro de escala (frecuencia
más alta). Hay que hacer especial hincapié en la compacidad de la ventana, la cual debería
ser tan estrecha como la componente de frecuencia más elevada que exista en la señal.
Cuatro localizaciones diferentes de la función wavelet son mostradas en la figura,
multiplicándose en cada una de ellas por la señal. Obviamente, el producto será diferente
de cero sólo donde la señal cae dentro de la región del soporte de la wavelet, siendo nulo
en cualquier otro punto. Trasladando la wavelet en el tiempo, la señal se encuentra
localizada en el dominio temporal, mientras que cambiando el valor de s, la señal se
localizará en el dominio del parámetro de escala (frecuencias).
Si la señal posee una componente espectral que se corresponde con el valor actual
de s (el cual es 1 en este caso), el producto de la wavelet por la señal en ese punto donde
existe dicha componente espectral dará un valor relativamente grande. Si, por el contrario,
la componente espectral correspondiente al valor actual de s no está presente en la señal, el
valor del producto será relativamente pequeño o cero. En la Figura I.12-A, la señal
presenta componentes espectrales comparables al soporte de la ventana en la zona situada
alrededor de t=100 ms, a un valor de s=1. O lo que es lo mismo, la CWT de dicha señal
alcanzará valores grandes para bajas escalas en la zona alrededor de t=100 ms y pequeños
valores en los demás puntos. Por otro lado, para escalas más grandes, la CWT dará valores
grandes para casi toda la longitud de la señal, ya que existen bajas frecuencias en todos los
intervalos de tiempo.
Las Figuras I.12-B y C, muestran el mismo procedimiento para valores de escala
s=5 y s=20, respectivamente. Se observa cómo la cambia la anchura de la ventana
conforme aumenta la escala (disminuye la frecuencia). Al disminuir la anchura de ventana,
la transformación comienza a tener en cuenta las componentes de frecuencia más bajas.
Como resultado final, para cada valor de escala y tiempo (intervalo) se calcula un
punto del plano tiempo-escala. Los cálculos a un valor de escala determinado construyen
filas del plano tiempo-escala, mientras que los cálculos a diferentes escalas construyen las
columnas del nuevo dominio.
INTRODUCCIÓN
58
Sería interesante ver un ejemplo de resultado de una transformación wavelet.
Partiendo de la señal no-estacionaria de la Figura I.4-B, se puede observar que está
representada por cuatro componentes de frecuencia: 30, 20, 10 y 5 Hz. Tras aplicar la
CWT, se obtiene como resultado la Figura I.13:
Figura I.13.- Resultado de aplicar una transformación wavelet sobre una
señal no-estacionaria.
Hay que tener en cuenta que los ejes aparecen nombrados como traslación y escala,
y no como tiempo y frecuencia. Sin embargo, ambas parejas de parámetros son
equivalentes. Con respecto a la traslación, ésta se encuentra íntimamente relacionada con el
tiempo, puesto que indica dónde se localiza la wavelet madre. La traslación de la wavelet
madre puede considerarse como un transcurso del tiempo a partir de t=0. Por otro lado,
como se ha comentado anteriormente, la escala es la inversa de la frecuencia. En otras
palabras, cuando se habla de las propiedades de la transformada wavelet referidas a la
resolución de frecuencias, el discurso inverso puede aplicarse en relación con las escalas.
En la Figura I.13, las escalas más pequeñas se corresponden con las frecuencias
más altas, es decir, la frecuencia disminuye conforme la escala aumenta; de este modo, la
porción de gráfica con las escalas próximas a cero se corresponde en realidad con las
frecuencias más altas del análisis, mientras que las escalas altas se relacionan con las
frecuencias más bajas. Como la señal no-estacionaria a la que se ha aplicado la CWT posee
una componente de 30 Hz (frecuencia más alta) en primer lugar, ésta se situará a valores
más bajos de escala, para una traslación de 0 a 30. Luego aparece la componente de 20 Hz,
segunda frecuencia más alta, y así sucesivamente. Al final del eje de traslación, se sitúa la
componente de 5 Hz (como era de esperar), para valores más altos de escala.
Capítulo I
59
Respecto a las propiedades de resolución, a diferencia de la STFT, que posee una
resolución constante para todos los valores de tiempo y frecuencia, la WT presenta pobre
resolución en frecuencias y buena resolución temporal para altas frecuencias, y a la ni versa
para bajas frecuencias. La Figura I.13-B ilustra desde un mejor ángulo las propiedades de
resolución: a escalas más bajas (altas frecuencias) se observa una mejor resolución de las
mismas (picos más estrechos que presentan menor ambigüedad frente al valor exacto de la
escala), lo cual lleva implícito un empobrecimiento en la resolución de las frecuencias. Por
el contrario, las escalas más altas (frecuencias bajas) reflejan una peor resolución de las
mismas (soporte de ventana más amplio que provoca una mayor ambigüedad en el valor
exacto), lo que da lugar a una mejor resolución de las frecuencias.
Resolución del tiempo y la frecuencia
A continuación se tratarán con un poco más de profundidad las propiedades de
resolución de la transformada wavelet. Hay que tener presente, que la evolución de la
STFT a la WT se produjo como consecuencia de los problemas de resolución que se
obtenían al aplicar la primera de ellas.
La ilustración de la Figura I.14 es la más utilizada para explicar e interpretar la
resolución en tiempo y frecuencia.
Figura I.14.- Esquema representativo de la resolución en tiempo y
frecuencia tras aplicar una transformación wavelet.
INTRODUCCIÓN
60
Cada caja de la figura se corresponde con un valor de la transformación wavelet en
el plano tiempo-frecuencia. Hay que tener en cuenta que dichas cajas poseen una cierta
área no nula, lo que implica que el valor para un determinado punto en el plano tiempofrecuencia puede ser desconocido. Todos los puntos del plano tiempo-frecuencia que se
encuentran dentro de una caja se representan mediante un único valor de la WT.
Echando un vistazo más de cerca a la Figura I.14, se observa que aunque las
dimensiones de las cajas varían, el valor del área se mantiene constante. Esto significa que
cada área representa la misma porción (en tamaño) del plano tiempo-frecuencia, pero
variando los valores de tiempo y frecuencia. A bajas frecuencias, la altura de las cajas es
menor, lo que implica una mejor resolución de las mismas, puesto que hay menor
ambigüedad con respecto al valor de la frecuencia exacta; no obstante, las anchuras son
mayores, lo que indica una pobre resolución temporal (mayor ambigüedad con respecto al
valor exacto de tiempo). Por el contrario, para frecuencias más altas, la anchura de las cajas
disminuye, es decir, se alcanza una mejor resolución temporal, mientras que las alturas
aumentan, empobreciendo la resolución de las frecuencias.
Con la STFT esto no sucedía, puesto que el grado de resolución de las frecuencias y
del tiempo venía determinado por la anchura de la ventana de análisis. Esta anchura se
seleccionaba una única vez, permaneciendo invariable durante el resto del proceso. De este
modo, la resolución de tiempo y frecuencias era constante, dando lugar a un plano de
resolución tiempo-frecuencias compuesto por cuadrados con idénticas dimensiones y áreas.
Independientemente de las dimensiones de las cajas, las áreas que delimitan, tanto
en la STFT como en la WT, son las mismas y determinadas por la desigualdad de
Heisenberg. En pocas palabras, el área de una caja viene fijada por la función ventana
(STFT) o wavelet madre (CWT), visto que diferentes ventanas o wavelets madre dan lugar
a áreas diferentes. Sin embargo, el Principio de Incertidumbre de Heisenberg condiciona el
valor del área mínima a ¼ ð. Por otro lado, para una wavelet madre determinada, las
dimensiones de las cajas pueden cambiarse, mientras se mantenga la misma área. Y ésta es
la principal ventaja de la transformada wavelet. La Figura I.15 sirve para ilustrar
perfectamente los aspectos resolutivos y las diferencias existentes entre la FT, STFT y WT.
Capítulo I
61
Figura I.15.- Esquema de las diferencias de resolución obtenidas tras
aplicar FT, STFT y WT.
Aproximación matemática de la teoría wavelet
En esta sección, se tratarán las ideas principales de la teoría del análisis wavelet.
La FT definida por Fourier utiliza funciones de base para analizar y reconstruir una
señal. Este proceso se conoce con el nombre de síntesis, que consiste en la representación
de una señal mediante una expresión matemática, la cual puede obtenerse mediante una
aproximación polinomial o mediante un conjunto de funciones ortogonales, como es el
caso. Cada vector en un espacio vectorial puede expresarse como una combinación lineal
de vectores de una base en ese espacio vectorial, es decir, como una suma de productos de
dichos vectores por ciertas constantes. El análisis de señales implica la estimación de
dichas constantes (coeficientes de una transformada: Fourier, wavelets, etc.). La síntesis o
la reconstrucción de una señal se corresponde con el cálculo de la ecuación de
combinación lineal.
Todas las definiciones y teoremas relacionados con esta cuestión pueden
encontrarse en la referencia [238]. No obstante, para comprender los principios generales
de la teoría wavelet, se necesita un cierto conocimiento a nivel introductorio sobre cómo
funcionan las funciones de base.
Vectores de una base
Una base de una espacio vectorial V es un conjunto de vectores linealmente
independientes, tal que cualquier vector, v, puede escribirse como una combinación lineal
de dichos vectores de la base. Puede haber más de una base para un espacio vectorial. Sin
INTRODUCCIÓN
62
embargo, todas ellas poseen el mismo número de vectores, conociéndose dicho número
como la dimensión del espacio vectorial. Por ejemplo, en un espacio de dos dimensiones,
la base estará compuesta por dos vectores, como indica la siguiente ecuación:
v = ∑ ν k ⋅ bk
(7)
k
La ecuación anterior muestra cómo cualquier vector, v, puede expresarse como
combinación lineal de vectores de una base, bk , y los coeficientes correspondientes, ík .
Este concepto puede ser fácilmente generalizado a las funciones, reemplazando los
vectores de la base, bk , con las funciones de una base, N k (t), y el vector v con la función
f(t). La ecuación 7 se convierte, por tanto, en la siguiente expresión:
f (t ) = ∑ µ k ⋅ φ k (t )
(8)
k
Las funciones exponenciales complejas (senos y cosenos) son las funciones de base
para la FT. Además, son ortonormales, característica que proporciona algunas propiedades
deseables para el proceso de reconstrucción.
Sean f(t) y g(t) dos funciones en L2 [a, b] (el conjunto de funciones integrables
cuadradas en el intervalo [a, b]). El producto interno de dos funciones se define mediante
la siguiente ecuación:
f ( t ), g( t )
b
= ∫ f (t ) ⋅ g* (t )dt
(9)
a
De acuerdo con la definición anterior de producto interno, la CWT puede
considerarse como el producto interno de la señal a analizar con las funciones de la base,
ø ô,s (t):
CWTXψ (τ, s ) = ΨXψ (τ, s ) = ∫ X( t ) ⋅ ψ*τ, s ( t )dt
donde,
ψ (τ, s ) =
1
t − τ
⋅ ψ

s  s 
(11)
(10)
Capítulo I
63
Esta definición de la CWT muestra que el análisis wavelet es una medida de la
similitud entre las funciones de la base (wavelets) y la propia señal en cuestión. Dicha
similitud está relacionada con un contenido de frecuencias similar. Los coeficientes CWT
calculados indican cuán próxima (ajuste) se haya la señal a la wavelet para un valor de
escala y posición determinado.
Esto aclara aún más el discurso anterior acerca de la correlación de la señal con la
wavelet para una cierta escala. Si la señal posee un componente mayoritario de frecuencias
para un valor de escala determinado, entonces, la wavelet (función de la base) a esa escala
será muy similar o se ajustará muy bien a la señal para una localización en particular donde
aparece esta componente de frecuencia. De este modo, los coeficientes CWT calculados en
este punto para el plano tiempo-escala poseerán un valor relativamente alto.
Producto interno, ortogonalidad y ortonormalidad
Se dice que dos vectores, v y w, son ortogonales, si su producto interno es nulo:
v, w = ∑ v n ⋅ w*n = 0
(12)
n
De forma análoga, ésta definición se puede extender para el caso de dos funciones, f(t) y
g(t), como se expresa en la siguiente ecuación:
b
f ( t ), g( t ) = ∫ f (t ) ⋅ g* (t )dt = 0
(13)
a
Se dice que un conjunto de vectores {v1 , v2 , ..., vn } es ortonormal, si los vectores
son ortogonales entre sí por parejas y poseen longitud unidad. Esto puede expresarse como
sigue:
v m , v n = δmn
(14)
De forma similar, un conjunto de funciones {N
N k (t)}, donde k=1,2,3, ..., es
ortonormal si:
b
∫ φ (t ) ⋅ φ (t )dt = 0
k
a
*
l
para k ≠ l
(15)
INTRODUCCIÓN
64
(condición de ortogonalidad) y, además:
∫ {φ (t )} dx = 1
b
2
(16)
k
a
o, de forma equivalente:
b
∫ φ (t ) ⋅ φ (t )dt = δ
k
*
l
kl
(17)
a
donde äkl es la función delta de Kronecker, definida como:
1 si k = 1
δ kl = 
2 si k ≠ 1
(18)
Como se ha comentado anteriormente, pueden existir más de un conjunto de
funciones de una base (o vectores). Entre ellos, las funciones de base ortonormales (o
vectores) son de particular importancia a causa de las interesantes propiedades que
presentan a la hora de calcular los coeficientes del análisis. Las bases ortonormales
permiten que dicho cálculo se desarrolle de un modo muy simple y directo usando las
propiedades de ortonormalidad. Dichos coeficientes, ìk , pueden calcularse como sigue:
µ k = f , φ k = ∫ f (t )⋅ φ*k (t )dt
(19)
y la función f(t) puede reconstruirse mediante la ecuación 20, sustituyendo los coeficientes
calculados en la expresión anterior:
f (t ) = ∑ µ k ⋅ φ k (t ) = ∑ f , φ k ⋅ φ k ( t )
k
(20)
k
Sin embargo, puede que no se encuentre disponible un conjunto de bases
ortonormales para cada tipo de aplicación. En este caso, un conjunto de bases
biortogonales puede ser factible. El término biortogonal se refiere a dos bases diferentes
que son ortogonales la una con respecto a la otra, pero que no forman un conjunto
ortogonal. En algunas situaciones, no obstante, las bases biortogonales pueden estar
también no disponibles, en cuyo caso se utilizan frames.
Capítulo I
65
A continuación, se verán algunos ejemplos de wavelets madre usadas comúnmente
en el análisis wavelet: la wavelet “sombrero mejicano” y la wavelet Morlet. La primera se
define como la segunda derivada de la función gaussiana:
w( t) =
−t
2
1
2
⋅ e 2⋅ σ
2⋅π⋅σ
(21)
la cual es
ψ (t ) =
σ2
 − t 22
1
⋅  e 2⋅ σ
2 ⋅ π ⋅ σ 
 t2

⋅  2 − 1 
σ
 
(22)
Por otro lado, la wavelet Morlet se define como sigue:
ψ (t ) = e
i ⋅a ⋅ t
⋅e
− t2
2 ⋅σ
(23)
donde a es un parámetro de modulación y ó es el parámetro de escala que afecta a la
anchura de la ventana.
A continuación, se presenta un ejemplo de señal no-estacionaria y su respectiva
CWT:
B)
A)
Figura I.16.- Ejemplo de señal A) no-estacionaria y B) su respectiva CWT.
Hay que tener en cuenta el hecho de que la Figura I.16-B no representa una CWT
verdadera, como se desprende de la presencia de un valor finito de traslaciones y escalas.
En definitiva, lo que aparece mostrado es una versión discretizada de la CWT, la cual se
tratará posteriormente.
INTRODUCCIÓN
66
La síntesis wavelet
La transformada wavelet continua es una transformada reversible, si se satisface la
siguiente ecuación:
1
2
∞

 2
ψˆ (ξ )
C ψ = 2 ⋅ π ∫
dξ < ∞
ξ

−∞

(24)
denominada condición de admisibilidad, donde ø̂ (î ) es la FT de ø(t) . Incluso si las
funciones de base no son ortonormales, también la CWT es reversible. La reconstrucción
es posible gracias a la siguiente expresión:
x( t ) =
1
C2ψ
1 t −τ 
∫ ∫ Ψ (τ, s ) ⋅ s ⋅ ψ  s dτds
ψ
x
2
(25)
s τ
que recibe el nombre de transformada wavelet inversa, donde Cø es una constante,
denominada constante de admisibilidad, que depende de la wavelet utilizada. El éxito de
la reconstrucción depende de la capacidad de la misma para satisfacer la condición de
admisibilidad expresada en la ecuación 24. Dicha fórmula implica que ø̂ (0 ) = 0 , lo que
conduce a:
∫ ψ(t )dt = 0
(26)
La ecuación 26 no es una condición muy restrictiva, puesto que muchas wavelets
posee integral nula. En este caso, para que se cumpla dicho requerimiento, la wavelet debe
ser oscilatoria.
Discretización de la transformada wavelet continua: las Series Wavelet
Tal como se ha visto, ninguna de las transformadas anteriores: FT, STFT o CWT
pueden calcularse de forma práctica mediante ecuaciones analíticas, integrales, etc. Por
tanto, es necesario discretizar las transformaciones. Como en el caso de la FT y la STFT, el
modo más intuitivo de hacerlo es mediante un muestreo simple del plano tiempofrecuencias (escala). De nuevo, llevar a cabo el muestreo del plano con una velocidad
uniforme supone la elección más natural. Sin embargo, en el caso de la WT, el cambio de
escala puede utilizarse para reducir la velocidad de muestreo.
Capítulo I
67
A escalas más altas (frecuencias bajas), la velocidad de muestreo puede disminuirse
de acuerdo con la regla de Nyquist. En otras palabras, si el mismo plano requiere un
muestreo con velocidad N1 a la escala s1 , puede hacerse un muestreo de dicho plano con
una velocidad N2 a la escala s2 , donde s1 <s2 (correspondiente a las frecuencias f 1 >f 2 ) y
N2 <N1 . La relación entre N1 y N2 es la siguiente:
N2 =
s1
⋅N
s2 1
(27)
N2 =
f2
⋅ N1
f1
(28)
o bien
En otras palabras, a frecuencias más bajas, la velocidad de muestreo puede
disminuirse, lo cual ahorrará una considerable cantidad de tiempo de cálculo.
Debería tenerse en cuenta que la discretización puede hacerse de cualquier forma
sin ninguna restricción, mientras que lo que interese sea el análisis de la señal. Si no se
requiere síntesis, incluso el criterio de Nyquist puede considerarse irrelevante. Las
restricciones sobre la discretización y la velocidad de muestreo son importantes si, y sólo
si, se desea reconstruir la señal en cuestión. La velocidad de muestreo de Nyquist es la
velocidad de muestreo mínima que permite reconstruir la señal continua original en el
dominio temporal a partir de sus muestras discretas. Los vectores de la base mencionados
anteriormente son muy importantes por esta razón.
Como se mencionó en el epígrafe previo, si la wavelet ø(ô,s) satisface la ecuación
24, se puede reconstruir la señal haciendo uso de la expresión 25. Sin embargo, esto es sólo
cierto para la transformación continua. La cuestión es: ¿puede todavía reconstruirse la
señal, si se discretizan los parámetros de tiempo y escala? La respuesta es afirmativa, pero
sólo bajo ciertas condiciones.
El parámetro de escala s se discretiza primero bajo una rejilla logarítmica.
Posteriormente, el tiempo se discretiza con respecto a la escala, es decir, se usa una
velocidad de muestreo diferente para cada escala. En otras palabras, el muestreo se lleva a
cabo sobre una rejilla de muestreo diádica, como aparece en la Figura I.17:
INTRODUCCIÓN
68
Figura I.17.- Rejilla de muestreo diádica.
Sea el área delimitada por los ejes el plano tiempo-escala completo. La CWT asigna
un valor al continuo de puntos en este plano. De este modo, hay un número infinito de
coeficientes CWT. Primero se debe considerar la discretización del eje de las escalas. De
entre este infinito número de puntos, sólo se toma un número finito de los mismos, usando
una regla logarítmica. La base del logaritmo depende del usuario. El valor más común es 2,
por comodidad. En este caso, sólo las escalas 2, 4, 8, 16, 32, 64, etc., son calculadas. Si se
hubiese elegido el valor 3, las escalas calculadas habrían sido 3, 9, 27, 81, 243, etc.
Posteriormente, se discretiza el eje temporal, de acuerdo a la discretización efectuada sobre
el eje de escalas. Como las escalas discretas cambian según un factor de 2, la velocidad de
muestreo se reduce para el eje temporal en un factor de 2 para cada valor de escala.
Observando la Figura I.17, y sabiendo que la escala aumenta hacia abajo, para el
valor más pequeño (s=2), sólo se realiza un muestreo de 32 puntos en el eje temporal. Para
el siguiente valor de escala (s=4), la velocidad de muestreo del eje temporal se reduce por
un factor de 2, ya que la escala es incrementada por un factor de 2, tomándose, de este
modo, 16 muestras sólo. Al siguiente paso, s=8, se eligen sólo 8 muestras en el tiempo, y
así sucesivamente.
Aunque se denomina plano tiempo-escala, es más exacto darle el nombre de plano
traslación-escala, ya que “tiempo”, en el dominio de la transformación, se corresponde en
Capítulo I
69
realidad con la traslación del wavelet en el tiempo. Para las series wavelet, el tiempo actual
es todavía continuo.
De igual modo que existe una relación entre la transformada de Fourier continua,
las series de Fourier y la transformada de Fourier discreta, existe también un vínculo entre
la transformada wavelet continua, la transformada wavelet semidiscreta (series wavelet) y
la transformada wavelet discreta.
Expresando el procedimiento de discretización anterior en términos matemáticos,
para el caso de las escalas se representa como s=s0 j, mientras para la traslación es
ô=k·s0 j·ô0 , donde s0 >1 y ô0 >0. La discretización de la traslación depende de la discretización
de la escala gracias al término s0 .
La función wavelet continua
1
t −τ 
⋅ ψ

s  s 
ψ τ ,s =
(29)
se discretiza mediante las sustituciones s=s0 j y ô=k·s0 j·ô0 :
−j
2
0
ψ j,k (t ) = s ⋅ ψ(s−0 j ⋅ t − k ⋅ τ0 ) (30)
Para el caso en el que ø j,k constituya una base ortonormal, entonces la
transformación de la serie wavelet se convierte en:
Ψxψ j ,k = ∫ x (t ) ⋅ ψ*j ,k (t )dt
(31)
o también:
x( t ) = C ψ ⋅ ∑∑ ψ x j,k ⋅ ψ j ,k (t )
ψ
j
(32)
k
Una serie wavelet requiere que øj,k sea ortonormal, biortogonal o bien un frame. Si
ø j,k no es ortonormal, entonces, la ecuación 31 se transforma en:
ˆ *j ,k ( t )dt
ψ ψx j,k = ∫ x (t ) ⋅ ψ
(33)
INTRODUCCIÓN
70
donde ψ̂*j ,k (t ) es o bien una base biortogonal dual o un frame dual, denotando el signo
*
el
conjugado.
Si ø j,k es ortonormal o biortogonal, la transformación será no redundante, mientras
que si constituye un frame, será redundante. Por otro lado, es mucho más fácil encontrar
frames que bases ortonormales o biortogonales, como se comentó con anterioridad.
La siguiente analogía puede aclarar aún más el concepto. Considérese el proceso
completo de observación de un objeto en particular. Lo primero que se realiza consiste en
obtener una visión global del mismo, la cual depende de la distancia del observador al
objeto. Esto se correspondería con ajustar el parámetro de escala s0 -j. Cuando se mira de
cerca el objeto, con gran detalle, j es negativo y grande (pequeña escala, alta frecuencia,
análisis del detalle). Variar el campo de visión muy lentamente y con pequeños
incrementos de ángulo o distancia, implica pequeños valores de ô=k·s0 j·ô0 . Cuando j es
negativo y grande, se producen pequeños cambios en el tiempo, ô (alta velocidad de
muestreo), y grandes cambios en s0 -j (pequeña escala, alta frecuencia, velocidad de
muestreo elevada). De este modo, el parámetro de escala puede considerarse también como
un magnificador.
¿Cuál es el límite inferior para la velocidad de muestreo que permita aún llevar a
cabo la reconstrucción de la señal? Esta cuestión es fundamental para optimizar el
procedimiento. El valor más conveniente (en términos de programación de ordenadores) es
2 para s0 y 1 para ô. Obviamente, cuando la velocidad de muestreo es forzada al valor más
pequeño posible, el número de wavelets ortonormales disponibles también se reduce.
La transformada wavelet continua de la Figura I.16-B era, en realidad, la serie
wavelet de la señal en cuestión. Como en este caso, la reconstrucción de la señal no era
necesaria, las velocidades de muestreo estuvieron algunas veces muy por debajo de los
valores críticos.
Aunque la transformada wavelet discretizada puede calcularse en un ordenador,
dicho cálculo puede implicar desde un par de segundos hasta un par de horas, dependiendo
del tamaño de la señal y de la resolución que se desee. No obstante, existe un algoritmo
sorprendentemente veloz para calcular la transformada wavelet de una señal. Dicho
algoritmo se denomina transformada wavelet discreta o DWT.
Capítulo I
71
El análisis multirresolución: la transformada wavelet discreta
El origen de la DWT data de 1976, cuando Croiser, Esteban y Galand idearon una
técnica para descomponer señales temporales discretas. Crochiere, Weber y Flanagan
desarrollaron un trabajo similar sobre la codificación de señales en el mismo año. Su
esquema de análisis recibió el nombre de codificación sub-banda. En 1983, Burt definió
una técnica muy similar a la anterior y la denominó codificación piramidal, también
conocida como análisis multirresolución. Posteriormente, en 1989, Vetterli y Le Gall
hicieron algunas mejoras en el esquema de codificación sub-banda, eliminando las
redundancias existentes en la codificación piramidal.
¿Por qué es necesaria la DWT? Aunque la CWT discretizada permite el cálculo de
la CWT mediante un ordenador, en realidad no se trata de una transformación discreta
verdadera. De hecho, las series wavelets son simplemente una versión muestreada de la
CWT, y la información que proporcionan es muy redundante, por lo que respecta a la
reconstrucción de la señal. Esta redundancia, por otro lado, requiere una cantidad
significativa de tiempo de cálculo y recursos. La transformada wavelet discreta o DWT
proporciona información suficiente, tanto para el análisis como para la síntesis de la señal
original, con una reducción bastante significativa en el tiempo de cálculo. Además, es
considerablemente más sencilla de implementar en comparación a la CWT.
Existen gran cantidad de libros y artículos que hablan acerca de la DWT y el
análisis multirresolución. Muchas de las referencias dadas anteriormente tratan en
profundidad acerca de la DWT y el análisis multirresolución.
A continuación, introduciremos los conceptos básicos de la DWT, junto con sus
propiedades y algoritmos.
La codificación sub-banda y el análisis multirresolución
La idea principal es idéntica a la de la CWT. Una representación tiempo-escala de
una señal digital se obtiene por medio de técnicas de filtrado digital. Hay que recordar que
la CWT es una correlación entre una wavelet a diferentes escalas y la señal, empleándose
la escala (o la frecuencia) como una medida de la similitud entre ambas.
INTRODUCCIÓN
72
La transformada wavelet continua se calculaba cambiando la escala de la ventana
de análisis, trasladando la ventana en el tiempo, multiplicándola por la señal e integrando
para todo el dominio temporal. En el caso discreto, filtros de diferentes frecuencias de
corte son utilizados para analizar la señal a diversas escalas. Se hace pasar la señal a través
de diferentes series de filtros de paso alto y bajo, para analizar las frecuencias altas y bajas,
respectivamente.
La resolución de una señal, que se corresponde con una medida de la cantidad de
información de detalle presente en la misma, es sustituida por operaciones de filtrado, y la
escala por procesos de upsampling y downsampling (subsampling). Subsampling una
señal implica reducir la velocidad de muestreo, o eliminar algunas de las partes de la señal.
Por ejemplo, subsampling usando un factor de 2 supone saltarse cada vez una muestra de la
señal (dividir por dos el número de partes que compone la señal), mientras que utilizar un
factor de n reduce el número de muestras en la señal n veces.
Por otro lado, upsampling una señal implica aumentar la velocidad de muestreo,
adicionando nuevas muestras a la señal. Por ejemplo, upsampling por un factor de 2 se
refiere a la inclusión de una nueva muestra, normalmente cero o un valor interpolado, entre
cada muestra de la señal. Upsampling por un factor de n aumenta el número de muestras en
la señal n veces.
Aunque no es la única opción posible, los coeficientes de la DWT se muestrean
normalmente a partir de la CWT siguiendo una rejilla diádica, es decir, s0 =2 y ô=1,
alcanzando unos valores extremos de s=2j y t=k·2j. Como la señal es una función discreta
en el dominio temporal, los términos de función y secuencia se utilizarán indistintamente
en la siguiente discusión. Esta secuencia se denotará mediante x[n], donde n es un entero.
El procedimiento comienza haciendo pasar la señal (secuencia) a través de un filtro
de paso bajo digital de media banda con una respuesta impulso h[n]. Filtrar una señal se
corresponde con una operación matemática de convolución de la señal con la respuesta
impulso del filtro. Dicha operación en dominio temporal discreto se define como sigue:
x[n ]∗ h[n ] =
∞
∑ x[k ]⋅ h[n − k ]
k = −∞
(34)
Capítulo I
73
Un filtro de paso bajo de media banda elimina todas las frecuencias que están por
encima de la mitad de las frecuencias más altas en la señal. Por ejemplo, si la señal posee
un máximo de componentes de 1000 Hz, entonces el citado filtro cancelará todas las
frecuencias situadas por encima de 500 Hz.
La unidad en la que se expresan las frecuencias es muy importante esta vez. En
señales discretas, la frecuencia se expresa en radianes. De acuerdo con esto, la frecuencia
de muestreo de la señal es igual a 2 ð radianes, en términos de frecuencia radial. De este
modo, la componente de frecuencia más alta que existe en la señal será de ð radianes, si la
señal se somete a un muestreo a la velocidad de Nyquist (que es dos veces la frecuencia
máxima que existe en la señal); o sea, la velocidad de Nyquist se corresponde con ð rad/s
en el dominio discreto de las frecuencias. Además, es preferible expresar la frecuencia en
radianes en vez de en hertzios para señales temporales discretas.
Tras aplicar el filtro de paso bajo de media banda, la mitad de las muestras son
eliminadas de acuerdo con la regla de Nyquist, por lo que ahora la señal posee una
frecuencia más alta de ð/2 ra dianes, en vez de ð radianes. Por el simple hecho de cancelar
una muestra cada vez, la señal quedará reducida por un factor de 2 (subsampling) a la
mitad de los puntos, mientras que la escala de la señal ha quedado duplicada. Hay que
resaltar que el filtro de paso bajo sólo elimina la información de alta frecuencia dejando la
escala intacta, mientras que el proceso de subsampling es el que provoca el cambio en la
misma. La resolución, por otro lado, se relaciona con la cantidad de información en la
señal y, de este modo, viene afectada por las operaciones de filtrado. El filtro de paso bajo
de media banda cancela la mitad de las frecuencias, lo que puede interpretarse como la
pérdida de la mitad de la información. Así, la resolución también queda reducida a la mitad
después del filtrado. No obstante, el proceso de subsampling no afecta a la resolución,
puesto que la eliminación de la mitad de las frecuencias espectrales de la señal reduce al
mismo tiempo el número de muestras redundantes: la mitad de las muestras pueden
descartarse sin pérdida de información alguna. En resumen, el filtro de paso bajo reduce la
resolución a la mitad, pero mantiene invariable la escala. La señal es luego reducida en un
factor de dos (subsampling), ya que la mitad de las muestras son redundantes. Finalmente,
este último proceso dobla la escala.
El procedimiento anterior puede expresarse matemáticamente como sigue:
y[n ] =
∞
∑ h[k ]− x[2 ⋅ n − k ]
k = −∞
(35)
INTRODUCCIÓN
74
Pero, ¿cómo actúa en realidad la DWT, que es en definitiva el tema en estudio? La
DWT analiza la señal a diferentes bandas de frecuencia con diferentes resoluciones,
llevando a cabo la descomposición de la señal en aproximaciones poco finas e información
detallada. La DWT emplea dos conjuntos de funciones: las funciones de escalado y las
funciones wavelet, las cuales se hayan asociadas a filtros de paso bajo y alto,
respectivamente. La descomposición de la señal en bandas de frecuencias diferentes se
obtiene simplemente mediante la aplicación sucesiva de filtros de paso alto y bajo a la
señal en el dominio temporal. La señal original, x[n], se hace pasar primero a través de un
filtro de paso alto de media banda, g[n], y un filtro de paso bajo, h[n]. Después del
filtrado, la mitad de las muestras son eliminadas de acuerdo con la regla de Nyquist, ya que
la señal actual posee una frecuencia mayor de ð/2 radianes en vez de ð. La señal, por tanto,
puede ser reducida según un factor de 2 (subsampling), descartando una muestra cada vez
de la señal. Esto constituye un nivel de descomposición y puede expresarse
matemáticamente como sigue:
y high [k ] = ∑ x [n ]− g [2 ⋅ k − n ]
n
y low [k ] = ∑ x [n ]− h[2 ⋅ k − n ]
(36)
n
donde yhigh[k] e ylow[k] son las salidas del filtro de paso alto y bajo, respectivamente,
después del proceso de subsampling con un factor de 2.
Este proceso de descomposición divide la resolución temporal, ya que sólo la mitad
de las muestras caracterizan actualmente la señal completa. Sin embargo, esta operación
duplica la resolución de frecuencias, puesto que la actual banda de frecuencias de la señal
abarca sólo la mitad de la banda de frecuencias previa, reduciendo efectivamente a la mitad
la incertidumbre en la frecuencia.
El procedimiento descrito, denominado codificación sub-banda en la teoría de
señales [223] o, más conocido como algoritmo de Mallat [224], puede repetirse de manera
sucesiva (transformada wavelet rápida o FWT), para lograr una mayor descomposición. En
cada nivel, las operaciones de filtrado y subsampling reducen el número de muestras a la
mitad, al igual que la resolución temporal, así como también la banda de frecuencias,
duplicando, de este modo, la resolución de las frecuencias. La Figura I.18, conocida más
comúnmente como pirámide de Mallat, ilustra este proceso:
Capítulo I
75
Figura I.18.- Esquema de aplicación del algoritmo de Mallat.
Donde x[n] es la señal original a descomponer y h[n] y g[n] son los filtros de paso bajo y
alto, respectivamente. La anchura de banda de la señal para cada nivel aparece marcada en
la figura como f.
Supóngase que la Figura I.18 representa la descomposición de una señal x[n] que
posee 512 puntos, abarcando una banda de frecuencias que va de 0 a ð rad/s. En el primer
nivel de descomposición, la señal se hace pasar a través de filtros de paso alto y bajo, y a
continuación se efectúa una operación de subsampling con un factor de 2. La salida del
filtro de paso alto posee 256 puntos (la mitad de la resolución temporal), pero sólo abarca
las frecuencias que van de ð/2 hasta ð rad/s (duplicándose la resolución de frecuencias).
Esas 256 muestras constituyen el primer nivel de los coeficientes DWT. La salida del filtro
de paso bajo posee también 256 muestras, pero abarca la otra mitad de la banda de
frecuencias: de 0 a ð/2 rad/s. Posteriormente, con el fin de obtener una descomposición
mayor, los mismos filtros son aplicados de nuevo a esta señal (salida del filtro de paso bajo
anterior). Ahora, tras aplicar el subsampling a la nueva salida del segundo filtro de paso
bajo, se obtienen 128 muestras que van de 0 a ð/4 rad/s en la banda de frecuencias,
mientras que al aplicarlo a la salida del segundo filtro de paso alto se obtienen también 128
muestras que abarcan de ð/4 a ð/2 rad/s. La señal obtenida en este caso constituye el
segundo nivel de coeficientes DWT. Ahora, esta nueva señal posee la mitad de la
resolución temporal y el doble de resolución de frecuencias que la señal resultante del
INTRODUCCIÓN
76
primer nivel de descomposición. En otras palabras y con respecto a la señal original, la
resolución temporal ha disminuido en un factor de 4 y la de las frecuencias se ha
incrementado en el mismo orden. El proceso se repite de nuevo para la salida del filtro de
paso bajo del segundo nivel de descomposición, de forma sucesiva, hasta que sólo resten
dos muestras (puntos). Para el caso de este ejemplo específico, donde se parte de una señal
con 512 puntos, se obtendrían 8 niveles de descomposición, cada uno con la mitad de
muestras que el nivel anterior. La DWT de la señal original se obtiene, por tanto,
encadenando todos los coeficientes obtenidos, partiendo desde el último de los niveles de
descomposición (donde sólo quedaban dos muestras). La DWT tendrá, entonces, un
número de coeficientes igual al número de puntos de la señal original.
Las frecuencias que son más prominentes en la señal original aparecerán como
amplitudes elevadas en aquella región de la DWT de la señal que incluye dichas
frecuencias en particular. La diferencia entre esta transformación y la FT es que la
localización temporal de estas frecuencias no se pierde. Sin embargo, dicha localización
temporal presentará una resolución que dependerá del nivel en el que aparezca. Si la
información principal de la señal aparece contenida en la zona de las frecuencias altas,
como sucede con mucha frecuencia, la localización temporal de estas frecuencias será más
precisa, ya que aparecen caracterizadas por un mayor número de muestras (puntos). Por
otro lado, si la información aparece sólo en la zona de las frecuencias más bajas, la
localización temporal no será muy precisa, ya que habrá pocas muestras para representar la
señal a esas frecuencias. Este procedimiento ofrece, en efecto, una buena resolución
temporal a altas frecuencias y buena resolución de frecuencias a bajas frecuencias. La
mayoría de las señales que proceden de aplicaciones prácticas son de este tipo.
Las bandas de frecuencia que no son muy prominentes en la señal original tendrán
amplitudes muy bajas, y esa parte de la DWT de la señal puede descartarse sin una gran
pérdida de información, permitiendo, de este modo, la reducción de los datos. La Figura
I.19 ilustra un ejemplo de cómo es la DWT de una señal y cómo puede llevarse a cabo el
proceso de reducción de los datos de partida:
Capítulo I
77
Figura I.19.- Ejemplo de A) señal y B) su respectiva DWT.
La Figura I.19-A muestra una señal típica con 512 muestras (puntos). El eje
horizontal es el número de muestras, mientras que el vertical representa la amplitud
normalizada. La Figura I.19-B se corresponde con la DWT de la señal anterior al 8º nivel
de descomposición. Las últimas 256 muestras de esta señal se refieren a la banda de
frecuencias más alta en la señal, las siguientes 128 se corresponden con la segunda banda
de frecuencias más alta y así sucesivamente. Hay que hacer notar que sólo las primeras 64
muestras, las cuales representan las frecuencias más bajas del análisis, contienen
información relevante, mientras que el resto de la señal no porta virtualmente ningún tipo
de información. Por tanto, todos los puntos salvo las 64 muestras citadas podrían
descartarse sin que ello implique pérdida alguna de información. De este modo queda
demostrado que la DWT es una herramienta muy efectiva para reducir los datos de partida.
Una propiedad importante de la transformada wavelet discreta es la relación entre
las respuestas de impulso de los filtros de paso alto y bajo. Ambos filtros no son
independientes el uno del otro, sino que están relacionados mediante la siguiente ecuación:
( )
g[L − 1 − n ] = − 1n ⋅ h [n ]
(37)
donde g[n] y h[n] son los filtros de paso alto y bajo, respectivamente, y L es la longitud del
filtro (en número de puntos). Ambos filtros son simétricos, más concretamente la versión
contraria, alternada y de índice impar el uno del otro. La conversión de paso bajo a paso
alto se lleva a cabo gracias al término (-1)n . Los filtros que satisfacen dicha condición se
denominan filtros de espejo de cuadratura o QMF (del inglés Quadrature Mirror Filters)
[225]. Las operaciones de filtrado y subsampling pueden expresarse del siguiente modo:
INTRODUCCIÓN
78
y high [k ] = ∑ x[n ]⋅ g[− n + 2 ⋅ k ]
n
y low [k ] = ∑ x [n ]⋅ h [− n + 2 ⋅ k ]
(38)
n
La reconstrucción en este caso es muy sencilla, ya que los filtros de media banda
constituyen bases ortonormales. El procedimiento arriba descrito es continuado en orden
inverso para llevarla a cabo. Para cada nivel, las señales son duplicadas en el número de
puntos que la constituyen (upsampling con un factor de 2), se hacen pasar a través de
filtros de síntesis g’[n] y h’[n], paso alto y bajo, respectivamente, y luego se suman. La
parte interesante de este proceso radica en que los filtros de análisis y síntesis son idénticos
el uno al otro, excepto por la inversión temporal. De este modo, la ecuación de
reconstrucción de la señal para cada capa queda como sigue:
x[n ] =
∑ (y [k ]⋅ g[− n + 2 ⋅ k ])+ (y [k ]⋅ h [− n + 2 ⋅ k ])
∞
high
low
(39)
k = −∞
Sin embargo, si los filtros no son filtros de media banda ideales, entonces una
reconstrucción perfecta es imposible. Aunque no es posible encontrar filtros ideales, bajo
ciertas condiciones sí es posible encontrar filtros que proporcionen una reconstrucción
perfecta. Los más famosos son los desarrollados por Ingrid Daubechies, y se conocen
como wavelets Daubechies. Existen también los denominados filtros Symlet, Coiflet y
Beylkin [226]. Debido a que la definición de wavelet posee restricciones bastante fuertes
[201, 204], los citados filtros presentan sólo ligeras diferencias entre ellos. Dichas
restricciones se relacionan con la exactitud en el proceso de reconstrucción de la señal
original, la ortogonalidad de las wavelets y la conservación del área de la función de
escalado.
Hay que tener en cuenta que para llevar a cabo el sucesivo proceso de subsampling
con un factor de 2, la longitud de la señal debe ser potencia de 2 o al menos un múltiplo de
potencias de 2, con el fin de que el esquema comentado anteriormente sea lo más eficaz
posible. La longitud de la señal determina el número de niveles en los que se
descompondrá la misma. Por ejemplo, si la señal posee una longitud de 1024 puntos, sólo
serán posibles 10 niveles de descomposición.
La interpretación de los coeficientes DWT puede ser más que difícil en algunos
casos, debido a la forma tan peculiar en como se presentan. De una manera muy sencilla,
Capítulo I
79
los coeficientes DWT son concatenados, empezando por el último nivel. A continuación se
presenta un ejemplo para aclarar este concepto.
Sea una señal de 256 muestras (puntos) de longitud, medida a 10 MHz y se desea
obtener sus coeficientes DWT. Como la señal se mide a 10 MHz, la componente de
frecuencia más alta que existe en la señal es 5 MHz. En el primer nivel de descomposición,
se hace pasar la señal a través de un filtro de paso bajo, h[n], y un filtro de paso alto, g[n],
siendo las salidas de ambos reducida a la mitad (subsampling). La salida del filtro de paso
alto se corresponde con los coeficientes DWT del primer nivel. Está compuesta por 128
muestras que representan la señal en el rango de 2,5 a 5 MHz y serán los últimos puntos
que aparecen en su representación gráfica. La salida del filtro de paso bajo, que también
contiene 128 muestras, pero abarcando una banda de frecuencias de 0 a 2,5 MHz, es
descompuesta aún más haciendo uso de los mismos filtros h[n] y g[n] anteriores. La salida
del segundo filtro de paso alto se corresponde con los coeficientes DWT para el segundo
nivel de descomposición, siendo estas 64 muestras las que preceden a las 128 anteriores.
La salida del segundo filtro de paso bajo es descompuesta aún más, haciéndola pasar de
nuevo a través de los filtros h[n] y g[n]. La salida del tercer filtro de paso alto engloba los
coeficientes DWT del tercer nivel, compuesta por 32 muestras que preceden a los 64
coeficientes del segundo nivel de descomposición.
El proceso continúa hasta que sólo un único coeficiente DWT es calculado para el
nivel 8. Este único coeficiente es el primero que aparece representado en la citada figura. A
éste le siguen los dos coeficientes del nivel 7, los 4 del nivel 6, los 8 del nivel 5, los 16 del
nivel 4, los 32 del nivel 3, los 64 del nivel 2 y, finalmente, los 128 del nivel 1. Hay que
resaltar que cada vez se utiliza un número menos de muestras para las frecuencias más
bajas, lo que provoca la disminución de la resolución temporal con la frecuencia; sin
embargo, como el intervalo de frecuencias también disminuye a frecuencias bajas, la
resolución de frecuencias aumenta. Obviamente, unos pocos de los primeros coeficientes
no van a contener toda la información de la señal original, simplemente por el hecho de
reducir en gran medida la resolución temporal.
A continuación se ilustra lo comentado anteriormente con un ejemplo. Sirva para
ello de nuevo la Figura I.19, que representa una señal real (A) con su DWT (B). Los datos
de partida se corresponden con una señal ultrosónica con 256 muestras de longitud,
muestreada a 25 MHz. Como la señal fue generada con un transductor de 2,25 MHz, la
INTRODUCCIÓN
80
componente de frecuencias principal aparece a 2,25 MHz. Las últimas 128 muestras se
corresponden con el intervalo 6,25 – 12,5 MHz. De la Figura I.19-B se desprende que no
hay información disponible en esta zona, por tanto, esas muestras pueden descartarse sin
pérdida alguna de información. Los 64 puntos que preceden a los anteriores representan la
señal en el intervalo 3,12 – 6,25 MHz, en el cual tampoco aparece contenida información
significativa. Las pequeñas ondulaciones que aparecen en la zona se corresponden
probablemente con ruido de alta frecuencia en la señal. Las 32 muestras precedentes
representan la señal en el intervalo 1,5 – 3,1 MHz. Como puede observarse, la mayoría de
la energía contenida en la señal se recoge en esas 32 muestras, como se esperaba que
sucediese. Los siguientes 16 puntos, previos a los anteriores, aparecen en el intervalo 0,75
– 1,5 MHz y los picos que aparecen a este nivel representan probablemente parte de las
frecuencias más bajas de la señal. Las muestras previas a éstas no contienen información
significativa alguna. Por ello, podría ser factible utilizar solamente los coeficientes de los
niveles 3 y 4, representando, de este modo, una señal de 256 muestras por otra de 16 + 32
= 48 muestras, una reducción bastante significativa de los datos que aceleraría el cálculo
computacional.
Generalización de la transformada wavelet: la transformada wavelet en “paquetes”
Uno de los temas que está adquiriendo cada vez mayor importancia en el campo de
la teoría wavelet consiste en llevar a cabo la generalización del algoritmo de Mallat, es
decir, la aplicación del mismo no sólo a la salida de los filtros de paso bajo, sino también a
la salida de los filtros de paso alto, que en los ejemplos anteriores se quedaba sin
descomponer. En otras palabras, se pretende aumentar la resolución de las bandas de alta y
baja frecuencia de forma separada, como muestra la siguiente figura:
Capítulo I
81
f =0~B
B
x[n]
g[n]
h[n]
f =B
B /2~B
B
f =0~ B/2
2
2
g[n]
2
h[n]
f =3B
B/4~ B
2
g[n]
f =B
B/2~3B
B/4
2
h[n]
f =B
B /4~B
B /2
2
f =0~B
B /4
g[n]
h[n]
g[n]
h[n]
g[n]
h[n]
g[n]
h[n]
2
2
2
2
2
2
2
2
...
...
...
f =3B
B /4~7B
B /8 ...
f =B
B/2~5B
B/8 ...
f =B
B /4~3B
B /8 ...
...
f =7B
B/8~ B
f =5B
B /8~3B
B/4
f =3B
B /8~B
B /2
f =B
B /8~B
B /4
...
f =0~B
B /8
Figura I.20.- Esquema del algoritmo de Mallat para un proceso de
descomposición en “paquetes”.
Puede observarse cómo la estructura en árbol que ilustraba la Figura I.18 se complica aún
más al extender el proceso de codificación a las bandas de alta frecuencia. El resultado se
denomina paquetes wavelet o WP (del inglés Wavelet Packages). De este modo, la WT
puede considerarse como un caso particular de la WP. Como puede observarse del
esquema anterior, el número de formas wavelet posibles es mucho mayor y, en
comparación con el algoritmo de Mallat, la WP es mucho más flexible. Permite, de este
modo, aumentar la resolución en regiones específicas del dominio tiempo-frecuencia de
una forma mucho más detallada que con la WT ordinaria, entresacando información que de
otro modo sería imposible obtener.
Mayor información sobre la WP puede encontrarse en [213, 227-232].
Aplicaciones de la WT
La WT está desempeñando actualmente un papel muy importante en el campo del
procesamiento de señales.
Como se ha comentado anteriormente, mientras que las funciones de base de la FT
poseen una duración ilimitada y son suaves y periódicas, las funciones componentes de la
transformada wavelet son finitas, asimétricas y carecen de periodicidad. Estas propiedades
INTRODUCCIÓN
82
de la WT suponen una gran ventaja a la hora de comprimir información, permitiendo,
además, aproximar señales cuyas características cambien en el tiempo o que posean saltos
u otros caracteres bruscos. También son capaces de representar señales no-estacionarias,
donde la frecuencia depende del tiempo, a diferencia de la FT.
La representación de señales en el dominio wavelet permite separar una señal en
sus componentes multirresolución. Los componentes de resolución fina y gruesa capturan,
respectivamente, las partes de alta y baja frecuencia de una señal. Estas representaciones
son útiles no sólo en química o matemáticas, sino también en astronomía y oceanografía,
por citar algunos campos. Además, su rango de aplicaciones es enormemente amplio.
Entre las más importantes podemos destacar la eliminación de ruido o denoising. El
ruido es un fenómeno que afecta a las frecuencias. Las componentes de frecuencia que
suelen dominar en una señal poseen baja frecuencia y contienen la mayor parte de la
información útil. Por tanto, es de esperar que la mayor parte de las componentes de alta
frecuencia sean debidas al ruido. En esto se basa, fundamentalmente, el filtrado mediante
la transformada de Fourier, en el cual, mediante un filtro de paso bajo se eliminan las
componentes de alta frecuencia. De igual modo, podría suponerse que coeficientes wavelet
pequeños a escalas bajas (alta frecuencia) se deban principalmente a ruido.
Esta aplicación se lleva a cabo como parte del preprocesamiento de los datos y
puede considerarse como una ventaja añadida a la hora de tratar una señal con WT, sea por
el motivo que sea. Por lo tanto, cualquier referencia bibliográfica relacionada con wavelets
constituiría de forma intrínseca un ejemplo de este tipo. Sin embargo, en la literatura
reciente, pueden encontrarse muchas publicaciones específicas relacionadas con el tema
[233-237]. En estos casos, se ha eliminado el ruido de señales procedentes de técnicas muy
variadas: sensores piezoeléctricos, electroforesis capilar, espectros Raman, NIR y HPLC.
Además, no sólo se puede eliminar el ruido presente en cualquier tipo de señal, sino que en
el caso de imágenes también es plausible [238].
Otro ejemplo de aplicación de la WT lo constituye la compresión de datos, en la
cual, algunos autores afirman que se muestra mucho más efectiva que la FT [239]. La
finalidad de la compresión de datos es la de reducir las dimensiones de los datos de partida,
sean cuáles sean, con el fin de someterlos posteriormente a un tratamiento estadístico o
quimiométrico de una forma mucho más cómoda. La regresión wavelet es uno de los
Capítulo I
83
procesamientos más comunes [212, 240]. Normalmente, el proceso de compresión se
encuentra íntimamente relacionado con el almacenamiento de espectros (librerías) que
ocupen un menor tamaño en bytes [241-243], con el análisis multicomponente o resolución
de señales [244-247] y el reconocimiento de patrones, ya sean monodimensionales o
bidimensionales [239, 248-250]. Normalmente, en los casos de reconocimiento de
patrones, la WT se suele combinar con algún tipo de red neuronal, como ocurre en los
ejemplos citados anteriormente. En los dos últimos, se emplean combinaciones de WT y
redes neuronales con el fin de reconocer y clasificar manchas y números escritos a mano,
respectivamente. Los porcentajes de clasificación en ambos casos fueron muy buenos.
Otra de las áreas que más se ha beneficiado de las propiedades tan particulares de la
WT es el procesamiento de imágenes, dentro del ámbito del reconocimiento de patrones.
Es bien conocido que las imágenes, sobre todo las de muy alta resolución, ocupan muchos
bytes a la hora de su almacenamiento en el espacio de disco. La DWT puede utilizarse para
reducir el tamaño de una imagen sin perder mucha resolución.
El proceso sería el siguiente. Para una imagen dada, se calcula la DWT, por
ejemplo para cada fila, descartando todos aquellos valores menores de un cierto valor
umbral. Posteriormente y para cada fila, se mantienen sólo aquellos coeficientes que se
encuentran por encima de dicho umbral. Cuando se reconstruya la imagen original, se
rellenan con ceros todos aquellos huecos de cada fila cuyos coeficientes se hayan
eliminado y se usa la DWT inversa para reconstruir cada una de las filas de la imagen en
cuestión. Además, se puede analizar la imagen a diferentes bandas de frecuencias, y
reconstruir la imagen original usando sólo los coeficientes que pertenecen a una banda en
particular. Ejemplos de la aplicación bidimensional (imágenes) de la WT pueden
encontrarse en [238, 251-253].
La WT se ha empleado también para el análisis de procesos complejos [254, 255] y
en la monitorización de los mismos [256]. Otras aplicaciones son la estimación estadística
no paramétrica y el análisis numérico en el campo de las matemáticas, el análisis y
confrontación
de
secuencias
proteicas
para
la
determinación
de
estructuras
tridimensionales en biología molecular [257, 258] y la elaboración de funciones de base en
química cuántica [259-261].
INTRODUCCIÓN
84
También hay que destacar, el uso generalizado de la WT como herramienta de
preprocesamiento para el desarrollo de modelos de calibración multivariante de espectros
NIR [240, 262-264], de datos de fluorescencia [265] y de espectros de difracción de rayos
X [266]. Hasta el momento, aparte de las publicaciones incluidas en la presente Memoria
[162, 267], no se han encontrado otras investigaciones donde se lleve a cabo una
calibración multivariante con señales electroquímicas basada en coeficientes wavelet.
Hasta ahora se han tenido en cuenta las aplicaciones de la WT en la forma de la
DWT o la transformada wavelet rápida (FWT). A continuación se describen someramente
algunas de las utilidades de la WP.
Como se ha comentado anteriormente, mediante la aplicación de la WP se pueden
separar los distintos tipos de información que contiene una señal, considerando
contemporáneamente tanto la “forma” (contenido en frecuencias de cada una de las
componentes de la señal) como los “aspectos puntuales” (considerar como variables
aisladas los puntos que constituyen la señal: altura de un pico, etc.) de la misma. Esta
separación conduce a la distinción de manera eficaz entre diversas señales, permitiendo su
clasificación. Seeber et al. [268] han desarrollado recientemente un algoritmo basado en la
WP y lo han aplicado como método de reconocimiento de patrones de señales
instrumentales. Las características principales del algoritmo que lo diferencian de otros
propuestos en la literatura se basan fundamentalmente en dos aspectos:
1. Se introduce un criterio de capacidad de clasificación en el procedimiento
para seleccionar las mejores bases discriminantes.
2. Se reconstruyen las señales en el dominio original haciendo uso tan sólo de
los coeficientes wavelet seleccionados, lo que facilita la interpretación
química de los resultados.
El algoritmo fue probado inicialmente con señales simuladas consistentes en una
serie de picos, parcialmente solapados entre sí, con ruido añadido y con variaciones en la
línea de base, simulando un sistema de tres clases. Posteriormente fue aplicado a
difractrogramas de rayos X obtenidos a partir de muestras de azulejos sometidos a diversos
ciclos de calentamiento, con el fin de identificar y discriminar entre los diferentes tipos de
procesos aplicados basados en la composición de fase. Tanto en un caso como en otro, se
obtuvo una clasificación satisfactoria.
Capítulo I
85
Walczak y Massart utilizaron la WP con el fin de suprimir el ruido presente en
espectros NIR y llevar a cabo la compresión de los mismos [227].
Recientemente también se han empleado WP en conjunción con redes neuronales
con el fin de interpretar e identificar señales Doppler de enfermedades de válvulas del
corazón [269]. Otras aplicaciones son la creación de un dispositivo codificador de audio
basado en wavelets [270], la compresión de datos de procesos químicos con fines de
almacenamiento y recuperación [271] y la compresión de imágenes holográficas de
volúmenes de cristales [272]. En este último caso, se emplean wavelets en paquetes que
varían con el tiempo, empleándose varios criterios de selección de los coeficientes wavelet
con el fin de elegir aquellos que presenten las mejores características representativas del
conjunto de datos (selección de variables y extracción de caracteres o rasgos identificativos
de las señales). Uno de los campos de aplicación más importantes de la WP se encuentra
en la medicina moderna, fundamentalmente para la compresión de imágenes [273].
Mayor información sobre aplicaciones de la transformada wavelet en general puede
encontrarse en [212, 274-277].
8) Calibración Multivariante
A continuación, se resumirán los aspectos más relevantes de la calibración
multivariante, herramienta quimiométrica empleada durante el desarrollo de la presente
Tesis Doctoral, así como de las principales técnicas estadísticas utilizadas para llevar a
cabo los procesos de calibración.
Calibración multivariante es el nombre más extendido para el desarrollo de un
modelo cuantitativo para la predicción segura de propiedades de interés (y1 , y2 , ..., yq ) a
partir de un número de variables predictoras (x 1 , x 2 , ..., x p ). Por ejemplo, el análisis
voltamperométrico de una mezcla con el fin de averiguar la concentración de uno o más de
sus constituyentes. El fin de la calibración, ya sea multivariante o no, consiste en
reemplazar una medida de la propiedad de interés por una que sea más rápida o más
accesible, y que sea al mismo tiempo suficientemente exacta. El desarrollo del modelo de
calibración incluye las siguientes etapas:
§
Establecer el objetivo del estudio.
INTRODUCCIÓN
86
§
Diseñar el experimento.
§
Elegir el tipo de modelo.
§
Estimar sus parámetros.
§
Y, el paso final, asegurar la precisión de las predicciones.
Como la calibración multivariante implica más de una variable predictora, esto
aporta una gran ventaja: el uso del voltamperograma completo como predictor en vez de
los valores de intensidad de los picos que constituyen las señales del mismo. La utilización
de la información completa de la señal puede, en principio, conducir a mejores
predicciones. Además, puede ocurrir que se incluyan en el modelo regiones del
voltamperograma que no contengan información esencial, pero que de modo fortuito o
casual, pueda mejorar la correlación en el conjunto de calibración. Al disponer de más de
un predictor, no sólo se puede estimar más de una propiedad independiente, sino que
también permite eliminar covarianzas (interferencias) no deseadas, a diferencia de la
calibración univariante, la cual requiere de información adicional. De hecho, esta última
posibilidad es lo que motiva a los científicos a llevar a cabo medidas multivariadas.
Además, con los datos multivariantes, surge la oportunidad de separar información
relevante para las propiedades respectivas a partir de variaciones no relevantes o ruido.
El conjunto de propiedades dependientes posibles y de variables predictoras
independientes, es decir, el número de posibles aplicaciones para la modelización
predicitiva, es virtualmente ilimitado. Una de las aplicaciones más importantes se lleva a
cabo en química analítica: la determinación simultánea de las concentraciones de varios
analitos en una mezcla multicomponente. El número de técnicas instrumentales que se
encuentran
a
disposición
de
un
químico
analítico
es
enorme:
desde
técnicas
espectroscópicas (UV, IR, NIR, XRF, NMR, etc.), pasando por las cromatográficas
(HPLC,
GC,
etc.),
hasta
llegar
a
las
electroquímicas,
más
concretamente
la
voltamperometría, que ha sido la técnica instrumental empleada en la presente Tesis
Doctoral. El campo emergente del análisis de procesos, esto es, el análisis de sistemas o
procesos químicos utilizando sensores múltiples, depende en gran medida de la
aplicabilidad de los modelos de calibración multivariante para la monitorización
cuantitativa de los sistemas o procesos de interés. Particularmente, la aplicación de la
espectroscopía de infrarrojo cercano para analizar muestras que requieren poco o ningún
pretratamiento se usa de forma muy extendida en la industria química y alimentaria [278].
Capítulo I
87
Dicha técnica se utiliza también para caracterizar propiedades de productos relacionadas
con su composición: el número de octanos de las gasolinas, la riqueza en yodo de grasas y
aceites o el grado de cristalinidad en polímeros. Aplicaciones fuera del campo de la
química analítica son, por ejemplo, la predicción de propiedades bioquímicas o
farmacológicas a partir de parámetros estructurales (QSAR, Quantitative StructureActivity Relationships: relaciones cuantitativas estructura-actividad) [279], la comprensión
de perfiles sensoriales de datos físico-químicos en investigación alimentaria [280] y la
modelización de datos medioambientales [281].
Como se ha comentado anteriormente, el fin último de la calibración multivariante
consiste en la determinación indirecta de una propiedad de interés, Y, a partir de medidas
de variables predictoras, X. Por lo tanto, una descripción adecuada de los datos de
calibración
no
es
suficiente:
el
modelo
debería
ser
generalizable
para
futuras
observaciones. El alcance óptimo de dicho modelo debe ser cuidadosamente calculado,
puesto que modelos de calibración demasiado simples (underfitting) introducen errores
sistemáticos y modelos demasiado complejos (overfitting) pueden generar grandes errores
aleatorios.
En muchas otras aplicaciones, el fin de la modelización predictiva no consiste en la
comprensión
detallada
de
la
relación
existente
entre
variables
dependiente
e
independientes. La habilidad para interpretar el modelo, por tanto, no es un requerimiento
per se. Sin embargo, esto no debería excluir la explotación del conocimiento de base
disponible acerca del problema en cuestión durante la calibración. Un modelo que puede
interpretarse perfectamente de manera segura añade valor y confianza a los resultados de la
calibración.
8.1. Técnicas empleadas en calibración multivariante
Algunos de los modelos de regresión que se emplean más comúnmente en
calibración multivariante son los siguientes:
§
Regresión lineal múltiple (MLR)
§
Regresión clásica por mínimos cuadrados (CLS)
§
Regresión inversa por mínimos cuadrados (ILS)
§
Regresión de componentes principales (PCR)
INTRODUCCIÓN
88
§
Regresión por mínimos cuadrados parciales (PLS)
§
Redes neuronales artificiales (ANN)
entre muchos otros tipos de modelos de regresión; no obstante, a lo largo de esta
Introducción sólo se tratarán con mayor profundidad aquellos métodos utilizados durante
el desarrollo de la misma.
Regresión lineal múltiple (MLR)
El método de regresión lineal múltiple o MLR se emplea cuando muchas variables
independientes están relacionadas linealmente con un conjunto de variables dependientes
(ejemplo: a la hora de determinar de forma simultánea varios componentes en una misma
muestra). Para aplicar este método, se asume que existe linealidad entre las muestras, en el
sentido de relaciones lineales directas y aditividad de las señales objeto de estudio. Cada
variable dependiente r se expresa como combinación lineal de un conjunto de variables
independientes (el conjunto de m concentraciones ci):
m
r = ∑bi ⋅ ci + e = c′⋅ b + e
(40)
i= 0
donde, para el caso de una voltamperometría, r representaría la intensidad de corriente, bi y
ci serían los coeficientes de regresión y las concentraciones de la especie i,
respectivamente, m sería el número total de analitos en la mezcla y e el término de error.
En la ecuación 40, r es un escalar, b un vector columna y c’ un vector fila (ejemplo: una
muestra de agua donde se mide la concentración de Fe3+, Cu2+ y Zn2+.)
La ecuación anterior describe la dependencia multilineal para una única muestra. Si
existen respuestas múltiples de cada medida, es decir, n muestras, la ecuación anterior se
transforma en la siguiente expresión:
r = C⋅b + e
(41)
Ahora todos los parámetros representan matrices, donde r, b y e son vectores o matrices
columna. (Ejemplo: tres muestras distintas de agua en las que se miden las concentraciones
de las tres especies anteriores.)
Capítulo I
89
Si existe más de una variable dependiente, en notación matricial, la ecuación toma
la forma del modelo clásico:
R = C⋅B+ E
(42)
donde R (nHm) es el conjunto de los datos de respuesta (variable dependiente), C (nHp) el
conjunto de observaciones medidas (variable independiente), B (pHm) la matriz de los
coeficientes de regresión y E (nHm) la matriz de los errores asociados. (Ejemplo: un
conjunto de n muestras de agua donde se mide la concentración de m iones en p
condiciones de pH.)
Para un conjunto de variables dependientes e independientes el fin de la calibración
consiste en estimar la matriz de los coeficientes de regresión B, que define el modelo
MLR. No obstante, se pueden distinguir tres situaciones:
§
m > n: hay más variables que muestras; en este caso hay un número infinito
de soluciones para B, que ajustan la ecuación.
§
m = n: se trata de un sistema exactamente determinado, donde el número
de muestras es igual al de variables; existe una única solución para B,
permitiendo escribir: E = Y - XB = 0, donde E es la matriz de residuos, la
cual es nula.
§
m < n: se trata de un sistema sobredeterminado donde hay más muestras
que variables; esto no proporciona una solución exacta para B, sin embargo,
se puede conseguir una solución minimizando la matriz de los residuos en la
siguiente ecuación: E = Y - XB. Puede esperarse que la precisión del
procedimiento se incremente conforme aumenta el número de medidas.
Hasta cierto punto, el efecto de emplear un sistema de este tipo es el mismo
que el efecto que ejercen medidas repetidas sobre la precisión.
El método más popular para hallar una solución al sistema se denomina el método
de mínimos cuadrados, cuya expresión es la siguiente:
(
B = C t ⋅C
)
−1
⋅C t ⋅ R
(43)
INTRODUCCIÓN
90
donde C es la matriz de las variables independientes, R el vector de las variables
dependientes y B el vector de los coeficientes de regresión. Finalmente, los valores
estimados para la variable dependiente R̂ vendrían calculados de la siguiente forma:
(
)
ˆ = C⋅ B = C ⋅ Ct ⋅ C −1 ⋅ Ct ⋅ R
ˆ
R
(44)
La regresión por mínimos cuadrados ajusta bien los coeficientes cuando las
variables independientes son casi o totalmente ortogonales. Si existe cierta correlación
entre las variables independientes se producen problemas en la estimación de la matriz de
los coeficientes B. Esto se evita prestando especial atención a la hora de realizar las
medidas de las mezclas, haciendo uso de un buen diseño experimental [282, 283].
Las aplicaciones del modelo MLR son muy diversas: se ha empleado para
seleccionar variables en estudios de relación estructura-actividad cuantitativa (QSAR)
[284], en estudios de relaciones estructura-toxicidad de insecticidas, junto con redes
neuronales
artificiales
[285],
como
método
de
calibración
multivariante
para
la
determinación simultánea de rutina de etanol, glicerol, fructosa, glucosa y azúcares totales
residuales en vinos dulces procedentes de uva afectada de botrytis [286] y también para el
análisis multicomponente de mezclas binarias, ternarias y cuaternarias de iones Pb2+, Tl+,
In3+, y Cd2+, medidos por polarografía de impulso diferencial y voltamperometría de
redisolución anódica [287], entre otros.
Análisis de componentes principales (PCA)
Uno de los métodos de modelización más utilizado como técnica de reducción de
dimensiones en quimiometría es el análisis de componentes principales o PCA. Consiste en
una familia de técnicas computacionales relacionadas con el aislamiento de las fuentes de
variación en un conjunto de datos. Dichas fuentes se aíslan descomponiendo la serie de
datos en sus autovectores (eigenvectors) y autovalores (eigenvalues): vectores y valores
propios, respectivamente. En primera aproximación, el PCA se considera una técnica
exploratoria y de pretratamiento de los datos (reducción de dimensiones), como paso
previo a la obtención del modelo de calibración.
El primer paso en el PCA es la formación de la matriz de covarianzas, Z:
Z = Dt ⋅ D
(45)
Capítulo I
91
a partir de la matriz de datos originales, D. La matriz de covarianzas se diagonaliza a través
de la siguiente transformación unitaria:
Λ = V −1 ⋅ Z ⋅ V
(46)
donde Ë es la matriz diagonal cuyos elementos son los autovalores de Z y V es la matriz de
autovectores, referida con frecuencia a valores abstractos o loadings. Los datos en D se
reproducen a partir de los loadings y los scores (componentes o factores principales de los
datos) por medio de la relación:
D = T ⋅ Vt
(47)
Los loadings son los cosenos de los ángulos de los vectores directores o las proyecciones
de los datos sobre un conjunto de bases ortonormales que abarcan los datos D, y los scores
son las proyecciones de los datos o puntos de muestra sobre la dirección de las
componentes principales. El conjunto de bases se define por los scores de datos T. Los
vectores y los loadings pueden calcularse por parejas mediante un procedimiento iterativo:
NIPALS o regresión por mínimos cuadrados parciales no lineal iterativo, desarrollado por
Wold [288]. Esta regresión extrae los vectores de loadings del espectro completo (vectores
propios de Dt·D) en el orden de su contribución a la varianza en el espectro de calibración.
Tras la determinación del primer vector de loadings, éste es eliminado del espectro de
calibración y el proceso se repite hasta que se ha calculado el número deseado de vectores
de loadings.
Un método para la realización de autoanálisis en la ecuación (46) es por medio de
la descomposición de los valores individuales. En la descomposición de dichos valores, la
matriz de datos es dividida en el producto de tres matrices:
D = U ⋅S⋅ V t
(48)
donde U es una matriz de autovectores fila (vectores propios de D·Dt), S es la matriz
diagonal de los valores individuales (raíces cuadradas de los autovalores) y V es la matriz
de los autovectores columna (vectores propios de Dt·D). La matriz V obtenida por
descomposición de los valores individuales es equivalente a la matriz V de la ecuación
(46). La matriz producto de la matriz de autovectores fila y la matriz de valores
individuales es equivalente a la matriz de scores T en la ecuación (47).
INTRODUCCIÓN
92
Como consecuencia del proceso de descomposición se obtiene una reducción de
ruido en los datos.
Si existen n medidas, se obtienen n vectores propios en la diagonalización. No
todos los autovectores transportan información útil; algunos representan a los componentes
de mayor ruido del conjunto de datos. Al reunir los datos con una gran relación
señal/ruido, el ruido dominará en aquellos autovectores con autovalores pequeños, ya que
aquel contribuye sólo en pequeña cantidad a la variación de los datos. La eliminación de
los loadings asociadas a autovalores propios pequeños impide la reconstrucción de la
información presente en la matriz de datos originales y la reducción de ruido resulta de
usar loadings y scores truncados en la ecuación (47).
Si el ruido es una parte significativa de los datos, el número correcto de factores a
retener no se pone fácilmente de manifiesto. Cuidando la selección de un subconjunto de
autovectores, manteniendo aquellos que contienen mayormente la señal y eliminando los
que contienen ruido en mayor grado, es posible reducir el ruido en una serie de datos.
Otro beneficio de la descomposición consiste en la determinación de la verdadera
dimensionalidad del problema. Es posible disminuir un conjunto de datos expresado
mediante cientos de variables independientes en sólo unos cuantos vectores propios por
medio del PCA.
El PCA se ha empleado para estudiar potenciales de onda media polarográficos de
iones metálicos alcalinos y alcalinotérreos. Se consiguió determinar el número apropiado
de factores requeridos para describir la variación causada por el disolvente. Con tres
componentes principales, los potenciales de onda medios en cada sistema de disolvente
fueron modelados adecuadamente.
Recientemente,
Krantz-Rülcker
et
al.
[289]
han
aplicado
el
PCA
para
reconocimiento de patrones en monitorización medioambiental mediante el uso de lenguas
electrónicas basadas en conjuntos de sensores.
Jones et al. [290] emplearon mínimos cuadrados y análisis de factores (basado en
PCA)
para
resolver
solapamientos
en
mezclas
binarias
utilizando
técnicas
de
luminiscencia. Demir et al. [291] emplearon también el PCA y técnicas derivativas con el
Capítulo I
93
fin de llevar a cabo la deconvolución de picos cromatográficos obtenidos a partir de GCMS.
Seeber et al. [292] emplearon PCA con el fin de clasificar mostos y vinos
elaborados a partir de uva Chardonnay en función del año de vendimia. También se ha
empleado con el fin de evaluar datos medioambientales. Un ejemplo podría ser el estudio
de la composición en aniones inorgánicos en las aguas de la Laguna de Venecia [293].
Otro ejemplo de aplicación del análisis de componentes principales lo constituye el trabajo
de Kokot et al. [294], en el que aplicaron PCA para el análisis de datos multivariante con el
propósito de investigar las influencias medioambientales y las variables de cultivo en el
contenido elemental del arroz vietnamita. Finalmente, también se ha empleado PCA para
clasificar líneas espectrales de emisión en espectroscopía de emisión atómica de plasma
acoplado inductivamente (ICP-AES) [295]. La clasificación de las líneas con respecto a
sus características analíticas y experimentales fue bastante coherente.
Regresión de componentes principales (PCR)
Una variante del PCA en el análisis cuantitativo de datos consiste en representar un
conjunto de datos por un número reducido de variables ortogonales, y aplicarles una
posterior regresión. El truncaje cuidadoso de los scores y loadings de un conjunto de datos
con un bajo contenido en ruido permite modelar únicamente la variación sistemática y no
así el ruido. Esta combinación de MLR y PCA se conoce como regresión de componentes
principales o PCR.
De forma resumida, la PCR se lleva a cabo en dos etapas:
1. análisis de componentes principales: se aplica sobre la matriz de datos X,
reduciendo las dimensiones de los datos de partida.
2. proceso de regresión: de las variables de Y sobre las componentes
principales obtenidas a partir de X.
La primera de las etapas convierte la PCR en una herramienta estadística de
grandes posibilidades como método de calibración multivariante. El proceso de reducción
sólo se aplica a los datos de X, permaneciendo Y invariable. Hay que tener en cuenta que
los datos de Y no influyen en absoluto a la hora de obtener las componentes principales de
X.
INTRODUCCIÓN
94
El paso clave para llevar a cabo una regresión útil, usando los componentes
principales como el conjunto de variables independientes, implica la eliminación (por
truncaje) de los scores y loadings no significativos de los datos.
Cuando se utiliza un conjunto incompleto de scores y loadings para representar una
matriz de datos D, resulta una matriz D̂ de los datos estimados:
ˆ = U ⋅ Vt
D
(49)
donde U y V son los scores y loadings truncados, respectivamente.
Como se emplea un número reducido de componentes principales en la
reconstrucción, la información presente en los datos originales ha sido comprimida en una
dimensión espacial más pequeña. Además, las nuevas variables usadas para representar los
datos son ortogonales, puesto que son scores. En resumen, la PCR relaciona variables
dependientes Y con un conjunto de variables independientes en D, empleando para ello una
matriz de scores truncada, obtenida a partir de D en lugar de las variables independientes
en D:
Y = U⋅B
(50)
La estimación de los coeficientes se realiza por regresión de mínimos cuadrados,
igual que en MLR, pero con la ventaja importante de que la inversión U t ⋅U puede hacerse
sin dificultad. Además, la PCR permite incluir variables independientes altamente
correlacionadas tales como, espectros o voltamperogramas, sin problema de que la
ecuación:
(
B = Ct ⋅ C
)
−1
⋅ Ct ⋅ R
(51)
pueda ser inadecuada, debido al alto grado de similitud entre las variables independientes.
De igual modo, se puede definir el modelo inverso, donde la matriz de respuestas,
R, es modelada como la variable independiente y la matriz de concentraciones, C ,como la
variable dependiente:
C = R ⋅B+ F
(52)
Capítulo I
95
De este modo, se asume que el error está incluido en la concentración. Esta aproximación
se emplea con poca frecuencia, pero puede satisfacerse si se realiza el truncaje apropiado
de los scores de R y U , y si estos se incluyen en el modelo de regresión mediante la
ecuación:
C = U⋅B
(53)
El ajuste de los scores de los datos por esta ecuación posee una doble ventaja:
§
requiere menos variables independientes y emplea datos con menos ruido,
como consecuencia de la compresión de datos y la reducción de ruido,
generada en la descomposición propia;
§
el truncaje de los datos de respuesta en R. Éste último debe elegirse bien, si
no se producen errores en la modelización por la introducción de
tendencias.
La aproximación PCR posee características bastante interesantes [296]:
§
Reducción de dimensiones del conjunto de datos X: mediante el uso de la
PCA, se conserva la máxima cantidad de información posible. Se supone
que los componentes minoritarios eliminados contienen ruido o ninguna
información relevante relacionada con la matriz Y.
§
Las componentes principales resultantes son ortogonales entre sí: es decir,
no están correlacionadas, lo que simplifica en gran medida la etapa posterior
de la regresión múltiple de las variables de Y, permitiendo el cálculo de los
efectos
de
las
componentes
principales
individuales
de
forma
independiente.
§
Varianza muy elevada de las componentes principales mayoritarias: esto
conduce a una regresión estable, puesto que la varianza de un coeficiente de
regresión estimado es inversamente proporcional a la varianza del regresor.
Haaland y Thomas [297-299], han aplicado PCR como método de calibración
multivariante sobre datos espectrales. Además, han comparado su efectividad con la de
otras técnicas tales como CLS, ILS y PLS. MacLaurin et al. [300] utilizaron dicha
herramienta
quimiométrica
para
el
análisis
multicomponente
UV/VIS, estableciendo también comparación de resultados con el PLS.
en
espectrofotometría
INTRODUCCIÓN
96
La PCR también ha sido empleada para la selección de mezclas de calibración y
longitudes de onda para la determinación espectrofotométrica de cuatro clorofenoles, todos
ellos contaminantes primarios [301]. Normalmente, el uso de la PCR como método de
calibración multivariante conlleva un estudio comparativo con otros métodos de
calibración multivariante, como se ha apuntado en las anteriores referencias. En este caso,
también se emplea con dicho propósito.
Burden et al. [302] usaron PCR, junto con PLS y ANN, para establecer modelos de
regresión tanto validados de forma cruzada como sin validar, con el fin de relacionar las
concentraciones de hidrocarburos aromáticos policíclicos contaminantes con los espectros
de absorción electrónica de volátiles de alquitrán procedentes de carbón mineral. Las
predicciones obtenidas fueron bastante buenas, obteniéndose resultados anómalos con las
redes neuronales.
Depczynski et al. [240] compararon los resultados obtenidos mediante PCR con
otras técnicas de calibración multivariante con el fin de llevar a cabo el análisis
cuantitativo de espectros de infrarrojo cercano. Las otras técnicas empleadas fueron:
regresión de coeficientes wavelet (WCR) en combinación con un algoritmo genético (GA),
regresión de coeficientes de Fourier (FCR) y regresión de valores de absorbancia (AVR).
Los resultados obtenidos con las transformaciones wavelet estuvieron muy próximos a los
de la PCR.
Otras aplicaciones recientes de la PCR pueden encontrarse en los trabajos de
Wentzell et al. [303, 304], para el estudio de mezclas complejas con gran número de
componentes y espectros de emisión de fluorescencia, respectivamente.
Regresión por mínimos cuadrados parciales (PLS)
El modelo PLS está construido sobre las propiedades del algoritmo NIPLS. La
regresión por mínimos cuadrados parciales extiende la idea de usar el modelo inverso y
reemplazar las variables con un conjunto truncado de sus componentes principales. Según
algunos autores [283], es un método mucho más robusto que el análisis de componentes
principales (PCA) y la MLR, ya que los parámetros del modelo no varían mucho cuando se
toman nuevas muestras de calibración del total de la población. Además, se trata de un
método de análisis de varios factores, al igual que la regresión de componentes principales
Capítulo I
97
(PCR) y la regresión por mínimos cuadrados clásica (CLS), aunque ésta última no se
presente normalmente como tal.
De forma resumida, el propósito de la regresión PLS consiste en encontrar un
número pequeño de factores relevantes A que sirven para predecir la Y y que representan la
mayor cantidad posible de información de X. El método lleva a cabo de forma efectiva la
descomposición canónica de X en un conjunto de factores ortogonales (o también
componentes principales modificados) que son utilizados para ajustar Y.
En el PLS, las variables independientes X y las dependientes Y se autodescomponen
simultáneamente, mediante dos procesos de PCA, haciendo uso del algoritmo NIPALS.
Las ecuaciones del PLS, que representan las relaciones externas, son:
X = T ⋅ P t + Ω = ∑ t h ⋅ p ht + Ω
Y = U ⋅ Q t + F = ∑ u h ⋅ q th + F
(54)
donde T y U son los scores para cada bloque, X e Y; P y Q son los loadings respectivos y Ù
y F son las matrices de los residuos, construidas a partir de los scores y loadings de los
componentes principales descartados.
La descomposición simultánea de X e Y viene controlada por la relación interna:
ˆu h = b h ⋅ t h
(55)
donde bh es el vector de los coeficientes de regresión para el componente principal h-ésimo
en los bloques X e Y. Dicho vector juega el mismo papel que los coeficientes de regresión
bi en los modelos PCR y MLR.
Si en la relación externa para la variable Y, el factor uh es reemplazado por su valor
estimado ûh , se obtiene una relación mezclada que posee la siguiente expresión:
Y = T ⋅ B⋅ Qt + F
(56)
la cual, asegura la posibilidad de usar los parámetros del modelo a partir de un conjunto de
prueba.
INTRODUCCIÓN
98
Una forma de mejorar la relación interna es mediante el intercambio de scores entre
ambos bloques de variables, X e Y. Además, para obtener scores del bloque X que sean
ortogonales, como en el PCA, es necesario introducir ciertos pesos.
La parte más importante de cualquier regresión es su utilización en la predicción
del bloque dependiente a partir del independiente. Esto se lleva a cabo por la
descomposición del bloque X y la construcción del Y. Para ello se requiere un número de
componentes adecuado. Si el modelo fundamental que relaciona ambas variables es un
modelo lineal, el número de componentes necesarios para describir este modelo es igual a
la dimensionalidad del mismo. Modelos no lineales exigen componentes extras que
describan la no linealidad. El número de componentes que se van a utilizar es una
propiedad muy importante del modelo PLS [282, 283].
Uno de los métodos comúnmente empleados para la determinación del número de
componentes se denomina método de validación cruzada (cross-validation) [296], basado
en el cálculo del estadístico PRESS (suma de los cuadrados de los residuos de predicción).
Dado un conjunto de m muestras de calibración se lleva a cabo la calibración a partir de m1 muestras y, a través de ella, se predice la concentración de la muestra suprimida durante
el proceso de calibración. El esquema se repite un total de m veces hasta que cada muestra
haya sido suprimida una vez del conjunto. La concentración predicha para cada muestra se
compara luego con la concentración conocida en la de referencia. El PRESS para todas las
muestras de calibración es una medida de la bondad del ajuste de un modelo PLS particular
para una serie de datos de concentración. El PRESS se calcula del mismo modo cada vez
que un nuevo factor es añadido al modelo, de modo que el número de componentes cuyo
PRESS sea mínimo será el que ofrezca una predicción óptima del mismo. Pero éste
mínimo no se encuentra bien definido la mayoría de las veces, ya que la medida de la
bondad del modelo a través de este método se basa en un número finito de muestras y, por
tanto, se encuentra sujeta a error. Esto es, si se utiliza un número de factores h* que logran
el PRESS mínimo, se suelen producir sobreajustes.
Sin embargo, algunos autores, como Haaland y Thomas [297], utilizan un criterio
diferente para seleccionar el modelo óptimo. Dicho criterio implica la comparación del
PRESS a partir de modelos con un menor número de factores que h* . El modelo
seleccionado es aquel con el menor número de factores, tal que el PRESS para ese modelo
no es significativamente mejor que el PRESS para el modelo con h* factores. Se emplea el
Capítulo I
99
estadístico F para establecer el límite de significación, de modo que el número de factores
para el primer valor de PRESS cuya relación de probabilidad de F cae por debajo de un
cierto valor es el que se selecciona como óptimo.
Otro posible criterio para seleccionar el modelo óptimo, el cual puede no ser tan
sensible a la existencia de “outliers”, implica la estimación del error en el PRESS. El
modelo seleccionado sería aquel que posee el número más reducido de vectores de
loadings que alcanza un PRESS dentro de un error estándar del PRESS obtenido a partir
del modelo que alcanza el PRESS mínimo. Tan sólo ocasionalmente se alcanza un número
diferente de factores por ambos métodos [297].
Una vez obtenido el número óptimo de factores PLS, se necesita desarrollar la
calibración final, usando todas las m muestras de calibración con esos factores.
Generalmente, cuando existe un gran número de variables en la calibración, el PLS da un
resultado significativamente mejor que el modelo MLR.
El número de aplicaciones de la regresión por mínimos cuadrados parciales es
enorme. Por ejemplo, se ha utilizado, en comparación con otras técnicas, para el análisis
multicomponente en espectrofotometría UV/VIS [305, 306], en el análisis multivariante de
perfiles de reactivos para experimentos coulombimétricos y volumétricos cuando las
reacciones de valoración son lentas [307] y, junto con PCA, para la caracterización de
materiales impregnados obtenidos mediante la tecnología de los fluidos supercríticos
[308].
Gratteri y Cruciani [309] emplearon PLS de una y dos variables, junto con
procedimientos de selección de caracteres, en polarografía de impulso diferencial y
espectrofotometría
UV
para
la
determinación
simultáneamente
en
plasma
de
la
combinación terapéutica de dos antibióticos.
El PLS también se ha empleado en combinación con técnicas de transferencia de
calibración, con el fin de resolver señales voltamperométricas solapadas de los iones Tl+ y
Pb2+ [151].
Recientemente, se ha aplicado bastante como técnica de calibración multivariante,
en conjunción con la transformada wavelet como técnica de preprocesamiento [256, 262264]. En esta última, Alsberg et al. aplican también procesos de selección de variables
INTRODUCCIÓN
100
mediante WT, como se ha discutido con anterioridad. Estos procedimientos de selección de
características o variables resultarán de gran importancia para el desarrollo de la presente
memoria.
Es muy común establecer comparaciones de la efectividad del PLS con respecto a
otras técnicas de calibración multivariante, como PCR, CLS, ILS o ANN. Haaland y
Thomas han realizado algunas investigaciones al respecto [297-299], así como también
MacLaurin et al. [300], Navarro-Villoslada et al. [301], Burden et al. [302] y Bessant y
Saini [153]. La robustez del PLS se pone de manifiesto en todos ellos. Incluso en algunos
casos es superior a las ANN. Sin embargo, las redes neuronales suelen ser mucho más
robustas que el PLS en la mayoría de las situaciones. Un ejemplo de ello puede verse en el
artículo de Guiberteau et al. [310], donde los resultados dados por ANN mejoran los
obtenidos por PLS.
El trabajo de Ni et al. [157] constituye otro ejemplo de comparación de diversas
técnicas de calibración con el PLS. En este caso, llevaron a cabo una determinación
voltamperométrica multianalito de dos antisépticos. Finalmente, Centner et al. [311]
recogen una interesante comparación de técnicas de calibración multivariante aplicadas a
conjuntos de datos NIR experimentales. En dicho artículo se describen los aspectos
fundamentales de cada una de ellas, así como sus principales ventajas e inconvenientes.
Mayor información acerca de los métodos quimiométricos citados anteriormente,
así como de otros complementarios y sus aplicaciones, puede encontrarse en [147, 282,
283, 296, 312].
Redes neuronales artificiales (ANN)
Debido a la enorme importancia que está adquiriendo actualmente este tipo de
técnica quimiométrica, así como el gran número de aplicaciones que posee, no sólo en el
campo de la química analítica, sino también en multitud de áreas de investigación, se
considera necesario incluir el desarrollo de los aspectos más importantes y destacables de
dicha técnica en un epígrafe aparte, que se abordará más adelante.
Capítulo I
101
8.2. Validación de los modelos de calibración multivariante
Normalmente, un modelo de calibración se construye a partir de un conjunto de
datos de entrenamiento (training set), tal que el mejor modelo será aquel que ofrezca las
mejores predicciones para los datos de un conjunto de validación (test set). El criterio de
validación se basa en el cálculo del error de predicción, expresado como una suma de
cuadrados, PRESS, cuya ecuación es la siguiente:
m
PRESS = ∑ (c i − ˆc i )2
(57)
i =1
donde m es el número total de muestras, c es el valor medido de la propiedad y ĉ el valor
estimado por el modelo. O también se puede utilizar la raíz cuadrada (RMS) del valor del
error de predicción, RMSPE:
RMSPE =
PRESS
m
(58)
En general, la mayoría de los métodos de calibración suelen elegir el valor de PRESS
mínimo como criterio de validación, mientras que el RMSPE se utiliza como estimación de
los errores de predicción en futuras aplicaciones del mejor modelo seleccionado.
Con el procedimiento descrito y usando el training set, se selecciona el modelo
final, y con el test set se obtiene una estimación de las predicciones que es capaz de
realizar. Sin embargo, es mejor referirse a este conjunto de datos como conjunto de
monitorización (monitoring set), puesto que se utiliza para afinar la capacidad predictiva
del modelo de calibración. El modelo establecido de este modo debería comprobarse sobre
un nuevo conjunto de datos independientes que, en este caso, se correspondería con el
verdadero conjunto de comprobación (test set). El valor de RMSPE para este nuevo
conjunto de datos ofrece ahora una mejor idea acerca de la capacidad predictiva del
modelo en cuestión, a condición de que el training, monitoring y test sets sean elegidos
completamente al azar a partir de la misma población. En caso de que los resultados para el
test no fuesen buenos y condujese a cambios en el modelo, el nuevo modelo de calibración
debería comprobarse frente a un nuevo conjunto de datos.
En la práctica, la estrategia de emplear conjuntos de datos de calibración (training)
y de validación (test) independientes no puede llevarse a cabo con frecuencia, puesto que
INTRODUCCIÓN
102
se requiere un gran número de muestras. No obstante, es bastante común limitar el número
de muestras y utilizar como recurso métodos de re-muestreo o de validación cruzada
interna (cross-validation). De forma resumida, la validación cruzada construye un modelo
usando tan sólo una parte de los datos. Los datos no incluidos en el modelo se utilizan
posteriormente para comprobar la dependencia del PRESS. Este proceso se repite haciendo
diferentes divisiones del conjunto de datos original, de modo que todas las muestras hayan
sido omitidas una vez. Los valores de PRESS se acumulan para cada división. Al final se
elige el modelo que posea el mínimo valor de PRESS global. Quizás la aproximación más
común consiste en desarrollar n procesos de calibración omitiendo una observación cada
vez. Este procedimiento se denomina leave-one-out (LOO). No obstante, posee cierta
tendencia a sobreajustar (overfitting) los datos, generando modelos con demasiados
factores.
Existen otras muchas aproximaciones para validar los modelos, cuya metodología
puede encontrarse en [313-316].
8.3. Otros aspectos relacionados con la calibración multivariante
Diseño de calibración
La teoría clásica del diseño de experimentos, basada en modelos lineales estimados
mediante regresión por mínimos cuadrados, no puede aplicarse directamente al problema
de la calibración multivariante. Una de las razones principales es que no pueden conocerse
de manera precisa cuáles son los factores que intervienen en el proceso y, por tanto, no
puede establecerse cierto control sobre los mismos. Otra de las razones es que el número
de dimensiones (por ejemplo, longitudes de onda, en el caso de la espectroscopía) es
mucho mayor que el número de unidades experimentales (muestras químicas) y el modelo
lineal podría no ser factible de estimación mediante regresión por mínimos cuadrados
ordinaria.
Hay dos consideraciones importantes a tener en cuenta a la hora de establecer un
conjunto de muestras de entrenamiento con el fin de desarrollar un modelo predictivo de
calibración multivariante. La primera de ellas es que el conjunto de calibración debería ser
representativo de toda la población sobre la que posteriormente se llevarán a cabo
predicciones. Esto generalmente conducirá a una distribución de objetos en el espacio
Capítulo I
103
experimental con una gran densidad de muestras dirigida hacia la zona central,
disminuyendo en los límites. La segunda consideración radica en que es mejor distribuir
las muestras más o menos uniformemente para toda la región experimental. El algoritmo
de Kennard-Stone, permite generar diseños de dicha índole, dando un menor peso a la zona
central de la región experimental y más importancia a los extremos de la misma, a las que
deberían darse estimaciones mucho más precisas. Fearn [317] ofrece una interesante
discusión acerca de las dos posibilidades, concluyendo que cuando el número de objetos es
limitado, la última elección podría ser la más adecuada. Sin embargo, no siempre se
pueden elegir las muestras, por lo que, en esos casos, no es sabio descartar objetos a partir
de un conjunto de calibración dado por el mero hecho de lograr una distribución más
uniforme en la región de interés.
Cuando un modelo lineal no es aplicable a todo el rango de muestras de calibración,
hay dos opciones: o bien se aplica un método de regresión no-lineal al conjunto completo
de los datos o bien se divide la región experimental en pequeñas subregiones, estimando
modelos lineales de forma independiente para cada una de ellas. Otros autores como
Isaksson y Naes [318], sin embargo, hicieron uso de agrupamientos borrosos (fuzzy) para
dividir los conjuntos de entrenamiento en subconjuntos más pequeños que mejoraron la
linealidad en cada grupo.
Pretratamiento de los datos
Un apropiado procesamiento previo de los datos puede ser fundamental a la hora de
desarrollar modelos predictivos. Aunque es cierto que los procesos de modelización en
calibración multivariante pueden amortiguar las interferencias y artefactos irrelevantes
presentes, un pretratamiento cuidadoso de los datos suele ser con frecuencia bastante
efectivo [319]. No existe un conjunto de líneas generales a seguir a la hora de procesar
previamente los datos, puesto que el procedimiento a utilizar depende en gran medida de la
aplicación específica de que se trate (tipo de datos, si son espectroscópicos o no, técnicas
empleadas para su obtención) y de la naturaleza de las muestras en cuestión. Ni que decir
tiene que cualquier pretratamiento aplicado a los datos de calibración se ha de extender del
mismo modo al conjunto de monitorización, de test y a todos los nuevos datos futuros.
Una forma básica de pretratamiento es el centrado con respecto a la media o mean
centering, que implica modelar las variaciones existentes alrededor de la media; en otras
INTRODUCCIÓN
104
palabras, la desviación de la respuesta media se encuentra directamente relacionada con las
desviaciones de la media para los predictores. Se usa de un modo tan común, que no se
suele considerar como una forma de pretratamiento. Sin ir más lejos, éste método puede
indicar las variables con una varianza elevada y una influencia anormal en el modelo,
excepto en el caso de la regresión lineal múltiple (MLR), que no es sensible hasta tal
extremo.
El
autoescalado
(autoscaling)
constituye
otra
forma
de
pretratamiento
recomendable cuando las variables predictoras son de naturaleza diferente y no se han
medido en la misma escala. La estandarización de todas las variables a la misma varianza
pueden verse como una acción ecuánime, al dar a todas las variables idénticas
posibilidades de influir en el modelo.
Una de las formas más populares para el procesamiento previo de datos
espectroscópicos consiste en establecer correcciones variando las pendientes de la línea de
base de los espectros mediante regresiones de cada espectro frente al número de longitudes
de onda y continuando la calibración con los residuos. La regresión cuadrática se ha
empleado mucho con el fin de eliminar tendencias en los espectros. Una forma de eliminar
el ruido aleatorio de los datos espectrales es mediante un proceso de suavizado o
alisamiento de los mismos (pre-smoothing). Esto puede llevarse a cabo de muchas
maneras: algoritmo de Savitzky-Golay [320], transformada de Fourier, promediando
ventanas móviles (box car), etc. Un efecto colateral del alisamiento de las señales consiste
en la pérdida de resolución espectral. Otro pretratamiento muy común de los datos
espectrales se basa en la conversión de los espectros a la primera (o segunda) forma
derivada [321]. El efecto que dicho procedimiento provoca es el de eliminar cualquier
offset o pendiente constante (curvatura). La aplicación de la segunda derivada posee la
ventaja de agudizar los picos y resolver, hasta cierto punto, el solapamiento existente entre
algunas bandas; no obstante, se introducen picos satélites falsos. Puede decirse que la
derivación en general amplifica el ruido en los datos. Para remediar este inconveniente
podría llevarse a cabo el proceso de derivación de los espectros en combinación con un
método de suavizado, por ejemplo, empleando un filtrado Savitzky-Golay.
Un método de preprocesamiento efectivo consiste en el uso de la standard normal
variates (SNV). Sea una señal X, formada por i puntos (conjunto de intensidades del
voltamperograma); para normalizar la señal por este método, se resta a cada valor de la
Capítulo I
105
señal el valor medio de intensidad, x , obtenido a partir de los puntos que la conforman, y
el resultado se divide por la desviación estándar de dichos valores s. De este modo se
obtiene una señal normalizada. La ecuación que resume el proceso de normalización es la
siguiente:
X norm =
xi − x
s
(59)
El proceso viene resumido también en el siguiente esquema:
E (V)
I (nA)
Señal inicial
SNV
Calcula: Snorm =
Sinicial − i
si
A la señal inicial se le resta la media
y se divide por la desviación estándar
Señal normalizada
Figura
I.21.-
Esquema
de
aplicación
de
la
SNV
sobre
un
voltamperograma.
De este modo, se consigue eliminar un offset completo y se corrigen las diferencias que
afectan a la variación total. Ha demostrado ser un método bastante efectivo en muchos
casos [322].
La multiplicative scatter correction (MSC) constituye otro popular método de
preprocesamiento, relativamente simple, para datos de infrarrojo cercano [323] y que tiene
en cuenta las diferencias en el tamaño de las longitudes de medida. Es bien conocido que el
problema de compensar al línea base es una forma muy común de desviación instrumental.
Algunas veces puede ser corregido mediante el ajuste de una línea a través de los puntos en
la señal, que debería disponerse a un valor 0 de la propiedad medida, y luego substraer esta
línea de la señal completa. No obstante, esto puede ser imposible en señales donde no
existen regiones que se esperen que posean un valor de 0 en la propiedad medida. Además,
INTRODUCCIÓN
106
en sistemas muy dispersos, puede darse también un efecto multiplicativo. Esta técnica lleva
a cabo la regresión de una señal medida frente a una señal de referencia y corrige la señal
medida usando la pendiente.
Sea s un vector columna correspondiente a la señal que va a ser estandarizada y r
un vector correspondiente a la señal de referencia (normalmente la señal media obtenida a
partir del conjunto de entrenamiento). Los vectores son centrados con respecto a la media
(mean centering):
s′ = s − s ⋅1
r ′ = s − r ⋅1
(60)
donde s’ y r’ son los vectores centrados con respecto a la media, s y r son las medias
respectivas, y 1 es un vector de unos. El factor multiplicativo desconocido b se determina
del siguiente modo:
r ′ ⋅ b = s′
(
b = r′ t ⋅ r′
)
−1
⋅ r ′ t ⋅ s′
(61)
Finalmente, la señal corregida ŝ viene dado por:
ˆs =
s′
+ r ⋅1
b
(62)
En otras palabras, la señal corregida se obtiene dividiendo la señal original,
centrada con respecto a la media, por la pendiente de la recta de regresión obtenida
haciendo la regresión entre la señal de referencia y la señal medida (ambas centradas) y
sumando la media de la señal de referencia, es decir, dando siempre la misma ordenada en
el origen (intersección).
La figura que aparece a continuación representa un ejemplo del procedimiento de
actuación de la MSC [324]:
Capítulo I
107
Figura I.22.- Ejemplo de aplicación de la MSC sobre un conjunto de
datos espectrales.
Otro método de estandarización lo constituye la orthogonal signal correction
(OSC). Dado un conjunto X e Y de señales y variables de predicción, respectivamente, la
normalización OSC lleva a cabo una eliminación de las componentes ortogonales de los
datos X con respecto a las variables Y, de una forma similar a como actúa el PLS. De este
modo, se elimina toda aquella información no correlacionada con las variables de
predicción. El procedimiento se basa en el cálculo de los componentes ortogonales OSC,
mediante un proceso iterativo que pretende maximizar la varianza capturada para dichos
componentes (análogos a los componentes principales o variables latentes en el PLS).
Este proceso de normalización permite reescalar los datos haciendo uso de la
siguiente expresión:
(
x′ = x − x ⋅ w ⋅ p t ⋅ w
)
−1
⋅ pt
(63)
donde x’ son los datos corregidos, x comprende los datos iniciales y w, p y t son los pesos,
loadings y scores calculados, respectivamente. El signo (·) indica un producto matricial y
los exponentes t y –1 hacen referencia a las matrices traspuesta e inversa, respectivamente.
INTRODUCCIÓN
108
Sjöblom et al. [325] han aplicado esta técnica de normalización de datos a la
transferencia de calibración de espectros de infrarrojo cercano. Otras publicaciones
relacionadas con el empleo de la OSC pueden encontrarse en [326-329].
Finalmente, un tipo de pretratamiento de datos consiste en la transformación de los
mismos en un número más pequeño de variables: reducción de dimensiones. El análisis de
componentes principales (PCR) puede considerarse como la técnica más extendida para
desarrollar este proceso. El análisis de Fourier constituye otra posibilidad, así como
también el uso de la transformada wavelet, como se ha visto ya anteriormente. Por
ejemplo, McClure [330] demostró cómo un espectro NIR, obtenido a 1700 canales, podía
aproximarse bastante bien con series de Fourier con tan sólo 100 términos. El error
obtenido fue inferior al 0,01 %. Un modelo de calibración basado en 10 términos de
Fourier proporcionó resultados superiores a aquel que usaba los espectros completos.
Outliers
La presencia de outliers puede tener un efecto perjudicial sobre la calidad del
modelo de calibración. De este modo, la identificación de outliers es una parte importante
del proceso de modelización. Los outliers pueden presentarse en diversos modos. Algunos
autores hablan de observaciones de influencia muy elevada cuando los datos predictores
para un objeto de calibración se desvían fuertemente del resto. Dichos outliers en el
espacio de X pueden ajustar bien el modelo (“buenos” outliers) o no (“malos” outliers).
Cuando los datos predictores no son anormales para un objeto, pero dicho objeto ajusta
pobremente el modelo, entonces se habla de una observación residual alta (outlier en la
dirección de y). Otra clase la forman las observaciones influyentes, las cuales se demuestra
que
poseen un gran impacto sobre las estimaciones del modelo. Cuando se descartan
dichas observaciones del conjunto de calibración, se obtiene un modelo significativamente
distinto con diferentes predicciones.
Existen básicamente dos aproximaciones para identificar outliers: o bien se aplica
un método de diagnóstico para detectarlos o bien se emplean métodos de estimación
robustos. El tipo de diagnóstico a utilizar depende del método de regresión aplicado, pero
algunas herramientas son aplicables universalmente. Siempre es útil representar los
residuos. Estos pueden revelar observaciones que sufren una fuerte desviación o si se
encuentran distribuidos formando algún tipo de estructura alejada de la aleatoriedad. Una
Capítulo I
109
forma común de representar los datos consiste en hacer uso del gráfico de los scores
procedentes del análisis de componentes principales (PCA), el cual permite identificar las
muestras que se desvían a partir de un conjunto de datos. También pueden utilizarse el
gráfico de los loadings, así como también los scores y loadings obtenidos por aplicación
del PLS.
La identificación de los outliers no es un proceso directo. Incluso cuando una
observación se ha diagnosticado como outlier, no debería descartarse automáticamente
como tal, ciertamente no mientras la evidencia no fuese aplastante. Idealmente, se debería
intentar encontrar evidencias químicas o físicas adicionales de que algo “malo” sucede con
dichas muestras antes de decidir eliminarlas.
Una alternativa a la detección y eliminación de outliers consiste en emplear
métodos de regresión robustos. Estos permiten identificar los outliers automáticamente y
darles un peso más bajo en el modelo de regresión. Modificaciones robustas de
procedimientos de regresión multivariante comúnmente empleados pueden encontrarse en
[331] para PCR y en [332] PLS. Walczak [333] describió un método denominado
programa de evolución (EP: evolution program), donde se genera un subconjunto limpio
de datos, comprobándose las observaciones restantes con relación a este subconjunto.
Como su nombre indica, el método se basa en la idea de la evolución natural similar a la
del bien conocido algoritmo genético. La aproximación EP permite construir modelos
robustos en presencia de outliers multivariados múltiples y puede aplicarse de forma
efectiva en combinación con la regresión PLS y PCR. Otros métodos robustos para
identificar outliers multivariados pueden encontrarse en [334, 335].
8.4. Últimos avances en calibración multivariante
Selección de características
Brown et al. [336] publicaron un método simple e interesante para seleccionar
longitudes de onda en calibración NIR. El método equivale a ordenar las longitudes de
onda en orden decreciente de coeficiente de correlación (R2 ) con la concentración del
analito. A partir de ahí y haciendo uso de la lista ordenada, se construye el modelo usando
las primeras m longitudes de onda, j=1, ..., m, como un promedio pesado de los m modelos
de regresión simple correspondientes a esas longitudes de onda. La idea consiste en
INTRODUCCIÓN
110
minimizar el intervalo de confianza para las predicciones futuras. Conforme aumenta m,
también aumenta la relación total señal-ruido (suma de las razones F o valores t 2 para las m
regresiones simples e individuales), así como también la complejidad del modelo. El
número óptimo de longitudes de onda m se establece minimizando la relación:
χ 2 (m ; α )
∑ t 2j
(
)
(64)
donde ÷2 (m;á) es el valor crítico de la distribución ÷ -cuadrado con m grados de libertad al
nivel de confianza seleccionado. Una vez encontrada la selección de longitudes de onda se
puede aplicar cualquier método de regresión, por ejemplo ILS o CLS.
Se han producido muchos otros avances en el área de selección de variables. La
selección de longitudes de onda puede también llevarse a cabo usando como criterio la
covarianza, en vez de la correlación (ILS) [337, 338]. Recientemente, los algoritmos
genéticos también se han aplicado al problema de encontrar pequeños subconjuntos de
longitudes de onda predictivas entre una legión de longitudes de onda posibles [339].
El reto implícito en la aplicación de tales métodos consiste en no caer en la trampa
del sobreajuste. Otro de los problemas principales radica en la correlación aleatoria: con el
enorme conjunto de predictores que se pueden encontrar en los datos espectrales no es en
absoluto improbable seleccionar longitudes de onda que no posean ninguna capacidad
predictiva real, pero que contribuyan a la correlación global con la respuesta del conjunto
de calibración. Una aproximación alternativa a la selección de variables es la eliminación
de las denominadas variables desinformativas, las cuales son aquellas que no poseen un
poder predictivo mejor que variables aleatorias artificiales añadidas a los datos [340].
Modelos de transferencia de calibración
El desarrollo de un modelo de calibración requiere una metodología que consume
bastante tiempo. Las muestras han de ser preparadas y medidas y, además, la modelización
en sí misma, la cual incluye el preprocesamiento de los datos, la detección de los outliers,
así como las etapas de estimación y validación, no constituye un procedimiento
automatizado.
Capítulo I
111
Una vez que se ha construido un modelo, pueden producirse cambios en la
instrumentación u en otras condiciones (temperatura, humedad) que impidan una adecuada
y correcta aplicación del mismo. Los cambios en la respuesta del instrumento pueden
referirse a dos situaciones:
§
Shifting: cambios rápidos, como consecuencia de la sustitución de alguna
parte del aparato.
§
Drifting: cambios lentos, debido a procesos de envejecimiento.
Como consecuencia de lo anterior, sería imposible garantizar un buen resultado
predictivo en cualquiera de las dos situaciones. Para ambos casos existirían dos posibles
soluciones:
§
Un nuevo proceso de recalibración completo, que requeriría un alto coste en
tiempo y dinero.
§
Elaboración de modelos de transferencia de calibración.
También puede ocurrir que, una vez establecido el modelo para un conjunto de
datos obtenidos a partir de un instrumento determinado, se desee generalizar dicho modelo
a otros instrumentos sin necesidad de repetir el proceso de calibración completo para cada
uno de los aparatos de forma individual. En otras palabras, se pretende trasladar el modelo
de un instrumento (maestro, A) a los otros (esclavos, B). En este caso, mediante una
transferencia de calibración, podría simularse la variación instrumental.
Recientemente
se
han
investigado
varias
aproximaciones
para
lograr
esta
transferencia de calibración multivariante. Sin embargo, se requiere de la determinación de
un pequeño conjunto de muestras de calibración en todos los instrumentos implicados
(siempre que sean del mismo tipo). Normalmente, dichas muestras constituyen un pequeño
subconjunto perteneciente a un grupo de calibración más amplio y que han sido medidas en
el instrumento maestro A. Sea Z el conjunto de muestras del set de transferencia, X el
conjunto completo de datos medidos sobre el instrumento maestro y los subíndices
A
y
B
el
instrumento sobre el cual se ha obtenido cada muestra. La aproximación más antigua al
problema de la transferencia de calibración consiste en aplicar el modelo de calibración, bA
desarrollado para el instrumento maestro A utilizando un conjunto de calibración grande
(XA), a las muestras que conforman el conjunto de transferencia obtenido sobre cada
INTRODUCCIÓN
112
instrumento, ZA y ZB. Posteriormente, se lleva a cabo la regresión de las predicciones
ŷ A (=ZA·bA) obtenidas para el instrumento maestro sobre las resultantes para el instrumento
esclavo ŷB (=ZB·bB), dando lugar a:
ˆy A = a + b ⋅ ˆy B + e
(65)
Esto permite estimar la ordenada en el origen a (bias) y la pendiente b necesarias para
corregir las predicciones ŷB del nuevo instrumento (esclavo) que están basadas en el
modelo de calibración (maestro), bA. La virtud de esta aproximación radica en su
simplicidad: no se necesita investigar con detalle cómo se comparan los dos conjuntos de
datos, puesto que los dos conjuntos de predicciones obtenidos a partir de ellos están
relacionados. Se asume que el mismo tipo de corrección debe aplicarse para predecir todas
las muestras futuras. Aquellas variaciones en las condiciones que puedan ejercer un efecto
diferente sobre muestras diferentes no se pueden corregir de esta manera.
Todas las demás aproximaciones relacionan los datos del instrumento maestro con
los del esclavo. En el método para datos espectrales patentado por Shenk y Westerhaus
[341], en su forma más sencilla, se aplica primero una corrección a las longitudes de onda
y posteriormente a los valores de absorbancia. Cada canal de longitud de onda i del
instrumento maestro es vinculado a un canal cercano de longitudes de onda j(i) en el
instrumento esclavo, denominado como aquel que está máximamente correlacionado.
Entonces, para cada par de longitudes de onda, i para el maestro y j(i) para el esclavo, se
lleva a cabo una regresión lineal simple, uniendo las parejas de absorbancia medidas (ZAi,
ZBj(i)):
ZA ,i = a i + b i ⋅ Z B ,j (i )
(66)
De este modo, el espectro esclavo es transformado en un espectro como si se
hubiese medido sobre el instrumento maestro. En una implementación mucho más
refinada, se establece el canal de longitudes de onda correlacionado más alto mediante una
interpolación cuadrática y, posteriormente, la intensidad correspondiente a este canal no
observado por medio de una interpolación lineal. De este modo, un espectro completo
medido sobre el instrumento esclavo puede transformarse en una estimación del espectro
como si se hubiese determinado en el instrumento maestro. El modelo de calibración
desarrollado para el instrumento maestro puede aplicarse sin más sobre este espectro. La
Capítulo I
113
desventaja de esta aproximación consiste en que es esencialmente univariante; no pueden
tratarse diferencias complejas entre instrumentos disímiles.
Los métodos más comunes para llevar a cabo transferencias de calibración pueden
clasificarse en dos categorías [342]:
§
1ª categoría: requieren el mismo conjunto de muestras representativo (set de
transferencia) tanto en la nueva situación (instrumento esclavo, nuevas
condiciones)
como
en
la
antigua
(instrumento
maestro,
condiciones
iniciales). En este grupo pueden incluirse:
ü Estandarización directa (DS) [343]
ü Estandarización directa a trozos (PDS) [343, 344]
ü Respuesta de impulso finito (FIR) [345]
La transformada wavelet (WT) [346] y las redes neuronales artificiales
(ANN) [347, 348], cuando se aplican con este propósito, también se
agrupan en esta categoría.
§
2ª categoría: el conjunto de calibración debe medirse sólo en las nuevas
condiciones (instrumento esclavo); no son necesarias medidas en el
instrumento maestro o en las condiciones iniciales. Pertenecen a esta
categoría:
ü Estrategias de preprocesamiento
ü OSC
En la estandarización directa introducida por Wang et al. [343] se describe la
transformación necesaria para transferir espectros desde el instrumento esclavo hasta el
instrumento maestro utilizando un modelo de calibración multivariante para la matriz
transformación: Ẑ A = Z B ⋅ F . La matriz transformación F (qHq) traslada los espectros ZB,
medidos en el instrumento esclavo B hasta los espectros Ẑ A , como si hubiesen sido
medidos en el instrumento maestro A. Las predicciones se obtienen posteriormente
aplicando el modelo de calibración antiguo bA a los espectros simulados ZA:
ˆy B = ˆZA ⋅ b A = Z B ⋅ F ⋅ b A
(67)
INTRODUCCIÓN
114
siendo
bB = F⋅ bA
(68)
el modelo de calibración transferido que se aplica directamente a los espectros medidos en
el instrumento B. Para establecer la transformación apropiada F se emplean regresiones
PCR o PLS2. Hay que tener en cuenta, que para cada canal del espectro estimado se hace
uso del espectro completo del instrumento B.
En la estandarización directa a trozos, para cada frecuencia (columna de F) se
utiliza sólo la información local de las longitudes de onda vecinas en los espectros de
transferencia ZB, empleando una ventana de longitudes de onda (columnas de ZB) centrada
alrededor de la longitud de onda (columna de ZA) de interés. En términos matemáticos, se
impone una estructura de banda a la matriz de transformación F. La longitud de la ventana
de la región vecina y el número de componentes principales deben optimizarse mediante
validación cruzada. La técnica PDS se ha aplicado con éxito [344].
La elección del subconjunto de transferencia es crítica para asegurar el éxito de la
transferencia de calibración. Las muestras de transferencia deberían abarcar la región de
interés y pueden elegirse partiendo de la base de los componentes principales extremos o
los scores de los factores PLS. Los resultados se pueden mejorar utilizando un algoritmo
de diseño formal, como el de Kennard y Stone, para la selección del conjunto de
transferencia. Forina et al. [349] aplicaron regresión PLS tanto para estimar el modelo de
calibración, obtenido a partir del instrumento principal, como para modelar la relación
existente entre los dos conjuntos de espectros. Continuamente aparecen métodos
alternativos con el fin de mejorar los ya existentes. Algunas de las mejores revisiones
acerca de la teoría y la práctica de la transferencia de los modelos de calibración pueden
encontrarse en [350-352].
Como se ha podido comprobar, existen un gran número de aplicaciones y
revisiones de métodos de transferencia de calibración, sobre todo para el caso de espectros
NIR [325, 342, 353-356]. Otro ejemplo de aplicación de transferencia de calibración en
espectros NIR lo constituye el artículo de Geladi et al. [357], con el fin de predecir los
valores de pH en muestras de agua de lago.
Capítulo I
115
También se ha empleado en procesos de estandarización multivariada de espectros
UV/Vis [358]. A diferencia de los espectros NIR, donde los cambios en las condiciones de
medida se producen con mayor frecuencia como consecuencia del empleo de diferentes
espectrómetros o por variaciones en el mismo aparato, en el caso de los espectros UV/Vis
se reflejan principalmente en la sensibilidad de los espectros.
Por último, en electroquímica, Herrero y Ortiz [151] han aplicado el método de
estandarización directa a trozos (PDS) para establecer una transferencia de calibración
sobre un modelo de PLS previamente construido a partir de datos de voltamperometría de
redisolución y en análisis polarográfico de rutina de diferentes iones metálicos [359].
8.5. Métodos no lineales de calibración multivariante
En época reciente se ha desarrollado una gran actividad con el fin de idear nuevos
métodos de calibración multivariante que tengan en consideración características no
lineales. Las redes neuronales artificiales (ANN) se ajustan bien para modelar
comportamientos no lineales y han sido aplicadas con éxito en el campo del análisis
multivariante [360, 361]. Una desventaja de los modelos de red neuronal estriba en la
dificultad para interpretar y visualizar el modelo. Se han propuesto algunas variantes no
lineales para las regresiones PCR y PLS.
Conceptualmente, la aproximación más sencilla para introducir el tema de la no
linealidad en los modelos de regresión consiste en aumentar el conjunto de variables
predictoras (x 1 , x 2 , ...) con sus respectivos términos al cuadrado (x 1 2 , x 2 2 , ...) y, de manera
opcional, con los posibles términos de su producto cruzado (x 1 x 2 , ...). Como el número de
predictores crece de forma apreciable, casi se exige la aplicación de la regresión PCR o
PLS. Se ha propuesto una variante no lineal del PLS que emplea splines para la relación
interna entre y y los t-scores, presentando cierta analogía con las redes neuronales. Sin
embargo, en calibración multivariante, esta aproximación de PLS-spline [362] no se ha
implantado con demasiado éxito. De hecho, el uso de un modelo de regresión cuadrático
empleando los scores de los factores procedentes del PCA puede ser suficientemente
efectivo [363].
Otros autores emplean la regresión PLS lineal como un primer paso y luego
proceden con los scores en un modelo de regresión extendido cuadráticamente (LQ-PLS)
INTRODUCCIÓN
116
[364]. También se han aplicado con éxito regresiones con pesado local (LWR),
aproximaciones que combinan elementos de PCA o PLS, así como regresiones con pesado
y modelización local [365]. En este último caso, se comienza con una transformación del
espectro en unos pocos scores de componentes principales. Posteriormente, se transforma
el espectro de una muestra nueva cualquiera en el mismo espacio de componentes
principales y, por medio de la distancia de Mahalanobis como criterio de similitud, se
consigue determinar un pequeño conjunto de espectros similares procedente del conjunto
de calibración. La regresión lineal múltiple se utiliza luego para relacionar la respuesta y
con los scores de los componentes principales para este pequeño grupo local y el modelo
de interpolación elaborado sirve para estimar respuestas desconocidas a partir de una
muestra nueva. El número de vecinos que han de determinarse mediante validación
cruzada se corresponde con número de dimensiones de los componentes principales.
Extensiones más elaboradas de la aplicación anterior no sólo tienen en cuenta la similitud,
sino también la similitud química estimada [366]. Sekulics et al. [367] llevaron a cabo un
interesante estudio comparando una amplia variedad de métodos no lineales modernos.
9) Redes Neuronales Artificiales (ANNs)
Este método de modelización matemática se ha empleado muy poco en
electroquímica. Su principal utilidad radica en el trazado de mapas no lineales, calibración
multivariante no lineal y en clasificación o reconocimiento de patrones, tanto lineal como
no lineal [282].
Existen numerosas formas de definir las redes neuronales [368]. Algunas de estas
definiciones aparecen recogidas a continuación:
1. Una nueva forma de computación, inspirada en modelos biológicos.
2. Un modelo matemático compuesto por un gran número de elementos de
procesado organizados en niveles.
3. “... un sistema de computación constituido por un gran número de elementos
simples, elementos de proceso muy interconectados, los cuales procesan
información por medio de su estado dinámico como respuesta a entradas
externas” (Hecht-Niesen).
4. “Redes neuronales artificiales son redes de elementos simples (usualmente
adaptativos), interconectadas masivamente en paralelo y con organización
Capítulo I
117
jerárquica, las cuales intentan interactuar con los objetos del mundo real del
mismo modo que lo hace el sistema nervioso biológico” (Kohonen).
De forma muy resumida, una red neuronal comprende una serie de unidades de
procesamiento, una topología de red que describe los patrones por medio de los cuales una
serie de interconexiones pesadas transportan las señales de salida de unas unidades hasta la
entrada de otras, y una regla de aprendizaje para establecer los valores de los pesos. En
principio, las ANN fueron desarrolladas como un modelo que representase la estructura del
cerebro humano. Las unidades de procesamiento (neuronas) y las redes que éstas
conforman constituyen la esencia enormemente simplificada de las dendritas (ramas de
entrada), axones (ramas de salida), sinapsis (conexiones) e interconexiones encontradas en
los sistemas vivos que poseen neuronas biológicas. Se ha comprobado que la versión
computerizada de un sistema neuronal vivo dispone de un gran potencial para desarrollar
tareas que se consideran irresolubles mediante la aplicación técnicas clásicas.
Los atributos de una red neuronal típica son [368, 369]:
§
elementos de procesamiento simples
§
alta conectividad
§
procesamiento en paralelo
§
transferencia no lineal
§
vías de retroalimentación
§
procesamiento no algorítmico
§
adaptación (aprendizaje)
§
autoorganización
§
tolerancia a fallos
§
obtención de salidas útiles a partir de entradas borrosas
§
generalización
§
posee el potencial de ejecutarse a altas velocidades
§
operación en tiempo real
§
fácil inserción dentro de la tecnología existente
De entre todas las características mencionadas anteriormente, podrían destacarse las
siguientes:
INTRODUCCIÓN
118
§
aprendizaje adaptativo: capacidad para aprender a realizar tareas basadas en
un entrenamiento o una experiencia inicial;
§
autoorganización: una red neuronal puede crear su propia organización o
representación de la información que recibe mediante una etapa de
aprendizaje;
§
tolerancia a fallos: la destrucción parcial de una red conduce a una
degradación de su estructura; sin embargo, algunas capacidades de la red se
pueden retener, incluso sufriendo un gran daño;
§
operación en tiempo real: los cálculos neuronales pueden realizarse en
paralelo, diseñándose y fabricándose máquinas con hardware especial para
potencial dicha característica;
§
fácil inserción dentro de la tecnología existente: pueden obtenerse chips
especializados para redes neuronales que mejoran su capacidad en ciertas
tareas; ello facilita la integración modular en los sistemas existentes.
9.1. Antecedentes históricos
Se cree que la investigación en el campo de las redes neuronales artificiales
comenzó en 1943 cuando McCulloch y Pitts publicaron un artículo sobre el
funcionamiento del sistema nervioso [370]. Intentaron explicarlo por medio de pequeñas
unidades basadas en la lógica matemática e interconectadas entre sí. Dichas unidades eran
abstracciones de las neuronas biológicas y sus conexiones. En 1949, Hebb [371] explicó
algunos resultados biológicos mediante una ley de aprendizaje para la sinapsis biológica.
Con la introducción de los ordenadores fue posible desarrollar y probar redes neuronales
artificiales.
Las primeras ANNs sobre un ordenador fueron el perceptrón, por Rosenblatt [372],
y la red ADALINE (ADAptive LINear Element), por Widrow [373]. La principal
diferencia entre ellas se basa en la regla de aprendizaje que emplean. Estas redes simples
eran capaces de aprender y desarrollar algunas tareas sencillas. Este éxito estimuló la
investigación en este campo; Nilsson escribió un libro [374] sobre máquinas de aprendizaje
lineal, donde se resumen la mayoría de los trabajos llevados a cabo en aquel período. Se
pensaba que las posibilidades de las ANN eran enormes, haciendo surgir muchas
expectativas poco realistas.
Capítulo I
119
En 1969, Papert y Minsky [375] demostraron que muchas de estas esperanzas no
podían ser hechas realidad por medio del perceptrón. Su libro tuvo un impacto bastante
negativo en la investigación sobre ANNs: era muy difícil que aceptaran artículos sobre el
tema, rechazando la mayoría de ellos. Aparte de algunos investigadores entusiastas que
continuaron con sus esfuerzos, la investigación en este campo se detuvo durante muchos
años. Algunas de las investigaciones continuaron bajo el epígrafe de procesamiento de
señales adaptativo o reconocimiento de patrones. En química, el ejemplo mejor conocido
es el de la máquina de aprendizaje lineal, que fue un método de reconocimiento de
patrones muy popular.
En 1986, el segundo salto hacia adelante se produjo gracias a la publicación del
libro de Rumelhart [376], que trataba sobre una estrategia de aprendizaje, la
retropropagación (backpropagation learning rule), propuesta años antes por Werbos [377].
Esta nueva regla de aprendizaje permitió la construcción de redes que eran capaces de
superar los problemas de las redes basadas en el perceptrón. Ahora son capaces de resolver
problemas (no lineales) más complicados. Este importante avance reavivó el interés por el
tema, siendo prueba fehaciente de ello el amplio abanico de investigaciones que se
desarrollan actualmente, las cuales están promoviendo resultados bastante alentadores.
9.2. Estructura de una red neuronal y conceptos relacionados
A continuación, se dará una breve descripción de la estructura y el funcionamiento
de las redes neuronales; del mismo modo, se tratarán someramente algunos conceptos
relacionados con el tema. Para más información se pueden consultar las siguientes
referencias [369, 378-383].
Como se ha explicado anteriormente, las redes neuronales surgieron a partir de un
intento por modelar el funcionamiento del cerebro humano.
INTRODUCCIÓN
120
Figura I.23.- Esquema comparativo entre una neurona biológica y una
neurona artificial.
En la Figura I.23 aparece representada una neurona típica del córtex humano. Las señales
procedentes de otras neuronas entran en ella a través de las dendritas (canales de entrada de
la neurona). Si la suma de las señales recibidas en un momento dado excede un cierto valor
umbral, el cuerpo de la célula genera una señal de salida la cual viaja luego a lo largo del
axón (el canal de salida) y es transportada (corriente abajo) a otras neuronas. El proceso
mediante el cual la señal es transmitida de una neurona a la siguiente se denomina sinapsis.
La magnitud de la influencia de esta señal sobre la próxima neurona está modulada por la
eficacia de la intervención sináptica, denominada fortaleza sináptica.
Como se observa en la figura anterior, la neurona artificial o simulada por
ordenador se ha diseñado para imitar la función de una neurona biológica. La entrada a esta
nueva neurona es la señal que llega a ella procedente de una o más neuronas y la salida
significa la señal emitida por ella a la próxima neurona corriente abajo. La sinapsis es
representada aquí por las conexiones entre dos o más neuronas artificiales y la fortaleza
sináptica viene simbolizada por los pesos asociados con cada conexión.
Un peso consiste simplemente en un número real. Si el peso es positivo, tiende a
estimular a la neurona siguiente para que transmita su propia señal corriente abajo; si el
peso es negativo no provoca esa estimulación. El conjunto de los valores de los pesos
asociados con las neuronas en una red determina las propiedades computacionales de la
Capítulo I
121
misma. El entrenamiento de la red consiste en alcanzar unos valores adecuados de los
pesos por modificación de los mismos. Al inicio del entrenamiento, estos pesos suelen ser
elegidos de manera aleatoria.
Junto a los pesos, existe un parámetro adicional, èj, denominado sesgo (bias),
necesario para determinar el funcionamiento propio de cada neurona j. Cada neurona
necesita del sesgo para ajustar todas sus entradas Net j tal que caigan dentro de la región
donde pueden ser utilizadas por la función de transferencia para obtener el mayor beneficio
posible del desarrollo completo de la red. Este parámetro, que siempre recibe el valor de 1,
es tratado igual que cualquier otro peso y debido a su valor puede considerarse como la
línea base de toda la red.
La estructura de una red neuronal podría ser la que aparece representada en la
Figura I.24:
Figura I.24.- Esquema de una red neuronal artificial.
Dentro de cada neurona, tienen lugar dos procesos:
1. Todas las entradas pesadas a la neurona j son combinadas para producir una
entrada de red Net j, a partir de la matriz de multiplicación:
Net j = ∑ (I i ⋅ w ij ) + θ j
i
(69)
INTRODUCCIÓN
122
donde Ii son las entradas a la neurona j que proceden de las
i
neuronas
anteriores y wij son los pesos asociados a cada una de las conexiones de las i
neuronas anteriores con la neurona j.
2. Net j se utiliza para determinar qué salida Out j se va a generar. La función
por la cual se calcula Out j a partir de Net j se denomina función de
transferencia. La más utilizada es la función de transferencia sigmoidal,
cuya forma es bastante arbitraria y se encuentra limitada únicamente por dos
condiciones, que deben mantenerse para todos los valores de Net j: en primer
lugar, sus valores deben pertenecer al intervalo [0, 1]; en segundo lugar,
debe ascender de forma monotónica. Normalmente, esta función es no
lineal, ya que es necesario mantener una relación de este tipo entre la
entrada Net j y la salida Out j; sin embargo, algunos autores han utilizado
funciones lineales [384] y otras funciones no lineales distintas a la
sigmoidal: tangente hiperbólica, f(x)=(1+tanh(x))/2, gaussiana, f(x)=exp(x2 ), wavelets, etc., [162, 267, 385-389] donde x=Net j, de acuerdo con la
ecuación 25. La función sigmoidal viene expresada por la siguiente
ecuación:
f (Net j ) =
1


1 + exp − ∑ (I i ⋅ w ij ) + θ j 
 i

(70)
No obstante, existe otra función mucho más rápida computacionalmente
denominada límite o umbral lógico: f(x)=max[0,min(x,1)]. Desde el punto
de vista de su utilización en hardware, el límite lógico es considerablemente
más sencillo y barato de usar que la función de transferencia sigmoidal.
Además, es muy útil en situaciones donde se realizan clasificaciones
alternativas de entradas individuales. Sin embargo, desde el punto de vista
teórico no es conveniente emplearla ya que su derivada no está definida en
dos puntos.
Los dos procesos descritos anteriormente se reproducen esquemáticamente en la
Figura I.25:
Capítulo I
123
I1
I2
w1
w2
w3
I3
Inputs
wi
Net j =
∑ (I ⋅ w ) + θ
i
i
j
i
Ouput
Función
transferencia
Out j = f (Net j )
Ii
Figura I.25.- Esquema de los procesos que se producen en el interior de
una neurona artificial.
La arquitectura o estructura de una red neuronal viene determinada por la forma
en como las salidas de las neuronas están conectadas a otras neuronas. En el caso estándar,
las neuronas o unidades de procesamiento de la red se dividen en varios grupos
denominados capas o estratos, donde cada neurona de una capa está conectada a todas las
neuronas presentes en la siguiente (mediante esta topología de interconexión se pueden
obtener modelos no lineales muy complejos), como puede verse en la Figura I.24.
Básicamente, son posibles arquitecturas mono- o multicapa. El primer estrato consiste en
un conjunto de entrada, donde cada neurona está conectada a una entrada individual. Las
siguientes capas se denominan capas ocultas. Y la última, capa de salida.
Todas las n neuronas de una capa poseen el mismo número de entradas, esto es, el
mismo número de pesos wij (i=1, ..., m; j=1, ..., n), los cuales serán modificados durante el
proceso de entrenamiento. Esas m entradas proceden de otras tantas neuronas situadas en la
capa inmediatamente anterior (capa oculta) o bien de un dispositivo de entrada externo
(capa de entrada). De este modo, todas las neuronas situadas en la misma capa reciben
simultáneamente una señal de entrada con m variables: X (x 1 , x 2 , ..., x j, ..., x m ).
Por otro lado, cada neurona origina una única salida. Así, en el caso de una
arquitectura monocapa, las n salidas Out j de la capa actual, obtenidas por aplicación de la
función de transferencia, representarán la salida de la red. Si la estructura es multicapa,
constituirán las entradas del siguiente estrato, formado ahora por p neuronas. Esta nueva
capa, posee ahora nHp pesos y originará p salidas, las cuales serán propagadas hacia capas
más profundas. La salida final de la red completa está formada simplemente por las salidas
INTRODUCCIÓN
124
colectivas de la capa final de neuronas. El número de neuronas de una capa y el número de
capas depende considerablemente de la aplicación particular que se dé a la red, es decir,
según el número de variables para los objetos, el número de objetos implicados en el
estudio o el número y calidad de las respuestas.
Generalmente, el número adecuado de neuronas de la(s) capa(s) interna(s) depende
de la complejidad del problema que se esté tratando en cada momento, así como del
número de muestras de entrenamiento disponibles, debiendo determinarse empíricamente.
Cuando se utilizan muy pocas unidades ocultas, las relaciones existentes entre X e Y no
pueden modelarse de forma adecuada y el desarrollo de la red resulta demasiado pobre. Por
otro lado, un número muy alto de unidades ocultas provoca sobreentrenamiento.
Existen tres aproximaciones básicas para determinar el mejor número de neuronas
ocultas:
§
Entrenar y validar una red con un cierto número de unidades ocultas de
acuerdo con un proceso de tanteo adecuado. Si el error de la red es
aceptable, sin que se produzca sobreentrenamiento, la red es útil.
§
Entrenar diferentes redes con diverso número de unidades ocultas.
Preferiblemente, cada red es entrenada varias veces con diferente
inicialización de los pesos. Esta aproximación es con mucho la mejor, pero
implica el entrenamiento y validación de muchas redes, lo cual requiere de
bastante tiempo.
§
La última aproximación recibe el nombre de procedimiento de recorte o
poda (pruning). Se comienza con una red con un gran número de unidades
ocultas. Durante la fase de entrenamiento, se monitorizan los cambios
sufridos por los pesos de todas las unidades. Aquellas unidades o
conexiones cuyos pesos permanezcan bajos se eliminan, continuándose con
el entrenamiento [390-393].
9.3. Mecanismos de aprendizaje de las redes neuronales
El aprendizaje es el proceso por el cual una red neuronal modifica sus pesos en
respuesta a una información de entrada. Los cambios que se producen durante el proceso
de aprendizaje se reducen a la destrucción, modificación y creación de conexiones entre las
Capítulo I
125
neuronas. En los modelos de redes neuronales artificiales, la creación de una nueva
conexión implica que el peso de la misma pasa a tener un valor distinto de cero. De la
misma forma, una conexión se destruye cuando su peso pasa a ser cero.
Durante el proceso de aprendizaje, los pesos de las conexiones de la red sufren
modificaciones, por tanto se puede afirmar que este proceso ha terminado (la red ha
aprendido) cuando los valores de los pesos permanecen estables (su variación en el tiempo
es cero).
Un aspecto importante respecto al aprendizaje en las redes neuronales consiste en
conocer cómo se modifican los valores de los pesos; en otras palabras, cuáles son los
criterios que se siguen para cambiar el valor asignado a las conexiones cuando se pretende
que la red aprenda una nueva información.
Estos criterios determinan lo que se conoce como la regla de aprendizaje de la red.
Estas reglas pueden clasificarse en dos grupos:
§
Aprendizaje supervisado
§
Aprendizaje no supervisado
La diferencia entre ellas estriba en la existencia o no de un agente externo
(supervisor) que controle el proceso de aprendizaje de la red.
Otro criterio que se utiliza para diferenciar las reglas de aprendizaje se basa en
considerar si la red puede aprender durante su funcionamiento habitual o si el aprendizaje
supone la desconexión de la red; es decir, su inhabilitación hasta que el proceso termine.
En el primer caso se trataría de un aprendizaje on line, mientras que el segundo es lo que se
conoce como aprendizaje off line.
Aprendizaje supervisado
El aprendizaje supervisado se caracteriza porque se lleva a cabo mediante un
entrenamiento controlado por un agente externo (supervisor, maestro), el cual determina la
respuesta que debe generar la red a partir de una entrada determinada. El supervisor
comprueba la salida de la red y, en el caso de que ésta no coincida con la deseada, se
INTRODUCCIÓN
126
procederá a modificar los pesos de las conexiones, con el fin de conseguir que la salida
obtenida se aproxime a la deseada.
Existen tres formas de desarrollar este tipo de aprendizaje:
§
Aprendizaje por corrección de error: consiste en ajustar los pesos de las
conexiones de la red en función de la diferencia entre los valores deseados y
los obtenidos en la salida de la red; es decir, en función del error cometido
en la salida.
§
Aprendizaje por refuerzo: en este caso, la función del supervisor se reduce a
indicar mediante una señal de refuerzo si la salida obtenida en la red se
ajusta a la deseada (éxito = +1, fracaso = -1), y en función de ello se
ajustan los pesos basándose en un mecanismo de probabilidades. Se podría
decir que en este tipo de aprendizaje la función del supervisor se asemeja
más a la de un crítico (que opina sobre la respuesta de la red) que a la de un
maestro (que indica a la red la respuesta concreta que debe generar), como
ocurría en el caso anterior.
§
Aprendizaje
estocástico:
consiste,
básicamente,
en
realizar
cambios
aleatorios en los valores de los pesos de las conexiones de la red y evaluar
su efecto a partir del objetivo deseado y haciendo uso de distribuciones de
probabilidad. En este caso, se suele hacer la siguiente analogía: se asocia la
red neuronal con un sólido físico que posee cierto estado energético. La
energía de la red representaría su grado de estabilidad, de tal forma que el
estado de mínima energía correspondería a una situación en la que los pesos
de las conexiones consiguen que su funcionamiento sea el que más se ajusta
al objetivo deseado. Según lo anterior, el aprendizaje consistiría en realizar
un cambio aleatorio en los valores de los pesos y determinar la energía de la
red. Si la energía es menor después del cambio, es decir, si el
comportamiento de la red se acerca al deseado, se acepta el cambio. Si, por
el contrario, la energía no es menor, se aceptaría el cambio en función de
una determinada y preestablecida distribución de probabilidades.
Capítulo I
127
Aprendizaje no supervisado
Las
redes
con
aprendizaje
no
supervisado
(también
conocido
como
autosupervisado) no requieren de una influencia externa para ajustar los pesos de las
conexiones entre sus neuronas. La red no recibe ninguna información por parte del entorno
que le indique si la salida generada en respuesta a una determina entrada es o no correcta.
Por ello, suele decirse que estas redes son capaces de autoorganizarse.
Estas redes deben encontrar las características, regularidades, correlaciones o
categorías que se puedan establecer entre los datos que se representen en su entrada. Al no
existir ningún supervisor que indique a la red la respuesta que debe generar ante una
entrada concreta, hay varias posibilidades en cuanto a la interpretación de la salida de estas
redes, que depende de su estructura y del algoritmo de aprendizaje empleado.
En algunos casos, la salida representa el grado de familiaridad o similitud entre la
información que se le presenta a la entrada y la mostrada hasta entonces (en el pasado). En
otro caso, podría realizar un agrupamiento o establecimiento de categorías, indicando la
red a la salida a qué categoría pertenece la información presentada a la entrada, siendo la
propia red quien debe encontrar las categorías apropiadas a partir de correlaciones entre las
informaciones presentadas.
El aprendizaje sin supervisión permite realizar una codificación de los datos de
entrada, generando a la salida una versión codificada de la entrada, pero manteniendo la
información relevante de los datos.
Existen dos formas de aprendizaje no supervisado:
§
Aprendizaje hebbiano: es una regla de aprendizaje no supervisado, puesto
que la modificación de los pesos se realiza en función de los estados
(salidas) de las neuronas obtenidos tras la presentación de cierto estímulo
(información de entrada a la red), sin tener en cuenta si se deseaba obtener o
no esos estados de activación. Consiste básicamente en el ajuste de los
pesos de las conexiones de acuerdo con la correlación (multiplicación en el
caso de valores binarios +1 y -1) de los valores de activación (salidas) de las
dos neuronas conectadas. En este sentido, si las dos unidades son activas
(positivas), se produce un reforzamiento de la conexión; por el contrario,
INTRODUCCIÓN
128
cuando una es activa y la otra pasiva (negativa), se produce un
debilitamiento de la conexión.
§
Aprendizaje competitivo y cooperativo: en este aprendizaje, suele decirse
que las neuronas compiten (y cooperan) unas con otras con el fin de llevar a
cabo una tarea dada. Con esto se pretende que cuando se presente a la red
cierta información de entrada, sólo una de las neuronas de salida de la red, o
una por cierto grupo de neuronas, se active (alcance su valor de respuesta
máximo). Por tanto, las neuronas compiten por activarse, quedando
finalmente una, o una por grupo, como neurona vencedora, anulándose el
resto, que son forzadas a sus valores de respuesta mínimos. La competición
entre neuronas se realiza en todas las capas de la red, existiendo en estas
neuronas conexiones recurrentes de autoexcitación y conexiones de
inhibición (signo negativo) por parte de neuronas vecinas. Si el aprendizaje
es cooperativo, estas conexiones con las vecinas serán de excitación (signo
positivo). El objetivo de este aprendizaje es categorizar los datos de entrada
a la red. De este modo, informaciones similares que son clasificadas dentro
de una misma categoría deben activar la misma neurona de salida. Las
clases o categorías son creadas por la propia red a partir de las correlaciones
entre los datos de entrada, al tratarse de un aprendizaje no supervisado.
Mayor información sobre los tipos de aprendizaje y sus características puede
obtenerse en [368, 394].
9.4. Entrenamiento de la red neuronal
Una vez elegida una arquitectura adecuada a nuestro problema, el siguiente paso
consiste en obtener los valores de los pesos a partir de patrones conocidos que nos
permitan utilizar la red para predecir muestras desconocidas. Es la fase de entrenamiento
de la red neuronal. No obstante, existen dos tipos de entrenamiento de acuerdo con la meta
perseguida:
§
obtener un vector de salida predefinido Yk para cualquier señal de entrada
X k;
Capítulo I
129
§
o activar, para cualquier objeto de entrada Xk perteneciente a una clase p,
una neurona dentro del segmento p-ésimo de las neuronas de salida de la
red.
En el primer caso, la red debe ser entrenada de manera supervisada a partir de un
conjunto de pares entrada/salida (Xk, Yk), denominado “conjunto de entrenamiento”
(training set). Xk es el vector de entrada de m componentes (espectro, secuencia de
proteínas, etc.) mientras que Yk es la salida deseada o conjunto de respuestas para este
vector de entrada particular. El entrenamiento supervisado se inicia con unos valores de
pesos al azar, que junto con la entrada individual Xk, permite calcular el vector de salida.
Este vector es comparado con el vector Yk conocido y que se desea obtener. A
continuación, se aplica una medida correctiva para cambiar los pesos de la red (incluyendo
los sesgos) en base a los errores observados en los patrones de salida, de tal forma, que los
pesos corregidos darán una mejor aproximación a Yk. El procedimiento de corrección
usado varía de una red a otra. La presentación de los pares de entrenamiento (Xk, Yk) junto
con los correspondientes pesos corregidos se considera un ciclo del procedimiento de
aprendizaje. El proceso se repite muchas veces hasta que se alcance un acuerdo aceptable
entre todos los pares (Xk, Yk) y la salida producida Yk’, o hasta que se exceda el número de
ciclos permitido. La ventaja de este proceso es que luego, a partir de estos patrones, se
puede generalizar (dentro de unos límites) para obtener resultados correspondientes a otras
entradas que no se hayan estudiado aún. Aunque el entrenamiento es bastante largo (según
la estructura de la red), una vez realizado, la red ofrece respuestas o predicciones casi
instantáneamente. De este modo, se sacrifica el tiempo de entrenamiento para alcanzar
procesamientos posteriores extremadamente rápidos.
En el segundo caso, la activación de una neurona específica o grupo de ellas, se
logra mediante un entrenamiento no supervisado, que únicamente requiere conocer el
vector de entrada Xk y la categoría asociada (o región) a la que pertenece. Esta categoría no
se usa de manera explícita, sino que aparece implicada por la posición del vector Xk en el
espacio de medida de sus variables. En este tipo de entrenamiento, se desea encontrar un
mapa entre dos grupos de objetos Xk y las regiones que están integradas finalmente en el
plano (o matriz) de las neuronas de salida de la red. En este caso, no se utiliza ninguna
información acerca de los grupos a los que pertenece el objeto Xk para la corrección de los
pesos después de obtener la salida Yk’. De este modo, la única posibilidad consiste en
INTRODUCCIÓN
130
adjudicar las neuronas más activas (o posiblemente, la región vecina completa). Después
de evaluar la salida Yk’, a la neurona que ha provocado la salida más grande se le asigna el
valor 0 y sus correspondientes pesos wi0 son aumentados para que la próxima vez ofrezca
una respuesta todavía mayor. Algunas veces, no sólo se estimula la neurona 0, sino
también sus vecinos superiores hasta el r-ésimo. El entrenamiento continúa hasta que el
vector de entrada Xk es trazado dentro del mapa de las regiones que estaban integradas en
el dominio completo de las neuronas de salida.
Más información sobre el proceso de entrenamiento de una red neuronal puede
encontrarse en las referencias [378-381, 395].
9.5. Tipos de redes neuronales
Perceptrones
Este fue el primer modelo de red neuronal artificial desarrollado por Rosenblatt en
1958. Despertó un enorme interés en los años 60, debido a su capacidad para aprender a
reconocer patrones sencillos: un perceptrón, formado por varias neuronas lineales que
reciben las entradas a la red y una neurona de salida, es capaz de decidir cuándo una
entrada presentada a la red pertenece a una de las dos clases que es capaz de reconocer.
La única neurona de salida del perceptrón realiza la suma ponderada de las
entradas, resta el umbral y pasa el resultado a una función de transferencia de tipo escalón.
La regla de decisión es responder +1 si el patrón presentado pertenece a la clase A, o -1 si
el patrón pertenece a la clase B. La salida dependerá de la entrada neta (suma de las
entradas x i ponderada) y del valor umbral è.
Una técnica utilizada para analizar el comportamiento de redes como el perceptrón
consiste en representar en un mapa las regiones de decisión creadas en el espacio
multidimensional de entradas a la red. En estas regiones se visualiza qué patrones
pertenecen a una clase y cuáles a otra. El perceptrón separa las regiones por un hiperplano
cuya ecuación queda determinada por los pesos de las conexiones y el valor umbral de la
función de activación de la neurona. En este caso, los valores de los pesos pueden fijarse o
adaptarse utilizando diferentes algoritmos de entrenamiento de la red.
Capítulo I
131
No obstante, el perceptrón, al constar sólo de una capa de entrada y otra de salida
con una única neurona tiene una capacidad de representación bastante limitada. Este
modelo sólo es capaz de discriminar patrones muy sencillos, linealmente separables.
Sin embargo, posteriormente, con la nueva puesta en escena de las redes neuronales
en el campo de la investigación, el antiguo perceptrón de dos capas dio paso al nuevo
perceptrón. Éste recibió el nombre de perceptrón multicapa (MLP: Multi-Layer
Perceptron). El MLP aparece muy bien descrito por Despagne y Massart [396], para el
caso del uso de redes neuronales en calibración multivariante.
Svozil et al. [382] han escrito un tutorial sobre redes neuronales multicapa de
alimentación directa (MLF: Multi-Layer Feed-Forward). En él también se puede encontrar
mayor información sobre los MLP, puesto que un MLP es un caso particular de MLF con
una sola capa interna.
Red neuronal de Hopfield
En 1982, J.J. Hopfield demostró el interés y utilidad que presentaban las
propiedades resultantes al conectar elementos de procesamiento simples en una estructura
de retroalimentación con unas conexiones de pesos especificadas de cierta manera.
La idea de fondo de la red de Hopfield es que sirve para reproducir cualquier patrón
utilizado para el entrenamiento cuando se introduce de nuevo en la red, incluso si el patrón
presentado es defectuoso en mayor o menor medida.
Para ver cómo funciona la memoria de Hopfield, considérense un conjunto de
cuatro neuronas artificiales elementales o unidades de procesamiento. Cada unidad recibe
unas entradas pesadas procedentes de otras unidades y construye una suma. Los pesos son
calculados a partir de la memoria deseada, empleando los componentes x is de todos los p
patrones Xs en el conjunto de entrenamiento (pero no en el sentido iterativo como el
descrito anteriormente), mediante la ecuación:
p s s
 xi ⋅ x j
w ij = ∑
s =1
0

(para i ≠ j)
(para i = j)
(71)
INTRODUCCIÓN
132
Si la suma excede un valor límite prefijado, tomado como 0, se elige su estado de
salida como 1; de otro modo, la salida es 0 (representación binaria). Esta operación la
realizan continuamente todas las unidades. Para obtener la salida Out j para un objeto
desconocido, la función sigmoidal o el límite lógico se reemplazan por una función de paso
simple:

+ 1

 
Out j = signo  ∑ w ij ⋅ x i  = 
 i
 
−1



para  ∑ w ij ⋅ x i  ≥ 0
 i



para  ∑ w ij ⋅ x i  < 0
 i

(72)
Tan pronto como se alcanzan las condiciones establecidas para cada unidad, se actualiza la
salida de la red de manera rápida, según las condiciones de hardware. Las unidades
funcionan, por tanto, asincrónicamente.
Una vez obtenida la salida de la red, ésta se introduce (retroalimentación) como una
nueva entrada y se repite el proceso anterior hasta que dos salidas sucesivas no difieran
significativamente.
El algoritmo de Hopfield es rico en su analogía con respecto a los sistemas físicos y
biológicos. Se ha generalizado para sistemas continuos (no binarios) en los cuales las
unidades de procesamiento han clasificado las respuestas a las entradas.
La red de Hopfield es muy útil en aplicaciones químicas (por ejemplo, para
clasificar formas de líneas de base espectrales), especialmente porque su entrenamiento es
muy rápido comparado con los de otros diseños de redes neuronales, y también se ha
empleado para resolver problemas de optimización combinatoria [369, 378].
Memoria asociativa bidireccional adaptativa
La memoria asociativa bidireccional adaptativa o ABAM, la cual adapta su matriz
de pesos a los objetos que van a aprenderse, es una red neuronal monocapa que es similar,
en algunos aspectos, a la red de Hopfield.
ABAM hace uso de un entrenamiento supervisado y, de este modo, requiere pares
de objetos (Xk, Yk) para ejecutarlo. No existe ninguna condición que requiera que los
objetos Xk (x k1, x k2, ..., x km ) e Yk (yk1, yk2, ..., ykn) sean representados en un espacio con la
Capítulo I
133
misma dimensión, esto es, que n sea igual a m. Como el ABAM es una red monocapa, los
pesos wij se almacenan en una matriz W de dimensiones mHn.
La idea básica del ABAM procede del hecho de que esa matriz mHn puede
multiplicarse desde dos direcciones diferentes: en la forma estándar, por un vector mdimensional, o en la forma traspuesta, vector n-dimensional. En el lenguaje de las redes
neuronales, esto quiere decir que o bien un objeto de entrada X produce la salida Y’, o bien
la entrada Y en el lado de las salidas produce un vector de salida X’, en el lado de las
entradas a la matriz de pesos. De este modo, para cualquier par de objetos (X, Y), se
construye otro par (X’, Y’).
La matriz de pesos del ABAM se construye a partir de los pares de entrada del
siguiente modo:
w ij = ∑ f (x si ) ⋅ f (x sj )
p
(73)
s =1
donde f es la función sigmoidal. El proceso de entrenamiento del ABAM comienza con el
par (X, Y) para el cual se calcula la matriz de pesos W; multiplicando dicha matriz por los
vectores X e Y, se obtiene el siguiente par (X’, Y’), y se repite el proceso desde el principio.
El entrenamiento acaba cuando en la iteración i-ésima ocurre lo siguiente: Xi·Wi ý Yi;
Yi·Wi t ý Xi, es decir, cuando se genera un par de objetos idénticos al par de entrada.
En resumen, podría decirse que en el ABAM las señales oscilan, mientras que en la
red de Hopfield circulan. Además, en contraste con la red de Hopfield, la entrada en el
ABAM puede ser de diferente dimensión que la salida, y en el caso extremo, incluso más
pequeña. Una dimensión pequeña de la capa de salida se traduce en una reducción del
tamaño de la matriz de pesos. Desafortunadamente, esto conlleva un efecto negativo sobre
el número de pares que pueden ser almacenados en el ABAM. Por tanto, hay que llegar a
un acuerdo entre el tamaño de la matriz y el número de pares que son aprendidos.
Red neuronal de Kohonen
La arquitectura de red que semeja más ajustadamente las conexiones y el proceso
de aprendizaje de las neuronas biológicas es probablemente la descrita por Kohonen.
INTRODUCCIÓN
134
La red de Kohonen está basada en una capa individual bidimensional. Sin embargo,
la red de Kohonen puede incluirse dentro de una red mucho más compleja como una de sus
capas constituyentes o empleada en combinación con otras técnicas.
La característica más importante de la red de Kohonen es que obliga a las neuronas
a competir entre ellas para decidir cuál será estimulada. La competición puede decidirse en
base a la salida más grande obtenida para una entrada determinada, o comparando y
encontrando la neurona j que tiene todos los pesos wij (i = 1, m), es decir, el vector de
pesos Wj (w1j, w2j, ..., wmj) más parecido al vector de entrada Xs (x 1 s, x 2 s, ..., x m s):
d (Xs , Wj ) = ∑ (x si − w ij )
m
2
(74)
i
El sumatorio en esta ecuación se corresponde con todos los m pesos en la neurona j.
Después de que todas las neuronas se hayan comprobado, la neurona j que alcanza el valor
más pequeño de d(X s, Wj) para un vector de entrada dado Xs se selecciona para la
estimulación, junto con su sector. El sector se define como el conjunto de células más
próximas a la seleccionada por uno de los posibles criterios aplicados a la red de Kohonen.
Esta neurona central denominada 0 puede seleccionarse como la que posee la respuesta
más grande Y0 o el vector de pesos W0 más parecido al vector de entrada Xs. Para estimular
la neurona j y su sector ha de emplearse una función dependiente de la topología: a = a·(r0
- rj), que puede poseer un perfil lineal o en forma de sombrero mexicano. Una vez se ha
encontrado esta neurona, la corrección de todos los pesos wij (i = 1, 2) de la neurona jésima que cae dentro de la región definida por la topología anterior se hace aplicando la
siguiente ecuación:
(
w (ijnuevo) = w (ijviejo) + a ⋅ (r0 − rj ) ⋅ x si − w (ijviejo)
)
(75)
No hay ningún problema si la diferencia entre x is y el peso antiguo es positiva o negativa,
ya que si el primero es más grande o más pequeño que el segundo, el peso nuevo estará
más cercano a x is que el viejo.
Una vez que el entrenamiento se ha completado, la red exhibe una estructura
topológica homomórfica con la forma del patrón de entrenamiento.
Capítulo I
135
Existe un pequeño problema computacional inherente a la red de Kohonen, que
afortunadamente no ocasiona perjuicio alguno si la red está aplicada sobre un ordenador en
serie, pero que puede afectar de forma importante el desarrollo de aplicaciones a gran
escala ejecutadas en ordenadores en paralelo. Para establecer qué neurona (y sector) va a
estimularse hay que llevar a cabo una comprobación de todas las neuronas. Esto supone
una seria restricción cuando se entrenan redes extensas. Incluso para un ordenador en
paralelo se requieren como mínimo log2 N pasos con N/2 comparaciones paralelas, siendo
N el número de neuronas.
Zupan et al. [397] han escrito un tutorial sobre redes de Kohonen, describiendo
algunas de sus aplicaciones: agrupación y clasificación de diferentes tipos de minerales en
función de sus espectros de rayos X de dispersión de energía, desarrollo de reglas lógicas
del tipo “IF THEN” para clasificar muestras, decisiones cuantitativas usando mapas de
pesos y modelización de determinadas propiedades, entre otras.
Otra aplicación de las redes de Kohonen aparece descrita en el artículo de Lau et al.
[398]. En este caso, se emplean para discriminar entre una serie de alcoholes químicamente
similares (con cadenas de diferente longitud), mezclas de vapores orgánicos (xileno y
tolueno) y mezclas de disolventes orgánicos contaminados (tolueno contaminado y
diclorometano). Las redes de Kohonen funcionaron muy bien como método de extracción
de características, siendo capaz de retener las relaciones existentes en los datos de entrada.
Además, demostraron su capacidad para tratar conjuntos de datos pequeños.
Finalmente, entre las innumerables aplicaciones que pueden encontrarse en la
bibliografía, cabe destacar el trabajo de Vander Heyden et al. [399], en el cual hacen uso
de las redes de Kohonen para diagnosticar problemas de calibración en espectroscopía de
absorción atómica. En este caso, se emplearon como procedimiento automatizado de
clasificación de líneas espectrales. Los resultados obtenidos fueron comparados con
métodos estadísticos clásicos de clasificación, siendo ligeramente mejores para las redes de
Kohonen, dependiendo del conjunto de entrenamiento utilizado.
Más aplicaciones de las redes de Kohonen en el campo de la química pueden
encontrarse en la siguiente referencia [296].
Existen muchos otros tipos de redes neuronales:
INTRODUCCIÓN
136
§
redes de función de base radial (RBF) [386, 400]
§
redes de teoría de resonancia adaptativa (ART: no supervisadas, o
ARTMAP: versión supervisada) [239, 401-403]
§
redes neuronales de alimentación directa (MLF): dada la importancia que
presentan estas redes, así como su mayor aplicabilidad, sus características
serán descritas en un epígrafe aparte.
Más
información
teórica,
así
como
aspectos
matemáticos
y
aplicaciones
relacionadas con las dos primeras, pueden encontrarse [296].
9.6. Red neuronal de alimentación directa
Su nombre proviene de las siglas MLF (multilayer feed forward). Debido a que
este tipo de redes ajustan los valores de los pesos mediante la aplicación de una regla de
aprendizaje denominada algoritmo de retropropagación, también se las conoce por el
nombre de redes BP (backpropagation).
Cuando Rumelhart publicó la regla de aprendizaje por retropropagación en 1986,
las redes MLF se convirtieron en las más populares y ampliamente utilizadas en muchos
campos de investigación, incluyendo la química [360, 380, 404]. A diferencia del
perceptrón, cuyos problemas se resolvieron gracias a este nuevo tipo de red, las redes MLF
poseen una capa más, denominada capa interna, y sus neuronas utilizan funciones de
transferencia que normalmente son de tipo sigmoidal, responsables de las propiedades no
lineales de dichas redes. Sirvieron también para solventar cuestiones difíciles, tales como
la conversión de un texto escrito a un idioma comprensible, por medio del entrenamiento
de un conjunto de patrones, y el reconocimiento de dígitos de código postal ZIP escritos a
mano.
La red de retropropagación supone una generalización del algoritmo de WidrowHoff, empleado de manera efectiva durante años en el campo del procesamiento de señales
adaptativas. Al contrario que la de Hopfield, no emplea retroalimentación. En su versión
más simple, utiliza una estructura en forma de capas de alimentación directa, cuya
estructura fue descrita en el apartado de arquitectura de la red.
Supóngase una red neuronal con tres capas: las unidades de la capa de entrada no
llevan a cabo ningún procesamiento especial, simplemente amortiguan los valores de
Capítulo I
137
entrada y lo transportan a la capa oculta por medio de un conjunto de conexiones pesadas.
Seguidamente, cada unidad de procesamiento en la capa intermedia calcula una suma
pesada de sus entradas. Los pesos pueden ser positivos (excitadores) o negativos
(inhibidores). Después, la unidad de procesamiento aplica una función de apilamiento
sigmoidal (descrita con anterioridad) a dicha suma, la cual transforma un amplio dominio
de entrada en un rango limitado de salidas. La salida de cada unidad en la capa oculta pasa
a las correspondientes neuronas de la capa de salida, las cuales, suman y apilan sus
entradas pesadas para ofrecer, finalmente, una salida adecuada.
El entrenamiento de la red, se lleva a cabo de acuerdo a lo anteriormente explicado
en el apartado de entrenamiento de la red. Existe un cierto número de algoritmos
destinados a tal fin, entre los cuales, podemos destacar el algoritmo del error de predicción
recursivo [384], el método quasi-Newton modificado [394], la regla de aprendizaje Delta
[395] y el algoritmo de retropropagación, el cual se tratará en el siguiente epígrafe.
Algunos autores han diseñado sus propios algoritmos para las redes neuronales [405].
Algoritmo de retropropagación
El algoritmo más utilizado para ajustar los pesos en el entrenamiento de redes de
alimentación directa es la regla de la retropropagación del error, conocida en la literatura
como backprop o backpropagation. Este algoritmo de aprendizaje no refleja similitud
particular alguna con los procesos reales del cerebro. Consiste básicamente en un
procedimiento multicapa y como tal requiere una cantidad considerable de espacio en el
ordenador y de tiempo de cálculo, incluso para redes de tamaño medio. Se aplica
especialmente en casos donde la ausencia de soluciones teóricas, analíticas e incluso
numéricas requieren una buena modelización con predicciones exactas.
El hecho de ser el algoritmo más empleado por los científicos que trabajan con
redes neuronales radica en su habilidad para ajustar todos y cada uno de los pesos de las
conexiones de la red, de modo que al introducir cualquier patrón de entrada en el interior
de la misma ésta sea capaz de ofrecer una salida adecuada al problema que se está tratando.
Para llevar a cabo el ajuste de los pesos, primero hay que considerar una medida del error
en la salida que viene dado por la suma de los cuadrados de los errores de las unidades de
salida individuales:
Y=
1 M
(t j − z j )2
∑
2 j=1
(76)
INTRODUCCIÓN
138
donde t j es el valor buscado de la salida j-ésima de la última capa; zj es la salida calculada
de la última capa de la red y M es el número de unidades de salida.
Esta función de coste puede visualizarse como una superficie que representa el
error como la variable dependiente en un hiperespacio de N + 1 dimensiones, donde N es
el número de pesos en la red. Un estado instantáneo de la red aparece como un punto
individual en la superficie. El efecto de un cambio pequeño en cualquier peso puede
observarse como un pequeño movimiento de ese punto sobre la superficie, mientras que el
resto de los pesos permanecen constantes. Un cambio de peso pequeño puede provocar un
incremento, una disminución del error o ningún cambio en absoluto. Como se desea hacer
actuar a la red de acuerdo a un conjunto determinado de patrones hay que ajustar los pesos
para que el error alcance el valor más bajo posible.
Una observación crucial a tener en cuenta en este punto es que la dependencia por
parte del error de un pequeño cambio en cualquier peso puede determinarse
adecuadamente por aplicación directa de la regla de la cadena mediante diferenciación a
partir del cálculo elemental. Para aplicar la regla de la cadena, hay que obtener primero la
contribución de cada unidad de salida al error Y. Diferenciando la función de apilamiento
sigmoidal, se determina el error correspondiente en la suma interna de cada una de las
unidades y luego se propaga hacia atrás en la red, estrato a estrato, usando sucesivas
aplicaciones de la regla de la cadena para derivadas parciales hasta alcanzar la capa de
entrada. De este modo, se logra obtener el error correspondiente a las salidas de las
unidades de las capas inmediatamente anteriores que alimentan los sucesivos estratos. Este
procedimiento puede extenderse para determinar la sensibilidad del error Y a cualquier
peso en la red neuronal.
Las sensibilidades representadas por el conjunto de tales derivadas, una por cada
peso en la red, define un vector gradiente en el hiperespacio de N + 1 dimensiones. El
valor negativo de este gradiente define la dirección del descenso más profundo hasta
alcanzar el valor más bajo del error Y. El entrenamiento de la red se lleva a cabo realizando
pequeños pasos en la dirección del descenso más profundo para cada ejemplar presentado.
Para redes grandes, especialmente aquellas que poseen una estructura formada por un gran
número de estratos, cada contribución de los pesos al error total es relativamente pequeña.
Más aún, la superficie que define Y puede ser muy compleja y tener múltiples mínimos. El
punto del hiperespacio que representa el estado de la red puede describir una trayectoria
Capítulo I
139
tortuosa conforme se ejecuta el entrenamiento. Típicamente, la red debe procesar el
entrenamiento de los patrones muchas veces antes de obtener valores útiles de los pesos
[369].
Este método de ajuste de pesos se denomina método del gradiente descendente y,
como se ha podido comprobar, resulta bastante lento en la mayoría de los casos. Zupan y
Gasteiger han elaborado una amplia descripción matemática acerca del mismo [378] La
expresión del algoritmo es la siguiente:
 ∂E 

w ij (t + 1) = w ij (t ) + η
 ∂w ij 


(77)
y la función que realiza consiste en la actualización del peso wij de la capa t+1 empleando
para ello el peso de la capa t inmediatamente anterior. Uno de los parámetros que
interviene en dicha ecuación es la velocidad de aprendizaje, ç. La actualización se realiza
en base al error obtenido, E. La desventaja más importante de este método radica en que es
una técnica de optimización local y, por tanto, se centra en la búsqueda de mínimos
locales. Aunque se han desarrollado algunas variantes para resolver este inconveniente
[406-410], una de las mejores formas para tener una idea sobre la robustez de la solución
obtenida consiste en repetir varias veces las sesiones de entrenamiento, con diferente
inicialización de los pesos. De este modo, se define un intervalo en el cual se distribuyen
los valores de error resultantes para cada proceso de entrenamiento [396].
Las redes neuronales de retropropagación se emplean con bastante frecuencia para
clasificar grupos de medidas. Sea un conjunto de M medidas que representan un objeto o
estado de un sistema, cada grupo de objetos puede considerarse como un vector
característico en el hiperespacio definido por las variables de medida. Para clasificar los
objetos o estados en dos categorías y poder separarlas por un hiperplano, puede utilizarse
una función lineal discriminante o perceptrón; no es necesaria una red neuronal más
compleja. La red desempeña dicha tarea gracias a una función de apilamiento no lineal. En
el caso general de dos clases, si la red posee M entradas, una por cada una de las variables
de medida, y se proporciona una única salida, ésta puede emplearse para clasificar las
medidas. Un conjunto de entrenamiento, formado por vectores característicos cuya
clasificación se conoce a priori, es presentado una y otra vez a la entrada de la red. El error
INTRODUCCIÓN
140
en el desarrollo de la red se utiliza para ajustar los pesos, haciendo uso del algoritmo de
retropropagación y el método del gradiente descendente.
Del mismo modo que sucede con otros métodos de construcción de modelos
matemáticos, es típico alterar el modelo hasta lograr el mejor resultado. Si no se ha dotado
a la red de un número adecuado de grados de libertad mediante un número suficiente de
unidades ocultas y pesos, la clasificación de todos los vectores característicos puede
resultar imposible. El error de la medida puede ser, además, responsable de clasificaciones
erróneas (underfitting). Si se han empleado demasiadas unidades ocultas y se ha entrenado
muy exhaustivamente la red, ésta puede clasificar correctamente los patrones o el conjunto
de entrenamiento y, sin embargo, ejecutar un desarrollo peor sobre nuevos vectores
presentados para la clasificación. Este problema equivale al sobreajuste (overfitting) de los
datos. No obstante, hay métodos para evitar esto [411].
Al igual que ocurre con la regresión polinomial, un ajuste exacto de los datos a un
modelo incorrecto o el ajuste de datos ruidosos puede resultar en una variabilidad que
afecte a la función ajustada o al desarrollo de la red. Si los datos poseen algo de ruido y se
ha elegido el número correcto de unidades ocultas, la red proporciona un desarrollo sin
ruido y responde correctamente a entradas nuevas. Esto es lo que se conoce como
capacidad de generalización de la red. La generalización correcta de un número elevado de
variables de entrada confusas y relacionadas de forma no lineal es uno de los atributos más
poderosos de la red de retropropagación [412].
Validación de redes MLF
El entrenamiento de las redes neuronales en general requiere de un conjunto de
entrenamiento (training set), para obtener un buen modelo, más otro de monitorización
(monitoring set), para comprobar la capacidad de predicción de dicho modelo. Se requiere
de un tercer conjunto independiente, denominado conjunto de validación (test set) para
validar la red.
Si se dispone de un gran número de muestras, se puede aplicar un procedimiento de
validación cruzada [302, 413]. Como se ha explicado anteriormente, la presencia de un
mínimo local causa un problema adicional. El entrenamiento repetido de la red con
diferentes inicializaciones de los pesos supone una importante herramienta de diagnóstico
Capítulo I
141
para este propósito. Hay que tener en cuenta que la aplicación de este método permite
alcanzar diferentes conjuntos de pesos finales y, por tanto, redes diferentes. El paso
siguiente consiste en seleccionar la mejor red entre ellas. Se podría elegir aquella que
alcanza el mínimo error para el conjunto de validación. Sin embargo, la distribución del
mismo posee también su importancia.
Otra cuestión importante a considerar sería la determinación de la robustez de la red
frente al ruido presente en los datos de entrada. Derks et al. [414] propusieron un
procedimiento empírico para comprobar la robustez. Se basa en el incremento gradual de
ruido en los datos de entrada. Se prefieren aquellas redes cuyo desarrollo es menos sensible
a esta introducción de ruido. Gemperline estudió la robustez de redes MLF y comparó los
resultados con los obtenidos a partir de modelos PLS [415]. Cuanto mejor desarrollo
permita el criterio utilizado para validar el modelo, mayor será la probabilidad de obtener
buenos resultados de predicción para muestras que pertenezcan al intervalo que abarca el
conjunto de entrenamiento. Como no existe ningún conocimiento teórico disponible sobre
el modelo, llevar a cabo extrapolaciones con redes MLF puede resultar peligroso. En el
caso
de
las
interpolaciones,
pueden
aparecer
problemas
cuando
el
grado
de
representatividad del conjunto de entrenamiento con respecto a los datos totales no es muy
elevado [406]. Por último, Berg y Riedler [416] han calculado los límites de confianza de
las salidas procedentes del análisis de datos realizado mediante redes neuronales
artificiales.
Para obtener descripciones más detalladas acerca de los tipos de redes neuronales y
sus características, así como de todas las cuestiones relacionadas con las mismas, se
recomienda la lectura de las siguientes citas bibliográficas [360, 368, 369, 378, 380, 382,
384, 417-422].
Inconvenientes que presentan las redes MLF
Las redes MLF son una herramienta poderosa, ya que la experiencia práctica ha
demostrado que son capaces de establecer modelos mejores y de forma mucho más rápida
en casos donde existen fuertes relaciones no lineales. No obstante, deberían utilizarse con
precaución.
Los inconvenientes que presentan son los siguientes:
INTRODUCCIÓN
142
§
Puesto que se usan para relaciones complejas, sobre las cuales existe poca
información a priori, es muy difícil asegurar que los conjuntos de
entrenamiento, monitorización y validación sean representativos de todos
los datos.
§
Normalmente, la superficie de error presenta muchos mínimos locales. De
este modo, es imposible garantizar el mínimo global.
§
La validación de los resultados obtenidos constituye otro problema. No es
aún posible obtener un intervalo de confianza asociado a la salida de la red.
Cierta investigación en este campo puede encontrarse en [407, 413].
§
No es posible extraer información teórica sobre el modelo de manera
directa. Las redes MLF deben considerarse como constructores de modelo
empíricos, del mismo modo que los procedimientos de spline o de ajuste
polinomial.
9.7. Aplicaciones químicas de las redes neuronales
Especialmente en los últimos años, el número de aplicaciones de las redes
neuronales ha experimentado un crecimiento exponencial.
Los campos dentro de la química donde más destacan son los siguientes:
§
Reconocimiento de patrones
§
Interpretación de espectros
§
Control de calidad / control de procesos
§
Dilucidación de estructuras
§
Modelización y calibración no lineal
§
Relaciones cuantitativas de estructura-actividad (QSAR)
§
Procesamiento de señales
§
Otras aplicaciones
A continuación, se detallarán algunas de las aplicaciones asociadas con cada uno de
los campos enumerados anteriormente.
Capítulo I
143
Reconocimiento de patrones
El papel que juegan las redes neuronales en el reconocimiento de patrones es muy
importante. Se pueden encontrar una gran cantidad de artículos al respecto, en los cuales se
aplican las redes neuronales a datos procedentes de una gran variedad de técnicas
analíticas.
Comenzando por las técnicas más sencillas, cabe destacar el artículo de Ma et al.
[423], en el que aplican redes neuronales artificiales, junto con PCA, a datos procedentes
de análisis volumétrico, con el fin de clasificar piezas de cerámica chinas de la era
neolítica. Consiguen clasificarlas en tres categorías, dependiendo de su procedencia: región
del Valle del Río Amarillo, región del Valle del Río Yangtse y otras regiones. Demuestran
que las ANNs son más útiles que el PCA a la hora de clasificar estas muestras
arqueológicas.
Otra de las técnicas a las que se ha aplicado redes neuronales es la espectroscopía
de emisión atómica, tanto de forma individual [424], como acoplada con plasma inductivo
(ICP) [425], con el propósito de clasificar líneas espectrales.
Bell et al. [426] utilizaron reconocimiento de patrones por redes neuronales con el
fin de clasificar especies químicas presentes en una gran librería construida mediante
espectrometría de movilidad iónica (IMS). También hicieron uso de un algoritmo genético
para el tratamiento de los datos. En este caso, se emplea un tipo especial de redes
neuronales denominadas redes de correlación en cascada con restricción de temperatura
(TCCCN: Temperature Constrained Cascade Correlation Networks). Dichas redes habían
sido previamente descritas [427] y aplicadas [248] por Cai y Harrington, haciendo uso
también de la técnica IMS e incluyendo preprocesamiento por transformada wavelet.
Continuado con las redes TCCCN, se puede encontrar alguna aplicación de las mismas con
datos procedentes de cromatografía de gases acoplada con espectrometría de masas (GCMS) [428]. En este caso, los autores clasificaron pesticidas basados en carbamatos.
Otros tipos de datos cromatográficos clasificados mediante ANN son los obtenidos
por Collantes et al. [429] a partir de HPLC. Obtuvieron los cromatogramas de diferentes
muestras de L-triptófano procedentes de varios fabricantes y llevaron a cabo un
preprocesamiento de los mismos mediante transformada wavelet “por paquetes”. Las zonas
INTRODUCCIÓN
144
seleccionadas para la clasificación fueron las correspondientes a la “huella dactilar” de
cada una de las muestras, referida a las trazas de impurezas presentes en función de su
origen.
Para finalizar con las espectroscopias, cabe destacar la revisión llevada a cabo por
Corne [430], donde trata sobre los diferentes patrones que existen en espectros de
resonancia magnética nuclear (RMN), tanto monodimensionales como bidimensionales, y
la problemática de su clasificación. Hace uso de perceptrones MLF con aprendizaje por
retropropagación, describiendo algunos aspectos relacionados con el entrenamiento de las
redes. De igual modo, y más recientemente, Babri et al. recogieron algunos de los aspectos
más importantes que relacionan la espectroscopía NIR con las ANNs [431]. Otras
aplicaciones de las redes neuronales artificiales en el campo de la espectroscopía pueden
encontrarse en [432-434].
Es necesario hacer referencia a la utilización de redes neuronales en conjuntos de
sensores (sensors array). Las redes neuronales artificiales constituyen una de las
herramientas estadísticas con las que suelen relacionarse el tratamiento de datos en estas
situaciones, debido fundamentalmente al carácter típicamente no lineal de las respuestas
generadas por este tipo de dispositivos. Las aplicaciones en este campo son muy
abundantes.
Por ejemplo, Krantz-Rülcker et al. [289] han publicado recientemente una revisión
sobre el tema, haciendo especial hincapié en las lenguas y narices electrónicas para
monitorización
medioambiental.
Hsueh
et
al.
[435]
han
establecido
una
nueva
aproximación al diseño e implementación de series de sensores; en particular fueron cinco
electrodos de oro modificados con diferentes alcanotioles sustituidos, con el fin de
clasificar diferentes analitos con respuesta redox similar.
Por otro lado, Shaffer et al. [436] compararon diferentes algoritmos de
reconocimiento
de
patrones
tales
como
redes
neuronales
de
diferentes
clases
(probabilísticas, de retropropagación, y de cuantización del vector de aprendizaje), el
SIMCA, el análisis lineal discriminante bayesiano (BLDA) y de Mahalanobis (MLDA) y
el algoritmo del vecino más próximo (k-NN), con el fin de comparar sus habilidades
clasificatorias frente a datos de series de sensores. De entre todos ellos, los mejores
Capítulo I
145
resultados se obtuvieron con las redes neuronales. Otra aplicación de las redes neuronales
probabilísticas, realizada por mismos autores, puede encontrarse en [437].
Tominaga [438] ha publicado también un trabajo de comparación entre diferentes
métodos de análisis de clases como SIMCA, PLS, ANN, k-NN y PCA-LDA, por citar
algunos, con el fin de clasificar diferentes tipos de agentes quimioterapéuticos,
antibacterianos, antineoplásticos y antifúngicos.
Cabe destacar, de igual modo, el uso de redes neuronales con el fin de clasificar y
caracterizar vinagres blancos de diversa procedencia [439], autentificar mieles de Galicia,
de acuerdo con el contenido metálico de las mismas [440], y tipificar vinagres de Jerez y
de La Rioja [441].
Finalmente, también se han empleado ANNs con el fin de clasificar imágenes, más
concretamente imperfecciones o manchas en productos [249], u objetos [163] formados a
partir de ondas de sonar. Recientemente, Osowski y Nghia [442] compararon descriptores
wavelet y de Fourier para reconocer formas simuladas de diferentes aviones.
Interpretación de espectros
Algunas de las aplicaciones más interesantes relacionadas con la interpretación de
espectros aparecen descritas a continuación.
Fundamentalmente, las ANNs se han aplicado a la interpretación de espectros de
infrarrojo. Visser et al. [443] aplicaron redes neuronales y PLS al reconocimiento de
características visuales en espectros de este tipo. Luinge et al. [444] confirmaron la
identidad de una serie de analitos (clenbuterol y fluoranteno) a niveles traza a partir de
espectros de IR, mediante la aplicación de algoritmos de búsqueda en librerías y redes
neuronales. Ambos métodos dieron resultados bastante buenos.
Otro ejemplo lo constituye el artículo de Affolter y Clerc [445], quienes
consiguieron predecir los espectros infrarrojos de compuestos orgánicos a partir de sus
estructuras químicas utilizando ANNs. Smits et al. [446] y Munk et al. [447] también han
llevado a cabo la interpretación de espectros IR mediante el uso de redes neuronales y Wu
y Massart [448] las emplearon para clasificar espectros NIR.
INTRODUCCIÓN
146
Finalmente, Hare et al. [449] desarrollaron un procedimiento de asignación
automática mediante la aplicación de ANNs, pero en este caso para espectros de RMN de
proteínas.
Control de calidad y análisis de procesos
La aplicación de redes neuronales para el control de calidad y el análisis de todo
tipo de procesos es muy común.
Por ejemplo, Venkatasubramanian et al. [450] emplearon ANNs para diagnosticar y
detectar fallos en procesos en estado estacionario. De igual modo, Angstenberger et al.
[451] aplicaron ANNs para procesar datos y tecnología borrosa (fuzzy) para decisiones
automatizadas y estrategias de control en la industria del caucho. Debido a la complejidad
y no linealidad de los procesos implicados necesitaron construir modelos matemáticos de
cierta exactitud haciendo uso de estas dos herramientas inteligentes.
Belarbi et al. [452] han utilizado también redes neuronales en combinación con
sistemas borrosos con el propósito de diseñar un controlador para estudiar diversas
simulaciones de un digestor en discontinuo de pasta de papel.
Finalmente, cabe destacar el artículo de Wang et al. [453] en el que han llevado a
cabo la optimización de sistemas de análisis de inyección de flujo de microondas en línea
para determinar rutenio. El proceso de determinación se basaba en el efecto catalítico de
este metal sobre la oxidación de dibromocarboxiarsenazo por peryoduro de potasio
sometido a radiaciones de microondas. El límite de detección alcanzado fue de 2,1 ng·mL -1
de rutenio.
Pueden encontrarse otros ejemplos del empleo de ANNs para el control de calidad
y el análisis de procesos en [454-458].
Dilucidación de estructuras
Los campos donde más importancia presentan las redes neuronales son el de la
biología molecular y la enzimología, más concretamente para predecir la estructura de
proteínas. En la última década, el uso de ANNs ha ido incrementándose en estas dos áreas,
habiéndose publicado un gran número de trabajos de investigación aplicados a la
Capítulo I
147
predicción de la estructura primaria, secundaria y terciaria de las proteínas y ácidos
nucleicos [459, 460].
Popescu [461] publicó un trabajo en el que ensalzaba las propiedades y las
posibilidades que presentan las redes neuronales a la hora de llevar a cabo dilucidación de
estructuras proteicas. Recoge, además, un gran número de referencias relacionadas con el
tema.
Modelización y calibración multivariante no lineal
Con respecto al primer grupo de aplicaciones, la modelización, hay que destacar los
trabajos de Bhat et al. [462] y de Harrington [463]. En el primero de ellos, se utilizan redes
neuronales para modelización dinámica y control de sistemas de procesos químicos,
mientras que en el segundo, se aplican TCCCN con el fin de modelar procesos y obtener
modelos más estables que reduzcan el periodo de entrenamiento de la red.
Livingstone et al. [464] publicaron una revisión acerca de las ventajas y
limitaciones de la modelización de datos con redes neuronales. Trataron fundamentalmente
el sobreajuste (overfitting), efectos casuales, sobreentrenamiento (overtraining) y su
interpretación, dando ejemplos en cada uno de los casos. Además, comentaron las ventajas
del uso de ANNs como herramienta de selección de variables, así como su utilidad como
dispositivo de modelización no lineal de datos.
Son también de gran interés los trabajos de Bourquin et al. [465, 466], donde se
refleja la gran importancia de esta técnica para establecer modelos en el campo de la
farmacia y biofarmacia. En el primero de los artículos se comparan diferentes técnicas de
modelización empleando varios diseños experimentales y datos procedentes de estudios
galénicos basados en el modo de dosificación sólida de fármacos. Por otro lado, en el
segundo, se muestran las ventajas que presentan las redes neuronales artificiales como
técnica alternativa de modelización para datos que muestran una relación no lineal.
De igual modo, cabe destacar el empleo de redes neuronales, junto con PCA, para
modelar y controlar la producción de levadura de panadería [467]. Los modelos son
derivados para su aplicación en el control adaptativo de la fermentación por medio de
métodos de control de modelo interno. Los datos proceden de la producción industrial en
un biorreactor y de simulaciones por ordenador. La modelización es enfocada hacia la
INTRODUCCIÓN
148
selección de la estructura de la red neuronal y la verificación del modelo. Los modelos
obtenidos presentan errores relativos medios para patrones no entrenados que van del 1 al
10 %.
Finalmente, Tchistiakov et al. [468] han empleado en época reciente redes
neuronales artificiales para modelar conjuntos pequeños de datos espectrales en tres
situaciones diferentes: análisis cualitativo de mezclas complejas (con fines identificativos),
análisis semi-cuantitativo de un componente mayoritario y análisis cuantitativo y preciso
de compuestos minoritarios.
En relación con el segundo grupo de aplicaciones, la calibración multivariante no
lineal, el número de publicaciones que pueden encontrarse es muy elevado. A la hora de
ordenar los comentarios referidos a algunas de ellas, se hará teniendo en cuenta las
diferentes técnicas instrumentales empleadas para la obtención de los datos a calibrar.
En primer lugar, se hablará de las aplicaciones de ANNs a la calibración
multivariante no lineal de datos procedentes de sensores de masa como son las
microbalanzas de cristal de cuarzo (QCM), conocidas más comúnmente como sensores
piezoeléctricos. En este caso, hay que destacar los trabajos de Xing y He [469, 470]. El
primero de ellos trata sobre la determinación cinética de mezclas de vapores orgánicos con
sensores QCM individuales, utilizando ANN y PLS como técnicas de calibración. El
segundo se basa en la aplicación de series de sensores QCM recubiertos con éteres corona
para la detección de mezclas de vapores orgánicos, estableciendo al mismo tiempo una
comparación entre tres técnicas quimiométricas: ANN, PLS y NPLS (Non-linear Partial
Least-Square). Wei et al. [471] utilizaron también sensores QCM recubiertos, en este caso
con trietanolamina, con el fin de detectar de manera simultánea dióxido de azufre y
humedad relativa. Los errores medios relativos fueron inferiores al 10 % para el SO2 e
inferiores al 11,5 % para la humedad relativa.
Por otro lado, las ANNs se han empleado con fines de calibración en
espectroscopía. Por ejemplo, en espectrofluorimetría, cabe destacar el artículo de AmadorHernández et al. [472], en el que llevaron a cabo la resolución multicomponente de
hidrocarburos aromáticos policíclicos de gran interés medioambiental: benzo[a]pireno,
benzo[e]pireno,
benzo[ghi]perileno,
coroneno,
dibenzo[a,h]antraceno
e
indeno[1,2,3-
cd]pireno. Dentro del campo de la espectroscopía UV/Vis, las aplicaciones son aún más
Capítulo I
149
numerosas, como constatan los siguientes artículos [306, 473-476]. Dichas aplicaciones
van desde la calibración multivariante de cinco compuestos fenólicos (clorofenoles) [306],
pasando por la determinación simultánea de niobio y tántalo con 4-(2-piridilazo)resorcinol
[475] y de anilina y ciclohexamina [476], para llegar al uso de redes neuronales y análisis
de componentes principales en la determinación de hierro y níquel con naranja de xilenol
en muestras industriales [474]. Gemperline et al. [473] emplearon también la combinación
de PCA y ANN para el análisis multicomponente de compuestos farmacéuticos y de datos
espectroscópicos simulados. En algunos de los artículos anteriores, se establecieron
comparaciones con otras técnicas quimiométricas como la regresión por mínimos
cuadrados parciales, tanto lineal (PLS) como no lineal (NPLS), la regresión de
componentes principales (PCR) o la regresión pesada localmente (LWR: Locally Weighted
Regression).
Continuando con las técnicas espectroscópicas, pero ya en el caso de la
espectroscopía infrarroja, tanto en el infrarrojo cercano como en el medio, pueden
resaltarse los artículos de Bhandare et al. [477] para la determinación multivariante de
glucosa en sangre, o el de Poppi y Massart [392] para la calibración de diferentes conjuntos
de muestras espectroscópicas: desde poliéteres y polialcoholes hasta polímeros. Artículos
mucho más teóricos y generales, que tratan sobre el desarrollo de modelos de calibración
robustos para el procesado de datos no lineales, son los de Despagne [478], Blanco [479] y
Centner [311] et al. En ellos se explica el papel fundamental que juegan las ANNs frente a
otras técnicas empleadas comúnmente en la calibración.
En electroquímica son también muy abundantes las publicaciones que recogen el
uso de ANNs, junto con otras técnicas estadísticas, en calibración multivariante. Como se
ha explicado en un epígrafe anterior, el fenómeno de la superposición o solapamiento de
señales ocurre más comúnmente en voltamperometría que en cromatografía o la mayoría
de métodos espectroscópicos, puesto que la semianchura de una señal voltamperométrica
en forma de pico (unos 100 mV a la altura media) supone una fracción apreciable del rango
de potenciales accesible para esta técnica (normalmente 1500 mV). Por esta razón, no es
extraño encontrar un gran número de aplicaciones en este sentido.
Wehrens y van der Linden [480] aplicaron redes neuronales y PCA a la calibración
de una serie de sensores (microelectrodos) voltamperométricos, logrando buenos
resultados. Cladera et al. analizaron en varias publicaciones mezclas multicomponentes de
INTRODUCCIÓN
150
diversos metales como Pb2+, Tl+, In3+ y Cd2+, determinados mediante DPASV [481] y de
Pb2+ y Cd2+ en FIA con detección voltamperométrica [482], resolviendo ambos sistemas
con redes neuronales artificiales. Bessant et al. también resolvieron mezclas, en este caso
terciarias, de etanol, fructosa y glucosa [483] y de compuestos alifáticos [484],
determinadas ambas por voltamperometría en escalera de impulso dual (DPSV: Dual Pulse
Staircase Voltammetry). Otras series de compuestos, tales como fenoles (mezclas binarias
de catecol e hidroquinona) [155] o funguicidas (mezclas terciarias de captan, captafol y
folpet) [310], determinadas, de igual modo, voltamperométricamente, también han sido
resueltas mediante ANNs.
Otro ejemplo de aplicación de redes neuronales en electroquímica para calibración
multivariante lo constituye el reciente trabajo de Cukrowska et al. [156]. En este caso, se
comparan las mediciones de mezclas de citosina y adenina mediante dos técnicas
electroquímicas: polarografía de impulso diferencial y voltamperometría de barrido lineal.
La calibración multivariante, basada en un diseño de experimentos, dio como resultado una
correcta cuantificación de ambas especies, con errores absolutos medios siempre inferiores
con la segunda técnica para las dos bases nitrogenadas.
Finalmente, es necesario destacar el trabajo reciente de Ensafi et al. [485], en el que
emplearon una red neuronal basada en PCA para resolver mezclas de Cu2+ y Mo4+
determinados voltamperométricamente. Dicha determinación se basa en la formación de
sus complejos con cupferrón (N-hidroxi-N-nitrosobenceno). Una vez puesto a punto el
método, lo aplicaron a muestras reales: agua de río, agua del grifo y aleaciones, obteniendo
muy buenos resultados.
Otras técnicas instrumentales que se han beneficiado de las ventajas que presentan
las redes neuronales para la calibración multivariante son la electroforesis capilar [486] y
el análisis de inyección de flujo con detección óptica [487].
Relaciones cuantitativas de estructura-actividad (QSAR)
Otro de los campos de aplicación de las redes neuronales artificiales lo constituye el
estudio de relaciones cuantitativas de estructura-actividad, conocido más comúnmente por
las siglas QSAR. Estos estudios se basan en la construcción de modelos matemáticos que
Capítulo I
151
relacionan la actividad biológica de compuestos químicos con sus propiedades físicoquímicas.
Un ejemplo de este tipo de aplicaciones puede encontrarse en el artículo de RamosNino et al. [488], donde llevan a cabo una comparación QSAR de los efectos de los ácidos
benzoico y cinámico en Listeria monocytogenes, usando MLR, ANN y sistemas borrosos.
Héberger et al. [489] también compararon diferentes métodos quimiométricos
(MLR, PCR, LWR y ANN) con el fin de establecer modelos QSAR para predecir
constantes de velocidad y energías de activación de reacciones de adición radicalaria. Más
recientemente, Kauffman y Jurs [490] han desarrollado modelos neuronales usando QSAR
con el fin de predecir tensiones superficiales, viscosidades y conductividades termales de
213 disolventes orgánicos comunes. Los resultados del estudio desarrollado por ambos
autores son bastante congruentes con los obtenidos mediante métodos de predicción
publicados con anterioridad.
Para terminar, hay que destacar también los estudios de relación estructuraactividad de 17 á-acetoxiprogesteronas sustituidas realizados con PCA y ANN usando
parámetros físico-químicos calculados [491], así como también las predicciones de
estructura-toxicidad de pesticidas llevadas a cabo por Cai y Harrington [492] haciendo uso
de TCCCN.
Procesamiento de señales
Las redes neuronales también se utilizan en el procesamiento de señales.
Un ejemplo de esta aplicación lo constituye el trabajo de Bos et al. [493], en el que
procesan señales obtenidas mediante series de electrodos selectivos de iones mediante
ANN. Se hicieron determinaciones de iones K+, Ca2+, NO3 - y Cl-, donde los errores medios
relativos fueron del orden de ± 6 %, con un error del 20 % en el peor de los casos.
Más recientemente, Taib et al. [384] extendieron el rango de respuesta de un sensor
de pH de fibra óptica usando redes neuronales artificiales. Los errores obtenidos con el
modelo de red de tres capas optimizado fueron de 0,08 unidades de pH para el conjunto de
datos de validación y de 0,07 unidades para disoluciones tampón desconocidas. El rango
de pH fue extendido con éxito desde pH 5,0-7,25 hasta pH 2,51-9,76.
INTRODUCCIÓN
152
Finalmente, cabe destacar también la utilización de ANNs para la extracción de
información química gracias al procesamiento de espectros de infrarrojo cercano [494].
Más aplicaciones de redes neuronales para el procesamiento de señales pueden
encontrarse en [495-500].
Otras aplicaciones
Dentro de este apartado, se incluyen otros tipos de aplicaciones que no han podido
englobarse dentro alguno de los apartados descritos anteriormente.
De forma esquemática podríamos destacar las siguientes:
§
Deconvolución de picos solapados [501].
§
Evaluación de equilibrios de complejación [502, 503].
§
Caracterización de sistemas no lineales [504].
Si se desea obtener mayor información relacionada con la teoría, algoritmos y
aplicabilidad de las mismas se aconseja la lectura del siguiente libro [505]. En él se
examinan los aspectos matemáticos, probabilísticos, estadísticos y teórico-computacionales
subyacentes a las ANNs y sus aplicaciones. Se pueden encontrar referencias al aprendizaje
y entrenamiento de las redes, a mapas de autoorganización, tipos de redes neuronales y de
funciones de base, así como a cuestiones generales referidas a modelización de sistemas.
Por último, cabe resaltar el gran número de campos de aplicación a los que se hace
referencia en los ejemplos tratados.
CAPÍTULO II
Capítulo II
155
INSTRUMENTACIÓN, REACTIVOS Y PROCEDIMIENTOS
1) Aparatos Y Materiales
1.1. Aparatos
Para la realización del trabajo experimental, se emplearon los aparatos que a
continuación se describen:
§
Las medidas voltamperométricas de todas las especies químicas se
realizaron en un equipo potenciostato/galvanostato Autolab® PGSTAT20 de
Eco Chemie, conectado a un ordenador personal y a un modulo Stand VA
663 de Metrohm. Este módulo dispone de una plataforma de teflón con tres
orificios en los que se insertan el electrodo de trabajo, el electrodo de
referencia (Ag/AgCl/KCl 3M) y el electrodo auxiliar (varilla de platino).
Dicha plataforma sirve también como soporte a la celda electroquímica.
Además, en el caso en que se haga uso de un electrodo de mercurio, el
módulo consta de un selector que permite elegir la modalidad de
funcionamiento del mismo, así como el tamaño de la gota. El equipo
controla las operaciones llevadas a cabo en el módulo mediante el software
GPES versión 4.3 (General Purpose Electrochemical System). Dicho
programa realiza, entre otras funciones, la generación de las señales, la
adquisición de los datos y su tratamiento y almacenamiento.
§
Como electrodo de trabajo, se emplearon dos tipos de electrodo: el
electrodo Sonogel-Carbono y el electrodo de mercurio multimodal o MME
(Multi Mode Electrode). Éste último es una combinación de tres tipos de
electrodos de mercurio: electrodo de gota colgante de mercurio (HMDE),
electrodo de gotas de mercurio (DME) y electrodo de gota estacionaria de
mercurio (SMDE). La modalidad en la que se ha utilizado en el presente
trabajo es la de gota colgante o suspendida (HMDE: Hanging Mercury Drop
Electrode).
§
El sistema de electrodos se controla mediante el módulo DIO conectado al
Stand VA 663 Metrohm. Éste, además, permite influir en el proceso de
purga con nitrógeno, así como en la agitación, y activar también el tiempo
INSTRUMENTACIÓN, REACTIVOS Y PROCEDIMIENTOS
156
de goteo. La interfaz para el electrodo de mercurio se denomina IME y
proporciona todas las órdenes y conexiones necesarias para el mismo, así
como un sistema de martilleo para generar las gotas en los DME; de igual
modo, controla la salida de mercurio por el capilar mediante presión de
nitrógeno.
§
La síntesis de los sonosoles se llevó a cabo mediante insonación con un
generador de ultrasonidos de alta potencia Kontes, Modelo 600 WATT,
compuesto por un generador de frecuencia fija de 20 kHz, que proporciona
una potencia máxima de salida de 600 W, y un emisor piezoeléctrico de
PZT cuyas vibraciones son amplificadas por una sonda transductora de
titanio de 13 mm de diámetro. La dosis de energía por unidad de volumen
administrada por el aparato fue de 0,083 kJ·mL -1 .
Otros aparatos empleados fueron los siguientes:
§
Las medidas de pH se efectuaron en un pH-metro digital MicropH-2002
Crison con sensor de temperatura incorporado.
§
La agitación de las disoluciones se efectuó con un agitador magnético
Agimatic-P de Selecta.
§
Las diversas sustancias utilizadas se pesaron en una balanza analítica
modelo AE420 Mettler de dos campos (40 g, detección hasta 0,01 mg y 200
g, detección hasta 0,1 mg).
§
Se utilizó, en ocasiones, un baño de ultrasonidos Selecta.
1.2. Materiales
§
Para realizar las medidas voltamperométricas se emplearon celdas de 25 ml.
§
Se emplearon pipetas automáticas graduables BIOHIT (10-100 µl y 2001000 µl) para realizar las adiciones de disoluciones en la celda de medida,
para tomar las cantidades necesarias de precursores en la fabricación de los
soles, preparar disoluciones reguladoras, etc.
§
Durante el trabajo experimental, se hizo uso de material de vidrio diverso:
pipetas graduadas, vasos de precipitado, matraces aforados de distintos
volúmenes, tubos de ensayo, etc.
Capítulo II
157
§
Para fabricar los electrodos Sonogel-Carbono, se utilizaron capilares
comerciales de dimensiones: 1,15 mm de diámetro interno, 1,55 mm de
diámetro externo y 70 mm de longitud.
§
Para establecer el contacto eléctrico entre los electrodos y el módulo de
medida, se emplearon hilos de cobre.
§
En la etapa de pulido de los electrodos, se utilizaron lijas (Waterproof
Silicon Carbide Paper) de grano grueso P#220 ó P#320 y de grano fino
P#1200 de Struers.
2) Software
Para llevar a cabo el procesamiento y el tratamiento estadístico de las señales se
emplearon los paquetes de software que se enumeran a continuación: diversas versiones de
Matlab® acompañadas de varios de sus paquetes de herramientas (Wavelet Toolbox y PLS
Toolbox, fundamentalmente), Statistica® 5.1, Unscrambler® 7.01, MinitabT M Release 13.31
y Excel® 97 Pro. Como software de redes neuronales artificiales, Qwiknet® 3.2 y Qnet®
2000 fueron utilizados para clasificar patrones y obtener modelos neuronales de
calibración, respectivamente.
3) Reactivos Empleados
3.1. Especies orgánicas
Compuesto
Pureza Casa comercial
2-clorofenol
p.s.
FLUKA
4-clorofenol
p.s.
MERCK
2,4-diclorofenol
p.s.
MERCK
2,4,6-triclorofenol
p.a.
FLUKA
4-cloro-3-metilfenol
p.s.
MERCK
3.2. Especies inorgánicas
Ión Sal del ión Pureza Casa comercial
Tl+
TlNO3
Pb2+ Pb(NO3 )2
p.a.
MERCK
p.a.
MERCK
INSTRUMENTACIÓN, REACTIVOS Y PROCEDIMIENTOS
158
3.3. Especies de los electrodos y del sistema electroquímico
Especie
Pureza
Casa comercial
Metiltrimetoxisilano
p.s.
MERCK
Ácido clorhídrico 35%-ISO
p.a.
PANREAC
Grafito
Grado espectroscópico
GMBH
Metanol LiChrosolv
p.a.
MERCK
Etanol absoluto
p.a.
MERCK
Cloruro de potasio 3M
------
METROHM
Ácido bórico
p.a.
MERCK
Ácido ortofosfórico 85%
p.a.
MERCK
Ácido acético glacial
p.a.
MERCK
Hidróxido de sodio
p.a.
MERCK
Polietilenglicol
p.s.
SIGMA
Cloruro de potasio
p.a.
MERCK
Mercurio
p.a.
MERCK
Acetato amónico
p.a.
PANREAC
§
El nitrógeno utilizado para obtener atmósferas inertes y desairear las
disoluciones en la celda de medida procedió inicialmente de una botella
AIR-LIQUIDE tipo N-55 con válvula Alphagaz y una pureza del 99,9995%.
Posteriormente, se obtuvo desde un servicio centralizado de gases a través
de la misma válvula.
4) Preparación De Disoluciones
A continuación, se describen los procedimientos de preparación de las disoluciones
empleadas durante el desarrollo experimental de este trabajo.
4.1. Disoluciones de especies inorgánicas
Para el Tl+ y el Pb2+, se pesaron las cantidades necesarias de las sales de ambos
iones, TlNO3 y Pb(NO3 )2 , respectivamente, disolviéndose en 50 ml de agua Milli-Q, con el
fin de obtener disoluciones madre con una concentración final en el ión de 250 mg·L-1 .
Capítulo II
159
A partir de estas disoluciones madre, se prepararon por dilución otras de menor
concentración
cuando
fue
necesario,
de
las
cuales
se
realizaron
las
adiciones
correspondientes en función de la concentración deseada en la celda electroquímica.
Cuando
no
estaban
siendo
utilizadas,
dichas
disoluciones
se
conservaron
bajo
refrigeración.
4.2. Disoluciones de especies orgánicas
En el caso de las especies orgánicas utilizadas como analitos, se pesaron 0,0250 g
del compuesto y se llevaron a un matraz aforado de 50 ml, que fue enrasado con etanol. Se
obtenía así una concentración de 500 mg·L-1 . A partir de las mismas, también se
prepararon por dilución otras de menor concentración, utilizándose para realizar las
adiciones en la celda electroquímica. Del mismo modo, al igual que las disoluciones de
especies inorgánicas, su conservación se llevó a cabo bajo refrigeración.
4.3. Disolución de HCl
Para la elaboración del sol empleado en la construcción de los electrodos sol-gel,
fue necesario preparar una disolución de HCl de concentración 0,2M, partiendo de HCl
comercial al 35 % de pureza. Para un volumen de 50 ml, se tomaron 0,883 ml de HCl y se
enrasó en un matraz aforado con agua Milli-Q.
4.4. Reguladoras y otros medios electrolíticos
Reguladora ácido acético / acetato amónico
Para la preparación de un litro de reguladora CH3 COOH 2 M / CH3 COONH4 2 M,
se tomaron 154,164 g de acetato amónico y 114,61 ml de ácido acético y se llevaron a un
matraz aforado de dicho volumen, enrasando con agua Milli-Q. El pH final fue de 4,80 5,00.
Reguladora Britton-Robinson (0,04 M, I = 0,01)
Para la preparación de un litro, se llevaron a un matraz aforado de dicho volumen
2,3 ml de ácido acético glacial, 2,7 ml de H3 PO4 y 2,47 g de H3 BO3 , enrasando con agua
Milli-Q. Posteriormente, se añadieron lentejas de NaOH hasta alcanzar un valor de pH
igual a 4.
160
INSTRUMENTACIÓN, REACTIVOS Y PROCEDIMIENTOS
4.5. Disolución de polietilenglicol
Con el fin de modificar los electrodos Sonogel-Carbono, se preparó una disolución
de polietilenglicol. Para ello se diluyeron 2 g en 5 ml de agua Milli-Q.
5) Procedimiento De Preparación De Los Electrodos
Los electrodos sol-gel se prepararon siguiendo el procedimiento comentado
anteriormente en el Capítulo I, Epígrafe 3.3. Dicho procedimiento aparece descrito con
mayor profundidad en las siguientes referencias [1, 105, 128].
El esquema representado en la Figura I.3 del citado capítulo, indica las diferentes
etapas implicadas en la elaboración de los electrodos Sonogel-Carbono. Sin embargo,
aunque en el desarrollo de este trabajo se han empleado electrodos Sonogel-Carbono
modificados con polietilenglicol (PEG), el proceso de elaboración de los mismos es
idéntico al mencionado allí. La inclusión del modificante en el electrodo se realiza
directamente sobre el sol, una vez que se ha desencadenado la hidrólisis mediante la
aplicación de ultrasonidos, y previamente a la adición del grafito.
Por tanto, el esquema final de elaboración de los electrodos Sonogel-Carbono
modificados con polietilenglicol es el siguiente:
Capítulo II
Figura II.1.- Esquema de fabricación de los electrodos Sonogel-Carbono
modificados con PEG.
161
CAPÍTULO III
Capítulo III
165
CALIBRACIÓN MULTIVARIANTE DEL SISTEMA Tl+ / Pb2+
1) Características Del Sistema
1.1. El elemento talio
Antecedentes históricos
El talio fue descubierto espectroscópicamente por Crookes en 1861. Recibió su
nombre a partir de la línea verde del espectro que lo identificó como elemento. El metal
fue aislado por Crookes y Lamy, al mismo tiempo, en 1862.
Descripción
Es un metal blando (se corta con cuchillo), pesado, brillante (en corte reciente),
dúctil y maleable. En contacto con el aire desarrolla rápidamente un color gris-azulado,
que se parece al del plomo, al formarse el óxido. En presencia de agua forma el hidróxido.
Es insoluble en disoluciones alcalinas. Presenta dos modificaciones: á-talio (hexagonal)
que se transforma a temperaturas superiores a 232,2 ºC en â -talio (cúbica). Representa el
8,5H10-5 % en peso de la corteza terrestre. No se encuentra aislado, apareciendo siempre en
minerales de cobre, hierro (piritas), cinc y plomo. Los nódulos de manganeso encontrados
en el fondo del mar contienen talio. Pueden encontrarse minerales de talio (lorandita,
urbaita, crookesita y hutschinsonita), pero son muy raros y carecen de importancia
comercial.
Obtención
Actualmente se obtiene como subproducto de la industria del ácido sulfúrico: a
partir de los barros de las cámaras de plomo se precipita como cloruro o yoduro de talio (I)
de los cuales se obtiene por electrólisis. Alternativamente, en la tostación de blendas que
contienen talio se forman polvos volátiles de los que se extraen las combinaciones de talio
con agua caliente y se reducen con cinc. El metal se purifica electrolíticamente.
Aplicaciones
Algunas de sus aplicaciones más importantes son las siguientes:
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
166
§
Una aleación de mercurio y talio (forma eutéctica con 8,5 % de talio)
congela a -60 ºC.
§
Con azufre o selenio y arsénico se utiliza para producir vidrios de bajo
punto de fusión (funden entre 125 y 150 ºC) que tienen las mismas
propiedades, a temperatura ordinaria, que los vidrios ordinarios.
§
La industria de los semiconductores lo aplica en la producción de células
fotoeléctricas (sulfuro de talio) y como activador de cristales fotosensibles.
También se ha utilizado en contadores de centelleo.
§
La adición de talio a otros metales eleva su resistencia a la deformación y
corrosión.
§
Los cristales de bromuro-yoduro de talio se han usado como material óptico
infrarrojo.
§
El óxido de talio se usa para producir vidrios de alto índice de refracción.
§
El sulfato de talio (I) es incoloro, inodoro (por lo que no se detecta su
presencia) y muy venenoso; se empleaba como raticida e insecticida (su uso
está prohibido actualmente) [506-508].
§
El talio se ha usado para tratar la tiña y otras infecciones de la piel. Sin
embargo, es muy venenoso (también sus compuestos). En contacto con la
piel es peligroso. Los primeros síntomas son la caída del pelo y los
trastornos visuales. Se sospecha que es un carcinógeno potencial para el
hombre.
Toxicidad en seres humanos y mamíferos
Zartner-Nyilas et al. llevaron a cabo numerosos estudios sobre toxicidad [509]. El
talio es absorbido por el ser humano a través de la cadena alimentaria, la respiración y la
resorción dérmica. Por vía hemática se distribuye en todo el organismo y se acumula
preferentemente en el hígado, los riñones, las paredes intestinales y el tejido muscular. Una
acumulación adicional se produce en los huesos, piel, glándulas sudoríparas y sebáceas, en
las uñas, pelos y en todo el sistema nervioso. El talio también atraviesa la barrera
placentaria en las mujeres embarazadas, pudiendo de esta manera dañar al niño aún no
nacido. Se elimina a través de la orina y de las heces, y en menor medida también a través
del cabello, el sudor, las lágrimas, la saliva y la leche materna. El talio y sus compuestos
son extremadamente tóxicos. La intoxicación se manifiesta como caída del cabello,
Capítulo III
167
cataratas, degeneración de los nervios, alteraciones visuales, inhibición del crecimiento,
neuralgias y psicosis.
Toxicidad en plantas
El talio, como muchos otros metales pesados, es absorbido por las raíces de los
vegetales. Así, se acumula en el tejido foliar y en otras partes de las plantas, lo que puede
desembocar en efectos fitotóxicos. Las lesiones se manifiestan como clorosis de las hojas
así como necrosis intercostal y/o del borde del limbo foliar. La intensidad y extensión de
los daños varía según la especie vegetal. Llama poderosamente la atención la resistencia
que presentan algunas especies de plantas, habiéndose constatado que las plantas de hojas
duras resultan menos dañadas que las que tienen una superficie blanda y pilosa.
Comportamiento en el medio ambiente
§
Agua: al igual que otros metales pesados, el talio se acumula en los
sedimentos.
§
Suelo: poco se sabe hasta la fecha sobre la persistencia del talio en el suelo.
Incluso el sulfato de talio sólo es deslavado en escasa medida. El bajo
contenido de talio en el agua subterránea, incluso en las inmediaciones de
focos emisores, apoya la suposición de que el suelo es una importante
trampa de acumulación.
§
Cadena alimentaria: ciertas especies vegetales (por ejemplo, la berza o el
brócoli) acumulan grandes cantidades de talio que absorben del suelo; dicha
acumulación se propaga posteriormente a través de la cadena alimentaria.
La EPA (Environmental Protection Agency, EEUU) estableció en 1973 los
siguientes estándares ambientales para el agua de mar:
§
Umbral de riesgo: 0,01 mg·L-1 .
§
Riesgo mínimo: 0,05 mg·L-1 .
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
168
1.2. El elemento plomo
Antecedentes históricos
Mencionado en el Éxodo; los romanos lo utilizaban en grandes cantidades para la
conducción de agua. Los alquimistas creían que el plomo era el metal más antiguo y lo
asociaban con el planeta Saturno.
Descripción
Es un metal blanco azulado, brillante, muy blando, muy maleable, dúctil y pobre
conductor de la electricidad y el calor. Funde a 327 ºC, generando vapores de alta
toxicidad. Al aire forma rápidamente una capa protectora de color gris de carbonato básico
que impide la corrosión posterior: las tuberías de plomo usadas por los romanos para sus
baños todavía están en uso; por eso mismo se usa en recipientes para líquidos corrosivos
(ácido sulfúrico). Finamente dividido se inflama espontáneamente al aire. El agua ataca al
plomo en presencia de oxígeno; sin embargo las aguas duras forman un recubrimiento de
carbonato básico insoluble. Fenómenos de pasivación se producen con los ácidos sulfúrico
y fluorhídrico diluidos. El ácido sulfúrico concentrado, nítrico diluido, clorhídrico, ácidos
orgánicos y las bases en caliente atacan el plomo. En caliente se combina con el azufre y
los halógenos. Puede endurecerse por adición de pequeñas cantidades de antimonio u otros
metales. Representa el 1,4×10-3 % en peso de la corteza terrestre. Se encuentra nativo en
algunos minerales férricos de Suecia y en yacimientos auríferos. Entre sus minerales
destaca la galena (sulfuro de plomo), que forma cristales cúbicos de gran tamaño. Otros
(sin valor económico) son la anglesita, cerusita, minio, piromorfita, boulangerita, crocoíta,
wulfenita, etc.
Obtención
El metal se obtiene a partir de los sulfuros minerales, los cuales se enriquecen
mediante trituración, flotación y desecación; el concentrado se tuesta y sinteriza en un
horno; así se obtiene PbO y SO2 , que se utiliza en la obtención de ácido sulfúrico. El PbO
se reduce con coque a plomo metal impuro: plomo bruto (plomo de obra). Con menas ricas
en PbS se sigue un procedimiento distinto: después de la concentración, se tuesta sólo
parcialmente y el PbO se hace reaccionar con PbS en ausencia de aire, lo que produce
plomo bruto. El plomo bruto se somete a refinado para eliminar las impurezas
Capítulo III
169
(principalmente de cobre, estaño, antimonio, arsénico y metales preciosos) por métodos
pirometalúrgicos o electrolíticos.
Aplicaciones
§
El metal es muy efectivo en la absorción de sonido y vibraciones
(insonorización de máquinas) y se emplea como blindaje para la radiación
en reactores nucleares y en equipos de rayos X.
§
Grandes cantidades de plomo y de su dióxido se emplean en baterías.
§
Se utiliza en gran medida en la fabricación de municiones.
§
También se emplea como recubrimiento de cables, en fontanería y aparatos
químicos y se ha utilizado hasta fechas recientes para la fabricación de
plomo tetraetilo, usado como aditivo antidetonante en las gasolinas.
§
Sus aleaciones se emplean en soldadura (Pb-Sn), caracteres de imprenta
(Pb-Sn-Sb) y varios metales antifricción (Pb-Sb).
§
Pasivado se utiliza para el transporte de ácido sulfúrico concentrado.
§
Con respecto a los compuestos de plomo, tanto orgánicos como inorgánicos:
el óxido de plomo (II) se usa en la producción de vidrios de alto índice de
refracción para la fabricación de lentes acromáticas; el carbonato de plomo,
el plomo blanco (Pb3 (OH)2 (CO3 )2 ) y el cromato de plomo (amarillo de
cromo), se usan como pigmentos en pinturas; el sulfato se usa como
diluyente del cromato de plomo y como sustrato en barnices; los sulfatos
básicos de plomo (por ejemplo 3·PbO·PbSO4 ·H2 O) son estabilizantes
térmicos de resinas vinílicas; el nitrato de plomo se emplea en pirotecnia; el
minio mezclado con aceite de linaza se emplea como pintura antioxidante;
el sulfuro de plomo (II) tiene propiedades semiconductoras y se utiliza en
células fotoeléctricas; y, por último, el arseniato de plomo se ha usado como
insecticida.
Toxicidad en seres humanos y mamíferos
El plomo puede incorporarse al organismo por inhalación de polvos o por consumo
de alimentos que contienen plomo o, en el caso de los vegetales, a través de sales de plomo
solubles contenidas en el suelo. Si bien la inhalación es la vía de entrada más importante
para las personas expuestas en razón de su profesión (aproximadamente el 30-50% del
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
170
plomo que se inhala queda retenido en los pulmones (OMS: Organización Mundial de la
Salud, 1987)), el común de la población lo incorpora al organismo a través de la ingesta
(440-550 mg/día) y resorción en el tracto gastrointestinal, depositándose comúnmente en
los huesos. También se comprobó que el plomo ingresa al cuerpo humano en grandes
cantidades a través del consumo de agua potable (cañerías de plomo), unos 20 mg por día
(DFG, Deutsche Forschungsgemeinschaft: Consejo Alemán de Investigaciones, 1982).
El plomo inhibe la actividad de varias enzimas del metabolismo hemoglobínico, lo
que reduce el balance de oxígeno y el volumen respiratorio. También disminuye la
actividad del ácido D-aminolevulínico-dehidratasa en los eritrocitos. Se producen efectos
nocivos al absorber durante un tiempo prolongado incluso cantidades inferiores a 1 mg/día.
Signos de intoxicación crónica son los depósitos de plomo en el borde de las encías,
cólicos y espasmos. Apatía, irritabilidad, insomnio y, en algunos casos, perturbaciones del
comportamiento en los niños, indican una afección del sistema nervioso. El plomo pasa por
la placenta y se acumula en el feto.
Se estima que el límite superior del nivel de plomo en sangre, con el que todavía no
se ve afectada al salud, es de 35 mg Pb/100 ml de sangre para los adultos y de 30 mg
Pb/100 ml para niños y mujeres embarazadas. La OMS aplica un valor límite de 100 mg
Pb/100 ml de sangre, valor que en la mayoría de los países es considerablemente más bajo.
Los
compuestos
inorgánicos
del
plomo
son
resaborbidos
en
el
tracto
gastrointestinal. Los niños reabsorben el plomo más fácilmente que los adultos (DVGW,
Deutscher Verein des Gas- und Wasserfachs: Unión Alemana de Distribuidores de Gas y
de Agua, 1985). Un 90% del plomo reabsorbido se liga a los eritrocitos y de este modo se
distribuye por todo el cuerpo. Se deposita fundamentalmente en los huesos.
Aproximadamente el 90% del plomo ingerido por boca vuelve a eliminarse, 7580% por vía renal (MERIAN, 1984). Una pequeña parte se deposita en el pelo y en las
uñas, se exuda con la transpiración o se acumula en la leche materna.
El plomo tetraetilo y el plomo tetrametilo son compuestos altamente tóxicos.
Debido a sus propiedades lipófilas son rápidamente absorbidos a través de la piel. Actúan
primariamente sobre el sistema nervioso central causando excitación, espasmos epilépticos
y delirio. Pueden presentarse cuadros de parálisis y la enfermedad de Parkinson como
Capítulo III
171
efectos retardados. La toxicidad se debe fundamentalmente al ión trietilplomo que se forma
cuando se descompone esta sustancia. Cuando se alquilan, pueden resultar carcinógenos.
La exposición crónica puede conducir a la intoxicación plúmbica.
El tiempo de vida media biológica varía considerablemente: en sangre oscila entre
20 a 40 días; en huesos, en cambio, puede permanecer hasta varios años (OMS, 1987).
Toxicidad en plantas
Las plantas absorben el plomo fundamentalmente del suelo y solamente pequeñas
cantidades del aire. Esta sustancia tiene efectos nocivos sobre el crecimiento. Si bien al
principio de una aplicación el crecimiento se intensifica, a partir de los 5 ppm se produce
un considerable retraso del crecimiento acompañado de decoloración y anomalías
morfológicas (UBA: Umweltbundesamt (Oficina Federal Alemana de Medio Ambiente),
1976). La fotosíntesis, la respiración y otros procesos de intercambio metabólico se ven
perturbados. Finalmente, el plomo inhibe la asimilación de nutrientes esenciales del suelo.
El crecimiento de las plantas superiores sólo se ve afectado en forma reducida por el Pb2+.
En términos generales la calidad se deteriora más que la cantidad producida y, en
comparación con los efectos sobre el ser humano, la fitotoxicidad del plomo es
relativamente baja.
Comportamiento en el medio ambiente
§
Agua:
los
cuerpos
de
agua
superficiales
constituyen
trampas
de
acumulación para los compuestos de plomo. Los compuestos insolubles se
hunden y se adsorben en los sedimentos o se adhieren a partículas en
suspensión (especialmente a arcillas). Las plantas acuáticas también
acumulan plomo. La oxidación bioquímica de las sustancias orgánicas se ve
inhibida por concentraciones de plomo superiores a 0,1 mg·L-1 ; asimismo, a
partir de los 0,2 mg·L-1 de plomo se reduce la fauna. El umbral de la
toxicidad para los peces es 0,3 mg·L-1 de plomo (truchas y peces blancos)
(DVGW, 1985). El agua subterránea se ve afectada por los compuestos de
plomo hidrosolubles, como por ejemplo el cloruro de plomo y el nitrato de
plomo. Se sabe, sin embargo, que el agua potable conducida por cañerías de
plomo contiene altas concentraciones de dicho metal. El plomo no se ve
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
172
afectado químicamente por el agua a bajas concentraciones de oxígeno. En
las cañerías de plomo el agua rica en carbonatos forma depósitos de
carbonato de plomo en las paredes interiores de los conductos.
§
Aire: grandes cantidades de plomo se liberan a la atmósfera a través de
procesos de combustión, distinguiéndose claramente la diferencia entre
áreas urbanas y rurales. Los compuestos de plomo pueden ser transportados
a grandes distancias según la velocidad del viento, su dirección, las
precipitaciones y la humedad. Sin embargo, la mayor parte del plomo de la
atmósfera se deposita directamente o es arrastrada por las precipitaciones.
El plomo se liga en la atmósfera a pequeñas partículas de polvo, que luego
se depositan sobre la vegetación y el suelo. El plomo de los gases de escape
de los vehículos se deposita en la inmediata proximidad de calles y
carreteras. El tiempo de permanencia medio en la atmósfera para el plomo
es de aproximadamente entre 7 y 30 días (Fathi & Lorentz, 1980).
§
Suelo: la tasa de absorción depende de las propiedades de los suelos. Existe
una gran afinidad con las sustancias húmicas. El pH juega un papel
importante para la disponibilidad del plomo contenido en sus compuestos:
cuanto más bajo el pH, tanto más alta es su desorción a la solución de suelo.
Pero, puesto que el plomo es muy poco móvil (menos móvil que, por
ejemplo, el cadmio) permanece en los horizontes superiores y no es
asimilado en la misma medida que el cadmio por las plantas, por lo que los
suelos resultan ser una importante trampa para los compuestos del plomo.
Una contaminación adicional se produce cuando se distribuyen lodos de
clarificación con contenido de plomo sobre las tierras de cultivo.
§
Cadena alimentaria: debido a su distribución generalizada, se encuentran
compuestos de plomo en todos los alimentos y forrajes. Los alimentos de
origen vegetal contienen en general más plomo que los de origen animal.
Esto ocurre porque las plantas están especialmente expuestas a las
inmisiones de polvo con contenido de plomo, el cual se adhiere a sus
superficies y se consume junto con ellas. En los organismos superiores, las
mayores concentraciones de plomo se hallan en los órganos internos
(hígado y riñones). En los sistemas acuáticos, la concentración aumenta de
la siguiente manera: agua < presas de los peces < peces < sedimentos
(DVGW, 1985).
Capítulo III
173
2) Antecedentes En El Estudio De Mezclas De Tl+ y Pb2+
El sistema binario constituido por los iones metálicos Tl+ / Pb2+ es bastante
conocido. Como se desprende de lo comentado en el epígrafe anterior, la importancia que
presenta la detección de ambos iones es fundamental. Por tratarse de metales pesados, son
altamente contaminantes a casi todos los niveles medioambientales y su peligrosidad para
la salud de los organismos vivos es bastante elevada. De igual modo, puede comprobarse
que entre talio y plomo existe un gran paralelismo, en el sentido en que el primero suele
aparecer como impurezas del segundo, y también por lo que respecta a su toxicidad, ya que
ambos originan cuadros de síntomas por intoxicación casi idénticos.
Por estos motivos se han llevado a cabo un gran número de estudios relacionados
con la determinación de los mismos, así como de otros metales pesados como In3+ y Cd2+,
en diferentes tipos de matrices, tanto de forma individual como en mezclas.
Así, podemos destacar el trabajo de Hafez y Khalifa [510], en el cual se llevó a
cabo la determinación de Pb2+, Cd2+ y Tl3+ o Hg2+ o As5+ (como AsO 4 3-) en mezclas
realizadas en el laboratorio, similares a las de algunos minerales y aleaciones de dichos
metales. El método de análisis desarrollado para diferentes mezclas ternarias de los iones
antes mencionados se basó en una estrategia de valoraciones complexométricas sucesivas,
empleándose diversos agentes complejantes, según el catión, y utilizándose como
indicadores metalocrómicos el naranja de bromocresol y el naranja de xilenol. Los
resultados fueron bastante satisfactorios y estuvieron de acuerdo con los obtenidos en los
experimentos llevados a cabo mediante espectroscopía de absorción atómica.
Una de las técnicas instrumentales más utilizadas para la determinación de metales
pesados como talio y plomo, además de algún otro, es la voltamperometría o la
polarografía. Por ejemplo, Wilgocki y Cyfert [511] determinaron polarográficamente y de
manera directa Tl+, Pb2+ y Cd2+, basándose en una reacción de complejación con
etanodiamina e ión hidroxilo. Ciszewski et al. [512] utilizaron DPASV para determinar
talio en muestras de cabello de personas que se encontraban en contacto permanente con
plomo (plomo y talio van siempre juntos, como se ha comentado en el epígrafe anterior)
dentro de su ambiente de trabajo. Lu et. al [513] emplearon voltamperometría de
redisolución anódica de onda cuadrada para medir trazas de Tl+ en disolución acuosa,
utilizando un electrodo de película de mercurio modificado con nafión. Y, finalmente,
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
174
Mikkelsen y Schrøder [514] han monitorizado recientemente metales pesados (zinc,
cadmio, talio y plomo) en vinos y bebidas espirituosas (brandy) gracias a un electrodo de
su invención, obteniendo resultados bastante concordantes con los ofrecidos por la
espectroscopía de absorción atómica.
Sin
embargo,
la
voltamperometría
y
la
polarografía
presentan
un
grave
inconveniente a la hora de realizar medidas de analitos, ya sean orgánicos o inorgánicos.
Esta importante desventaja consiste en la ausencia de selectividad existente en ambas
técnicas (ver Capítulo I, Epígrafe 6). Volviendo al ejemplo de determinación de mezclas de
metales pesados, a menos que se empleen sustancias complejantes [511, 515], se aplique
una estrategia adecuada para medir los analitos en varias etapas sucesivas [510] o se lleven
a cabo manipulaciones experimentales relacionadas con el pH, el electrolito soporte o la
modificación del electrodo de trabajo, la determinación simultánea y directa de las
sustancias implicadas es virtualmente imposible, como consecuencia del solapamiento de
las señales entre sí. En estos casos, la utilización de técnicas quimiométricas supone
prácticamente el último recurso.
En la bibliografía, puede encontrarse un gran número de técnicas quimiométricas
diferentes que permiten establecer modelos de calibración multivariante con el fin de
resolver sistemas multianalito (binarios, ternarios o cuaternarios) que contienen metales
pesados como Tl+, Pb2+, Cd2+ e In3+. Algunas de las técnicas estadísticas aplicadas más
comúnmente son las siguientes:
§
Ajuste de curvas [137, 172].
§
Deconvolución por transformada de Fourier [136, 166, 168].
§
Derivación de voltamperogramas [516].
§
Método de los espectros cocientes [173, 517].
§
Filtro Kalman [139, 140, 142, 518], cuya explicación teórica puede
encontrarse en [519].
§
Regresión continua (CR; Continuum Regression) [150].
§
Método de las adiciones estándar [287, 520].
§
Resolución de curvas multivariante (MCR; Multivariate Curve Resolution)
[143, 359].
§
Regresión por mínimos cuadrados clásica e inversa (CLS, ILS) [142].
§
Redes neuronales artificiales [481, 482].
Capítulo III
175
§
Transferencia de calibración junto con PLS [151].
§
Algoritmos complejos basados en la selección de características mediante
transformadas wavelet acopladas con PLS y MLR [521].
La calibración multivariante de mezclas de talio y plomo llevada a cabo en el
presente trabajo tiene como objetivo la aplicación de algunas de las técnicas
quimiométricas enumeradas anteriormente, combinadas de algún modo entre sí, con el fin
de contribuir a la resolución de dicho sistema electroquímico de manera novedosa.
3) Descripción Del Método Experimental
La técnica voltamperométrica empleada para llevar a cabo la determinación de
ambos iones metálicos, Tl+ y Pb2+, tanto para cada uno de ellos por separado (señales
individuales)
como
para
las
mezclas
constituidas
por
ambos
cationes,
fue
la
voltamperometría de redisolución anódica de impulso diferencial o DPASV. El intervalo
de concentraciones en el que fueron medidos fue de 0,1 a 1,0 mg·L-1 , en incrementos de
0,1 mg·L-1 . Merece la pena resaltar que estas concentraciones son inferiores a las utilizadas
en la mayor parte de las referencias señaladas previamente.
La determinación se llevó a cabo en un medio tampón formado por una reguladora
de ácido acético (2 M) / acetato amónico (2 M). La elección del citado medio se realizó
con vistas a obtener una señal lo más definida y con la mayor intensidad posible, de
acuerdo con la concentración existente en la disolución para cada una de las especies por
separado. Así, en este medio y de acuerdo con la bibliografía [522], el Tl+ debería
presentar un potencial de pico situado a -0,43 V y el Pb2+ a -0,46 V aproximadamente,
ambos bastante bien definidos.
Inicialmente, en todos los casos, se aplicó al microelectrodo un potencial catódico
constante de -1,3 V, el cual provocó que tanto los iones Tl (I) como los iones Pb (II) se
redujeran y se depositasen como metales, formando una amalgama con el mercurio del
electrodo. Los procesos catódicos son los siguientes:
Pb2+ + 2 eTl+ + e-
Pb-Hg
Tl-Hg
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
176
El electrodo se mantuvo a este potencial durante varios minutos hasta obtener una
cantidad significativa de los dos metales depositada sobre la superficie de la gota de
mercurio del electrodo. Se detuvo, entonces, la agitación durante unos 20 s, tiempo
empleado para equilibrar y estabilizar el electrodo y la disolución. Finalmente, el potencial
del electrodo se hizo variar linealmente hacia potenciales cada vez menos negativos,
mientras que la intensidad de la celda se registraba en función del potencial. Paralelamente
a esta disminución lineal del potencial, se superpusieron una serie de escalones o de
impulsos de potencial, expresados en mV, de determinado valor, que constituyen la base de
la técnica voltamperométrica.
Para el caso de la determinación individual del ión Pb2+, a un potencial algo menos
negativo de -0,7 V el metal comienza a oxidarse, causando un aumento brusco de la
intensidad hasta alcanzar un máximo a aproximadamente -0,52 V, proporcional a la
cantidad de plomo presente en la gota, disminuyendo posteriormente a su nivel original. Lo
mismo sucede con el Tl+ y con las mezclas de ambos cationes, excepto por un
desplazamiento
del
máximo
de
intensidad
del
pico,
los
cuales
se
obtienen
aproximadamente a -0,50 y -0,51 V, respectivamente. Como puede comprobarse, las
señales obtenidas para ambos iones aparecen algo desplazadas hacia potenciales más
negativos con respecto a los datos que aparecen en la bibliografía [527] (-0,43 V para el
Tl+ y -0,46 V para el Pb2+).
Las reacciones que se producen en la etapa de redisolución son las siguientes:
Pb-Hg
Tl-Hg
Pb2+ + 2 eTl+ + e-
Cuando se superponen los voltamperogramas de ambos metales y el de la mezcla
correspondiente, como aparece reflejado en la Figura III.1, puede observarse la diferencia
tan pequeña que existe entre la posición de los picos de los dos analitos. Como
consecuencia de esto, si analizamos mediante voltamperometría una disolución que
contiene las dos especies, ambas se manifiestan como un único pico cuya intensidad
máxima es aproximadamente la suma de las intensidades de los picos que se obtienen al
determinar cada una de ellas de forma individual. En resumen, podría afirmarse que se
produce un solapamiento muy severo entre las señales de talio y plomo. Por ello, se hace
Capítulo III
177
necesaria la separación de los metales a la hora de analizar la concentración de dichos
cationes en la disolución que se está tratando.
Figura III.1.- Superposición de los voltamperogramas de Tl+ a 1,0 mg·L-1 ,
Pb2+ a 1,0 mg·L-1 y de la mezcla de ambos.
3.1. Parámetros empleados en la determinación voltamperométrica
La DPASV fue desarrollada en un aparato Autolab®/PGSTAT20, descrito ya
anteriormente. Los parámetros principales utilizados en la determinación fueron los
siguientes:
Etapa de purga
§
Tiempo de purga (con N2 ) = 300 s (cuando fue necesario, fundamentalmente con fines de homogeneización).
Etapa de electrodeposición
§
Potencial de deposición = -1,3 V.
§
Tiempo de deposición = 120 s.
§
Tiempo de equilibrio = 20 s.
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
178
Etapa de redisolución y medida
§
Potencial inicial = -1,3 V.
§
Potencial final = 0 V.
§
Velocidad de barrido = 8,5 mV·s-1 .
§
Amplitud de impulso = 0,10 V.
§
Tiempo de impulso = 0,07 s.
§
Tiempo de repetición del impulso = 0,6 s.
Otros parámetros
§
Tamaño de gota = posición 3 (máximo) del Stand VA 663 de Metrohm, que
equivale a un área de 0,52 mm2 ± 10 %.
3.2. Procedimiento experimental
El procedimiento experimental utilizado fue el que aparece descrito a continuación:
1. Una vez elegido y determinado el programa de aplicación de la técnica de
DPASV, se colocó la celda electroquímica en el Stand VA 663 de Metrohm
con 25 ml de reguladora ácido acético (2 M) / acetato amónico (2 M) y se
procedió a ejecutar la programación elaborada con los parámetros descritos
anteriormente.
2. Se hizo pasar un flujo de N2 a través de la misma durante 300 segundos,
para eliminar el oxígeno disuelto en la disolución (cuando fue necesario).
3. Seguidamente, se llevó a cabo la etapa de electrodeposición anteriormente
descrita.
4. Después y, tras un tiempo de estabilización de unos 20 segundos, se
continuó el proceso con la etapa de medida, que culminó con la obtención
de un gráfico de intensidad-potencial para el fondo de la reguladora, el cual
fue almacenado en un archivo con formato ASCII.
5. A continuación se añadió el patrón a medir o las sustancias que componían
la mezcla y se continuó el procedimiento por el apartado 2.
6. El resultado consistió también en un archivo que contenía pares de valores
intensidad-potencial, correspondientes a un patrón de Tl+, Pb2+ o bien a una
mezcla de ambas especies. Al mismo tiempo, el ordenador suministró la
Capítulo III
179
información relacionada con los parámetros de la señal obtenida: el
potencial al que aparece el máximo del pico, la intensidad máxima del
mismo, su semianchura y el área, así como también el valor de la derivada.
7. Finalmente, todos los archivos obtenidos recibieron un formato más
adecuado para su posterior tratamiento matemático.
4) Resultados De La Determinación Voltamperométrica
A la hora de aplicar el procedimiento descrito, se determinaron experimentalmente
40 muestras diferentes, las cuales se distribuyeron como se especifica a continuación:
§
10 muestras del patrón de Tl+ puro.
§
10 muestras del patrón de Pb2+ puro.
§
20 muestras mezclas de ambos iones.
Algún tiempo después, el mismo procedimiento fue también empleado para obtener
8 nuevas mezclas de ambos cationes, la cuáles fueron utilizadas como mezclas externas de
comprobación (test set externo) con el fin de verificar la capacidad predictiva de los
modelos de calibración previamente desarrollados.
En definitiva, el número total de muestras fue de 48, siendo la disposición y las
concentraciones de cada una de ellas las que aparecen representadas en la Tabla III.1:
T1
T2
T3
T4
T5
P1 T1P1
P2
T7
T8
T6P1
T2P2
P3
T3P3
T5P3
T3P5
T10P2
T8P3
T9P4
T5P5
P6 T1P6
P7
T10P5
T6P6
T2P7
P8
P10
T6P8
T4P9
T2P10
+
2+
T8P6
T7P7
T3P8
P9 T1P9
T10
T9P1
T4P4
P5
T9
T7P2
P4
T
T6
T8P8
T9P9
T5P10
Tl ; P Pb ; y los números indican la concentración de los patrones: 1
0,2 mg·L-1 , ..., 10 1 mg·L-1 .
T10P10
0,1 mg·L-1 , 2
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
180
Tabla III.1.- Composición de las muestras de calibración: patrones puros
de talio (10); patrones puros de plomo (10); mezclas de calibración (20);
mezclas de comprobación (8).
La tabla anterior fue diseñada con el fin de elegir dos mezclas para cada valor de
concentración de talio y plomo.
Para cada una de las muestras descritas anteriormente se obtuvo su correspondiente
voltamperograma por triplicado, constituido inicialmente por 259 puntos. A partir de las
réplicas se obtuvo el voltamperograma medio en cada caso, el cual fue finalmente
sometido a una corrección de volumen punto por punto. Para su posterior tratamiento
matemático, dichos voltamperogramas medios corregidos fueron recortados hasta 80
puntos, en el intervalo de potenciales desde -0,70 hasta -0.30 V (incrementos de 51 mV).
4.1. Patrones puros de talio y plomo
En
la
Figura
III.2,
aparecen
superpuestos
todos
los
voltamperogramas
correspondientes a los patrones puros de talio y plomo en el intervalo de concentraciones
investigado. Son dos grupos de diez voltamperogramas (promediados y corregidos), uno
para cada ión. Dentro de cada grupo, las señales electroquímicas difieren unas de otras en
un valor de concentración de 0,1 mg·L-1 :
Capítulo III
181
Figura III.2.- Voltamperogramas de los patrones puros de Tl+ y Pb2+, en
el intervalo de concentraciones de 0,1 a 1,0 mg·L-1 .
A partir de los patrones puros de ambos cationes, se obtuvieron sendas curvas de
calibrado, las cuales aparecen recogidas en la Figura III.3:
Figura III.3.- Rectas de calibración de los patrones puros de Tl+ y Pb2+,
en el intervalo de concentraciones de 0,1 a 1,0 mg·L-1 .
4.2. Mezclas de los patrones de talio y plomo
En la Figura III.4, se representan los voltamperogramas, también promediados y
corregidos, correspondientes a las diferentes mezclas de talio y plomo determinadas de
acuerdo con el diseño establecido en la Tabla III.1 y siempre dentro del intervalo de
concentraciones investigado. En este caso, los voltamperogramas se distribuyen en dos
grupos: el primero está constituido por 20 mezclas, las cuales fueron utilizadas durante el
proceso de calibración y, el segundo, formado por 8 mezclas, integraron el conjunto de
comprobación o test set externo.
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
182
Figura III.4.- Voltamperogramas de las mezclas de Tl+ y Pb2+ para el
conjunto de calibración y el test set externo.
Por último, además de los voltamperogramas que se han mostrado anteriormente,
también se determinaron los valores de los parámetros de pico en cada caso. De este modo,
el software del potenciostato/galvanostato Autolab® PGSTAT20 suministró los siguientes
parámetros:
§
Posición (V): potencial al que aparece el máximo de intensidad del pico.
§
Altura (nA): valor del máximo de intensidad del pico.
§
Área (u.a.): área del pico corregida por la línea base.
§
Semianchura (V): diferencia entre el potencial del máximo del pico y el
potencial a la altura media del mismo.
§
Derivada (A): la suma de los valores absolutos del máximo y del mínimo
en la derivada del pico.
En las tablas siguientes, se recogen los valores de los parámetros definidos
anteriormente para cada una de las muestras que aparecen representadas en la Tabla III.1.
Los valores de concentración de ambos iones presentan la corrección de volumen.
Capítulo III
183
Parámetros para las muestras del patrón Tl+ puro
Muestra Potencial (V) Intensidad (nA) Área (10-8 ) Semianchura (V) Derivada (10-7 A) [Tl+] [Pb2+]
T1
-0,494
22,937
0,276
0,111
5,742
0,10 0,00
T2
-0,494
51,603
0,626
0,111
12,917
0,20 0,00
T3
-0,497
79,307
0,966
0,114
19,887
0,30 0,00
T4
-0,487
107,467
1,282
0,111
26,923
0,39 0,00
T5
-0,494
139,000
1,680
0,116
34,340
0,49 0,00
T6
-0,491
171,633
2,075
0,114
42,397
0,59 0,00
T7
-0,492
200,600
2,424
0,113
49,963
0,68 0,00
T8
-0,486
231,800
2,790
0,111
56,363
0,78 0,00
T9
-0,489
254,933
3,065
0,111
62,943
0,87 0,00
T10
-0,492
291,333
3,551
0,116
73,103
0,96 0,00
Tabla III.2.- Valores de los parámetros de pico para las muestras de Tl+.
Parámetros para las muestras del patrón Pb2+ puro
Muestra Potencial (V) Intensidad (nA) Área (10-8 ) Semianchura (V) Derivada (10-7 A) [Tl+] [Pb2+]
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
-0,525
-0,523
-0,522
-0,525
-0,520
-0,520
-0,520
-0,523
-0,520
-0,520
40,973
74,553
106,233
139,500
178,433
209,333
243,100
280,833
311,833
341,233
0,410
0,750
1,064
1,398
1,790
2,102
2,441
2,820
3,125
3,423
0,096
0,096
0,096
0,096
0,098
0,096
0,096
0,098
0,096
0,096
15,640
28,497
40,463
53,203
68,223
80,167
93,090
107,267
119,500
131,067
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,10
0,20
0,30
0,39
0,49
0,59
0,68
0,78
0,87
0,96
Tabla III.3.- Valores de los parámetros de pico para las muestras de Pb2+.
Parámetros para las mezclas de calibración
Muestra Potencial (V) Intensidad (nA) Área (10-8 ) Semianchura (V) Derivada (10-7 A) [Tl+] [Pb2+]
T1P1
-0,509
65,520
0,736
0,106
20,667
0,10 0,10
T6P1
-0,496
215,300
2,534
0,111
54,903
0,58 0,10
T2P2
-0,506
127,300
1,427
0,106
40,110
0,20 0,20
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
184
Muestra Potencial (V) Intensidad (nA) Área (10-8 ) Semianchura (V) Derivada (10-7 A) [Tl+] [Pb2+]
T7P2
-0,502
274,900
3,225
0,111
75,937
0,68 0,19
T3P3
-0,506
189,367
2,133
0,106
59,873
0,29 0,29
T8P3
-0,499
342,900
3,992
0,111
97,627
0,77 0,29
T4P4
-0,509
247,767
2,775
0,106
79,240
0,39 0,39
T9P4
-0,504
396,667
4,593
0,111
114,767
0,86 0,38
T5P5
-0,504
329,067
3,706
0,106
103,567
0,48 0,48
T10P5
-0,504
474,833
5,473
0,111
139,633
0,94 0,47
T1P6
-0,522
235,100
2,458
0,101
85,880
0,10 0,58
T6P6
-0,504
383,900
4,329
0,106
120,133
0,57 0,57
T2P7
-0,515
299,000
3,184
0,101
105,333
0,19 0,68
T7P7
-0,504
459,500
5,153
0,106
146,300
0,66 0,66
T3P8
-0,515
362,867
3,868
0,101
128,533
0,29 0,77
T8P8
-0,506
526,067
5,691
0,101
156,000
0,75 0,75
T4P9
-0,509
426,500
4,600
0,106
148,233
0,38 0,86
T9P9
-0,504
581,067
6,526
0,106
183,733
0,84 0,84
T5P10
-0,509
489,467
5,321
0,106
167,533
0,47 0,94
T10P10
-0,501
659,567
6,974
0,101
192,367
0,93 0,93
Tabla III.4.- Valores de los parámetros de pico para las mezclas de
calibración.
Parámetros para las mezclas de comprobación externas (test set externo)
Muestra Potencial (V) Intensidad (nA) Área (10-8 ) Semianchura (V) Derivada (10-7 A) [Tl+] [Pb2+]
0,10 0,87
T1P9
-0,520
328,900
3,426
0,101
119,300
0,87 0,10
T9P1
-0,499
287,900
3,414
0,111
77,050
0,29 0,48
T3P5
-0,504
255,300
2,767
0,101
85,670
0,48 0,29
T5P3
-0,504
244,200
2,786
0,111
73,120
0,57 0,76
T6P8
-0,509
443,000
4,871
0,106
143,800
0,76 0,57
T8P6
-0,499
422,000
4,655
0,101
123,700
0,95 0,19
T10P2
-0,499
343,600
4,058
0,111
94,070
0,19 0,95
T2P10
-0,520
374,000
3,906
0,101
133,700
Tabla III.5.- Valores de los parámetros de pico para las mezclas de
comprobación externas (test set externo).
5) Estudios Previos Realizados Sobre El Sistema Tl+ / Pb2+
A continuación se llevará a cabo un pequeño resumen donde se recogen los
estudios previos realizados sobre el sistema Tl+ / Pb2+, con el fin de resolver las mezclas de
Capítulo III
185
ambos iones mediante calibración multivariante. Dichos estudios constituyeron la base de
la Tesis de Licenciatura del Doctorando y pueden encontrarse en [161].
5.1. Aplicación de técnicas para el análisis exploratorio de datos
Para llevar a cabo un análisis exploratorio de los datos obtenidos, se emplearon dos
técnicas estadísticas:
§
Análisis lineal discriminante (LDA).
§
Análisis de componentes principales (PCA).
Análisis lineal discriminante
Con el fin de determinar si las muestras, eran susceptibles de ser agrupadas por su
contenido en Tl (I) y Pb (II), se llevó a cabo un análisis lineal discriminante a partir de los
datos de intensidad, potencial y semianchura procedentes de los parámetros de pico. Se
agruparon las muestras en tres categorías: patrones puros de talio, patrones puros de plomo
y mezclas de ambos iones. Se obtuvo un porcentaje de clasificación del 95,85 %.
El gráfico de puntos del LDA obtenido fue el siguiente:
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
186
Figura III.5.- Análisis lineal discriminante de las muestras de talio y
plomo.
Análisis de componentes principales
En este análisis se emplearon tanto los voltamperogramas como los cinco
parámetros de pico descritos en las Tablas III.2-III.5. Como ejemplo sólo se mostrará el
análisis de los scores utilizando los voltamperogramas de las 48 muestras, centrados
previamente con respecto a la media (mean-centering), el cual aparece representado en la
Figura III.6:
Figura III.6.- Análisis de componentes principales de las muestras de
talio y plomo.
Como puede observarse, las muestras se encuentran agrupadas en función del
contenido en cada uno de los iones: por un lado se sitúan los patrones puros de talio y por
otro los de plomo, quedando las mezclas de ambos en la parte central. Las mezclas que
Capítulo III
187
contienen mayor proporción de talio se aproximan más a los patrones puros de talio,
mientras que aquellas con un mayor contenido en plomo, se agrupan con los patrones puros
de plomo.
En principio, los resultados obtenidos con PCA fueron los esperados, excepto en los
casos que a continuación se detallan:
§
la mezcla T1P6 tendría que haber aparecido más al centro, en una posición
aproximadamente simétrica a la T6P1;
§
la T3P5 debería estar en el cuadrante superior izquierdo, más próxima a los
patrones de plomo.
§
por otro lado, las mezclas T8P8 y T10P10, deberían estar situadas en el
centro de los cuadrantes superior e inferior, tal como aparecen las restantes
mezclas con igual proporción en ambos cationes.
Los resultados del análisis de los scores fueron semejantes usando ambos tipos de
variables (voltamperogramas y parámetros de pico), sobre todo cuando los datos de partida
se centraban con respecto a la media (mean-centering); sin embargo, con el autoescalado,
las diferencias eran más patentes, aunque no demasiado acusadas en relación a la
disposición y agrupamiento de las muestras, apareciendo una ordenación más clara en el
caso de los voltamperogramas.
Fundamentalmente, las mayores diferencias se encontraban en el análisis de los
loadings (Figura III.7) lo cual era lógico puesto que con los voltamperogramas se
sopesaban las variables que conformaban el pico de la señal (80), mientras que en el otro
caso se utilizaban los diferentes parámetros de pico (5). En el caso de los
voltamperogramas, cuando se utilizaba mean-centering, el gráfico de los loadings era casi
idéntico al de una señal con forma de pico, lo que indicaba que la zona próxima al máximo
era la que mayor influencia presentaba en el análisis. Sin embargo, haciendo autoescalado,
aunque el gráfico de los loadings era mucho más complejo, la mayor influencia continuaba
dándose también para las variables situadas en la zona cercana al máximo. Por otro lado, el
análisis de los loadings utilizando los parámetros de pico, refleja la importancia de algunos
de dichos parámetros con respecto a los demás: con mean-centering (Figura III.7-A), el
potencial (V) y la semianchura de pico (W) no tienen peso alguno, el área del pico (S)
influye poco, mientras que la intensidad (I) y la derivada (D) poseen una gran relevancia;
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
188
con autoescalado (Figura III.7-B), la intensidad, el área y la derivada tienen un peso
enorme en el análisis, mientras que la semianchura y el potencial, influyen negativamente.
Figura III.7.- Gráfico de loadings realizado sobre los parámetros de pico
de las señales: A) mean-centering y B) autoescalado de los datos.
5.2. Métodos de predicción o de separación de señales
Dos fueron los métodos de predicción utilizados para lograr la separación de las
señales en cada una de las mezclas analizadas de Tl (I) y Pb (II):
§
Estimación por interpolación.
§
Redes neuronales artificiales.
Estimación por interpolación
Asumiendo la existencia de linealidad entre las señales de las distintas mezclas y las
de los patrones puros de Tl (I) y Pb (II) que las componen, se pensó que cada una de las
mezclas obtenidas podía expresarse como combinación lineal de ambos patrones puros.
Para ello, se definió el siguiente modelo matemático:
Ti Pj = α ⋅ Ti + β ⋅ Pj
(78)
donde TiPj es un vector columna constituido por los datos de intensidad que conforman la
señal de la mezcla TiPj; Ti y Pj, también vectores columna, representan las señales
correspondientes a los patrones puros de Tl (I) y Pb (II), respectivamente; y á y â son las
contribuciones de cada uno de los patrones a la señal total de la mezcla. Los subíndices i y j
Capítulo III
189
toman valores enteros de 1 a 10, cada uno de los cuales equivale a un valor de
concentración en el intervalo estudiado: desde 0,1 a 1,0 mg·L-1 .
En forma matricial, el problema se planteó del siguiente modo:
Pj (1) 
 Ti Pj (1)   Ti (1)

 

 Ti Pj (2)   Ti (2) Pj (2)   α 
f
=f
⋅ 
M   M
M   β 

 

 Ti Pj (80)  Ti (80 ) Pj (80)

 

(79)
el cual equivale a un sistema de ecuaciones del tipo Y = A·X, cuya solución es la siguiente:
(A ⋅ A )
t
−1
⋅ At ⋅ Y = X
(80)
De este modo, se pretendió obtener la contribución de cada uno de los patrones de
Tl (I) y Pb (II) presentes en la mezcla, repitiendo el problema para las 20 mezclas de
calibración, intentando expresar las mezclas como combinaciones lineales de los iones que
las componían. El método estadístico empleado para resolver el problema fue el de
mínimos cuadrados. Los valores de R correspondientes a los ajustes del modelo fueron
superiores a 0,9974.
Para establecer si los modelos anteriores eran robustos o no a la presencia de ruido
se utilizaron señales construidas artificialmente, contaminando cada señal original con un
cierto porcentaje de ruido (5 % máximo). Esta comprobación dio como resultado que el
método analítico de ajuste era capaz de tratar señales afectadas por un 5 % de ruido, al
haberse alcanzado durante las pruebas un 100 % de correspondencias entre las señales
originales y las ruidosas. Como el grado de robustez alcanzado era suficiente para nuestro
propósito, no se hicieron más pruebas adicionando niveles de ruido superiores.
Una vez establecidos los modelos y comprobada su robustez, se pretendió
completar la Tabla III.1 por medio de la aplicación del método de estimación por
interpolación. Para ello, en base a las señales de los patrones puros y los valores de á y â
obtenidos, se intentó construir una serie de modelos matemáticos, de la forma:
( )
[
( )]
f Ti Pj + λ ⋅ f (Tk Pl )− f TiPj
(81)
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
190
que permitiesen predecir las señales de cualquier mezcla de dicha tabla, lo cual serviría
también para averiguar la concentración de los iones que compusiesen la mezcla en
cuestión. Dichos modelos matemáticos no sólo serían válidos para los valores de
concentración experimentales, sino también para cualquier otro valor intermedio, puesto
que sólo habría que variar en cada modelo el valor del parámetro ë, el cual toma valores
fraccionarios de 0 a 1.
La hipótesis establecida a la hora de construir estos modelos matemáticos
predictivos fue la siguiente: se supuso que entre dos señales conocidas cualesquiera,
próximas entre sí, la evolución desde la primera hasta la segunda era aproximadamente
lineal, tal y como aparece representado en la Figura III.8:
Figura III.8.- Hipótesis de la linealidad existente entre las mezclas de
talio y plomo.
Para comprobar la eficacia del método se utilizaron las 8 mezclas externas
recogidas en la Tabla III.1. La validez del modelo se pondría de manifiesto cuando
predijese con suficiente aproximación las concentraciones de ambos cationes presentes en
todas las muestras de prueba.
Sin embargo, en la práctica los resultados obtenidos para las predicciones no fueron
del todo satisfactorios. En algunas situaciones, como la T1P9 y la T2P10, la aproximación
Capítulo III
191
era bastante buena, puesto que sólo existían diferencias entre los valores de ë de los
modelos. Pero el dato de mayor interés consistió en que existían mezclas, como T3P5 y
T5P3, que poseían contribuciones diferentes y ofrecían idéntica señal. El resto de las
mezclas fueron asignadas a posiciones erróneas.
Se intentaron mejorar los resultados anteriores, fijando una de las concentraciones
de los analitos: o bien la concentración de talio o bien la de plomo. De este modo, las
aproximaciones del modelo de estimación por interpolación resultaron ser bastante buenas,
obteniéndose un error absoluto del orden de 0,1 mg·L-1 en la mayoría de los casos para la
concentración desconocida. Dicho error procedió del hecho de no considerar la posición del
pico como parámetro de clasificación, ya que el método de ajuste por mínimos cuadrados
toma como modelo de error mínimo el que se encuentra más centrado con respecto a la
muestra que se pretende clasificar.
Como la posición del pico resultó ser un factor muy importante a la hora de
clasificar correctamente las muestras, se repitió el procedimiento anterior pero centrando
todas las predicciones con respecto a la mezcla de comprobación. De este modo, la
estimación por interpolación mediante el método de mínimos cuadrados debería clasificar
mejor y predecir bien todas las muestras. Salvo para la mezcla T2P10, que fue clasificada
con un error de 0,1 mg·L-1 para el catión desconocido, los resultados fueron muy
satisfactorios.
Finalmente, se concluyó que el procedimiento estimativo por interpolación
mediante el método de aproximación por mínimos cuadrados era una buena herramienta
predictiva cuando:
§
se conocía la concentración de uno de los iones de la mezcla,
§
y se realizaba un centrado de las predicciones con respecto a la muestra real
obteniéndose, de este modo, errores del orden de 0,1 mg·L-1 para el ion desconocido, como
se ha apuntado anteriormente.
Redes neuronales artificiales
Las redes neuronales artificiales se emplearon de dos formas diferentes:
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
192
§
reconocimiento de patrones: con el fin de clasificar las distintas muestras
de talio y plomo;
§
calibración multivariante: para resolver las mezclas de ambos iones y
obtener los valores de concentración predichos para cada uno de ellos.
El empleo de las redes neuronales como método de reconocimiento de patrones hizo
uso de la información contenida en los parámetros electroquímicos de intensidad,
semianchura, potencial y potencial del pico. Por otro lado, su utilización como herramienta
de calibración multivariante necesitó de la totalidad de la información presente en las
señales electroquímicas de cada muestra analizada, es decir, los voltamperogramas.
Redes neuronales como método de reconocimiento de patrones
Con esta herramienta se persiguió el siguiente objetivo: entrenar y determinar cuáles
eran las redes más sencillas para clasificar las muestras en tres categorías, constituidas por
los patrones puros de talio, los patrones puros de plomo y las mezclas de ambos cationes.
Las características especificadas para el entrenamiento y validación de los modelos
de redes neuronales (QWIKNET 3.2) fueron las siguientes:
§
Topología de las redes: 3-X-2, la cual se corresponde con una red neuronal
formada por tres capas. La primera capa (capa de entrada) se diseñó con 3
neuronas, correspondientes a los valores normalizados de intensidad,
semianchura y potencial de pico de las señales de los voltamperogramas de
las muestras. En la segunda (capa oculta), el número de neuronas osciló
entre 2 y 4. La información de salida de la red estuvo constituida por las
concentraciones de los iones presentes en las mezclas, lo que hizo dos
neuronas de salida (capa de salida). Un ejemplo de topología aparece
representado en la Figura III.9:
Capítulo III
193
Figura III.9.- Ejemplo de topología para un modelo neuronal basado en
los parámetros de altura, semianchura y potencial de pico.
Los cuadrados representan las neuronas de entrada y los círculos las
neuronas de la capa oculta y las de salida. Por último, los triángulos hacen
referencia a los sesgos (bias) de cada nodo.
§
Algoritmos de entrenamiento: para llevar a cabo el entrenamiento de la
red se empleó el algoritmo de retropropagación (back-propagation) y el
delta-bar-delta, entre otros.
§
Funciones de activación o de transferencia: se utilizaron funciones
lineales y sigmoidales, estableciendo todas las combinaciones posibles entre
ellas para la capa oculta y de salida, puesto que las funciones en la capa de
entrada fueron siempre lineales.
§
Otros parámetros: la velocidad de aprendizaje y el momentum se
mantuvieron constantes durante todo el proceso. Al comienzo del
entrenamiento, los pesos fueron seleccionados al azar.
§
Validación de los modelos: se llevó a cabo mediante validación cruzada.
Los modelos que ofrecieron mejores resultados en la clasificación de las muestras
aparecen recogidos en la siguiente tabla:
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
194
Topología Clasificación (%) Nº de ciclos
3-4-2
100
5207
3-4-2
100
5256
3-3-2
100
5685
3-2-2
100
6090
Tabla III.6.- Mejores modelos neuronales basados en los parámetros de
altura, semianchura y potencial de pico.
Hay que resaltar que las funciones de activación fueron del tipo lineal-sigmoidallineal en todos los casos, para las capas de entrada, oculta y de salida, respectivamente;
mientras que el algoritmo que ofreció mejores resultados fue el de retropropagación (backpropagation). Las redes propuestas poseían una topología muy sencilla (cantidad pequeña
de pesos o parámetros a estimar) y el número de ciclos para lograr clasificaciones del 100
% fue pequeño.
Redes neuronales como método de calibración multivariante
A la hora de aplicar las redes neuronales como método de calibración multivariante
se emplearon los valores de amplitudes dominantes correspondientes a cada una de las
señales de los voltamperogramas de las muestras, obtenidos a partir de un proceso de
reducción de dimensiones por aplicación de la transformada de Fourier. Este procedimiento
de reducción de dimensiones simplificó notablemente el modelo y permitió resolver las
mezclas de ambos iones y obtener los valores de concentración predichos para cada uno de
ellos, cumpliendo así con el objetivo establecido.
Aunque el fundamento del proceso de reducción de dimensiones se tratará con
mayor profundidad en el siguiente epígrafe (ver Figura I.5 para mayor información), a
continuación se presenta un pequeño resumen del mismo. Tras un filtrado previo, se definió
una frecuencia de corte que proporcionase un número aceptable de dimensiones y un error
de recomposición para la señal lo más bajo posible (inferior al 3 %). La elección de dicha
frecuencia de corte fue fundamental, puesto que el número de dimensiones (amplitudes que
representaban las señales) se asoció posteriormente con las neuronas de entrada a la red.
Por tanto, si cada señal se redujo a 7 amplitudes, esto significa que el número de neuronas
de la capa de entrada debía ser también de 7.
Capítulo III
195
En principio, se optó por construir redes similares a las comentadas anteriormente,
pero con 7 neuronas en la capa de entrada (correspondientes a las 7 amplitudes de cada
señal) y haciendo uso del mismo software con parámetros de diseño también parecidos. No
obstante, aunque se mantuvo el mismo número de neuronas en la capa de salida, para la
capa oculta se varió entre 2 y 6.
En vista de que los resultados obtenidos no fueron satisfactorios, se decidió añadir
una capa oculta adicional y emplear un software diferente: QNET 2000. Las características
de entrenamiento especificadas para estos modelos de redes neuronales fueron las
siguientes:
§
Topología de la red: 7-X-Y-2, la cual se corresponde con una red neuronal
constituida por cuatros capas. En la capa de entrada se dispusieron 7
neuronas, correspondientes a los valores de amplitud de cada señal. En la
primera capa oculta, el número de neuronas (X) osciló entre 6 y 5, valor
próximo al estrato de entrada que evita pérdidas importantes de información.
Las opciones en la segunda capa oculta fueron más amplias, empleándose en
todos los casos de 2 a 5 nodos (Y). Por último, la capa de salida se compuso
de 2 neuronas, cada una de las cuales ofrecería como salida un valor de
concentración correspondiente a uno de los cationes que componen la
mezcla.
§
Algoritmos
de
entrenamiento:
el
algoritmo
empleado
para
el
entrenamiento de la red fue el algoritmo de retropropagación mejorado
(improved back-propagation).
§
Funciones de activación: se emplearon cuatro tipos de funciones de
transferencia, que son las más comúnmente empleada en la bibliografía:
lineal,
sigmoidal,
gaussiana
y
tangente
hiperbólica,
en
todas
sus
combinaciones, para las cuatro capas de la red (excepto para la primera, que
se encuentra definida por defecto como lineal).
§
Otros parámetros: la velocidad de aprendizaje y el momentum se
mantuvieron también constantes durante todo el proceso. Al comienzo del
entrenamiento, los pesos fueron seleccionados al azar.
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
196
§
Validación de los modelos: el conjunto de entrenamiento estuvo
constituido por 32 patrones, mientras que los 8 restantes, elegidos
aleatoriamente, formaron parte del conjunto de validación.
La Tabla III.7 recoge los mejores modelos neuronales junto con los errores RMS
correspondientes a los conjuntos de entrenamiento (trn) y validación (val):
Topología RMS trn RMS val
7522 lgss 0,0127 0,0359
7532 lggt 0,0127 0,0304
7542 lgts 0,0106 0,0259
7562 ltts 0,0103 0,0368
7632 ltss 0,0154 0,0299
7642 lttg 0,0162 0,0238
7652 ltgt 0,0127 0,0204
7652 lsts 0,0103 0,0233
7662 ltts 0,0100 0,0206
Funciones de activación: l lineal; g gaussiana;
s sigmoidal; t tangente hiperbólica.
Tabla III.7.- Mejores modelos neuronales basados en las amplitudes
fundamentales obtenidas a partir de los voltamperogramas mediante un
método de reducción de dimensiones por transformada de Fourier.
Hay que destacar que casi todos los modelos anteriores poseyeron una función de
activación de tipo tangente hiperbólica en uno o varios de sus estratos.
A raíz de la tabla anterior, se eligió como mejor modelo de red neuronal el
constituido por la topología 7-6-6-2 y cuyas funciones de activación fueron linealtangencial-tangencial-sigmoidal, para cada una de las capas, respectivamente. Con este
modelo, se procedió a afinar aún más, con el fin de obtener un modelo neuronal óptimo.
Para ello se variaron los parámetros de aprendizaje principales: la velocidad de aprendizaje
(ç) y el momentum (á), con vistas a obtener errores RMS mucho más pequeños para ambos
conjuntos: entrenamiento y validación.
La combinación de parámetros que ofreció el modelo de red neuronal con los
errores RMS más pequeños para la topología 7-6-6-2 ltts fue la siguiente: ç = 0,25 y á =
0,90. Los errores asociados a los conjuntos de entrenamiento y validación fueron: RMS trn
= 0,0040 y RMS val = 0,0168. Los errores relativos en las concentraciones de Tl (I) y Pb
Capítulo III
197
(II) fueron inferiores al 10 y 7 % (en valor absoluto), respectivamente, lo que supuso una
mejora con respecto a los valores encontrados en la bibliografía. No obstante, para la
mayoría de las predicciones, los porcentajes de error no superaron el 2 - 3 %. Con las
muestras de los patrones puros, donde la concentración de uno de los iones era 0,0 mg·L-1 ,
se emplearon errores absolutos, que no relativos, siendo aquellos inferiores a la centésima
de mg·L-1 . Mayoritariamente dichos errores fueron 10 veces más pequeños, afectando a la
milésima de mg·L-1 .
Finalmente, la Figura III.10 representa un ejemplo de superficie de error, obtenida
durante el proceso de optimización del modelo neuronal variando los parámetros de
momentum y velocidad de aprendizaje:
Figura III.10.- Superficies de error RMS para A) el conjunto de
entrenamiento y B) el conjunto de validación, en función de los valores de
la velocidad de aprendizaje y el momentum.
El gradiente de colores representa la variación del error a lo largo de dicha
superficie: desde el color rojo, que representa valores elevados de error RMS, pasando por
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
198
el violeta, que indica una situación intermedia, hasta el azul, el cual implica proximidad a
un valor de error mínimo.
Aquí concluyen los estudios previos realizados sobre el sistema Tl+ / Pb2+, con el fin
de resolver las mezclas de ambos iones mediante calibración multivariante.
6) Métodos De Reducción De Dimensiones En Conjunción Con
Redes
Neuronales
Artificiales.
Estudio
Comparativo
Incluyendo Otros Métodos Estadísticos
Como se ha podido comprobar a partir de los resultados indicados en el epígrafe
anterior, el sistema constituido por los iones talio monovalente y plomo divalente, es
factible de ser investigado y resuelto haciendo uso de diferentes técnicas quimiométricas:
§
Análisis lineal discriminante y de componentes principales como método
exploratorio de datos.
§
Método de estimación por interpolación basado en regresión de mínimos
cuadrados, así como redes neuronales artificiales, para resolver las mezclas
de ambos cationes.
Aunque el primero de los dos métodos de resolución de las muestras no ofreció
resultados del todo satisfactorios, sin embargo, la aplicación de ANNs, en conjunción con
un método de reducción de dimensiones basado en la transformada de Fourier, permitió
resolver las señales electroquímicas solapadas integradas por dichas especies químicas.
No obstante, los modelos neuronales obtenidos y empleados en calibración
multivariante estaban constituidos por cuatro capas de neuronas, frente a las tres capas que
presentaban los modelos neuronales utilizados en el reconocimiento de patrones. Existen
publicaciones donde se aplican ANNs con cuatro capas de neuronas [475]; sin embargo,
parece ser que la única explicación plausible que dan los autores para operar de este modo
se encuentra refrendada solamente por el hecho de que los resultados mejoran mediante la
inserción de una capa oculta adicional.
Como se ha afirmado con anterioridad, y de acuerdo con la bibliografía [395, 396],
cuanto más sencillo sea el modelo neuronal, mejor capacidad predictiva posee, existiendo
mayores garantías de que no se produzcan fenómenos de sobreajuste u overfitting. Dicho
Capítulo III
199
inconveniente se puso de manifiesto en el momento en que se intentaban predecir las
concentraciones de talio y plomo presentes en las ocho mezclas externas de validación,
haciendo uso del modelo neuronal 7-6-6-2 ltts ç = 0,25 y á = 0,90, considerado como
óptimo: los valores del error RMS fueron muy altos, en comparación con los de los
conjuntos de entrenamiento y de validación interna.
El procedimiento de sobreajuste se debe principalmente al empleo de una gran
cantidad de nodos ocultos (12 en este caso) [395], lo que aumenta en gran medida el
número de parámetros (conexiones entre neuronas que llevan asociado un determinado
peso) del modelo neuronal, que deben ser establecidos durante el proceso de
entrenamiento. El número de parámetros ajustables, N, que define una red neuronal se
encuentra íntimamente ligado a su topología, calculándose de la siguiente manera [490]:
N = (N e ⋅ N o ) + ( N o ⋅ Ns ) + N o + N s
(82)
donde Ne, No y Ns, representan los nodos de la capa de entrada, de la capa oculta y de la de
salida, respectivamente. Generalmente, N debe ser menor o igual a la mitad del número de
muestras que componen el conjunto de entrenamiento [396]. Por ejemplo, para el anterior
modelo neuronal, el número de parámetros ajustables que viene dado por su diseño sería de
104, siendo el máximo permitido, según esta regla, de 16 (32/2). De este modo, se pone de
manifiesto la complejidad del modelo, así como la posibilidad de afirmar que éste se ve
afectado por el fenómeno de sobreajuste.
Habitualmente, las redes neuronales basadas en voltamperogramas se han aplicado
construyendo topologías cuyas capas de entrada asociaban una neurona a cada valor o
intervalo de valores de intensidad recogido en la señal [156, 481, 483]. La desventaja de
este método es evidente, no sólo desde el punto de vista de la carga computacional, puesto
que se trabaja con información redundante, sino también, y principalmente, por la gran
dificultad que implica desarrollar un modelo neuronal (sobreparametrización) de tales
características, proceso que se ve indudablemente empañado por la aparición del
mencionado overfitting. Para solventar dicho problema, algunos autores suelen aplicar
procesos previos de reducción de dimensiones o de compresión de información, de modo
que minimizando el número de entradas a la red y, por tanto de parámetros ajustables, se
mantenga la mayor parte de la información contenida en la señal. Entre las herramientas de
preprocesamiento más comúnmente empleadas se pueden destacar:
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
200
§
análisis de componentes principales [523, 524]: suele ser el método más
comúnmente utilizado, cuya eficacia ha quedado bien demostrada;
§
transformada wavelet discreta [248, 256]: actualmente está siendo empleada
en gran medida, gracias a la propiedad de las wavelets para comprimir datos
y reducir ruido al mismo tiempo;
§
transformada wavelet por paquetes [268, 429];
§
transformada
de
Fourier
[163,
442]:
ampliamente
aplicada
en
reconocimiento de patrones.
Por tanto, en esta parte de la Tesis Doctoral, con el fin de soslayar el problema del
sobreajuste y cumplir el objetivo de obtener modelos neuronales lo más sencillos posibles
para resolver las mezclas del sistema Tl+ / Pb2+ mediante calibración multivariante, se
planteó reducir al mínimo tanto el número de parámetros ajustables como el número de
nodos ocultos en los modelos. Dicha cuestión se resolvió de dos formas:
1. Reduciendo hasta tres el número de capas y, de este modo, la cantidad de
nodos ocultos, así como de parámetros ajustables.
2. Aplicando métodos de reducción de dimensiones, con el fin de minimizar el
número de nodos en la capa de entrada.
El recurso empleado para conseguir modelos neuronales sencillos y estables, con un
pequeño número de parámetros ajustables y que presentasen una topología constituida por
tres capas o estratos de neuronas, fue el de aplicar algunas herramientas de reducción de
dimensiones, como técnicas de preprocesamiento previas al desarrollo de modelos de
calibración multivariante basados en redes neuronales artificiales. Dichas herramientas
fueron la transformada de Fourier y la transformada wavelet.
El trabajo al que hacemos referencia y que se describe a continuación ha sido
publicado recientemente en la revista científica Microchimica Acta [162]. Una copia del
mismo aparece recogida en el Apéndice II.
6.1. Objetivo y resumen del trabajo
En el presente trabajo, se propone un procedimiento que hace uso de ANNs como
método de calibración multivariante, en combinación con WT y FT como herramientas de
reducción de dimensiones, con el fin de resolver señales electroquímicas muy solapadas
Capítulo III
201
pertenecientes al sistema Tl+ / Pb2+. Aunque ambas transformadas ya han sido utilizadas
con éxito anteriormente para tal fin, como demuestran las referencias bibliográficas citadas
en el epígrafe previo, la presente aplicación ha sido ciertamente novedosa, al igual que la
combinación de ANNs con dichas técnicas de reducción de dimensiones, en el campo de la
electroquímica.
Aprovechando esta situación, se pretende además establecer una comparación entre
las habilidades de estas dos transformadas para llevar a cabo procesos de compresión de
datos. Aunque existen algunas publicaciones al respecto, pero aplicadas a otros tipos de
problemas: ajuste de curvas [165], eliminación de ruido [237], análisis cuantitativo de
espectros NIR [240] y reconocimiento de patrones junto con redes neuronales [163, 239,
442], entre otros, este trabajo supone una de las primeras referencias bibliográficas
publicadas en relación con este tema en el campo de la electroquímica.
El objetivo perseguido con la aplicación de WT y FT consiste en transformar la
información contenida en los voltamperogramas en la forma de un vector con unos pocos
coeficientes wavelet o de Fourier. Por esta razón, se ha llevado a cabo una comparación
entre los dos tipos de transformadas, con el fin de discernir cuál de ellas posee la mayor
capacidad de reducción y de retención de información.
El método propuesto fue estudiado como una poderosa alternativa al empleo de
técnicas tradicionales como, por ejemplo, la regresión de componentes principales (PCR) o
por mínimos cuadrados parciales (PLS), típicamente utilizadas para la resolución de esta
clase de problemas. De hecho, se ha establecido una comparación con estas dos técnicas
con vistas a estudiar la capacidad predictiva de aquel.
Aunque el nuevo procedimiento es mucho más complicado desde el punto de vista
matemático, su uso podría estar justificado si su habilidad de predicción fuese mejor que la
del PLS o el PCR o si sirviese para establecer una nueva vía de tratamiento estadístico para
esta clase de señales. Además, hay que tener en cuenta que tanto PLS como PCR sólo
pueden aplicarse en aquellos casos en los que hay cierta linealidad entre los datos iniciales
y los valores de la función respuesta; por el contrario, el procedimiento propuesto es
aplicable a casos donde existe una elevada relación señal/concentración de carácter no
lineal, así como también a situaciones lineales, ya que estas transformadas aportan cierto
carácter no lineal a los datos reducidos.
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
202
Más aún, la justificación del uso de redes neuronales artificiales como método para
resolver solapamientos severos de señales frente a PLS o PCR se basa en que el
procesamiento previo de la información inicial (voltamperogramas) se realizó mediante la
aplicación de WT y FT, siendo, ambas, dos herramientas muy útiles para detectar pequeños
cambios asociados con el solapamiento en la frecuencia de la señal resultante. Por el
contrario, algunos autores [312] afirman que no hay garantías de que la aproximación PLS
extraiga teóricamente la información más útil, y que el empleo de este método depende en
parte del conocimiento previo que se tenga sobre los datos iniciales y la naturaleza del
ruido y las señales, entre otros. Lo comentado puede también aplicarse al PCR, puesto que
el PLS es una herramienta mucho más poderosa que aquella.
Como se ha apuntado anteriormente, el sistema electroquímico seleccionado para
comprobar la eficacia del citado tratamiento quimiométrico fue el constituido por las
señales voltamperométricas de mezclas de Tl+ y Pb2+. Pese a que dichas especies químicas
aparecen estudiadas con bastante profusión en la bibliografía y el sistema que ambas
conforman ha sido ya resuelto por métodos tradiciones como PLS o PCR, aunque a
concentraciones más elevadas [150], su elección se llevó a cabo por varias razones, las
cuales se exponen a continuación:
§
Constituye un sistema de prueba adecuado a nuestros propósitos, puesto que
ambos cationes dan muy buenas señales en las condiciones establecidas en
el Capítulo II.
§
La determinación de ambas especies es de gran importancia medioambiental
y, dado que suelen aparecer juntas, la posible discriminación entre ambas
podría ser de gran utilidad.
§
Teniendo también en cuenta las condiciones experimentales empleadas en
este trabajo, la señal ofrecida por la mezcla de ambas especies equivale a un
único pico, originando lo que podría considerarse como un solapamiento de
grado máximo (25 mV de diferencia entre los potenciales de pico,
aproximadamente), donde no aparecen hombros ni picos asociados a alguno
de los dos iones (ver Figura III.1). Esto complica aún más el proceso de
resolución, lo que en cierto modo podría beneficiar y justificar el empleo del
procedimiento propuesto.
Capítulo III
203
En la siguiente figura, se representa un sistema binario, que podría asemejarse al
formado por los iones Tl+ / Pb2+, afectado de diferentes grados de solapamiento, la cual da
cierta idea de la situación que se está tratando:
Figura III.11.- Diferentes grados de solapamiento que pueden darse en un
sistema binario.
Como puede observarse, la representación A) de la Figura III.11, idealizaría el caso
del citado sistema binario, donde ambas señales correspondientes a los iones aparecen
completamente separadas, sin que existan interferencias entre una y otra; es más, los
parámetros de pico de cada una de ellas son perfectamente mesurables. El apartado B)
implica ya un cierto grado de solapamiento; sin embargo, la presencia de dos señales es aún
patente: la altura de las señales es todavía cuantificable, así como la posición de los
máximos de cada pico [136]. En el tercer caso, figura C), el solapamiento es ahora mucho
más severo, provocando casi el enmascaramiento de uno de los picos, aunque el pequeño
hombro que se aprecia es aún revelador; por otra parte, los parámetros de pico individuales
no pueden determinarse [137, 168]. Por último, el caso D) sería el que más se asemeja a la
situación que se está tratando aquí: un grado de solapamiento que podría considerarse como
máximo, donde la posición de los máximos de los picos es casi coincidente, debido a la
diferencia tan pequeña entre los mismos. En esta ocasión, a la hora de determinar los
parámetros de pico, de nuevo sólo se obtienen los valores correspondientes a la señal de la
mezcla y ninguna información relacionada con los analitos individualmente.
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
204
Obviamente, huelga decir que el grado de solapamiento depende también de la
concentración de ambas especies en el medio, así como de la sensibilidad que posea la
técnica de medida para dicho analito. Los ejemplos de bibliografía dados, con el fin de
ilustrar cada una de las situaciones descritas, reflejan sistemas binarios de Tl+ / Pb2+, donde
las concentraciones de ambos cationes es aproximadamente la misma.
A partir de la figura anterior y de la situación en estudio, pueden extraerse las
siguientes conclusiones:
§
Es imposible realizar un tratamiento e identificación de las señales
individuales mediante los parámetros de pico característicos.
§
La no unicidad de modelos de ajuste es la principal causa de incapacidad a
la hora de identificar las señales componentes, lo que justificaría los
resultados obtenidos con el método de estimación por interpolación basado
en regresión de mínimos cuadrados, utilizado durante los estudios
preliminares.
§
La presencia de ruido del mismo orden que el efecto de la señal más débil
implica el tratamiento en el dominio de las frecuencias, lo que, en cierto
modo, refrendaría la aplicación del método quimiométrico propuesto.
Finalmente, hay que resaltar también que todas las señales voltamperométricas se
han determinado haciendo uso del método de adiciones estándar; no se encontró ningún
problema asociado al empleo de este procedimiento: no hubo desplazamientos en los
potenciales de pico para los estándares utilizados como los descritos en la bibliografía [481,
525].
6.2. Descripción del proceso de reducción de dimensiones
El procedimiento previo de reducción de dimensiones permite comprimir la
información contenida en los datos de partida, con el fin de simplificar el desarrollo de los
ulteriores modelos de calibración multivariante. Al mismo tiempo que conserva la mayor
cantidad de información relevante posible, se eliminan los efectos ocasionados por el ruido
aleatorio u otras posibles perturbaciones.
Capítulo III
205
Reducción de dimensiones mediante FT
El proceso de filtrado y reducción de dimensiones mediante FT, cuyo esquema
aparece recogido en la Figura I.5, fue llevado a cabo por una aplicación programada en
entorno MATLAB®, y aparece detallado a continuación:
1. Una vez suministrada la información referente a los vectores columna, que
contienen la información relativa a las intensidades de pico de los
voltamperogramas de cada una de las 40 muestras analizadas, se selecciona
el número de frecuencias de Fourier del espectro resultante, en el cual se van
a descomponer cada una de las señales. Los espectros de Fourier, múltiplos
de 2N, donde N es un entero positivo, fueron de 128 y 256 frecuencias.
2. Seguidamente, la aplicación calculó la transformada de Fourier de cada
señal presentada, transformándola en un espectro de Fourier cuyo número de
frecuencias depende del valor seleccionado anteriormente.
3. Después, se realizó el filtrado definiendo para ello la frecuencia de corte; de
este modo, se eliminan todas aquellas frecuencias que se encuentren por
encima de la elegida. Esto equivale a la aplicación de un filtro de paso bajo,
el cual desestima las frecuencias más altas, correspondientes normalmente a
ruido y retiene exclusivamente las frecuencias bajas o de amplitud máxima,
que contienen la mayor parte de la información útil. En estos momentos, el
vector columna con 80 valores para cada muestra, se ha transformado en un
vector columna de tan sólo 10 valores o menos, según la frecuencia de corte
definida.
4. Por último, la señal de cada voltamperograma se reconstruyó en el dominio
temporal mediante la transformada de Fourier inversa y se calculó el error
de recomposición mediante la expresión:
ε=
(e
∑
80
i =1
i
− e*i
e 2i
)
2
⋅100
(83)
donde ei y e*i son los valores de la señal inicial y de la reconstruida, respectivamente.
Según la frecuencia de corte que se haya elegido, se obtendrán unas dimensiones más o
menos pequeñas para cada vector columna; no obstante, cuanto más pequeña sea la
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
206
frecuencia de corte, más se reduce el número de dimensiones, pero a costa de obtener un
error de recomposición más elevado.
El objetivo final de esta aplicación consistió en obtener una frecuencia de corte útil
que permitiese obtener, de forma simultánea, el menor número posible de coeficientes de
Fourier con un error de recomposición de las señales mínimo.
Se realizaron una serie de pruebas para cada muestra, utilizando espectros de
Fourier de 128 y 256 frecuencias y variando la frecuencia de corte entre valores que
oscilaron entre 2 y 6 Hz. El error de recomposición no superó en ningún caso el valor
fijado en un 3 %. Este porcentaje de error máximo admisible no fue determinado
arbitrariamente, sino con vistas a la posterior aplicación de los modelos neuronales y otras
técnicas de calibración multivariante. Se consideró que el número de neuronas de entrada a
la red, definido por la dimensión de los vectores columna, no debía ser muy elevado, pues
esto implicaría de nuevo topologías de redes complejas con un elevado número de
parámetros ajustables. Por tanto, se decidió llegar a un compromiso entre el error y el
número de dimensiones obtenidas con el proceso de reducción.
A continuación, en la Tabla III.8 se resumen los resultados de dichas pruebas:
Frecuencias del espectro
128
256
Frecuencia de corte (ù)
6
5
4
3
2
6
5
Dimensiones (N)
10
9
7
5
4
20
17 13 10 7
Error (%)
4
3
2
<1,5 <2 <3 <6 >6 <1,5 <2,2 <3 <5 >8
Tabla III.8.- Resumen de las pruebas conducentes a la obtención de la
frecuencia de corte adecuada para reducir la información contenida en las
señales mediante transformada de Fourier.
La frecuencia de corte idónea se eligió a partir de los datos obtenidos en las pruebas
anteriores, la cual, como puede observarse, resultó ser ù = 4 con el espectro de 128
frecuencias. El número mínimo de dimensiones correspondiente a esta frecuencia fue de N
= 7, es decir, 7 datos de amplitud por cada voltamperograma, correspondientes a las siete
amplitudes fundamentales equivalentes a los tres primeros harmónicos de la serie de
Fourier.
Capítulo III
207
De este modo, cada uno de los vectores columna de dimensiones 80 × 1 (valores de
intensidad) se transformaron en vectores columna de 7 × 1 dimensiones (valores de
amplitud). La matriz resultante resultó, por consiguiente, de 7 × 40, mucho más manejable
para el posterior tratamiento estadístico, a diferencia de la inicial, de tamaño 80 × 40. Otra
diferencia interesante entre la matriz de partida y la resultante, tras aplicar la reducción,
radica en que la primera se expresa en el dominio temporal, mientras la segunda lo hace en
el de las frecuencias. En resumidas cuentas, se ha logrado reducir el tamaño de la matriz
inicial en un 91,25 %, conservando, al menos, el 97 % de la información.
Reducción de dimensiones mediante WT
En este caso, el objetivo es idéntico al propuesto con el proceso de reducción de
dimensiones mediante FT: obtener un número de coeficientes wavelet lo más pequeño
posible que ofrezca, al mismo tiempo, un error de recomposición mínimo para las señales.
Para ello se hizo uso de diferentes tipos de bases de funciones wavelet: Haar,
Daublet ‘n’ (n = 3, 4, 6, 8, 10, 12, 14, 16, 18 y 20), Symlet ‘m’ (m = 2 – 8) y Coiflet ‘g’ (g
= 1 – 5). Dichas wavelets fueron aplicadas a todas y cada una de las señales. Las
diferencias entre las mismas, así como algunas de sus características más relevantes, ya han
sido tratadas en el Capítulo I.
Una subrutina programada también en entorno MATLAB®, fue utilizada para llevar
a cabo la reducción de dimensiones. Se emplearon cinco niveles de descomposición
wavelet, así como diferentes niveles de umbral (thresholding), con el fin de acotar el
número de coeficientes wavelet seleccionados. Este parámetro funciona prácticamente de la
misma manera que la frecuencia de corte en el método de la FT.
Estableciendo una estrategia de compromiso entre el número de coeficientes
wavelet y el error de recomposición de las señales, las wavelets seleccionadas fueron
Symlet 3 y Symlet 4 (funciones wavelet típicas para representar señales simétricas, como
en este caso).
Por consiguiente, después de comprimir los voltamperogramas, eliminando al
mismo tiempo el ruido de los mismos, se obtuvieron los coeficientes wavelet que
representaron las señales reducidas:
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
208
§
9 para Symlet 3
§
11 para Symlet 4
De igual modo, se calculó en cada caso el porcentaje de coeficientes nulos y el porcentaje
de recomposición de las señales tras su reconstrucción. De este forma, el ciclo completo de
aplicación de las wavelets fue como sigue: descomposición, eliminación de ruido,
compresión y reconstrucción de las señales.
Comparación de ambos procesos de reducción de dimensiones
En la siguiente tabla, se recogen los resultados obtenidos en los procesos de
reducción de dimensiones haciendo uso de los dos tipos de transformadas FT y WT:
Método de reducción de dimensiones
Fourier (128 frec.) Symlet 3 Symlet 4
Número de coeficientes
7
9
11
Nivel de descomposición (ù = Fourier)
ù = 4 Hz
4
4
Porcentaje de reducción de coeficientes
91,25
90,72
89,62
Error mínimo de recomposición (%)
0,27
1,42
0,71
Error máximo de recomposición (%)
2,62
4,75
3,77
Tabla III.9.- Comparación de la eficacia de los métodos para reducir
dimensiones: FT y WT.
En ella se hace patente cómo el porcentaje de reducción de coeficientes obtenido con la FT
fue ligeramente mayor. Además, los porcentajes de error mínimo (y máximo) de
recomposición usando la FT fueron inferiores a los obtenidos con la WT.
6.3. Aplicación de métodos de calibración multivariante
Una vez finalizado el proceso de reducción de dimensiones, se procedió a la
aplicación de diferentes métodos de calibración multivariante, con el fin de resolver las
mezclas de los iones talio y plomo.
La Figura III.12 se corresponde con un esquema de los métodos de
preprocesamiento y de calibración multivariante empleados en el presente capítulo de la
Tesis Doctoral:
Capítulo III
Figura
209
III.12.- Procedimiento utilizado en el preprocesamiento y
tratamiento quimiométrico de las señales electroquímicas del sistema Tl+ /
Pb2+.
Los métodos de calibración multivariante tradicionales fueron aplicados tanto a los
datos preprocesados (dimensiones reducidas con FT y WT) como a los originales sin
tratamiento previo, y los resultados se compararon con los obtenidos haciendo uso de
modelos neuronales reducidos (tres capas de neuronas y un número pequeño de parámetros
ajustables).
Redes neuronales artificiales
Se diseñaron modelos neuronales con topologías basadas en tres capas de neuronas.
Dichos modelos hicieron uso de los coeficientes de Fourier y wavelet, obtenidos para cada
uno de los voltamperogramas mediante la aplicación de los procesos de reducción de
dimensiones descritos previamente.
En este trabajo, se emplearon redes neuronales multicapa de alimentación directa o
MLF (multilayer feed forward), las cuales utilizaron durante el proceso de entrenamiento
un algoritmo de retropropagación rápida mejorado (improved backpropagation).
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
210
En una red de retropropagación existen dos tipos de factores o parámetros
adaptativos para cada peso (parámetro ajustable) [296]:
§
velocidad de aprendizaje (ç): controla la rapidez a la que el algoritmo de
entrenamiento desarrolla su aprendizaje. Un valor pequeño posibilita que la
convergencia de los pesos hasta un valor óptimo sea lenta, existiendo el
peligro de encontrar un mínimo local. Por el contrario, si el valor de ç es
alto el sistema puede oscilar (inestabilidad) y provocar divergencia en el
entrenamiento. El valor apropiado de la velocidad de aprendizaje depende
muchas veces de la función de transferencia empleada en las neuronas: para
funciones sigmoidales, por ejemplo, se emplean valores entre 0,5 y 1,
mientras que para funciones de activación lineales los valores utilizados son
mucho más bajos, entre 0,001 y 0,1.
§
momentum (á): es el coeficiente de aprendizaje empleado por los
algoritmos de entrenamiento y representa la proporción del cambio del peso
en el ciclo de aprendizaje anterior que es tenida en cuenta a la hora de
determinar cuánto varía el peso en el ciclo presente. Su valor suele
establecerse entre 0,6 y 0,8. La influencia de este parámetro es menos
acusada que la de la velocidad de aprendizaje.
El modo como ambos factores afectan a los parámetros ajustables viene dado por la
siguiente expresión:
∆w hj (n ) = η ⋅ δ j ⋅ o h + α ⋅ ∆w hj(n −1)
(84)
donde whj representa el peso de la conexión entre dos neuronas situadas en los estratos h y
j, respectivamente; ç es la velocidad de aprendizaje; oh es la salida de una neurona
determinada situada en la capa h; äj es un término basado en el error; á es el momentum;
mientras que n y n-1 hacen referencia a los ciclos de aprendizaje actual y previo,
respectivamente.
El algoritmo de retropropagación mejorado acelera el proceso de aprendizaje,
gracias a su capacidad para variar automáticamante ambos factores descritos más arriba,
evitando además que se alcance un mínimo local en la superficie de error RMS. Hay que
señalar también que este tipo de redes operan en un modo supervisado.
Capítulo III
211
El proceso de entrenamiento por retropropagación de los modelos neuronales se
efectuó de acuerdo con la siguiente secuencia lógica:
1. Los datos son suministrados a la capa de entrada en la forma de un vector
normalizado y, posteriormente, dicha información es combinada a la hora de
pasarla a la siguiente capa (oculta).
2. Cada nodo o neurona de la capa oculta procesa el vector recibido
multiplicándolo por un vector de pesos y añadiéndole un valor de sesgo o
bias.
3. El valor resultante se hace pasar luego a través de una función de
transferencia. Dicha función sirve para definir la respuesta de cada neurona
en la forma de un valor, el cual cae dentro del intervalo comprendido entre 0
(ausencia de respuesta) y 1 (máxima intensidad de la respuesta). Las
funciones de transferencia empleadas en este caso fueron: gaussiana,
tangente hiperbólica y sigmoidal. En la capa de entrada la función fue lineal.
4. Cada valor de salida de las neuronas de la capa oculta es combinado con el
fin de formar el vector de salida de dicha capa. Este vector se convierte en el
vector de entrada a la siguiente capa (salida).
5. El procesamiento continúa en el tercer y último estrato, el cual genera el
vector de salida de la red.
6. Dicho vector de salida es combinado con los valores de respuesta
experimentales correspondientes a las muestras que constituyen el conjunto
de entrenamiento con el fin de obtener el vector de errores de la capa de
salida. Éste también se obtiene para la capa oculta, lo que implica que el
error es retropropagado a través de la red (de ahí el nombre del algoritmo).
7. Posteriormente, los vectores de los pesos o conexiones entre cada nodo de la
red son actualizados utilizando los factores de velocidad de aprendizaje y
momentum (Ecuación 84). El momentum, como ya se ha explicado, ayuda a
mantener la estabilidad del proceso de entrenamiento, amortiguando las
oscilaciones que se producen en los cambios de los pesos.
8. Hasta aquí se completa un ciclo o iteración. La secuencia anterior (etapas 1
a 8) se repite de nuevo con el siguiente ciclo de entrenamiento.
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
212
Hay que señalar que todas las muestras (patrones) de entrada se procesan a través de
la red neuronal, ajustando los pesos en cada iteración o ciclo de entrenamiento. El error
RMS entre la respuesta predicha por el modelo y los valores experimentales de cada patrón
se calcula después de cada iteración. Finalmente, si se activa durante el proceso de
ejecución algún dispositivo para modificar o controlar el parámetro de velocidad de
aprendizaje, se calcula un nuevo valor de ç en base al cambio producido en el valor del
error RMS.
Redes neuronales artificiales basadas en coeficientes de Fourier
Los modelos neuronales basados en coeficientes de Fourier fueron diseñados de
acuerdo con las siguientes condiciones:
§
7 nodos en la capa de entrada, correspondientes a los siete coeficientes de
Fourier de cada señal.
§
2 nodos en la capa de salida, uno para cada valor de concentración de los
iones.
La capa oculta estuvo constituida por un número pequeño de neuronas, con el fin de evitar
los problemas de sobreajuste y sobreparametrización del sistema, obteniendo así un modelo
lo más sencillo posible.
Las características generales de los modelos fueron las que aparecen recogidas a
continuación:
§
Topología: 7-X-2, donde X tomó los valores 2 y 3.
§
Funciones de activación: lineal para la capa de entrada, y todas las
combinaciones posibles de funciones de activación gaussiana, sigmoidal y
tangente hiperbólica para el resto de las capas.
§
Conjunto de entrenamiento (trn): 32 muestras constituidas por los
patrones puros de talio y plomo y por 12 mezclas de ambos iones.
§
Conjunto de validación (mon): integrado por 8 mezclas, seleccionadas
primero al azar y luego fijadas para el resto de los tratamientos: T1, T8,
T1P1, T6P1, T2P2, T8P3, T1P6 y T4P9.
§
Conjunto de validación externo (tst): T1P9, T2P10, T3P5, T5P3, T6P8,
T8P6, T9P1 y T10P2.
Capítulo III
§
213
Valores iniciales de los pesos: fueron generados al azar, entrenándose por
triplicado cada modelo neuronal. El error RMS final se calculó como el
valor promedio de los errores obtenidos en cada proceso de entrenamiento.
El error empleado para evaluar la bondad de los modelos fue el error cuadrático
medio o RMS (root mean square error) de cada conjunto (entrenamiento, validación
externa y validación interna). Dicho parámetro queda definido por la siguiente ecuación:
RMS =
∑ (y
i
− y*i
i
n
)
2
(85)
donde yi representa el valor experimental de la concentración de los iones; yi* es la
concentración de los iones predicha por el modelo y n es el número de muestras del
conjunto.
La siguiente figura, basada en la Tabla III.1, representa el diagrama de distribución
de las muestras de acuerdo con la pertenencia de cada una a los conjuntos de entrenamiento
y validación interna y externa:
Figura III.13.- Esquema de la distribución de las distintas muestras de
talio y plomo según el conjunto al que pertenecen: entrenamiento (trn),
validación interna (mon) y validación externa (tst) (los espacios en blanco
se corresponden con las mezclas no determinadas experimentalmente).
Los mejores modelos neuronales, aquellos cuyos errores RMS fueron mínimos tanto
para el conjunto de entrenamiento como para el de validación interna, fueron los siguientes:
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
214
§
7-3-2 lineal-tangente-gaussiana (ltg): 7 nodos en la capa de entrada con
funciones de activación lineal, 3 nodos en la capa oculta con funciones de
activación tangente hiperbólica y, finalmente, 2 nodos en la capa de salida
con funciones de activación gaussianas.
§
7-2-2 lineal-tangente-gaussiana (ltg): 7 nodos en la capa de entrada con
funciones de activación lineal, 2 nodos en la capa oculta con funciones de
activación tangente hiperbólica y 2 nodos en la capa de salida con funciones
de activación gaussianas.
Los valores de los errores RMS para dichos modelos aparecen reflejados en la
siguiente tabla:
Modelo
RMStrn RMSmon RMStst
7-3-2 ltg
0,0235 0,0264 0,0447
7-2-2 ltg
0,0254 0,0269 0,0426
Tabla III.10.- Errores RMS para los mejores modelos neuronales basados
en coeficientes de Fourier.
Ambos modelos neuronales fueron entrenados y validados de nuevo variando los
parámetros adaptativos de velocidad de aprendizaje y momentum. Los resultados para los
errores RMS obtenidos no mejoraron de manera significativa. Ello indicó que los modelos
neuronales
óptimos
basados
en
coeficientes
de
Fourier
fueron
los
considerados
previamente en la Tabla III.10.
Finalmente, se obtuvieron los valores predichos para las concentraciones de los
iones Tl+ y Pb2+ utilizando los modelos óptimos, resultando un error relativo medio inferior
al 6 %.
Redes neuronales artificiales basadas en coeficientes wavelet
En este caso, los coeficientes wavelet, que fueron obtenidos a partir de las funciones
wavelet Symlet 3 y Symlet 4 (9 y 11 coeficientes, respectivamente), fueron empleados
como vectores de entrada a las ANNs.
Capítulo III
215
Al igual que sucedió con las redes neuronales basadas en coeficientes de Fourier, se
desarrollaron modelos neuronales constituidos por tres capas. Las topologías diseñadas
fueron las siguientes:
§
9-X-2 para Symlet 3: 9 nodos de entrada (uno para cada coeficiente
wavelet), 2 neuronas de salida (concentraciones de los iones) y X nodos
ocultos (tomando los valores 2 y 3).
§
11-X-2 para Symlet 4: 11 nodos en la capa de entrada (uno por cada
coeficiente wavelet), 2 neuronas en la capa de salida (concentraciones de los
iones) y X nodos en el estrato oculto (tomando los valores 2 y 3).
Por lo que respecta a los parámetros de entrenamiento, así como a los conjuntos en
los que se dividieron las muestras experimentales, todos fueron idénticos a los empleados
con los modelos de Fourier. El problema del sobreajuste se resolvió de idéntica manera.
Los mejores modelos neuronales (errores RMS mínimos), obtenidos a partir de los
coeficientes wavelet de la Symlet 3, presentaron las siguientes topologías:
§
9-3-2 lineal-sigmoidal-sigmoidal (lss)
§
9-2-2 lineal-gaussiana-tangencial (lgt)
Los valores para los errores RMS se recogen en la siguiente tabla:
Modelo
RMStrn RMSmon RMStst
9-3-2 lss
0,0225 0,0297 0,0774
9-2-2 lgt
0,0299 0,0256 0,0475
Tabla III.11.- Errores RMS para los mejores modelos neuronales basados
en coeficientes wavelet (Symlet 3).
En este caso, el error relativo promediado fue inferior al 8 % para ambos modelos.
Los mejores modelos utilizando los coeficientes procedentes de la wavelet Symlet
4, ofrecieron las siguientes topologías:
§
11-3-2 lineal-sigmoidal-gaussiana (lsg)
§
11-2-2 lineal-sigmoidal-gaussiana (lsg)
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
216
Los valores para los errores RMS se recogen en la siguiente tabla:
Modelo
RMStrn RMSmon RMStst
11-3-2 lsg 0,0229 0,0169 0,0486
11-2-2 lsg 0,0230 0,0164 0,0474
Tabla III.12.- Errores RMS para los mejores modelos neuronales basados
en coeficientes wavelet (Symlet 4).
En este caso, el error relativo promediado fue inferior al 6 % para los dos modelos.
Al igual que con los modelos basados en coeficientes de Fourier, se procedió a
refinar los modelos anteriores variando los parámetros de velocidad de aprendizaje y
momentum. Sin embargo, los resultados tampoco fueron significativamente mejores que
los obtenidos anteriormente. Esta es la razón principal por la que dichos modelos fueron
considerados como óptimos entre los obtenidos con el propósito de resolver el sistema
binario Tl+ / Pb2+.
Estudio comparativo de los dos tipos de modelos neuronales
Con vistas a comparar la capacidad de reducción y de retención de información de
ambos tipos de transformadas, así como la habilidad predictiva de los modelos neuronales
basados en los coeficientes generados por cada una de ellas, se obtuvieron los porcentajes
de mejora de cada modelo neuronal basado en coeficientes wavelet con respecto a los
modelos construidos mediante coeficientes de Fourier. La comparación fue llevada a cabo
entre modelos diseñados con idéntico número de neuronas en la capa oculta y se basó en
los errores RMS de cada conjunto de muestras, como se refleja en la siguiente tabla:
Modelo RMStrn RMSmon RMStst
7-3-2 ltg 0,0235
0,0264 0,0447
7-2-2 ltg 0,0254
0,0269 0,0426
9-3-2 lss 0,0225
0,0297 0,0774
9-2-2 lgt 0,0299
0,0256 0,0475
11-3-2 lsg 0,0229
0,0169 0,0486
11-2-2 lsg 0,0230
0,0164 0,0474
Capítulo III
217
Tabla III.13.- Recopilación de los errores RMS para los mejores modelos
neuronales.
El porcentaje de mejora fue considerablemente superior en el caso de los valores
correspondientes al error RMSmon , más concretamente, un 17 % de promedio. Esto
significa que haciendo uso de un procedimiento de compresión basado en la WT, los
resultados para el conjunto de validación interno mejoraron un 17 % con respecto a la
utilización del procedimiento de reducción de dimensiones basado en la FT. Con respecto a
los errores RMStrn , los resultados fueron muy parecidos en todos los casos y, finalmente,
como se muestra en la Tabla 13, los errores RMStst más pequeños fueron obtenidos con los
modelos basados en FT, lo que indica que, en esta situación, no se mejoran los resultados
mediante los modelos basados en coeficientes wavelet.
En general, puede concluirse que los modelos con 11 coeficientes wavelet son
mejores que los de 9 coeficientes. El hecho de emplear más coeficientes wavelet para
comprimir y reconstruir las señales, reteniendo consecuentemente más información, puede
influir en dicha situación. De cualquier modo, casi todas las mezclas fueron predichas con
errores de concentración inferiores a la centésima de mg·L-1 , independientemente del
modelo utilizado.
Por tanto, ha quedado demostrado que la capacidad de predicción, así como el
porcentaje de recomposición, fueron ligeramente mejores con los modelos de Fourier, a
pesar de las características más ventajosas que a priori presenta la WT como herramienta
de preprocesamiento. La razón subyace en la forma de la señal, la cual es
inconfundiblemente de tipo gaussiano (probando el ajuste de los voltamperogramas a una
función de este tipo los errores obtenidos fueron inferiores al 2 %). Como cualquier función
gaussiana es factible de descomponerse en sumas de funciones senos y cosenos, no es
sorprendente que la FT se adapte mejor que la WT en la representación de este tipo de
señales, al igual que en el proceso de reducción de dimensiones. Más aún, el uso de
coeficientes de Fourier permite construir modelos neuronales más simples que usando
coeficientes wavelet.
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
218
Métodos de calibración multivariante tradicionales
Regresión de componentes principales (PCR)
El análisis de componentes principales se llevó a cabo con la ayuda del paquete de
software Unscrambler® 7.01. Las variables fueron seleccionadas de acuerdo a la siguiente
distribución:
§
variables independientes:
1. los 80 puntos de los voltamperogramas de las muestras (PCR full);
2. los coeficientes de Fourier y wavelet obtenidos después de
preprocesar los datos iniciales con las respectivas transformadas
(FT+PCR y WT+PCR).
§
variables dependientes: constituidas por los valores de concentración de
cada ión en cada muestra
Todos los datos fueron centrados con respecto a la media, mientras que el entrenamiento y
validación del modelo se llevó a cabo utilizando los mismos conjuntos de muestras
empleados con los modelos neuronales.
El número de componentes principales, que explicaban la mayor parte de la
varianza de los datos, fue de 3 en el modelo PCR full y de 2 en los modelos FT+PCR y
WT+PCR. En otras palabras, haciendo uso de una etapa de preprocesamiento se reducen
también el número de componentes principales. Los errores RMS fueron obtenidos tanto
para el conjunto de entrenamiento como para el de validación interna. De igual modo, se
hizo uso del conjunto de validación externa con el fin de comprobar la capacidad predictiva
de los modelos basados en PCR. Dichos valores aparecen recogidos en la Tabla III.14:
Modelo
RMStrn RMSmon RMStst
PCR full
0,0334
0,0373 0,0498
FT+PCR
0,0382
0,0227 0,0511
WT(9)+PCR
0,0504
0,0466 0,0608
WT(11)+PCR 0,0481
0,0481 0,0592
Tabla III.14.- Errores RMS para los modelos basados en PCR.
Capítulo III
219
Las predicciones obtenidas con cada uno de los modelos ofrecieron valores
similares; sin embargo, los errores RMS fueron inferiores en PCR full y FT+PCR.
Regresión de mínimos cuadrados parciales (PLS)
Haciendo uso del mismo software y desarrollando el análisis de la misma manera
que en PCR (idénticas variables, procedimiento, método de validación y conjuntos de
entrenamiento, validación interna y externa), el número de componentes principales
seleccionado fue de 3 en el modelo PLS full y de 2 en FT+PLS y WT+PLS, como en el
tratamiento previo con PCR. Los errores RMS para cada conjunto de muestras aparecen
recogidos en la Tabla III.15:
Modelo
RMStrn RMSmon RMStst
PLS full
0,0328
0,0368 0,0496
FT+PLS
0,0378
0,0226 0,0514
WT(9)+PLS
0,0502
0,0464 0,0605
WT(11)+PLS 0,0480
0,0468 0,0589
Tabla III.15.- Errores RMS para los modelos basados en PLS.
Como puede observarse, los resultados no son muy diferentes de los obtenidos con los
modelos PCR. Al igual que sucedió en el análisis previo, los errores RMS fueron inferiores
con los modelos PLS full y FT+PLS.
Estudio comparativo de los métodos estadísticos empleados
En la siguiente figura, y de forma intuitiva, se recopilan los valores para los errores
RMS obtenidos mediante la aplicación de los diferentes modelos de calibración
multivariante:
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
220
Figura III.14.- Recopilación de los errores RMS para los mejores
modelos de calibración multivariante: ANNs, PCR y PLS.
Con respecto a los conjuntos de entrenamiento y de validación interna
(monitorización), los valores más pequeños de los errores RMS resultaron ser los
correspondientes a los modelos basados en 11 coeficientes wavelet, mientras que para el
conjunto de validación externa, el valor más bajo de error RMS se obtuvo para los modelos
neuronales basados en coeficientes de Fourier.
En general, los modelos PCR y PLS presentaron peor capacidad predictiva para el
conjunto de validación externa. No obstante, los modelos PCR full, PLS full, FT+PCR y
FT+PLS dieron valores de error RMStst muy similares a los de los modelos neuronales.
Esto significa que el uso de la transformada de Fourier como herramienta de
preprocesamiento permite obtener errores RMS más pequeños, independientemente de la
técnica de calibración multivariante empleada para resolver las mezclas. Además, en el
caso de los modelos PCR full y PLS full, sin ningún tipo de procesamiento previo, su
bondad puede ser atribuida a la linealidad existente entre las señales de las mezclas del
sistema binario Tl+ / Pb2+ aquí resuelto.
Finalmente,
de
entre
todos
los
métodos
analizados
(herramienta
de
preprocesamiento junto con técnica de calibración multivariante o ésta última sin
tratamiento previo), puede concluirse que aquellos que ofrecieron los mejores resultados a
Capítulo III
221
la hora de resolver las señales solapadas fueron los modelos neuronales basados en
coeficientes de Fourier y wavelet. Estos demostraron poseer un comportamiento
ligeramente mejor que PLS y PCR, los modelos tradicionales que, teóricamente, hubieran
supuesto los métodos más útiles a la hora de resolver esta clase de problema, incluso
cuando los datos iniciales presentaban cierta linealidad entre ellos.
En última instancia, se representó el gráfico “box & whiskers” haciendo uso de las
distribuciones de error para ambos iones, obtenidas para cada uno de los modelos
anteriores con los mismos conjuntos de entrenamiento y validación interna y externa:
A)
B)
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
222
Figura III.15.- Gráfico de los “box & whiskers” para las distribuciones de
error de los mejores modelos de calibración multivariante: A) Tl+, B) Pb2+.
Como se muestra en la Figura III.15, los modelos neuronales basados en
coeficientes de Fourier y wavelet ofrecieron una precisión sensiblemente mayor que los
modelos lineales PCR y PLS, excepto en el caso del modelo 9-3-2 lss. De entre todos los
modelos mostrados, WT+PLS y WT+PCR dieron los peores valores de precisión para
ambos iones.
6.4. Conclusiones
En este trabajo, se han obtenido modelos neuronales de topología simple y que
gozan de alta capacidad predictiva. Al mismo tiempo, se ha llevado a cabo un estudio
comparativo de dichos modelos con los construidos a partir de PCR y PLS.
Los modelos que combinan ANNs y transformadas de funciones (FT y WT) fueron
capaces de predecir las concentraciones de ambos iones en las mezclas de un modo
ligeramente mejor que las técnicas tradicionales, PLS y PCR, incluso cuando los datos
iniciales presentaban una linealidad acusada. Esto se debió, fundamentalmente, a la
capacidad que poseen la FT y WT para detectar la información de alta frecuencia a causa
del solapamiento tan severo existente entre las señales de Tl+ y Pb2+, habilidad de la que
carecen los modelos lineales (PCR y PLS).
Tanto la FT como la WT han demostrado ser dos herramientas de funcionamiento y
aplicabilidad similar con respecto a las señales voltamperométricas, aunque las topologías
obtenidas con FT fueron más simples. Por esta razón, el uso de la FT podría ser
considerado como más adecuado para las señales electroquímicas estudiadas aquí. Sin
embargo, es posible que para otro tipo de señal, más asimétrica o más alejada de la forma
gaussiana, sea preferible emplear la WT con el fin de lograr un mayor rendimiento en el
proceso de calibración.
Finalmente, comparando las distribuciones de error asociadas a los diferentes
modelos, se estableció que los modelos neuronales basados en FT y WT (con 11
coeficientes), frente a otros métodos quimiométricos, fueron más eficaces a la hora de
resolver este tipo de solapamiento severo.
Capítulo III
223
7) Análisis Multicomponente De Señales Electroquímicas En El
Dominio Wavelet
Como ha quedado demostrado en el epígrafe anterior, la aplicación de transformadas de
funciones, más concretamente de Fourier y wavelet, son de gran utilidad a la hora de
descomponer señales electroquímicas como las que se están tratando aquí. En un principio,
y gracias a la forma de los voltamperogramas correspondientes al sistema binario Tl+ /
Pb2+, parece ser que la transformada de Fourier ofrece un resultado ligeramente mejor que
la WT. Sin embargo, esto no quiere decir que se deba descartar la aplicación de la última
transformada.
Con vistas a demostrar, de un modo mucho más concreto y eficaz, el enorme potencial
y la gran aplicabilidad que posee la transformada wavelet a la hora de llevar a cabo el
procesamiento de señales electroquímicas, se propuso la realización de un análisis
multicomponente en el dominio wavelet de los voltamperogramas del sistema binario
constituido por los iones talio monovalente y plomo divalente.
El procedimiento para lograr dicho objetivo se basó también en la utilización de la WT
como herramienta de preprocesamiento. La finalidad fue idéntica a la de los estudios
desarrollados en el epígrafe previo: la obtención del menor número posible de coeficientes
wavelet, los cuales retuviesen la mayor parte de la información química presente en las
señales voltamperométricas, de tal forma que la posterior aplicación de métodos de
calibración multivariante permitiese una adecuada resolución de las mezclas multianalito.
Los estudios que se describen a continuación han sido publicados recientemente en
la revista científica Talanta [267]. Una copia del artículo aparece recogida en el Apéndice
III.
7.1. Objetivo y resumen del trabajo
Recientemente, el método de calibración multivariante se ha aplicado con gran éxito
en el campo de la electroquímica, como demuestran las siguientes referencias [149-157].
Principalmente, las técnicas empleadas fueron regresión multilineal (MLR), regresión
continua, regresión de mínimos cuadrados parciales (PLS) y redes neuronales artificiales
(ANN).
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
224
La principal ventaja a la hora de utilizar métodos de regresión basados en variables
latentes subyace en su flexibilidad, la cual permite modelar señales complejas incluso en
aquellos casos donde la presencia de ruido de fondo es importante. Sin embargo, a pesar
del buen desarrollo de estos métodos, en la actualidad, posee gran aceptación el hecho de
que dichas técnicas de calibración podrían beneficiarse de procesos previos de
transformación de los datos iniciales [148, 311]. Los citados pretratamientos favorecerían
la consecución de algunas de las siguientes ventajas:
§
corrección de los efectos de la línea base
§
eliminación de ruido en la señal
§
compresión de datos (reducción de dimensiones)
En este contexto, la WT parece ser una herramienta muy prometedora [526], siendo
muy eficiente para todos estos propósitos, puesto que, al mismo tiempo, ofrece las ventajas
de eliminación de ruido y compresión de datos.
Por esta razón, en este trabajo, se propuso una metodología, basada en la aplicación
de la transformada wavelet rápida (FWT), con el fin de llevar a cabo una selección de
caracteres como etapa previa al proceso de calibración. El sistema electroquímico utilizado
como prueba ha sido el que venía empleándose hasta ahora: los voltamperogramas
correspondientes al sistema binario Tl+ / Pb2+, los cuales, como se ha podido comprobar,
presentan un solapamiento muy severo.
Además, en esta parte de la Tesis Doctoral, se compararon también diversos
métodos de calibración multivariante: MLR, PLS y ANNs, obteniéndose modelos muy
efectivos y de buena capacidad predictiva. Paralelamente, otro de los objetivos fue el de
encontrar algún método que mejorase los resultados obtenidos y comentados con
anterioridad [161, 162].
Es más, una vez llevado a cabo el procedimiento de selección de caracteres y haber
elegido el menor número posible de coeficientes wavelet que retuviesen la mayor parte de
la información contenida en las señales, se procedió a la reconstrucción de las mismas,
haciendo uso únicamente de dichos coeficientes seleccionados. De este modo, y gracias a la
inspección de las señales reconstruidas, fue posible identificar e interpretar regiones
Capítulo III
225
significativas dentro de los voltamperogramas, con vistas a obtener respuestas con sentido
químico.
Algunos aspectos relacionados con el análisis multirresolución y la selección de caracteres
Como se ha explicado en el Capítulo I (epígrafe 7.4), el análisis multirresolución es
una de las grandes ventajas que ofrece la WT con respecto a otras transformadas. Mediante
la aplicación de sucesivas operaciones de filtrado (paso bajo y paso alto) y subsampling se
logra la descomposición de una señal cualquiera en diferentes niveles de resolución, tanto
en el dominio temporal como en el de las frecuencias. Dichos filtros, a su vez, se
subdividen en filtros de descomposición y de reconstrucción (aplicación de la transformada
wavelet inversa), y el conjunto constituido por los mismos se denomina filtros de espejo de
cuadratura o QMF, ya que son completamente simétricos.
A la hora de aplicar la WT hay que tomar en consideración dos cuestiones
fundamentales, las cuales suelen constituir la parte crítica de todo tratamiento que implica
la utilización de la transformada wavelet:
1. el tipo de funciones wavelet (filtros) que se desea aplicar para llevar a cabo
el análisis multirresolución de la señal en estudio;
2. el nivel de descomposición wavelet, adecuado al problema en cuestión, en el
cual detener el citado análisis.
Normalmente, los filtros wavelet óptimos, aparte de algunas pocas excepciones
[262], se seleccionan de modo empírico a partir de la descomposición del espectro medio o
de la forma de las señales. Mientras que se prefiere esta aproximación para tareas de
compresión y eliminación de ruido, en las que la forma de la señal debe preservarse en su
totalidad, no es conveniente llevar esto a cabo cuando se realiza calibración multivariante,
donde los aspectos de la señal que son relevantes para la predicción de la variable de
respuesta pueden ser, en principio, desconocidos (por ejemplo, una variación de la segunda
derivada o una discontinuidad difícilmente detectables). Por esta razón, como no se conoce
a priori la forma de la señal ni la posición de las variables descriptoras que son relevantes
para la predicción de las variables de respuesta, podría ser más útil una aproximación del
tipo “análisis-ciego” o sistemática, por medio de la cual se prueban muchas formas
(funciones wavelet) para la identificación del mejor modelo de calibración. Con respecto al
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
226
segundo dilema, la elección del nivel de descomposición óptimo, ésta se desarrolla
considerando las características propias del espectro o señal media, o bien, simplemente,
obteniendo el máximo nivel de descomposición posible para cada caso en cuestión.
Con el fin de completar la secuencia lógica que se está desgranando, la siguiente
etapa estaría constituida por el procedimiento denominado en la bibliografía como
selección
de
caracteres
(feature
selection).
Este
método
ha
sido
aplicado
fundamentalmente a señales espectrales de infrarrojos [262-264, 468], así como a las
originadas por los lodos obtenidos durante el tratamiento de aguas residuales [256] y a
difractogramas de rayos X [268], entre otras. Sin embargo, y con referencia a las señales
electroquímicas, el trabajo aquí desarrollado supone una aplicación bastante novedosa.
La selección de caracteres consiste en elegir un grupo de coeficientes wavelet,
procedente de alguno de los niveles de descomposición obtenidos a partir del análisis
multirresolución, los cuales retengan la mayor parte de la información útil contenida en la
señal. En la literatura se han propuesto principalmente dos opciones para llevar a cabo
dicha selección:
1. los coeficientes wavelet se seleccionan gracias a la aplicación de criterios
basados en la evaluación de los pesos obtenidos con el método PLS [264] o
de los coeficientes de regresión de dicha técnica [262];
2. los coeficientes wavelet son ordenados previamente según el valor de la
varianza [263, 265, 266] o por medio de algún tipo de correlación [277],
eligiéndose posteriormente aquel subconjunto que ofrezca modelos de
regresión mejores y más estables.
En particular, Depczynski et al. [240] consideraron un número fijo, M, de
coeficientes ordenados (de acuerdo a su correlación con las variables dependientes yi), a
partir de los cuales se derivó la población inicial de datos, y se introdujeron en un algoritmo
genético (GA), el cual buscó la mejor combinación de M coeficientes wavelet. La función a
optimizar contuvo los errores de predicción estándar tanto para el conjunto de
entrenamiento como para el de validación interna, relativos a modelos MLR. En principio,
esta aproximación parece bastante interesante, puesto que se pueden probar muchas
combinaciones diferentes de coeficientes. No obstante, el empleo de un algoritmo genético
Capítulo III
227
es computacionalmente prohibitivo, sin contar con que su aplicación sobre un número
preseleccionado y limitado de coeficientes coarta la búsqueda.
Resumen de la metodología empleada
En el presente trabajo, en vez de hacer uso de un GA, se adoptó una aproximación
más simplificada, donde la selección de los coeficientes wavelet que se iban a utilizar como
variables predictoras fue llevada a cabo mediante la aplicación recursiva de modelos de
regresión multilineal. Una vez designados los coeficientes wavelet óptimos, se emplearon
diferentes técnicas de regresión para calcular el modelo de calibración final. Más aún, todos
los posibles niveles de descomposición fueron considerados en el tratamiento.
La metodología propuesta consta de las siguiente etapas:
1. Las señales se descomponen en el dominio wavelet por medio de la FWT,
hasta alcanzar el máximo nivel de descomposición.
2. Para cada nivel de descomposición, los coeficientes wavelet se ordenan o
bien de acuerdo a su varianza, o bien según el coeficiente de correlación al
cuadrado, calculado con respecto a las concentraciones de los analitos.
3. Para cada nivel de descomposición, puede fijarse el número de coeficientes
wavelet que se desea retener o, por otro lado, dicho número también puede
determinarse de forma iterativa mediante la búsqueda, haciendo uso de
regresión multilineal, del valor mínimo para el parámetro denominado
desviación estándar del error de las predicciones (SDEPLOO, Standard
Deviation of Error of Predictions, estimado a través del procedimiento de
Leave-One-Out).
4. Finalmente, se considera como nivel óptimo de descomposición aquel que
ofrece los coeficientes de correlación al cuadrado más altos.
Los coeficientes wavelet seleccionados constituyen un conjunto de variables
independientes, las cuales pueden ser utilizadas como alimentación a otras técnicas de
regresión diferentes. Para propósitos interpretativos, tanto los coeficientes elegidos como
los coeficientes de regresión calculados pueden reconstruirse en el dominio original
mediante la FWT inversa.
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
228
Las etapas más críticas, como se ha apuntado con anterioridad, se corresponden con
la elección tanto de la función wavelet apropiada, como del criterio de relleno (padding)
más útil [160, 223, 241]. En el trabajo que aquí se describe, se probaron 15 funciones
wavelet diferentes y tres criterios de relleno distintos. Varios conjuntos de coeficientes
wavelet seleccionados, correspondientes a diferentes combinaciones de los parámetros
anteriores, fueron utilizados como entradas a tres técnicas de regresión: MLR, PLS y
ANNs. El desarrollo y actuación de cada uno de los modelos de regresión obtenidos se
comprobó mediante la evaluación de sus habilidades predictivas sobre un conjunto de
validación externo.
7.2. Breve descripción del algoritmo y de las técnicas quimiométricas aplicadas
Algoritmo empleado en el procedimiento de selección de caracteres
La transformada wavelet es una técnica muy poderosa para el procesamiento de
señales. La peculiaridad que posee subyace en su habilidad para establecer mapas del
contenido de frecuencias de una señal como una función del dominio original, ofreciendo
la posibilidad de localizar dicha señal en un dominio dual tiempo-frecuencia. Una
descripción más detallada sobre la WT y sus propiedades, así como un gran número de
referencias relacionadas pueden encontrarse en el Capítulo I, epígrafe 7.4, además de en
[526-528]. No obstante, y a continuación, se darán unas breves pinceladas sobre el tema.
La transformada wavelet discreta (DWT), también conocida como transformada
wavelet rápida (FWT), fue implementada a través del algoritmo piramidal de Mallat. Dicho
algoritmo opera sobre una señal discreta individual de longitud 2l, dividiéndola en 2l-1
subespacios ortogonales, denominados aproximaciones y detalles, respectivamente. La
descomposición se lleva a cabo mediante la aplicación de dos filtros (estando definida cada
wavelet por un conjunto de coeficientes de filtro wavelet únicos) sobre la señal original: un
filtro de paso bajo, el cual retiene únicamente el contenido de bajas frecuencias de la señal
(aproximaciones) y un filtro de paso alto, que recoge tan sólo el contenido de altas
frecuencias (detalles). El procedimiento puede repetirse de modo iterativo gracias al
empleo sucesivo de los dos filtros sobre el vector de las aproximaciones, hasta que la
longitud del vector resultante sea igual a 1. De este modo, se construye el denominado
árbol wavelet, que aparece representado en la Figura III.16:
Capítulo III
229
Figura III.16.- Árbol wavelet obtenido mediante la aplicación sucesiva de
la DWT.
Los
vectores
de
aproximación
y
detalle
aparecen
indicados
como cA
y cD,
respectivamente.
De este modo, se obtienen separadamente las estructuras fina (características de
detalle) y gruesa (propiedades referidas a una totalidad) de la señal en cuestión,
dividiéndolas en distintos subespacios, es decir, en vectores o conjuntos de coeficientes
wavelet, completando así el proceso de análisis conocido como multirresolución de la
señal. Para cada nivel de descomposición, j, es posible llevar a cabo una reconstrucción
perfecta de la señal original mediante la FWT inversa, haciendo uso de las aproximaciones
del nivel j y de todos los detalles desde el nivel j hasta el nivel 1. En otras palabras, la señal
es representada en términos de una base ortonormal única [cAj cDj cDj-1 ... cD1 ]. Por el
contrario, cuando la meta consiste en eliminar el ruido o en desarrollar una compresión de
datos o una selección de caracteres, tan sólo se retiene un conjunto representativo, es decir,
informativo para el propósito dado, de coeficientes wavelet. Para ello se aplica un
procedimiento o criterio de selección adecuado (thresholding).
Mediante el algoritmo empleado en esta parte de la Tesis Doctoral, el cual, como
veremos posteriormente será bastante similar al utilizado en el Capítulo IV, se usa la FWT
con el fin de llevar a cabo un proceso de selección de caracteres previo a un análisis de
regresión. Dicho procedimiento, que fue escrito en lenguaje MATLAB® empleando un
conjunto de funciones y comandos pertenecientes a Wavelet Toolbox ver. 2.1 [529],
aparece representado esquemáticamente en la Figura III.17:
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
230
l puntos
se
ña
le
s
p puntos
m
Matriz de las
se
m
señales
ña
l
es
Matriz de las
señales rellena
FWT
J niveles
J niveles
J niveles
m
se
ña
le
s
Coeficientes wavelet
Ordenamiento por varianza
Y
Y
Y
n
2
1
Ordenam. por coef. correlación
Thresholding
d
fija
os
au
tom
ati
c
J niveles
m
s
le
k1
ña
J niveles m s
e
se
ña
le
s
p a r a k = 1 h a s t a ... P R E S S m í n i m o
k
k2
kj
Figura III.17.- Esquema del proceso de selección de caracteres basado en
la FWT y desarrollado por el algoritmo.
El procedimiento completo se describe del siguiente modo:
Capítulo III
231
1. La matriz de las señales es sometida a una etapa de relleno o ‘padding’ con
ceros, hasta alcanzar un número de elementos o puntos que es potencia de 2
(2N).
2. Seguidamente, cada señal se descompone en el dominio wavelet hasta el
máximo nivel de descomposición, originando una matriz tridimensional de
dimensiones jniveles H pcoeficientes wavelet H mseñales.
3. En esta etapa, la matriz tridimensional es reducida hasta una matriz
bidimensional mediante el cálculo alternativo de:
§
la varianza de los coeficientes wavelet a lo largo de la dimensión de
las señales (ordenamiento por varianza);
§
los coeficientes de correlación al cuadrado con respecto a las
variables dependientes yi (ordenamiento
por
coeficiente
de
correlación).
En el último caso, se obtienen tantas matrices como variables dependientes.
Los elementos de cada fila, esto es, de cada nivel de descomposición, de la
matriz de las varianzas o de la matriz de los coeficientes de correlación
respectivamente, se disponen de manera ascendente. Cada plano de la matriz
de coeficientes wavelet (pcoeficientes
wavelet
H mseñales, a un nivel de
descomposición dado) es ordenado de acuerdo con lo anterior.
4. Posteriormente, los coeficientes para cada nivel de descomposición son
seleccionados (thresholding) haciendo uso de alguno de los siguientes
criterios:
a) Se selecciona un número fijo, k, de coeficientes, definido por el
usuario. En el caso de la ordenación por varianza, se retienen los
primeros k coeficientes ordenados; en el caso de la ordenación por
coeficientes de ordenación, para cada variable yi se puede elegir un
número distinto de coeficientes: k 1 para y1 , k 2 para y2 , y así
sucesivamente. Dichos coeficientes se corresponden con los primeros
k 1 , k 2 , etc., elementos ordenados pertenecientes a las matrices de
correlación
relevante.
El
conjunto
de
coeficientes
wavelet
seleccionado para el desarrollo de ulteriores análisis se encuentra
constituido por todos aquellos coeficientes que han sido elegidos
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
232
para cada variable individual yi, sin tener en cuenta repeticiones, lo
que significa que si el mismo coeficiente ha sido seleccionado para
más de una variable dependiente, éste se considera sólo una vez.
b) El
segundo
criterio
implica
una
selección
automática
y
se
implementa como sigue. Primeramente se lleva a cabo una selección
a grosso modo de los coeficientes wavelet ordenados previamente,
mediante la exclusión de aquellos coeficientes que muestran una
correlación por parejas superior a 0.90 con al menos uno de los
coeficientes precedentes. Para cada variable yi, el número de
coeficientes retenidos se incrementa progresivamente desde uno
hasta el valor del rango de la matriz de coeficientes wavelet del nivel
considerado
(pcoeficientes
wavelet
H
mseñales),
calculándose
los
correspondientes modelos de regresión multilineal. Con vistas a
obtener modelos de regresión más estables, se utiliza la matriz
pseudoinversa en la ecuación de regresión. Para cada variable yi, se
seleccionan los coeficientes correspondientes a los modelos de
regresión que poseen un valor mínimo para la desviación estándar
del error de predicción o SDEPLOO (estimada mediante el
procedimiento de Leave-One-Out). El conjunto de coeficientes
wavelet empleado en posteriores análisis incluye todos aquellos
coeficientes elegidos para cada variable individual yi, sin considerar
las repeticiones.
De este modo, para cada nivel de descomposición, se selecciona un conjunto de
coeficientes wavelet óptimos; además, se calcula el coeficiente de correlación al cuadrado
promediado a partir de los coeficientes de correlación obtenidos para cada una de las
variables dependientes. El nivel de descomposición óptimo es aquel que muestra el valor
más alto para el coeficiente de correlación al cuadrado promediado.
Los coeficientes wavelet elegidos a partir del nivel de descomposición óptimo son
posteriormente utilizados como variables de entrada en diferentes métodos de regresión.
Capítulo III
233
Filtros wavelet y valores de los parámetros utilizados en el algoritmo
Como se ha comentado anteriormente, la descomposición en el dominio wavelet de
una señal se basa fundamentalmente en un esquema muy simple: convolución y
downsampling (reducción del tamaño de la señal). Normalmente, cuando se lleva a cabo la
convolución de señales de longitud finita, se producen distorsiones en los límites o
extremos de las mismas. En general, para evitar este problema, se extiende la señal en sus
límites mediante un proceso de relleno con ceros (padding), aunque ello implique extender
el cálculo a unos pocos coeficientes extra en cada paso del proceso de descomposición, con
el fin de lograr una reconstrucción más perfecta.
La evaluación de los efectos de diferentes criterios de relleno o padding en el
resultado ofrecido por los modelos de calibración puede ser de vital importancia cuando las
variables independientes están constituidas por coeficientes wavelet, los cuales derivan de
la aplicación de la FWT a un conjunto de señales. De hecho, los valores de los coeficientes
wavelet calculados varían dependiendo del criterio que se adopte para extender la señal.
Por esta razón, tres criterios de padding diferentes [160, 241, 529], los cuales se encuentran
disponibles en el Wavelet Toolbox de MATLAB®, fueron comparados de modo
sistemático en esta investigación:
1. relleno simétrico (symmetric padding: sym): las señales son rellenadas en
sus extremos mediante la réplica de los valores límites simétricos;
2. relleno por ceros (zero padding: zpd): la señal se extiende hasta potencia
de dos añadiendo ceros en los extremos de su soporte original;
3. relleno suave (smooth padding de orden 1: spd): las señales se extienden
fuera de su soporte original por medio de una extrapolación derivativa de
primer orden. Ésta se lleva a cabo utilizando un ajuste de extensión lineal de
los dos primeros y los dos últimos valores.
En la siguiente figura, se hace uso de un ejemplo para explicar gráficamente los
diversos criterios de ‘padding’ previamente definidos:
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
234
3
2.5
2
1.5
1
0.5
0
-0.5
-1
ZPD
3
0
2 0
4 0
6 0
8 0
100
120
140
160
SYM
3
2.5
2
1.5
1
0.5
0
-0.5
5
2.5
0
2
- 5
1.5
-10
1
-15
0.5
-20
0
-25
-0.5
-1
-30
-1
0
50
100
150
200
250
300
350
400
SPD
-35
0
50
100
150
200
250
300
350
400
0
5 0
100
150
200
250
300
350
400
Figura III.18.- Esquema explicativo de los diferentes tipos de ‘padding’
aplicados a una señal voltamperométrica cualquiera.
Por otro lado, a lo largo del presente estudio se consideraron 15 funciones wavelet,
pertenecientes a diversas familias:
§
Daubechies: db1, db2, db3, db4, db5, db10 y db20 (7 en total).
§
Coiflets: coif1, coif2 y coif5 (3 en total).
§
Symlets: sym4, sym5, sym6, sym7 y sym8 (5 en total).
Con respecto a la ordenación de los coeficientes wavelet, se utilizó tanto el método
de ordenación basado en el valor de la varianza, V, como en el de los coeficientes de
correlación, R. De igual modo, se aplicaron los dos criterios de selección de coeficientes
comentados con anterioridad: automático, A, y fijo, F, estableciendo un valor adecuado, en
este último caso, de cuatro coeficientes (dos para cada variable en relación a la ordenación
según el coeficiente de regresión).
La ejecución de todas las posibles combinaciones construidas a partir de los
parámetros citados en los párrafos previos conduce a 3 (criterios de padding) H 15
(funciones wavelet) H 2 (criterios de ordenación) H 2 (criterios de selección) = 180 ciclos
de cálculo.
Capítulo III
235
Regresión por mínimos cuadrados parciales (PLS)
Con el fin de calcular de modo automático los 180 modelos PLS posibles, se
programó una rutina en entorno MATLAB®, haciendo uso del PLS Toolbox ver. 2.1.1
[324].
Los coeficientes wavelet obtenidos a partir de la aplicación del algoritmo
precedente fueron siempre centrados con respecto a la media (mean-centering). El número
óptimo de componentes PLS fue seleccionado por validación cruzada (cross-validation).
Con el fin de determinar el número de componentes significativas, r* , se comparó el valor
de la suma de cuadrados del error residual predicho (PRESSLOO, estimado por el
procedimiento de Leave-One-Out), obtenido mediante la adición de una componente más,
con el correspondiente valor de PRESSLOO previo. El valor adecuado de r* se obtiene
cuando se cumple la siguiente condición:
(
)
PRESS LOO r* + 1
>> 1
PRESS LOO r *
( )
(86)
El desarrollo de cada modelo PLS fue probado gracias al cálculo de la desviación
estándar del error de las predicciones, SDEPMON, estimado a partir de un conjunto de
validación interno constituido por 9 mezclas: T2, T9, P3, P8, T1P6, T4P4, T10P5, T6P1 y
T9P9. Para cada combinación de parámetros (filtros wavelet, criterio de padding, criterio
de ordenamiento y criterio de selección), se seleccionaron los mejores modelos PLS y,
posteriormente, se comprobó su habilidad predictiva mediante un conjunto de validación
externo, SDEPTST, formado por 8 mezclas: T1P9, T2P10, T3P5, T5P3, T6P8, T8P6, T9P1
y T10P2. La siguiente figura, basada también en la Tabla III.1, representa el diagrama de
distribución de las muestras en los diferentes conjuntos de entrenamiento, validación
interna y validación externa:
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
236
Figura III.19.- Esquema de la distribución de las distintas muestras de
talio y plomo según el conjunto al que pertenecen: entrenamiento (trn),
validación interna (mon) y validación externa (tst) (los espacios en blanco
se corresponden con las mezclas no determinadas experimentalmente).
Como puede observarse, la Figura III.19 es muy similar a la Figura III.13. No
obstante, se diferencian en las muestras pertenecientes al conjunto de validación interna.
Mientras que en el primer caso, dichas muestras fueron elegidas de un modo mucho más
razonado, a partir de la observación de las señales voltamperométricas, incluyendo aquellos
casos que se suponían más extremos (T1L6 y T6L1, por ejemplo), en el segundo caso
(Capítulo III, epígrafe 6), la selección fue completamente aleatoria.
Regresión multilineal (MLR)
Para llevar a cabo el cálculo de los 180 modelos MLR, se programó una rutina en
entorno MATLAB®, la cual, como en el caso de la técnica previa, operó de forma
automática.
Al igual que con la regresión PLS, los coeficientes wavelet fueron siempre
centrados con respecto a la media. En este caso, se utilizó la matriz pseudoinversa en la
ecuación de regresión multilineal, llevando la ordenada en el origen hasta el valor cero. El
desarrollo de cada modelo MLR se comprobó también mediante el valor de la desviación
estándar del error de las predicciones, SDEPMON, sobre el mismo conjunto de 9 mezclas
utilizado por la técnica anterior.
Capítulo III
237
De manera similar, de entre todas las combinaciones probadas, se seleccionaron los
mejores modelos MLR, empleando el mismo conjunto de validación externo anterior,
constituido por 8 mezclas, con el fin de verificar la habilidad predictiva de cada uno de
ellos, SDEPTST.
Redes neuronales artificiales (ANN)
Como se ha comentado en parte anteriormente y, además, aparece reflejado en la
Figura III.19, el conjunto de entrenamiento estuvo constituido por 31 muestras. El número
de coeficientes wavelet seleccionado estuvo comprendido entre 3 y 12, de modo que, con el
fin de evitar problemas de sobreajuste [396, 490], sólo se probaron modelos neuronales de
topología ni-2-2, donde ni indica el número de coeficientes de entrada a la red.
En el Capítulo III, epígrafe 6 se presentó la Ecuación 82, que permite realizar el
cálculo del número de parámetros a ajustar en cada modelo neuronal, en función de la
topología ni-2-2. Según el resultado de aplicar dicha ecuación en cada caso, se obtendrá un
mayor o menor número de parámetros ajustables, N. Cuanto menor sea dicho número, más
estables son los modelos neuronales generados, sin necesidad de saturar los grados de
libertad del sistema en cuestión, como sucedería en el caso contrario.
Por tanto, con el fin de evitar el desarrollo de modelos neuronales con excesivo
número de parámetros, es decir, que se viesen afectados por el fenómeno de sobreajuste, el
valor máximo de coeficientes wavelet a considerar como entradas a las redes neuronales
artificiales fue de 11. Sin embargo, aún así, sería altamente probable que se produjese
sobreajuste cuando el número de coeficientes de entrada a los modelos neuronales
excediese de 6, de acuerdo con la Ecuación 82 y la explicación dada en el epígrafe 6. Con
el propósito de establecer comparaciones con respecto a las técnicas quimiométricas
descritas anteriormente, se calcularon diferentes modelos de redes neuronales artificiales,
uno para cada uno de los 180 conjuntos de coeficientes wavelet, procedentes a su vez de
otros tantos ciclos de cálculo ejecutados con el algoritmo de selección de caracteres. De
entre los mejores modelos obtenidos tan sólo se seleccionaron aquellos cuyo número de
coeficientes de entrada era menor o igual a 6.
La configuración de los modelos neuronales probados fue la siguiente:
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
238
§
Algoritmo de entrenamiento: algoritmo de retropropagación mejorado
(improved back-propagation).
§
Funciones de activación: lineal para la capa de entrada, y todas las
combinaciones posibles de funciones de activación gaussiana, sigmoidal y
tangente hiperbólica para la capa oculta y la de salida.
Para desarrollar los cálculos de los modelos basados en ANNs se hizo uso del
programa Qnet® 2000. El proceso de entrenamiento de las redes se basó en la minimización
de la desviación estándar del error de las predicciones, SDEPMON, estimado sobre el
conjunto de las muestras de validación interna especificado en la Figura III.19. Como los
pesos iniciales fueron generados de manera aleatoria para cada conjunto de coeficientes
wavelet, se realizaron 5 procedimientos de entrenamiento diferentes cada vez, es decir, se
generaron 5 modelos neuronales para cada conjunto de coeficientes wavelet, promediando
al final los valores de SDEP resultantes.
Del mismo modo en como se procedió con los modelos PLS y MLR, para cada
combinación de parámetros (filtros wavelet, criterios de padding, criterios de ordenamiento
y criterios de selección de coeficientes), se seleccionaron los mejores modelos neuronales
que poseían los valores más bajos de SDEPMON, así como el menor número de coeficientes.
Sin embargo, es necesario resaltar que en el caso de las ANNs el conjunto de validación
interna se utiliza para detener el proceso de entrenamiento de la red, pero no constituye en
sí mismo un verdadero conjunto de validación, como sucedería con cualquier otro método
quimiométrico: PLS y MLR, por ejemplo, sino más bien un conjunto de monitorización.
Por esta razón se han empleado tres conjuntos de datos en todos los métodos aplicados a lo
largo de la Tesis Doctoral, para poder establecer una comparación adecuada entre todos
ellos, equiparándolos con respecto a las redes neuronales artificiales. De acuerdo con lo
anterior y, por consiguiente, tal y como se ha venido operando hasta ahora, la habilidad
predictiva de los modelos neuronales seleccionados se comprobó gracias a un conjunto de
validación externo (SDEPTST) constituido por 8 mezclas (ver Figura III.19).
7.3. Discusión de los resultados obtenidos
Los resultados obtenidos con la selección automática de los coeficientes wavelet
ofrecieron generalmente valores más bajos de desviación estándar de los errores calculados
(SDEC, basado en el conjunto de entrenamiento) y del error de las predicciones para el
Capítulo III
239
conjunto de validación interna (SDEPMON), con respecto al criterio de selección de un
número de coeficientes fijos.
La Figura III.20 muestra los resultados obtenidos con el criterio de selección
automático y diferentes combinaciones de los demás parámetros para cada técnica de
calibración aplicada:
Figura III.20.- Resultados obtenidos con el criterio de selección
automática
para
cada
técnica quimiométrica aplicada: a) selección
automática de coeficientes – ordenación por varianza (AV), valores de
SDEC frente al número de ciclos para los diferentes criterios de ‘padding’:
-- -- zpd (zero padding); - - sym (symmetric padding); ··· ··· spd
(smooth padding de primer orden); b) selección automática de coeficientes
– ordenación por varianza (AV), valores de SDEPMON frente al número de
ciclos para los diferentes criterios de ‘padding’: -- -- zpd; - - sym; ··· ···
spd; c) selección automática de coeficientes – ordenación por coeficiente
de correlación (AR), valores de SDEC frente al número de ciclos para los
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
240
diferentes criterios de ‘padding’: -- -- zpd; - - sym; ··· ··· spd; d)
selección automática de coeficientes – ordenación por coeficiente de
correlación (AR), valores de SDEPMON frente al número de ciclos para los
diferentes criterios de ‘padding’: -- -- zpd; - - sym; ··· ··· spd.
Con respecto al criterio de ‘padding’ spd, los puntos correspondientes a los filtros wavelet
db10, sym4, sym5, sym6 y sym7 fueron omitidos de las Figura III.20 a) y b), puesto que
mostraban valores de SDEPMON comprendidos en el intervalo 0,15 y 0,28. Dichos casos se
correspondieron con modelos de regresión basados en un único coeficiente wavelet
(seleccionado por el algoritmo de selección de caracteres), debido a que los coeficientes
posteriores, ordenados según la varianza, presentaron un fuerte grado de correlación con el
mismo y, por consiguiente, fueron descartados.
En la figura anterior, se recogen los valores de SDEC (subfiguras a) y c)) y de
SDEPMON (subfiguras b) y d)) para cada ciclo de cálculo (180 en total para las cuatro
subfiguras). Cada subfigura se corresponde con un determinado criterio de ordenamiento
de los coeficientes wavelet, empleándose diversos símbolos icónicos para cada criterio de
padding. En el eje de abcisas, para cada técnica de calibración, de acuerdo al siguiente
orden: MLR, PLS y ANNs, se dispusieron los filtros wavelet del modo expuesto a
continuación: db1, db2, db3, db4, db5, db10, db20, sym4, sym5, sym6, sym7, sym8, coif1,
coif2, y coif5. En pocas palabras, cada grupo de 15 puntos con respecto a la abcisa se
corresponde con un método de calibración diferente y, dentro de los 15 puntos, los
primeros siete están relacionados con la familia de los filtros Daublets, los siguientes 5
puntos con la familia de las Symlets y los tres últimos con la familia wavelet de las
Coiflets.
En general, puede observarse que el criterio de ordenamiento basado en la varianza
resulta mejor que el basado en el coeficiente de regresión, generando valores promedio
inferiores tanto para el SDEC como para el SDEPMON.
El procedimiento de selección de coeficientes wavelet con mayor varianza se ha
utilizado ya con buenos resultados en tareas de regresión [263, 265]. Sin embargo, los
valores más bajos obtenidos para SDEC y SDEPMON haciendo uso de criterios diferentes
resultaron ser de similar magnitud.
Capítulo III
241
La actuación de los diferentes modelos estudiados no difirió de manera significativa
cuando se varió el criterio de padding aplicado, excepto para los filtros wavelet de órdenes
más elevados. En cierto modo, esto era de esperar, puesto que la extensión de la señal en
sus extremos (padding) requiere el cálculo de unos pocos coeficientes extra en cada etapa
de descomposición, siendo dicho número de coeficientes añadidos función de la longitud
del filtro. El empleo de diversos criterios de padding conduce a valores cada vez más
diferentes de coeficientes wavelet con el correspondiente incremento en los niveles de
descomposición. No obstante, los resultados obtenidos demuestran que este problema no
constituye una seria desventaja mientras se adopte un criterio efectivo para la selección de
los coeficientes wavelet.
Por otro lado, tanto las técnicas de calibración típicamente lineales (MLR y PLS)
como las comúnmente no lineales (ANN), generan modelos equivalentes con respecto a la
capacidad de ajuste y predictiva. Esto indica que una ecuación de tipo lineal podría bastar
para explicar el comportamiento del sistema investigado.
En la Tabla III.16 se recogen los modelos que ofrecen un mejor desarrollo para cada
una de las combinaciones de los parámetros que influyen en la selección de coeficientes
wavelet:
PLS considerando la señal completa (80 puntos)
Padding
zpd
sym
spd
Filtro
Sel. / Ord.
Nivel
sym7
sym5
sym7
coif2
coif2
sym5
coif2
sym8
sym8
db20
coif5
sym6
AR
AV
FR
FV
AR
AV
FR
FV
AR
AV
FR
FV
3
5
4
3
6
5
5
5
3
4
6
3
Nº coef.
MLR
10
3
4
4
4
3
4
4
6
6
4
4
SDEC
SDEPMON
SDEPTST
0,0291
0,0347
0,0503
SDEC
SDEPMON
SDEPTST
0,0186
0,0268
0,0245
0,0315
0,0296
0,0262
0,0312
0,0275
0,0240
0,0239
0,0275
0,0300
0,0208
0,0183
0,0229
0,0292
0,0240
0,0201
0,0242
0,0266
0,0274
0,0224
0,0249
0,0250
0,0350
0,0423
0,0379
0,0521
0,0496
0,0454
0,0638
0,0633
0,0404
0,0413
0,0983
0,0492
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
242
Padding
zpd
sym
spd
zpd
sym
spd
Filtro
Sel. / Ord.
Nivel
db20
sym5
sym7
coif1
coif2
sym5
coif2
coif1
sym8
db3
coif2
coif1
AR
AV
FR
FV
AR
AV
FR
FV
AR
AV
FR
FV
4
5
4
5
6
5
5
5
3
6
3
5
sym6
db3
sym7
coif5
coif2
sym5
coif2
sym4
db20
db3
db2
coif1
AR
AV
FR
FV
AR
AV
FR
FV
AR
AV
FR
FV
3
6
4
3
6
5
5
3
4
6
3
5
Nº coef.
PLS
9
3
4
4
4
3
4
4
6
4
4
4
NN1
6
3
4
4
4
3
4
4
4
4
4
4
SDEC
SDEPMON
SDEPTST
0,0302
0,0268
0,0260
0,0296
0,0296
0,0262
0,0322
0,0293
0,0267
0,0282
0,0278
0,0292
0,0330
0,0183
0,0227
0,0306
0,0240
0,0201
0,0267
0,0305
0,0307
0,0222
0,0329
0,0305
0,0440
0,0423
0,0365
0,0483
0,0496
0,0454
0,0633
0,0481
0,0477
0,0406
0,0609
0,0480
0,0215
0,0237
0,0221
0,0263
0,0269
0,0237
0,0250
0,0250
0,0272
0,0230
0,0243
0,0258
0,0256
0,0260
0,0281
0,0261
0,0298
0,0243
0,0275
0,0266
0,0300
0,0269
0,0331
0,0239
0,0717
0,0486
0,0345
0,0477
0,0356
0,0436
0,0822
0,0438
0,0533
0,0465
0,0432
0,0300
1
La topología de los modelos neuronales es siempre ni -2-2. Las funciones de transferencia utilizadas en cada
nivel son: lgg, lsg, lsg, lgg, lgg, lsg, lst, lgg, lsg, lgg, lgg y lgg para cada fila, respectivamente, donde l, g, s y t
se corresponden a su vez con funciones de activación lineal, gaussiana, sigmoidal y tangente hiperbólica. Por
ejemplo, lgg hace referencia a un modelo neuronal con funciones de activación lineales en la capa de entrada
y gaussianas tanto en la capa oculta como en la de salida.
Tabla III.16.- Tabla de las desviaciones estándar de los errores calculados
(SDEC) para el conjunto de entrenamiento y del error de las predicciones
para los conjuntos de validación interna (SDEPMON) y externa (SDEPTST)
- equivalentes a los errores RMS - de los mejores modelos de calibración
obtenidos a partir de las distintas técnicas quimiométricas aplicadas.
Los valores de SDEC y de SDEP que aparecen recogidos en la tabla anterior son valores
promediados para las desviaciones estándar de los errores obtenidos en las concentraciones
de ambos iones: Tl+ y Pb2+; padding hace referencia al criterio de padding; filtro se
corresponde con la función wavelet; sel. / ord. indica los criterios de selección (A =
automático y F = fijo) y de ordenamiento (V = varianza y R = coeficiente de correlación al
Capítulo III
243
cuadrado) de los coeficientes wavelet, respectivamente; nivel representa el nivel de
descomposición óptimo; y, finalmente, Nº coef. alude al número de coeficientes wavelet
seleccionado.
De la Tabla III.16 se desprende que los valores de SDEPTST fueron
sistemáticamente peores que los correspondientes a SDEPMON. Esto, probablemente, se
deba al hecho de que las mezclas pertenecientes al conjunto de validación externo fuesen
medidas en un periodo de tiempo diferente al del resto de las muestras. Como los valores
de ambos parámetros estuvieron dentro de intervalos similares no se llegó a aplicar ningún
procedimiento de transferencia de calibración [151, 359] para solventar esta cuestión.
También aparecen recogidos allí los valores de SDEC, SDEPMON y SDEPTST,
correspondientes al modelo de calibración PLS calculado utilizando los voltamperogramas
completos, constituidos por 80 puntos cada uno de ellos, sin haberlos sometido al
tratamiento con el algoritmo de selección de caracteres. La dimensionalidad de este modelo
PLS, de acuerdo con un proceso de validación cruzada basado en el método de Leave-OneOut, fue de 3 y 4 variables latentes para los iones Tl+ y Pb2+, respectivamente. Los modelos
PLS de la Tabla III.16, obtenidos después de aplicar el proceso de selección de caracteres,
presentan una dimensionalidad para ambas variables dependientes (concentraciones de
iones talio y plomo) que es inferior (2 componentes PLS significativas) o igual a la
dimensionalidad de los modelos PLS aplicados sobre los datos voltamperométricos
originales y no tratados. Únicamente en los casos en los que los modelos PLS convergían
en modelos MLR, es decir, cuando el número de componentes PLS era igual al número de
coeficientes seleccionados, la dimensionalidad para el modelo PLS del talio alcanzó las 4
variables latentes (modelos PLS de las filas 3, 5 y 10 de la Tabla III.16). A primera vista
podría parecer que no existe una reducción significativa de la complejidad de los modelos
después del análisis wavelet. Sin embargo, el número de variables latentes PLS se vio
influenciado por el hecho de que los coeficientes wavelet fuesen seleccionados bajo la
restricción de no presentar correlación entre ellos. Gracias a esto, los modelos fueron, en
efecto, más parsimoniosos, necesitándose como máximo 9 coeficientes wavelet como
variables independientes. Una consecuencia directa que se deriva de esta situación podría
ser el enorme beneficio que se obtendría en el almacenamiento de datos.
A pesar del hecho de que existe cierta mejora, tanto en los ajustes como en las
predicciones, de los modelos de regresión generados tras la compresión wavelet, en la
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
244
presente situación, la cual no es particularmente notable, dichos modelos se desarrollan
mejor, sugiriendo que la regresión llevada a cabo en el dominio wavelet podría ser
ventajosa. En realidad, los voltamperogramas relativos a las mezclas estudiadas no
muestran ningún ruido instrumental significativo, exhibiendo un comportamiento bastante
suave, por lo que las ventajas del análisis wavelet podrían apreciarse mejor en matrices
mucho más complejas, donde la relación señal/ruido no fuese tan óptima.
En las Figuras III.21 y III.22, se recogen los gráficos de los residuos frente a las
concentraciones experimentales de los iones Tl+ y Pb2+, para dos de los modelos que
ofrecen mejores resultados en la Tabla III.16:
a)
b)
Capítulo III
245
Figura III.21.- Gráfico de los residuos frente a las concentraciones
experimentales de a) Tl+ y b) Pb2+, respectivamente, para el modelo de
calibración MLR / zpd / sym7 / AR (10 coeficientes wavelet): modelo de
regresión multilineal con criterio ‘zero padding’ y filtro wavelet sym7,
basado en un criterio de selección automático y de ordenamiento por
coeficiente de correlación de los coeficientes wavelet seleccionados: - conjunto de entrenamiento; - - conjunto de validación interna; - conjunto de validación externa.
a)
b)
Figura III.22.- Gráfico de los residuos frente a las concentraciones
experimentales de a) Tl+ y b) Pb2+, respectivamente, para el modelo de
calibración ANN / spd / coif1 / FV (4 coeficientes wavelet): modelo
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
246
neuronal con criterio ‘smooth padding (orden 1)’ y filtro wavelet coif1,
basado en un criterio de selección de un número fijo de coeficientes
wavelet y de ordenamiento por varianza de los mismos: - - conjunto de
entrenamiento; - - conjunto de validación interna; - - conjunto de
validación externa.
La tendencia observada en ambas figuras es, en general, satisfactoria. Los errores
relativos (%), para los conjuntos de entrenamiento y de validación interna, resultaron en un
valor promedio del 5 % para el mejor modelo MLR (Figura III.21), considerando ambos
iones. El mejor modelo de calibración basado en ANNs (Figura III.22) se comportó de
manera análoga al modelo MLR en el caso del Pb2+, mientras que el error relativo
promedio para el Tl+ fue del orden del 7 % para el conjunto de entrenamiento y del 8 %
para el de validación interna. Con respecto al conjunto de validación externa, el error
relativo promediado, para ambos metales, fue también del 5 %, considerando tanto el
modelo MLR como el modelo neuronal, exceptuando dos o tres mezclas.
Resumiendo, el contenido en Pb2+ fue predicho generalmente mejor que el de Tl+.
Estos errores son comparables a los obtenidos previamente en otros estudios publicados
[150, 151]. No obstante, hay que tener en cuenta que las condiciones experimentales
empleadas aquí son diferentes a las utilizadas en las referencias citadas, produciéndose,
además, en este caso, un solapamiento mucho más severo entre los picos de ambos iones.
En las Figuras III.23 y III.24, se establece una comparación entre las señales
originales y las reconstruidas para los dos modelos citados anteriormente:
Capítulo III
Figura III.23.- Comparación entre las señales originales de algunas de las
muestras estudiadas y sus correspondientes señales reconstruidas mediante
el modelo de calibración MLR / zpd / sym7 / AR (10 coeficientes
wavelet): patrones puros de Tl+; patrones puros de Pb2+; mezclas de
ambos iones.
Figura III.24.- Comparación entre las señales originales de algunas de las
muestras estudiadas y sus correspondientes señales reconstruidas mediante
247
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
248
el modelo de calibración ANN / spd / coif1 / FV (4 coeficientes wavelet):
patrones puros de Tl+; patrones puros de Pb2+; mezclas de ambos iones.
Es interesante notar que en la comparación referida al modelo MLR (Figura III.23),
los coeficientes wavelet hacen especial hincapié en aquellas regiones donde las señales de
plomo y talio se cruzan unas con otras: se supone, por tanto, que dichas regiones capturan
las discontinuidades debidas a las distintas direcciones de las pendientes correspondientes a
las señales de ambas especies. Por el contrario, en el caso del modelo neuronal (Figura
III.24), los coeficientes wavelet seleccionados subrayan la posición de los máximos de pico
correspondientes a las señales individuales de los iones plomo y talio, respectivamente.
7.4. Conclusiones
En esta parte de la Tesis Doctoral, se ha demostrado cómo la FWT puede ser
acoplada de manera bastante efectiva a criterios de selección de caracteres con el objetivo
de encontrar el mínimo número de los mejores coeficientes wavelet. Dichos coeficientes
constituyen un nuevo conjunto de variables predictoras, las cuales pueden ser introducidas
en cualquier método de calibración con fines predictivos. El procedimiento propuesto
permite calcular de manera satisfactoria modelos de calibración multivariante para las
concentraciones de los iones Tl+ y Pb2+, cuyas respuestas voltamperométricas presentaban
un grado muy severo de solapamiento bajo las condiciones experimentales aquí empleadas.
El solapamiento de las señales correspondientes al sistema binario utilizado
constituye un problema ampliamente conocido y estudiado, habiéndose aplicado con gran
éxito muchas otras aproximaciones quimiométricas con el fin de resolver las mezclas de los
citados cationes. Sin embargo, el procedimiento de selección de caracteres en el dominio
wavelet puede aportar un gran número de ventajas añadidas. Éstas pueden resumirse del
siguiente modo:
1. Reducción de datos: haciendo uso solamente de unos pocos coeficientes
wavelet se puede modelar toda la información contenida en una señal
completa cualquiera. En los datos aquí examinados, 3 ó 4 coeficientes
wavelet han sido suficientes para obtener modelos de calibración con una
buena capacidad predictiva. De esta manera, reduciendo de un modo
significativo la relación entre el número de variables y el número de objetos
Capítulo III
249
es posible emplear un amplio espectro de técnicas de regresión o
calibración, con independencia del contexto experimental en el que se
encuentren.
2. Reducción de ruido, corrección de línea base y selección de caracteres:
todas ellas de forma simultánea.
3. Coeficientes
wavelet
seleccionados
correspondientes
a
regiones
contiguas en la señal: esto es, el orden de las variables se tiene en cuenta de
forma
implícita,
lo
cual
es
particularmente
útil
para
propósitos
interpretativos. De hecho, una vez que las señales han sido reconstruidas en
el dominio original, no sólo es posible localizar las regiones del
voltamperograma correlacionadas con las variables dependientes, sino
también establecer a qué escalas (frecuencias) se sitúan los caracteres de
interés. En otras palabras, la representación en el dominio wavelet ofrece la
posibilidad de usar no sólo los valores de intensidad individuales de las
señales, sino también las semianchuras de los picos, las pendientes de
regiones consideradas como particulares, el grado de alisamiento, y muchos
otros caracteres de forma, con el fin de predecir las variables dependientes.
El análisis sistemático llevado a cabo en esta parte de la presente memoria ha
posibilitado la obtención de modelos de regresión bastante satisfactorios haciendo uso de
diferentes combinaciones de parámetros: filtro wavelet, criterio de padding, criterio de
selección de coeficientes y de ordenamiento de los mismos, técnica de calibración, etc.
Además, dicho análisis sugiere la imposibilidad de establecer reglas generales para la
selección de parámetros de regresión óptimos.
8) Estudio De La Importancia De Los Parámetros De Pico A La
Hora De Resolver Señales Electroquímicas Solapadas
Cronológicamente, las investigaciones llevadas a cabo hasta ahora con el fin de
resolver el sistema electroquímico binario compuesto por mezclas de dos iones metálicos,
Tl+ y Pb2+, pueden resumirse del siguiente modo:
1.
Se comenzó por unos estudios previos basados en la aplicación de técnicas
de análisis exploratorio de datos y de métodos de predicción de señales con
el objetivo de clasificar las muestras en tres categorías, en función de su
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
250
contenido en cada uno de los iones, y de predecir la concentración de los
mismos en todas ellas, respectivamente (Capítulo III, epígrafe 5).
2.
Se continuó con la utilización de redes neuronales artificiales, acopladas con
métodos de reducción de dimensiones basados en las transformadas de
Fourier y wavelet, con el fin de predecir el contenido en talio y plomo de las
mezclas. La citada investigación incluyó, además, un estudio comparativo
con otros métodos de calibración multivariante, tales como PLS y PCR
(Capítulo III, epígrafe 6; ver también Apéndice II).
3.
Finalmente, se propuso una metodología, basada en la transformada wavelet
rápida (FWT), para llevar a cabo un procedimiento de selección de
caracteres previo a la calibración multivariante mediante modelos MLR y
PLS, con idéntico propósito al de los estudios llevados a cabo con
anterioridad. Los resultados se compararon también con los obtenidos por
aplicación de ANN’s (Capítulo III, epígrafe 7; ver también Apéndice III).
A continuación se recoge un breve resumen de los resultados cosechados con fines
predictivos a partir de las técnicas de calibración multivariante. Se tuvieron en cuenta tan
sólo las conclusiones procedentes de las dos últimas investigaciones y no las de los
estudios previos, puesto que eran sospechosas de sobreajuste:
Modelo
RMStrn RMSmon RMStst
PLS full
0,0328
0,0368 0,0496
FT+PLS
0,0378
0,0226 0,0514
WT(9)+PLS
0,0502
0,0464 0,0605
WT(11)+PLS 0,0480
0,0468 0,0589
PCR full
0,0334
0,0373 0,0498
FT+PCR
0,0382
0,0227 0,0511
WT(9)+PCR
0,0504
0,0466 0,0608
WT(11)+PCR 0,0481
0,0481 0,0592
FT+7-3-2 ltg 0,0235
0,0264 0,0447
FT+7-2-2 ltg 0,0254
0,0269 0,0426
WT+9-3-2 lss 0,0225
0,0297 0,0774
WT+9-2-2 lgt 0,0299
0,0256 0,0475
Capítulo III
251
Modelo
WT+-3-2 lsg
RMStrn RMSmon RMStst
0,0229
0,0169 0,0486
WT+11-2-2 lsg 0,0230
0,0164 0,0474
FS+MLR
0,0186
0,0208 0,0350
FS+PLS
0,0260
0,0227 0,0365
FS+4-2-2 lgg
0,0258
0,0239 0,0300
Full: modelo sin pretratamiento ni reducción de dimensiones; FT:
modelo con procedimiento previo de reducción de dimensiones con
FT; WT: modelo con procedimiento previo de reducción de
dimensiones con WT (usando un cierto número de coeficientes
wavelet); X-Y-Z: topología de red neuronal con ciertas funciones de
transferencia: l = lineal; g = gaussiana; s = sigmoidal; t = tangente
hiperbólica; FS: procedimiento previo de selección de caracteres
basado en WT.
Tabla III.17.- Tabla recopilatoria de los errores RMS obtenidos en
estudios anteriores tras la aplicación de los mejores modelos de calibración
obtenidos a partir de las distintas técnicas quimiométricas aplicadas.
Como puede observarse en la tabla, los resultados obtenidos fueron muy similares,
con independencia del procedimiento empleado. Sin embargo, gracias a las ventajas que
presenta la WT para llevar cabo el proceso de selección de caracteres (FS, Feature
Selection), las conclusiones aportadas por esta metodología fueron ligeramente mejores a
las precedentes.
Llegados a este punto, hay que destacar que el objetivo propuesto, i.e., el desarrollo
de métodos quimiométricos aplicables al tratamiento de señales electroquímicas solapadas,
se ha conseguido en buena medida. Los métodos desarrollados hasta aquí se muestran
como herramientas muy poderosas, que mostrarán de forma más evidente su utilidad
cuando sean aplicadas a sistemas analíticos más complejos que el de Tl+ y Pb2+, que se ha
utilizado únicamente como sistema de prueba para desarrollar una metodología de
aplicación más general.
Para el caso de sistemas sencillos, como el de talio y plomo, se pensó en desarrollar
una metodología alternativa que fuese capaz de resolver el problema de una forma más
simple y rápida. En lo que sigue se describe el procedimiento utilizado.
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
252
8.1. Objetivo y resumen del trabajo
Hasta ahora, la información electroquímica contenida en los voltamperogramas de
las muestras ha sido la única información utilizada para resolver las señales solapadas del
sistema de prueba formado por los dos cationes metálicos. No obstante, aún quedaba sin
utilizar otra clase de información: la constituida por los parámetros de pico o parámetros
voltamperométricos.
Mientras que los voltamperogramas habían sido empleados para calibración
multivariante, la cual permitió predecir las concentraciones de los iones en cada mezcla
(objetivo principal), esta ‘nueva’ clase de información contenida en los parámetros de pico
sólo había sido utilizada en análisis exploratorio y en modelos neuronales de
reconocimiento de patrones (Capítulo III, epígrafes 5.1 y 5.2, respectivamente).
En esta parte de la Tesis Doctoral, último epígrafe que compone el Capítulo III, se
resumen los resultados obtenidos haciendo uso del nuevo conjunto de información con
idéntico propósito al perseguido hasta ahora: la calibración multivariante del sistema
electroquímico formado por los cationes Tl+ y Pb2+. Hay que tener en cuenta que en la
literatura científica tan sólo se ha encontrado una única referencia relacionada con un
estudio de este tipo [482]. En este caso, los autores estudiaron un sistema binario
compuesto por dos iones: Cd2+ y Pb2+, mediante análisis de inyección en flujo (FIA) con
detección mediante voltamperometría de impulso diferencial (DPV) por medio de un
electrodo de gota de mercurio estática (SMDE, Static Mercury Drop Electrode). Los
voltamperogramas obtenidos a velocidades de flujo variables presentaban dos picos que a
priori podrían parecer que se encuentran bien definidos; no obstante, ambos analitos
actuaban como interferente el uno del otro, razón por la cual fue necesaria la resolución del
sistema. Para ello establecieron un modelo de redes neuronales, de topología sencilla (2-22), basado en un único parámetro de pico: la altura (intensidad) de las señales
voltamperométricas. Como información de entrada a las redes neuronales se emplearon los
valores de intensidad de los voltamperogramas (dos iones, dos neuronas de entrada), la
capa oculta se mantuvo también en dos neuronas y la de salida estuvo constituida
igualmente por dos neuronas (concentraciones de las dos especies). Como las funciones de
activación óptimas empleadas en cada capa fueron de tipo lineal, el modelo construido fue
idéntico al que se hubiera obtenido haciendo uso de un proceso de regresión lineal múltiple
o MLR.
Capítulo III
253
Como podrá comprobarse, la idea que aquí se propone va más allá de la planteada
por Alpízar et al. En este apartado se elaborarán diferentes modelos, basados en varias
técnicas quimiométricas tales como MLR, PLS y ANN, con el objetivo de estudiar la
relevancia de cada uno de los cinco parámetros de pico a la hora de resolver un sistema
voltamperométrico de señales severamente solapadas. En la siguiente tabla, recogemos las
innovaciones presentadas en esta parte de la memoria con respecto al estudio desarrollado
por Alpízar et al:
Característica comparada
Alpízar et al. Presente Memoria
Técnica de medida
FIA + DPV
DPASV
Sistema electroquímico
Cd2+ - Pb2+
Tl+ - Pb2+
Nº de picos
2
1
Nº parámetros de pico
1
5
Técnicas quimiométricas
ANN
MLR
MLR, PLS, ANN
Tabla III.18.- Tabla comparativa de las características del sistema
estudiado por Alpízar et al. y del presentado en esta memoria.
Por tanto, en resumen, haciendo uso de los parámetros de pico como información
de entrada a los modelos de calibración multivariante podría obviarse todo el tratamiento
matemático llevado a cabo hasta ahora, tales como la reducción de dimensiones con FT o
WT y el proceso de selección de caracteres, así como cualquier otro tipo de pretratamiento
estadístico que fuese necesario aplicar sobre las señales voltamperométricas. Además, la
información empleada sería aún más reducida y directa que la de los voltamperogramas,
con lo cual se podrían llevar a cabo interpretaciones químicas más rápidas y fiables.
8.2. Parámetros que definen los picos voltamperométricos
Los parámetros que detallan las características de los picos voltamperométricos y
que fueron utilizados a lo largo de este estudio se definieron ya con anterioridad en el
epígrafe 4.2 del presente capítulo. No obstante, se recogen a continuación a modo de
resumen:
§
V: posición o potencial de pico.
§
I: altura o intensidad del pico.
§
S: área del pico.
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
254
§
W: semianchura del pico.
§
D: derivada del pico.
Los valores para los parámetros de pico correspondientes al sistema Tl+ - Pb2+
aparecen detallados en las Tablas III.2 a III.5, en el mismo epígrafe.
8.3. Características de los modelos de calibración multivariante
A la hora de aplicar las diferentes técnicas quimiométricas, se emplearon todas las
combinaciones posibles de los parámetros anteriores. De este modo, el número de modelos
construidos con los métodos estadísticos citados anteriormente fue el siguiente:
Parámetros Nº de modelos
Modelos
5 parámetros
1
VISWD
4 parámetros
5
VISW, VISD, VIWD, VSWD, ISWD
3 parámetros
10
VIS, VIW, VID, VSW, VSD, VWD, ISW, ISD, IWD, SWD
2 parámetros
91
VI, VS, VD, IW, IS, ID, SW, SD, WD
1 parámetros
32
I, S, D
1
El modelo VW no fue probado porque la variabilidad de dichos parámetros y, por consiguiente, la
información contenida en los mismos no era suficientemente elevada.
2
Los modelos V y W no fueron probados por las mismas razones indicadas arriba.
Tabla III.19.- Tabla de los modelos de calibración multivariante
elaborados a partir de los parámetros de pico para las diferentes técnicas
quimiométricas aplicadas.
En total, fueron 28 modelos diferentes para MLR y PLS. En el caso de las ANNs, el
número final de modelos se incrementó de forma notoria, como consecuencia de todas las
posibles combinaciones entre las funciones de transferencia utilizadas para la topología
establecida, como se verá posteriormente.
Regresión multilineal (MLR)
Este análisis se llevó a cabo con la ayuda del paquete de software Unscrambler®
7.01. Las variables fueron seleccionadas de acuerdo a la siguiente distribución:
§
variables independientes: valores de los parámetros de pico para cada señal
correspondiente a las mezclas;
Capítulo III
§
255
variables dependientes: constituidas por los valores de concentración de cada
ión en cada muestra.
Hay que añadir que los modelos constituidos por un único parámetro sólo fueron probados
al inicio, pero como los errores obtenidos eran muy elevados no continuaron utilizándose.
El entrenamiento y validación de los modelos se llevó a cabo utilizando los
siguientes conjuntos de muestras:
§
Conjunto de entrenamiento (trn): 32 muestras constituidas por los patrones
puros de talio y plomo y por 12 mezclas de ambos iones.
§
Conjunto de validación (mon): integrado por 8 mezclas, seleccionadas
primero al azar y luego fijadas para el resto de los tratamientos: T2, T9, P3, P8,
T1P6, T4P4, T6P1, T9P9 y T10P5.
§
Conjunto de validación externo (tst): T1P9, T9P1, T3P5, T5P3, T6P8, T8P6,
T2P10 y T10P2.
La Figura III.19 representa un esquema de la distribución de las distintas muestras
de talio y plomo según el conjunto al que pertenecen. Como puede comprobarse, los
conjuntos de muestras utilizados aquí fueron idénticos a los empleados en el epígrafe 7 del
presente capítulo.
Regresión por mínimos cuadrados parciales (PLS)
Este análisis se realizó con el mismo paquete de software comentado anteriormente.
Lo mismo puede decirse de las variables, así como de los diferentes conjuntos de muestras
empleados en el cálculo: entrenamiento, validación interna (monitorización) y validación
externa. La única diferencia con respecto a la regresión multilineal radica en que todos los
datos fueron centrados con respecto a la media.
El número de componentes principales con el que se construyó cada modelo se
recoge en la tabla que aparece a continuación:
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
256
1
Modelo1
Nº de PC’s
5 parámetros
3, 4, 5
4 parámetros
3, 4
3 parámetros
2, 3
2 parámetros
2
Los modelos de un único parámetro presentaron
las mismas consideraciones que en la regresión
multilineal.
Tabla III.20.- Tabla compilatoria del número de componentes principales
(PC’s) empleado para la construcción de modelos de calibración
multivariante basados en PLS.
Redes neuronales artificiales (ANN)
Se emplearon todas las posibles combinaciones de las funciones de transferencia
siguientes: lineal (para la capa de entrada) y sigmoidal, gaussiana y tangente hiperbólica
para el resto de los estratos. Esto incrementó enormemente el número de modelos a
estudiar.
La topología utilizada en este caso fue muy sencilla: Z-2-2, donde Z es el número de
parámetros de pico a partir de los cuales se construyeron los modelos neuronales
correspondientes. De este modo, el número máximo de parámetros ajustables fue de 18 en
el peor de los casos (modelo VISWD, con los 5 parámetros), calculado de acuerdo con la
ecuación 82, el cual rozaba ya el límite permitido para que se produjese sobreajuste u
overfitting. Además, cada modelo neuronal fue repetido 3 veces, seleccionando cada vez un
conjunto de pesos iniciales al azar [383, 396, 490], con el fin de evitar problemas de este
tipo.
Finalmente, mientras que para MLR y PLS el número de modelos de calibración
multivariante construidos fue 25 (no se consideraron los modelos de un único parámetro),
para las ANN, se elaboraron 675 modelos diferentes:
∑
N
(4 topologías H 27
combinaciones de funciones de transferencia H N H 3 repeticiones), donde N es el número
de modelos en función del número de parámetros: 9 para modelos con 2 parámetros, 10
para modelos con 3, 5 para modelos con 4 y 1 para modelos con 5 parámetros de pico.
Capítulo III
257
8.4. Discusión de los resultados obtenidos
Regresión multilineal (MLR)
Los cuatro mejores modelos MLR aparecen recogidos en la siguiente tabla:
Modelos RMStrn
RMSmon RMStst
VISWD
0,0242
0,0271
0,0526
VISD
0,0244
0,0264
0,0520
ISD
0,0274
0,0284
0,0477
SD
0,0316
0,0283
0,0509
Tabla III.21.- Errores RMS para los mejores modelos MLR basados en
los parámetros de pico.
Como puede observarse, partiendo del modelo MLR con el máximo número de
parámetros (VISWD), conforme se va simplificando el modelo (disminuyendo el número
de parámetros) los resultados mejoran, sobre todo para el conjunto de validación externa
(RMStst ). Sin embargo, se produce un cambio de tendencia al pasar de un modelo con 3
parámetros a otro con 2. Esto se debe a que el parámetro eliminado ahora no se
corresponde con V (posición o potencial) y/o W (semianchura), cuya cancelación no ha
sido particularmente dañina a la hora de simplificar los modelos, sino con I (altura o
intensidad), el cual parece que posee información relevante para la correcta resolución del
sistema. No obstante, hay que señalar que esta relación no aparece tan clara como en el
caso de los modelos basados en PLS, como se verá posteriormente.
De acuerdo con lo anterior, un modelo de calibración multivariante obtenido a partir
de MLR requiere la presencia del parámetro S (área de pico) y D (derivada),
fundamentalmente. Esto implica que los parámetros S y D contienen la información
relevante para resolver el sistema constituido por Tl+ y Pb2+. El primero se encuentra
relacionado directamente con I, de ahí que al incluir éste en los modelos, los errores RMS
disminuyan ligeramente para todos los conjuntos: trn, mon y tst. El segundo, tiene que ver
con la posición del máximo del pico que es, en definitiva, la pieza clave para la resolución,
puesto que la diferencia entre la posición del máximo de pico de ambos cationes es tan sólo
de 25 - 30 mV, aproximadamente.
258
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
Por otro lado, los parámetros que menos información contienen son W y,
paradójicamente, V. La variabilidad de la información contenida en ambos parámetros es
muy pequeña ¿Por qué entonces D sí es importante y V no? La respuesta es muy sencilla;
no obstante, para entender esto es necesario recordar que la derivada de una función
gaussiana es una función sigmoidal cuyo punto de corte con el eje de abcisas se
corresponde con el valor de X (potencial) al cual se localiza el máximo de la variable Y
(intensidad). Gracias a esto se comprende que D sea función de la posición del pico. Sin
embargo, la citada función sigmoidal presenta otra particularidad muy importante: la
distancia entre el máximo y el mínimo delimitados por el sigmoide se corresponde con el
valor de intensidad de la función gaussiana original. Por tanto, aquí está la respuesta: S no
depende sólo de V, sino también de I y es gracias a esto que S es un parámetro relevante
para la resolución de las señales solapadas e I no (la información contenida en D es más
completa que la del parámetro I). Además, la posición del máximo del pico no varía
mucho, siendo muy difícil de relacionar con la concentración, a diferencia de los
parámetros I, S ó D, los cuales presentan una relación directa con la concentración.
Como se ha comentado en los párrafos anteriores, los parámetros fundamentales
para resolver el sistema de señales solapadas constituido por los dos iones metálicos, Tl+ y
Pb2+, son, por tanto: la altura, el área y la derivada de los picos. Para confirmar esta teoría,
es necesario hacer referencia nuevamente a la Figura III.7 (epígrafe 5.1 del presente
capítulo), correspondiente al gráfico de los loadings obtenido cuando se lleva a cabo un
análisis de componentes principales sobre los parámetros de pico de las señales, tanto A)
centrados con respecto a la media como B) autoescalados. Como puede observarse en ella,
los parámetros I y D poseen los valores más altos de la componente principal en ambos
casos; sin embargo, S sólo presenta cierta relevancia cuando los datos están autoescalados,
mientras que con los datos centrados con respecto a la media, su importancia es pequeña. V
y W son claramente irrelevantes.
Si tuviera que seleccionarse un modelo, sería preferible elegir el constituido por los
parámetros ISD, puesto que presenta un error para el conjunto de validación externo
inferior a todos los demás, siendo al mismo tiempo de los más sencillos.
Capítulo III
259
Regresión por mínimos cuadrados parciales (PLS)
Para el caso de los modelos de calibración multivariante obtenidos mediante la
aplicación de PLS, lo comentado anteriormente podría también ser válido. Como ya se
había adelantado, con la presente técnica quimiométrica la relación existente entre modelos
que se diferencian sólo en la presencia o ausencia de los parámetros V y/o W, es más clara
y manifiesta, puesto que modelos que inicialmente poseen más parámetros son casi
idénticos a aquellos más sencillos: VISWD, ISWD, VISD e ISD, todos con 3 componentes
principales. De ahí que se hayan seleccionado un mayor número de modelos PLS:
Modelos (PC’s)
RMStrn
RMSmon RMStst
VISWD (3)
0,0273
0,0283
0,0479
ISWD (3)
0,0273
0,0284
0,0477
VISD (3)
0,0273
0,0283
0,0478
VSWD (2)
0,0316
0,0283
0,0509
ISD (3)
0,0274
0,0284
0,0477
SWD (2)
0,0316
0,0283
0,0509
VSD (2)
0,0316
0,0283
0,0509
SD (2)
0,0316
0,0283
0,0509
Tabla III.22.- Errores RMS para los mejores modelos PLS basados en los
parámetros de pico.
Los valores entre paréntesis (PC’s) indican el número de componentes principales
seleccionado en cada modelo. Puede comprobarse que a igualdad de componentes
principales, aquellos casos que se diferencien tan sólo en la presencia o ausencia de los
parámetros V y/o W, presentan un resultado casi idéntico.
Globalmente, los resultados son muy parecidos a los obtenidos con MLR, sobre
todo para aquellos modelos PLS donde coinciden el número de parámetros iniciales del
modelo y el número de PC’s: ISD e ISD (3), así como SD y SD (2), puesto que
prácticamente se estaría hablando de una regresión multilineal, aunque en un espacio de
variables latentes diferente, donde se haría uso de toda la información contenida en los
parámetros iniciales, sin reducir las dimensiones.
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
260
La diferencia entre MLR y PLS estriba, fundamentalmente, en el empleo de
modelos con un número de PC’s que difiere del número de parámetros utilizados para
establecer el modelo MLR inicial. Así, por ejemplo, para el modelo PLS VISWD (3),
donde se usan 3 PC’s, los resultados son algo mejores que para el caso de su homólogo
MLR. La explicación podría ser la siguiente: se pasa de 5 variables iniciales a 3 variables
latentes en el modelo PLS, proceso que implica una reducción de dimensiones, durante la
cual, presumiblemente, los parámetros V y W constituyen el porcentaje mayor de
información descartada y, por tanto, irrelevante. Además, al mismo tiempo se goza de las
ventajas que presenta el PLS al trabajar en un nuevo espacio de variables.
Comparando las Tablas III.21 y III.22, pueden observarse también efectos mixtos,
es decir, la influencia de la cancelación de los parámetros V y/o W en los modelos, así
como la del número de componentes principales. De este modo, el modelo MLR ISD
ofrece los mismos resultados que los modelos PLS ISWD (3), VISD (3) e ISD (3).
También sucede lo mismo entre el modelo MLR SD y los modelos PLS VSWD (2), SWD
(2), VSD (2) y SD (2).
El mismo modelo que se consideró como óptimo en el caso de la regresión
multilineal, podría seleccionarse también aquí, puesto que son coincidentes: ISD
ISD (3).
Redes neuronales artificiales (ANN)
En general, los valores para los errores RMS de cada conjunto son ligeramente
inferiores en el caso de las mejores modelos neuronales:
Topología de red
RMStrn
RMSmon RMStst
VISWD ltg
0,0218
0,0272
0,0474
VISD lgg
0,0218
0,0269
0,0436
ISD lgg
0,0234
0,0261
0,0416
SD lgg
0,0255
0,0292
0,0420
l, t, y g: funciones de activación lineal, tangente hiperbólica y gaussiana.
Tabla III.23.- Errores RMS para los mejores modelos neuronales basados
en los parámetros de pico.
Capítulo III
261
La cuestión de los parámetros V y/o W puede también comprobarse a raíz de los
resultados obtenidos con esta técnica quimiométrica: la eliminación de los mismos a partir
del modelo superior (de 5 parámetros) provoca una ligera mejora en los valores de error
RMS, en particular para el error del conjunto de validación externa (RMStst ). No obstante,
las diferencias que se encontraban en los modelos de PLS y MLR no son tan acusadas
ahora. Ello se debe, principalmente, a que en los modelos neuronales hay que considerar un
nuevo factor que entra en juego: la combinación de funciones de transferencia. Esto
también explica que al eliminar V y/o W de un modelo con más parámetros, el modelo
resultante no de los mismos resultados: estos son similares, pero no iguales, puesto que la
combinación de funciones de activación no se repite en ningún caso.
El mejor modelo neuronal también coincide con el seleccionado en los casos
anteriores: ISD lgg
ISD (3)
ISD (mejor modelo ANN, PL S y MLR, respectivamente),
aunque los errores RMS sean inferiores en el primer caso. Sin embargo, con dos
parámetros, se obtiene del mismo modo un resultado bastante bueno: SD lgg.
En resumen, los mejores resultados obtenidos con cada una de las técnicas
quimiométricas empleadas aparecen recogidos en la siguiente figura:
Figura III.25.- Recopilación de los errores RMS para los mejores
modelos de calibración multivariante: MLR, PLS y ANN.
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
262
Comparando los mejores resultados de los tres métodos de calibración
multivariante, vemos que con ANN, los valores de error RMS para los tres conjuntos
(entrenamiento, validación interna y validación externa) son inferiores. No obstante, las
diferencias existentes con respecto a MLR y PLS no son lo bastante elevadas como para
decantarnos preferiblemente por una técnica quimiométrica u otra.
Finalmente, y a continuación, aparecen recogidos los gráficos de los residuos para
los dos iones calculados con los mejores modelos de cada método de calibración, los cuales
son idénticos entre sí, puesto que como se ha visto: ISD lgg
ISD (3)
ISD. Como se ha
comentado con anterioridad, visto que los errores RMS para el primero de los modelos eran
inferiores al de los otros dos, sólo representaremos los gráficos correspondientes a dicho
modelo: ISD lgg.
a)
b)
Capítulo III
263
Figura III.26.- Gráfico de los residuos frente a las concentraciones
experimentales de a) Tl+ y b) Pb2+, respectivamente, para el modelo de
calibración ISD lgg basado en redes neuronales artificiales: - - conjunto
de entrenamiento; - - conjunto de validación interna; - - conjunto de
validación externa.
La tendencia observada en la figura es, en general, satisfactoria. Los errores
relativos (%) para los diferentes conjuntos de muestras obtenidos con los tres mejores
modelos de cada técnica quimiométrica aparecen recogidos en la siguiente tabla:
Modelo
ISD
ISD (3)
Ion Error (%)trn
Error (%)mon
Error (%)tst
8,38
5,93
9,10
4,21
5,26
12,29
Tl+
5,29
6,28
10,77
Pb2+
5,43
7,25
8,15
Tl+
Pb
ISD lgg
2+
Tabla III.24.- Errores relativos (%) para los mejores modelos de
calibración multivariante basados en los parámetros de pico.
Los errores relativos para los modelos basados en MLR y PLS coinciden, puesto
que el modelo PLS empleaba un número de componentes principales igual a las
dimensiones del mismo, lo que lo hacía equiparable a una regresión multilineal. Hay que
resaltar que los errores relativos para el conjunto de validación interna en el caso de las
ANNs fueron ligeramente superiores a los de PLS y MLR; sin embargo, con respecto al
error relativo del conjunto de validación externo, para el ión talio los resultados fueron
similares, mientras que para el ión plomo, las redes neuronales redujeron sensiblemente el
error (casi en un 4 %). En todos los modelos, algunas mezclas fueron predichas con errores
muy superiores al valor promedio en cada caso.
Resumiendo, el contenido en Tl+ y Pb2+ fue predicho de manera similar por todas
las técnicas quimiométricas aplicadas. Los errores obtenidos son un tanto superiores a los
cosechados haciendo uso de la WT como método de selección de caracteres (epígrafe 7 del
presente capítulo). No obstante, son comparables a los obtenidos previamente en otros
estudios publicados [150, 151]. No hay que olvidar que las condiciones experimentales
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
264
empleadas aquí son diferentes a las de las referencias citadas, tratándose en este caso,
además, de un solapamiento mucho más severo entre los picos de ambos iones.
8.5. Conclusiones
Las principales conclusiones que pueden extraerse de los resultados obtenidos y
comentados anteriormente son las siguientes:
1. Con independencia de la técnica quimiométrica empleada, los resultados son
muy similares en todos los casos, aunque ligeramente mejores para los
modelos de calibración basados en ANN.
2. Los parámetros V y W no son muy importantes, puesto que modelos que
difieren en su elaboración en los citados parámetros suelen presentar
resultados muy parecidos.
3. La combinación de los parámetros I, S y D ofrece errores RMS inferiores
para todos los conjuntos de muestras; esto indica que son los que poseen la
información relevante de las señales.
4. Modelos construidos con S y D presentan errores RMS para todos los
conjuntos que son sólo ligeramente superiores a los de otros modelos más
complejos.
En general, podría afirmarse que los resultados no difieren significativamente de los
obtenidos con modelos mucho más complejos y que requieren un tratamiento estadístico y
matemático (a veces hasta un pretratamiento) para resolver el problema del solapamiento
de señales del sistema en estudio (epígrafes 6 y 7 del presente capítulo). Sin embargo,
debido a la simplicidad y rapidez de los análisis efectuados haciendo uso directamente de
los parámetros de pico, y una vez vistos los resultados obtenidos, podría ser aconsejable
resolver el sistema binario constituido por los iones Tl+ y Pb2+ por medio de un tratamiento
quimiométrico aplicado sobre los parámetros voltamperométricos de las señales.
9) Conclusiones Finales A La Calibración Multivariante Del
Sistema Tl+ / Pb2+
A lo largo del presente capítulo se han propuesto una serie de metodologías basadas
en diversas técnicas quimiométricas con el fin de resolver un conjunto de señales
Capítulo III
265
electroquímicas solapada, utilizando el sistema binario constituido por los iones metálicos
Tl+ y Pb2+ como sistema de prueba.
En primer lugar, se ha podido comprobar cómo mediante un análisis exploratorio
basado en LDA y PCA, las muestras fueron clasificadas correctamente. Además, los
gráficos de los scores y loadings demostraron ser una herramienta útil para explicar
comportamientos
y
tendencias
encontradas
lugar,
desarrollaron
posteriormente
durante
el
tratamiento
estadístico de los datos.
En
segundo
se
modelos
que
combinaban
ANNs
y
transformadas de funciones, tales como FT y WT, con el fin de predecir las
concentraciones de ambos iones en las mezclas. Aunque los primeros modelos, basados en
redes neuronales de cuatro capas, se vieron afectados por el fenómeno de sobreajuste,
posteriormente se elaboraron otros más sencillos que carecían de dicha desventaja. Los
modelos así obtenidos gozaban de una capacidad predictiva ligeramente superior a la de las
técnicas tradicionales, PLS y PCR. Hay que señalar también que tanto la FT como la WT
han demostrado ser dos herramientas de funcionamiento y aplicabilidad similar con
respecto a las señales voltamperométricas, aunque las topologías de los modelos neuronales
basadas en FT fueron más simples.
En tercer lugar, ha quedado demostrada la factibilidad de acoplar la FWT de manera
bastante efectiva a criterios de selección de caracteres con el objetivo de encontrar el
mínimo número de los mejores coeficientes wavelet. Dichos coeficientes fueron
posteriormente utilizados como entradas a diversos métodos de calibración con fines
predictivos.
Asimismo,
se
establecieron
claramente
las ventajas que aportaba el
procedimiento de selección de caracteres en el dominio wavelet: reducción de datos y de
ruido, corrección de línea base, selección de caracteres y utilidad para propósitos
interpretativos. Gracias a todo ello, se obtuvieron modelos de regresión bastante
satisfactorios y con errores inferiores a los desarrollados con metodologías precedentes.
En cuarto y último lugar, con el fin de soslayar la aplicación de tratamientos o
incluso de pretratamientos matemáticos a los datos en estudio, se aplicaron métodos de
calibración multivariante directamente sobre los parámetros de pico de las señales. Los
resultados cosechados no difirieron significativamente de los obtenidos con modelos
mucho más complejos. Es más, gracias a la simplicidad y rapidez del análisis efectuado
266
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA Tl+ / Pb2+
sobre los citados parámetros, se aconsejó el empleo de dicha metodología para lograr la
resolución del sistema en cuestión. Se encontró que los parámetros de pico relevantes y
que, por tanto, contenían la mayor parte de la información de las señales eran la altura o
intensidad de pico, el área del pico y la derivada del mismo; por otro lado, la posición o
potencial del pico, así como su semianchura, fueron considerados como irrelevantes.
CAPÍTULO IV
Capítulo IV
269
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO3-METILFENOL, 4-CLOROFENOL, 2,4-DICLOROFENOL Y
2,4,6-TRICLOROFENOL
1) Fenoles Y Clorofenoles En General
1.1. El fenol y los fenoles en general
Los compuestos fenólicos se encuentran entre las sustancias más peligrosas y
dañinas para el medioambiente. Son liberadas en él de varias formas, a causa de sus
implicaciones en innumerables procesos industriales, constituyendo además parte integral
de los productos finales, intermedios o subproductos [530, 531]. El fenol es uno de los
productos químicos más ampliamente utilizado en la industria [532].
Algunas de las aplicaciones más importantes de los compuestos fenólicos son las
siguientes:
§
fabricación de plásticos, colorantes, drogas y antioxidantes [533];
§
control de las malas hierbas (herbicidas) [530];
§
precursor de compuestos farmacéuticos [534-537].
Varios métodos para obtener gas a partir de carbón producen cantidades sustanciales de
subproductos alquitranados que contienen fenoles susceptibles de ser liberados en las
aguas [538].
Cada año los procesos comerciales producen enormes volúmenes de clorofenoles;
dichos procesos van desde la cloración de las aguas contaminadas hasta la fabricación de
pasta de papel [539]. En la agricultura, se emplean muchos pesticidas que contienen
nitrofenoles tóxicos [540]. Numerosas industrias relacionadas con la energía producen
alquilfenoles como subproductos [541].
Más aún, los fenoles presentan una importancia relevante en la industria
alimentaria. Son componentes esenciales (polifenoles) en los zumos de frutas, cervezas y
vinos [542, 543], puesto que la calidad de los alimentos se relaciona, en cierto modo, con
270
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
el contenido en sustancias fenólicas, independientemente de que sean consideradas
beneficiosas o dañinas.
Debido a sus múltiples aplicaciones, los compuestos fenólicos son sustancias
presentes en gran medida en los residuos industriales, así como en las escorrentías de la
explotación agrícola. Por otro lado, algunos estudios han demostrado la existencia de
fenoles como contaminantes en el aire, agua y suelo [544, 545]. Las investigaciones
llevadas a cabo en fábricas que utilizan fenoles han corroborado la presencia de niveles
bajos de vapor fenólico en el ambiente de trabajo [544, 546].
El interés en determinar el grado de contaminación medioambiental provocado por
los fenoles se debe a la elevada toxicidad que presentan muchos compuestos fenólicos
sustituidos para los seres vivos [547]. Estos compuestos son tóxicos para la mayor parte de
los peces y la vida acuática en general, habiéndose probado el fenómeno de
bioacumulación en los tejidos de los peces [548] y, por consiguiente, en la cadena
alimentaria [549, 550]. El fenol es adsorbido fácilmente por los seres humanos,
independientemente del tipo de exposición, habiéndose demostrado también que altos
niveles de fenol provocan un efecto dañino sobre la salud animal. Los efectos de
exposición de larga duración a niveles bajos de fenol en la atmósfera no se conocen aún.
Por otro lado, fenoles naturales presentes en las plantas [551, 552], como alquilfenoles y el
p-nonilfenol (fenol existente en varios plásticos) [553], poseen propiedades estrógenas.
Los residuos fenólicos son considerados un problema medioambiental muy serio en
la contaminación de aguas y suelos [554]. Además de su toxicidad, los fenoles,
especialmente los clorofenoles, poseen un efecto adverso en el olor y sabor de las aguas
potables en pequeñas concentraciones (los niveles van desde los mg·L-1 hasta los ìg·L-1 , en
algunos casos) [555-557]; visto que su presencia puede representar un problema particular
en la cloración de las aguas potables, el análisis de los mismos en las aguas superficiales y
de ingesta es bastante frecuente. De acuerdo con la Legislación de la Comunidad Europea,
la concentración máxima admisible de fenoles en las aguas para el consumo humano es de
0,5 ìg·L-1 para el contenido total y de 0,1 ìg·L-1 para los compuestos individuales [558];
en el agua de baño el valor permitido es de 0,5 ìg·L-1 [559].
La mayor parte de las agencias medioambientales consideran a los fenoles como
contaminantes altamente tóxicos a causa de su presencia casi ubicua en un amplio rango de
Capítulo IV
271
aguas residuales y naturales, residuos industriales y suelos contaminados. La agencia de
protección del medioambiente estadounidense (USEPA, United State Environmental
Protection Agency) posee una lista donde 11 fenoles son considerados como
contaminantes prioritarios [560]. El fenol aparece recogido también en la lista de la Food
and Drug Administration’s EAFUS (Everything Added to Foods in the United States). Por
esta razón, se han desarrollado muchos procedimientos para analizar fenoles en aguas
naturales y residuales: métodos cromatográficos, los cuales ofrecen información sobre la
presencia
de
ciertos
derivados
fenólicos
individuales
[561,
562],
y
técnicas
espectrofotométricas, frecuentemente aplicadas a la determinación de la suma de
compuestos que contienen una parte fenólica (índice de fenoles) [563, 564].
Los
límites
de
exposición
para
estas
sustancias
según
varias
agencias
medioambientales son los siguientes:
§
De acuerdo con la OSHA (Occupational Safety and Health Administration), el
límite de exposición permisible (PEL) para el fenol es de 19 mg·m-3 , siendo
dicho índice similar al TWA (concentración media ponderada para un tiempo
de 8 horas). Además, también conlleva una notación que indica que la ruta de
exposición cutánea, incluyendo la membrana de las mucosas y los ojos,
contribuyen a la exposición total.
§
La NIOSH (the National Institute for Occupational Safety and Health) ha
establecido un límite de exposición recomendado (REL) para el fenol de 19
mg·m-3 , que hace las veces de un TWA para una jornada de trabajo de hasta 10
horas en una semana de trabajo de 40 horas, y un límite para exposiciones de
corta duración (STEL) de 60 mg·m-3 para periodos que no excedan de 15
minutos. Presenta también una notación relacionada con la exposición cutánea.
§
Por otro lado, la ACGIH (the American Conference of Governmental Industrial
Hygienists) ha asignado al fenol un valor límite umbral (TLV) de 19 mg·m-3
como un TWA para una jornada habitual de trabajo de hasta 10 horas en una
semana de trabajo de 40 horas. También incluye una nota preventiva frente a la
exposición cutánea.
Mientras que los límites establecidos por la NIOSH se basan en el riesgo para la
piel, los ojos, el sistema nervioso central, el hígado y los riñones, el límite estipulado por la
ACGIH se basa en el riesgo de irritación y efectos sistémicos. Según la EPA, el valor
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
272
límite de concentración para el fenol en agua es 4 mg·L-1 . Esta agencia ha determinado que
el nivel de fenol en el agua ambiental (lagos, manantiales) no debería exceder de 3,5 mg·
L-1 con el fin de proteger la salud humana de los efectos tóxicos potenciales debidos a la
exposición a los fenoles a través de la ingesta de agua y organismos acuáticos
contaminados.
A continuación, se enumeran algunos de los artículos de la literatura más reciente
relacionados con los compuestos fenólicos (detección, toxicidad, adsorción, etc.):
§
Gorodkin et al. [565] clasificaron, mediante ANNs, efectos genéticos y
medioambientales causados por compuestos fenólicos presentes en diferentes
tipos de cebada basándose en su “huella dactilar”.
§
Chen, Yu y Xu [566] desarrollaron un detector amperómetrico (basado en
polihistidina) para la determinación de compuestos fenólicos: dopamina,
epinefrina y catecol, alcanzando buenos límites de detección para los mismos.
§
Szewczynska y Trojanowicz [567] también llevaron a cabo la detección
enzimática amperométrica de diversos fenoles (hidroquinona, fenol y catecol),
empleando, además de tirosinasa, otros biocomponentes activos para la
detección: lacasa y tejido de coco.
§
La tecnología sol-gel se está empleando mucho actualmente para la elaboración
de sensores y biosensores amperométricos con la finalidad de detectar
compuestos basados en el fenol [568, 569]. Cabe destacar el trabajo de Li et al.
[570], los cuales fabricaron un biosensor amperométrico (basado en la enzima
tirosinasa) para la detección de catecol, fenol, p-cresol, m-cresol, o-cresol y 2clorofenol.
§
Cabe destacar también el grupo de Ureta-Zañartu, el cual ha realizado
recientemente diversos estudios basados en la electrooxidación de clorofenoles
haciendo uso de distintas clases de electrodos: de oro [571] y glassy-carbon
[572], preferentemente.
§
Otras investigaciones recientes relacionadas con los compuestos fenólicos son
las siguientes: adsorción y biosorción de fenoles monoclorados por parte de
diversos soportes adsorbentes (carbón activo granulado y lodos activos
desecados, entre otros) [573]; toxicidad de mono, di y triclorofenoles en
diferentes tipos de bacterias [574]; cambios en la composición fenólica
Capítulo IV
273
producidos durante el envejecimiento de vinagres de vino de Jerez (D. O.
Jerez-Xerès-Sherry)
[575];
mineralización
de
pentaclorofenol
mediante
radicales hidroxilo producidos electroquímicamente a partir del reactivo de
Fenton [576]; determinación de las constantes de velocidad para reacciones del
ozono con clorofenoles en disolución acuosa [577]; y, finalmente, una revisión
crítica sobre los compuestos fenólicos presentes en las olivas [578].
1.2. Los clorofenoles
Los clorofenoles son un grupo de compuestos químicos orgánicos procedentes del
fenol (compuesto aromático derivado del benceno) al que se ha añadido iones cloruro
(entre uno y cinco) en su estructura. En general, son sustancias incoloras y débilmente
ácidas. Hay cinco tipos básicos de clorofenoles:
§
Monoclorofenoles: un solo ion cloruro.
§
Diclorofenoles: dos iones cloruro.
§
Triclorofenoles: tres iones cloruro.
§
Tetraclorofenoles: cuatro iones cloruro.
§
Pentaclorofenoles: cinco iones cloruro.
De los 19 clorofenoles existentes, exceptuando el 2-clorofenol, que es líquido a
temperatura ambiente, el resto son sólidos. Los clorofenoles con al menos dos cloruros o
bien se usan directamente como pesticidas o son transformados en ellos. Además, los
clorofenoles, especialmente el 4-clorofenol, han sido empleados como antisépticos.
Se utilizan mucho en la industria y en gran número de productos: antisépticos,
desinfectantes, herbicidas, pesticidas y como conservantes de la madera. Por ejemplo, el
2,4-diclorofenol
y
el
2,4,5-tricloforenol
en
la
forma
de
hexaclorofeno
o
tiobis(triclorofenol), cuyo uso está prohibido en la actualidad, son herbicidas comúnmente
aplicados en el cultivo de los alimentos que pueden descomponerse hasta generar el
primero de ellos. El segundo puede derivar también hasta dimetiltriclorofenilfosforotioato,
el cual se utiliza como agente sistémico muy efectivo frente a los gusanos en el ganado.
Además, los clorofenoles pueden estar presentes en muchos productos de uso común: el
2,4-diclorofenol se emplea en los antipolillas y el 4-clorofenol como desinfectante en los
hogares, granjas, hospitales y también como antiséptico.
274
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
Paralelamente a su producción comercial, que data desde la década de los años 50,
pequeñas cantidades de algunos clorofenoles, sobre todo mono y diclorados, pueden
generarse cuando las aguas residuales o las aguas de ingesta son desinfectadas mediante el
proceso de cloración, cuando el agua sin tratar presenta agentes contaminantes. De igual
modo, también se producen durante la producción de papel, al blanquear la pasta de
madera con cloro.
Son reactivos muy peligrosos para la salud y el medioambiente [579-582].
Aparecen recogidos en al menos 166 de las 1467 Listas de Prioridad Nacional identificadas
por la EPA. Por ejemplo, la USEPA recomienda que las aguas potables no deben contener
concentraciones superiores a los 0,04 mg·L-1 de 2-clorofenol en el caso de una exposición
media para un adulto.
La exposición a elevados niveles de clorofenoles en general puede causar daños en
el sistema inmunitario y el hígado. Se piensa que las personas expuestas a clorofenoles
durante mucho tiempo podrían presentar una mayor probabilidad de desarrollar cáncer,
aunque las evidencias de que se dispone hasta ahora son escasas. No obstante, la Agencia
Internacional para la Investigación contra el Cáncer (IARC, International Agency for
Research on Cancer) considera que, posiblemente, el grupo de los clorofenoles es
cancerígeno para el ser humano [583].
Con el fin de establecer unos límites de concentración máxima permitida de los
clorofenoles que sean inferiores a los niveles susceptibles de ser detectados mediante el
sabor, la USEPA recomienda que aquellos no deben ser jamás superiores a 0,1 ìg·L-1 para
los monoclorofenoles, 0,3 ìg·L-1 para el 2,4-diclorofenol y 1 ìg·L-1 para el 2,4,5triclorofenol y el 2,3,4,6-tetraclorofenol.
2) Características Del Sistema
2.1. El compuesto orgánico 4-cloro-3-metilfenol (MF)
Otros nombres por los cuales también se conoce a esta especie química son los
siguientes: 3-metil-4-clorofenol, clorocresol, p-clorocresol, 4-cloro-m-cresol, p-cloro-mcresol, 2-cloro-5-hidroxitolueno, aptal, baktol, baktolan, candaseptic, parol y pcmc, entre
otros, así como una amplia gama de nombres comerciales.
Capítulo IV
275
A lo largo del presente capítulo, se hará siempre referencia al 4-cloro-3-metilfenol
mediante las siglas ‘MF’.
Descripción
El MF es una especie estable que cristaliza en forma de agujas a partir de éter de
petróleo. Normalmente, dichos cristales son de color blanco o ligeramente rosáceo. Su
punto de fusión se encuentra a 66 - 67 ºC, mientras que el de ebullición es a 235 ºC. Es
bastante insoluble en agua (3,8 g·L-1 ), pero no así en disolventes alcohólicos, éteres, aceites
grasos e hidróxidos alcalinos. Comúnmente se dice que es inodoro en estado puro; sin
embargo, siempre persiste cierto olor fenólico. Reacciona con el latón y agentes oxidantes,
así como con el cobre y sus aleaciones [584-586].
Aplicaciones
Algunas de sus aplicaciones más importantes (ver también referencias anteriores) se
recogen a continuación:
§
Se utiliza como reactivo para sintetizar guanidinas mono y disustituidas.
§
Como lubricante intrauterino (0,1-0,2 %) y como antiséptico de uso externo
(tópico), tanto en animales como en humanos.
§
También se emplea como conservante en la fabricación de pegamentos o
adhesivos, gomas, pinturas y tintas, e incluso aditivos para la construcción.
§
En la industria textil y del cuero no curtido.
§
Por último, se ha empleado como agente conservante antimicrobiano
(fungicida) en la industria farmacéutica-cosmética. Considerado como un
biocida altamente efectivo, se continúa comercializando en la actualidad con la
marca ‘Preventol CMK’, perteneciente a la empresa Bayer Chemicals.
Resulta un tanto extraño constatar que un compuesto fenólico como el MF se
emplee como antiséptico o microbicida; no obstante, hay que tener en cuenta que los
clorofenoles,
en
concentraciones
subletales
como
las
indicadas
más
arriba,
son
rápidamente biodegradables y compatibles con el medio ambiente [587].
El origen de esta aplicación es bastante reciente: algunas plantas como Lilium
maximowiczii, un lirio originario de Japón, se protegen a sí mismas con clorofenoles. Los
276
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
inusuales componentes en la planta fueron descubiertos en 1998 por un equipo de
investigadores de la Universidad de Hokkaido, en Sapporo (Japón), liderado por los
científicos Mitsuo Takasugi y Kenji Monde. Ellos establecieron que una especie
comestible de lirio encontrada en Japón, llamada Lilium leichtlinii var. maximowiczii,
reacciona al ataque de ciertos hongos de tipo moho que se encuentran en el suelo mediante
la síntesis de clorofenoles. Éstos se forman en el metabolismo de la planta a partir de
orcinol (3,5-dihidroxitolueno) y, una vez que han repelido el ataque del hongo, se degradan
con bastante rapidez. Los orcinoles clorados del lirio también actúan contra bacterias
gram-negativas.
Toxicidad
El MF es particularmente tóxico por inhalación, así como por ingestión y a través
del contacto con la piel (en concentraciones de 0,5 – 1,0 % en alcohol no causa irritación).
Puede causar daños muy serios en los ojos y sensibilización. La concentración umbral
detectable mediante el olor es de 0,1 mg·kg-1 (detección en agua).
Comportamiento en el medio ambiente
La liberación medioambiental del MF puede producirse debido a su formación en
las aguas (agua potable, aguas residuales o de refrigeración), las cuales han sufrido un
tratamiento de cloración, así como por la evaporación o liberación de residuos procedentes
de la formulación de productos o subproductos que contienen MF. Si, en cambio, el MF es
liberado en la atmósfera (fase predominante: vapor), se degradará rápidamente (el tiempo
de vida media es de 1,1 días) gracias a su reacción con radicales hidroxilo, los cuales se
generan fotoquímicamente por acción de la luz solar.
En las aguas, es posible degradar el MF mediante fotólisis (radiación ultravioleta) y
biodegradación, aunque no existen suficientes datos para predecir las velocidades a las que
se llevan a cabo dichos procesos en el medioambiente. La fotodegradación conduce a la
sustitución de los átomos de cloro por grupos hidroxilo, con la consiguiente
polimerización. Varios ensayos han demostrado que el MF es fácilmente biodegradable
bajo condiciones aeróbicas, pero no en condiciones anaeróbicas. La hidrólisis acuática, la
bioconcentración y la volatilización no son importantes.
Capítulo IV
277
Si el MF es liberado en los suelos, es probable que se produzca el fenómeno de
filtración (leaching) mediante la biodegradación aeróbica. En las aguas subterráneas donde
la degradación aeróbica es inviable, el MF puede persistir de un modo relevante. La
exposición de la población en general al MF puede producirse debido al consumo de agua
potable contaminada donde la especie química se ha formado inadvertidamente durante el
tratamiento de cloración. La inhalación o contacto dérmico puede producirse por el uso de
productos formulados con MF.
La siguiente tabla recoge algunos datos de concentraciones de MF detectadas en
diferentes tipos de efluentes o destinos medioambientales [586]:
Efluente
Concentración
Aguas
Tratamiento
Suelos
Lodos de
residuales
de aguas
(filtraciones)
aguas residuales
2 ppb
73 ng·L-1
154 ng·L-1
0,22 mg·kg-1 (peso seco)
Tabla IV.1.- Datos de concentraciones de 4-cloro-3-metilfenol detectadas
en diversos tipos de efluentes o destinos medioambientales.
También se ha detectado MF en aguas residuales procesadas y no procesadas
procedentes de la fabricación de automóviles, hierro y acero, del laminado de aluminio y
de fundiciones y procesos de acabado del metal. Otros orígenes son: la fotografía, la
industria farmacéutica, la formulación de pinturas y tintas, la fabricación de jabones y
detergentes y la industria textil. En estos casos, la concentración media varía ampliamente
de 0,01 ìg·L-1 a 100 mg·L-1 . Finalmente, también se ha detectado en efluentes de
incineradores de residuos municipales.
2.2. El compuesto orgánico 4-clorofenol (CF)
Otros sinónimos para esta especie química en cuestión son los siguientes: pclorofenol,
4-clorofenolato,
4-cloro-1-hidroxibenceno,
p-hidroxiclorobenceno,
4-
hidroxiclorobenceno, ácido p-clorofénico y aplicado 3-78, entre otros nombres, tanto
comerciales como no comerciales.
A lo largo del presente capítulo, se hará siempre referencia al 4-clorofenol mediante
las siglas ‘CF’.
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
278
Descripción
El CF suele aparecer normalmente en la forma de polvo o cristales que van del
blanco grisáceo al marrón pajizo. Desprende un olor característico muy molesto y
penetrante. Presenta su punto de fusión a 43 - 45 ºC y el de ebullición a 220 ºC. Es
moderadamente soluble en agua (2,7 g en 100 ml a 20 °C), mientras que es soluble en otros
disolventes tales como cloroformo, glicerol, éter, benceno, aceites volátiles y fijos, así
como en hidróxido de sodio acuoso.
El CF es una especie química estable bajo condiciones ordinarias, pero que
reacciona con cloruros y anhídridos ácidos, agentes oxidantes e hierro. La sustancia se
descompone al calentarla intensamente, produciendo humos tóxicos (dióxido y monóxido
de carbono) y corrosivos de cloro (ácido hidroclórico). En estado líquido (color más
oscuro) presenta un pH ligeramente ácido. El vapor es más denso que el aire [588-591].
Aplicaciones
Entre las aplicaciones del CF caben destacar las siguientes (ver también referencias
anteriores):
§
Intermediario
para
la
síntesis
de
insecticidas,
herbicidas,
conservantes,
antisépticos (tópicos) y desinfectantes, así como en la producción de 2,4diclorofenol y el germicida 4-clorofenol-o-cresol.
§
Se emplea además para la fabricación de medicinas (analgésicos como la
acetofenetidina), tintes, compuestos aromáticos y otras especies orgánicas.
§
También se emplea como disolvente selectivo para extraer compuestos
sulfurados y nitrogenados a partir del carbón (refinado de aceites minerales).
§
Desnaturalizante para alcohol.
Toxicidad
Es altamente irritante y presenta una elevada toxicidad cuando se absorbe por vía
digestiva, respiratoria (en forma de aerosol con una concentración tóxica de 10 g·m-3 en 8
horas) y dérmica (toxicidad moderada). Destruye la membrana de las mucosas. Además,
provoca mutaciones y afecta gravemente al proceso metabólico y reproductivo. Se cree que
Capítulo IV
279
puede presentar cierta actividad cancerígena y teratogénica, aunque aún no se disponen de
datos al respecto.
Cuando la exposición es de corta duración, esta sustancia irrita los ojos, la piel y el
tracto respiratorio. Además puede causar efectos en el sistema nervioso central y en la
vejiga. Por el contrario, si la exposición es prolongada o repetida, la especie puede afectar
al hígado, a los pulmones, al riñón, a la sangre y al corazón. Por ejemplo, en el caso de las
ratas, la dosis letal que mata al 50 % de la población (LD50)es de 670 mg·kg-1 .
Comportamiento en el medio ambiente
El comportamiento de este compuesto en el medio ambiente no aparece descrito en
la bibliografía. Tan sólo pueden encontrarse estudios relacionados con el 2-clorofenol, el
cual es considerado como mucho más contaminante y tóxico para el medioambiente y los
seres vivos que el 4-clorofenol. Sin embargo, es de esperar que su comportamiento sea
similar al del resto de los clorofenoles. Gracias a su gran volatilidad (mono y
diclorofenoles son mucho más volátiles que el resto de clorofenoles) podría esperarse una
mayor incidencia en la atmósfera [592, 593].
2.3. El compuesto orgánico 2,4-diclorofenol (DCF)
A lo largo del presente capítulo, se hará siempre referencia al 2,4-diclorofenol
mediante las siglas ‘DCF’.
Descripción
El DCF es una sustancia sólida blanca, que forma agujas hexagonales incoloras
cuando cristaliza a partir del benceno. Su punto de fusión se alcanza a los 45 ºC, mientras
que el de ebullición a los 210 ºC. Emana un fuerte olor medicinal.
Aplicaciones
Las aplicaciones más importantes de esta sustancia son las siguientes:
§
Se usa en la síntesis de herbicidas tales como 2,4-diclorofenoxiacetato, bifenox
o 4-(2,4-diclorofenoxi)butirato.
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
280
§
También se emplea como materia prima para la fabricación de ciertos
compuestos metílicos (methylenebis) utilizados para eliminar las polillas
y
como antisépticos o desinfectantes de semillas.
§
Al reaccionar con cloruro de sulfonil benceno produce miticida o clorando aún
más da lugar a pentaclorofenol, un conservante para la madera.
§
Se emplea además para incrementar la producción de látex a partir de árboles
del caucho viejos y en el control de la caída de la fruta.
Toxicidad
Los bencenos clorados, como es el caso, son irritantes para la piel, la conjuntiva y
la membrana de las mucosas del tracto respiratorio superior. La concentración umbral
detectable mediante el olor es de 0,21 ppm en agua (para la sustancia químicamente pura).
La USEPA recomienda que las cantidades máximas permitidas para el DCF en el agua
potable deben ser inferiores a 0,02 mg·L-1 . A modo de curiosidad y para comprender aún
más la toxicidad del DCF, baste decir que una persona que vertiese DCF puro sobre uno de
sus brazos o piernas fallecería poco tiempo después del accidente.
Comportamiento en el medio ambiente
El DCF puede ser liberado al medio ambiente (como sustancia intermedia) en los
efluentes procedentes de su propia fabricación y uso y como consecuencia de procesos de
cloración que implican tratamiento de aguas o blanqueo de pulpa de madera. También
puede liberarse a partir de procesos de incineración o por la degradación de varios
pesticidas en los suelos. En la atmósfera, donde el DCF se encuentra mayoritariamente en
fase vapor, su degradación se produce como consecuencia de reacciones fotoquímicas con
radicales hidroxilos (la vida media estimada es de 5,3 días). Las lluvias pueden eliminarlo
físicamente del aire.
Con un pKa de 7,8, el DCF puede existir tanto en su forma no disociada como en su
forma ionizada, ya sea en suelos o en el agua, según el pH del medio. Si es liberado en el
suelo, es muy probable que se produzcan filtraciones moderadas; la forma ionizada es
mucho más susceptible a este fenómeno que la no disociada. Varios estudios de
biodegradación han demostrado que el DCF es biodegradable bajo condiciones aeróbicas y
anaeróbicas, tanto en agua como en suelos. La biodegradación parece ser el proceso
Capítulo IV
281
disipativo medioambiental más importante, mientras que la hidrólisis acuática y la
volatilización son irrelevantes.
En caso de ser liberado en el agua, la adsorción de los sedimentos puede ser
importante en función de las condiciones de pH, entre otros factores. La fotodegradación
en aguas naturales puede producirse por fotólisis directa o por reacción con oxidantes
generados por la luz solar (oxígeno singlete y radicales peroxi), siendo el tiempo de vida
media de 62 a 69,3 horas. Los tiempos de vida media se incrementan bastante conforme
aumenta la profundidad del agua. El DCF ejerce un efecto muy tóxico sobre los peces,
fundamentalmente cuando se trata de exposiciones de larga duración. La población
humana puede ser expuesta a DCF por medio del consumo de agua del grifo contaminada
o por inhalación de aire contaminado [594].
2.4. El compuesto orgánico 2,4,6-triclorofenol (TCF)
A lo largo del presente capítulo, se hará siempre referencia al 2,4,6-triclorofenol
mediante las siglas ‘TCF’.
Descripción
El TCF es una sustancia química que forma agujas cristalinas rómbicas e incoloras
cuando cristaliza a partir de una disolución en ácido acético. Su punto de fusión se alcanza
a 69 ºC y el de ebullición a 246 ºC. Al igual que los compuestos orgánicos anteriormente
descritos, también emana un fuerte olor fenólico.
Aplicaciones
Sus aplicaciones más importantes son las que se enumeran a continuación:
§
Actualmente se emplea como herbicida y defoliante.
§
Isómeros mixtos de esta sustancia se han utilizado como conservantes (para
maderas
y
adhesivos),
como
ingredientes
para
insecticidas,
como
desinfectantes, bactericidas, germicidas y funguicidas (en textiles), así como
para saneamientos.
282
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
Toxicidad
En contacto con los ojos puede causar irritación severa y lagrimeo. El polvo o los
gases desprendidos al calentar el material pueden también provocar dolor e irritación en
ojos y nariz. La concentración umbral detectable mediante el olor es de 100 ìg·L-1 a 30 ºC
y de 1222 ìg·L-1 a 25 ºC. En estudios llevados a cabo en animales, el 2,4,6-triclorofenol
provoca leucemia en ratas y cáncer de hígado en ratones. De hecho, el Departamento de
Salud y Servicios Humanos de los Estados Unidos (USDHHS, United States Department
of Health and Human Services) ha llegado a la conclusión de que el TCF podría
considerarse razonablemente como sustancia cancerígena.
Comportamiento en el medio ambiente
El TCF puede entrar en el medioambiente como consecuencia de las emisiones
procedentes de la combustión de combustibles fósiles y la incineración de residuos
municipales, así como también por las emisiones originadas en su manufactura y uso como
conservante de maderas y biocida. Cantidades significativas de la sustancia pueden
producirse por la cloración del fenol (contenido en las aguas residuales).
La liberación de la especie química en los suelos disminuye en concentración
debido a la biodegradación, dependiendo sobre todo de la temperatura, de la disponibilidad
de oxígeno y de la presencia de organismos apropiados, fundamentalmente anaeróbicos
(existen estudios que corroboran la eliminación del TCF de los suelos en 3 días).
Fenómenos de adsorción en los suelos con un alto contenido orgánico son significativos;
las filtraciones hacia las aguas subterráneas pueden ser relevantes en suelos arenosos y en
aquellos donde no se da una rápida biodegradación (esto se ha comprobado al detectar TCF
en aguas subterráneas relativamente profundas en zonas próximas a fábricas de pasta de
papel). La volatilización y la fotomineralización pueden contribuir a pérdidas en la
superficie de los suelos, mientras que la hidrólisis no.
Su liberación al agua provocará su biodegradación y fotólisis, así como su
adsorción por parte de los sedimentos. El tiempo de vida media en agua de río es de 6,3
días, con la velocidad afectada por la cantidad de sedimentos existente. En 2,1 horas de
tiempo medio puede producirse una fotodegradación significativa en la superficie de las
aguas. También la volatilización puede causar pérdidas (con un tiempo de vida media de 2
Capítulo IV
283
días), pero no así la hidrólisis. Aunque no es de esperar una amplia bioacumulación, ésta sí
es importante en algunas especies de peces e invertebrados.
Las cantidades liberadas a la atmósfera pueden disminuir gracias a la fotólisis
(tiempo de vida media inferior a 17 horas en algunos experimentos) y a reacciones con
radicales hidroxilos (2,7 días); mecanismos de deposición seca y húmeda contribuyen de
igual modo. La detección de TCF en áreas relativamente limpias sugiere que el fenómeno
de transporte es bastante significativo o que la sustancia pueda haberse originado en los
incendios forestales. La exposición humana resulta del consumo de agua potable
contaminada o a cualquier otro contacto asociado con su utilización. La inhalación de aire
contaminado procedente de las emisiones ocasionadas por la combustión de residuos y
combustibles fósiles, así como también el contacto ocupacional con fenoles clorados
contenidos en aguas residuales pueden ser también fuentes significativas de la exposición
humana [595].
3) Antecedentes En El Estudio De Mezclas De Clorofenoles
El sistema electroquímico cuaternario constituido por los compuestos fenólicos 4cloro-3-metilfenol (MF), 4-clorofenol (CF), 2,4-diclorofenol (DCF) y 2,4,6-triclorofenol
(TCF) no es tan bien conocido en el campo del electroanálisis como lo pueda ser el
correspondiente al de los iones metálicos Tl+ / Pb2+, cuyo estudio y características se
desarrollaron en el capítulo anterior. Sin embargo, de acuerdo con los aspectos comentados
en el epígrafe precedente, huelga comentar la gran relevancia que posee también la
detección de dichas especies químicas en el medioambiente. Su capacidad de
contaminación, así como su peligrosidad para los seres vivos, son similares o incluso
mayor a la de los dos cationes metálicos, debido a su enorme aplicabilidad y a su presencia
extendida a lo largo de un sinnúmero de procesos industriales.
Principalmente, han sido estos los motivos por los cuales se han llevado a cabo gran
cantidad de estudios relacionados con la determinación de los mismos, así como de otros
compuestos fenólicos en general, entre los que cabe destacar los nitrofenoles y otros tipos
de clorofenoles. Las matrices de estudio han sido casi siempre acuosas y los citados
fenoles se han determinado tanto de forma individual como en mezclas, ya sea con el fin
de hacer calibración multivariante o para elaborar un índice de fenoles gracias a la
detección conjunta.
284
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
Las técnicas más comúnmente empleadas para la determinación de los fenoles son
la cromatografía y el análisis por inyección en flujo o FIA, métodos que permiten y
facilitan la separación de los distintos constituyentes fenólicos presentes en la muestra en
estudio. La detección posterior al proceso de separación se suele llevar a cabo gracias a
técnicas espectrofotométricas (UV/Vis) o electroquímicas (amperometría). En muchos
casos, incluso utilizando técnicas cromatográficas o de flujo, que poseen un cierto carácter
separativo, es necesario un proceso de calibración multivariante.
El trabajo de Navarro-Villoslada et al. [301], constituye un claro ejemplo de la
aplicación de la quimiometría a la separación de mezclas de cuatro clorofenoles: 2clorofenol, 4-cloro-3-metilfenol, 2,4-diclorofenol y pentaclorofenol. Llevaron a cabo un
estudio comparativo entre diferentes métodos de calibración multivariante con el fin de
seleccionar mezclas de calibración y longitudes de onda. Los métodos estudiados fueron:
mínimos cuadrados clásicos (CLS), mínimos cuadrados inversos (ILS), mínimos cuadrados
parciales (PLS), regresión de componentes principales (PCR) y filtro Kalman.
Cuatro años después, los mismos autores [596] modelaron los efectos de la matriz y
llevaron a cabo una determinación multivariante de cinco clorofenoles (los cuatro
anteriores más el 2,4,6-triclorofenol) en muestras de orina. La técnica quimiométrica
empleada en este caso fue el PLS. Las concentraciones de los fenoles estuvieron en el
intervalo de 0,2 a 1,0 mg·L-1 . Los mismos clorofenoles habían sido estudiados un año antes
por Esteves da Silva et al. [306], también con determinación espectrofotométrica, pero a
concentraciones mucho más bajas. En este caso, además del PLS, utilizaron redes
neuronales artificiales para realizar la calibración multivariante.
Cladera et al. [597] llevaron a cabo la determinación multicomponente de 2-, 3- y
4-nitrofenol en muestras de aguas naturales contaminadas, haciendo uso de algoritmos de
regresión multilineal y técnicas espectroscópicas de primera derivada. La técnica empleada
fue el análisis de inyección en flujo con detección espectrofotométrica. El intervalo de
concentración de las especies químicas fue bastante amplio, así como también el grado de
recuperación de cada uno de los compuestos en las distintas mezclas.
En los trabajos de Olmo et al. [598] y de Rodríguez et al. [599], también se emplea
el PLS como método de calibración multivariante. El primero de ellos hace referencia a
mezclas de fenol, o-cresol, m-cresol y p-cresol, determinados por excitación de
Capítulo IV
285
fluorescencia, estando las concentraciones en el intervalo de 0,08 a 0,9 mg·L-1 . La
metodología propuesta fue aplicada a la determinación de dichas especies químicas en
muestras de aguas naturales y suelos. En el segundo caso, el método de detección se basó
en cromatografía gaseosa acoplada con espectroscopía infrarroja de transformada de
Fourier, aplicado a la mezcla de dos diclorofenoles (2,4- y 2,5-) en concentraciones de 1 a
8 mg·L-1 , no resueltos cromatográficamente. Los porcentajes de recuperación obtenidos
estuvieron entre el 87 y el 91 %, respectivamente.
El grupo de Olmo y el de Todeschini colaboraron posteriormente en un trabajo de
investigación [600] en el que empleaban el mismo conjunto de fenoles comentado en el
párrafo anterior. En este caso, se lleva a cabo una mejora en la estrategia de selección de
longitudes de onda, usando para ello redes neuronales artificiales de Kohonen. El PLS
también sirvió en este caso para establecer los modelos de calibración multivariante.
Gracias a esta nueva metodología, consiguieron reducir el número de mezclas de
calibración, así como mejorar los resultados obtenidos con el PLS.
Las referencias que se comentan a continuación se basan en la determinación
electroquímica. La aplicación de este tipo de técnicas, por sí sola (sin algún método
separativo previo), conlleva una ausencia de selectividad (ver Capítulo I, Epígrafe 6) que
impide separar mezclas de determinados fenoles, generando diferentes grados de
solapamiento entre las señales de los componentes individuales y requiriendo, de este
modo, un ulterior proceso de calibración multivariante (quimiometría). Hay que destacar,
que el número de publicaciones donde se conjugan las técnicas electroquímicas con la
calibración multivariante de fenoles no es muy elevado, como consecuencia de la
desventaja mencionada anteriormente.
Así, podemos resaltar el trabajo de Carvalho, Mello y Kubota [155], dedicado a la
determinación simultánea de mezclas binarias de isómeros del fenol: catecol e
hidroquinona, haciendo uso de voltamperometría de impulso diferencial (DPV) en un
electrodo de fibra de carbono. Redes neuronales con procedimiento de recorte o poda
constituyeron la herramienta de calibración multivariante empleada en este caso,
estableciéndose además una comparación con el método PLS. Los errores RMS para las
predicciones fueron del orden del 7,5 y 8 %, respectivamente.
286
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
De igual modo, hay que hacer referencia al reciente trabajo de Kokot et al. [601],
los cuales aplicaron diferentes métodos quimiométricos, tales como CLS, PCR y PLS (5
componentes principales en los dos últimos casos), con el fin de resolver mezclas de
nitrobenceno
y
cuatro
nitrofenoles
(2-nitrofenol,
3-nitrofenol,
4-nitrofenol
y
2,4-
dinitrofenol), en el intervalo de concentraciones de 0,05 a 3 mg·L-1 . El error relativo
obtenido fue del orden del ±10 %, al igual que los porcentajes de recuperación de los
analitos. La metodología desarrollada fue aplicada a la determinación de los mencionados
contaminantes en aguas medioambientales y residuales (industrias).
A continuación, se procederá a la descripción del proceso de calibración
multivariante para las mezclas cuaternarias de los clorofenoles seleccionados en el presente
trabajo: MF, CF, DCF y TCF. El objetivo sigue siendo el mismo que para el sistema de los
iones metálicos pesados: la aplicación de técnicas quimiométricas, tanto modernas como
clásicas, combinadas de algún modo entre sí, con el fin de resolver el citado sistema
electroquímico de manera novedosa. Esta parte de la Tesis Doctoral constituye, además,
una de las primeras aplicaciones del electrodo Sonogel-Carbono como un sensor
amperométrico con vistas a determinar los compuestos fenólicos arriba indicados.
4) Estudios Previos Realizados Sobre El Sistema De Los
Clorofenoles
Primeramente, y antes de desarrollar el procedimiento de determinación de los
analitos previo a la calibración multivariante, se llevaron a cabo una serie de estudios
previos con el fin de encontrar las mejores condiciones experimentales, así como para
identificar las especies químicas que más se ajustaban al propósito de la investigación.
4.1. Establecimiento de las condiciones experimentales
Gracias a la experiencia adquirida en las investigaciones con los electrodos
Sonogel-Carbono [1, 105, 128] y los estudios realizados con compuestos fenólicos [129,
602-606], se pudieron establecer las mejores condiciones experimentales para la
determinación de los analitos.
Capítulo IV
287
Composición y pH del medio regulador
En primer lugar, y partiendo del MF como referencia [1, 129], se eligieron las
condiciones del medio regulador: composición (reguladora Britton-Robinson) y pH = 4,
más adecuadas para su determinación.
Técnica voltamperométrica
Teniendo en cuenta las mismas referencias anteriores, se seleccionó la técnica
voltamperométrica
(DPAdSV,
Differential
Pulse
Adsortive
Stripping
Voltammetry:
voltamperometría de redisolución adsortiva de impulso diferencial), así como los
parámetros del potenciostato/galvanostato que la definían, los cuales serán descritos
posteriormente.
Preacondicionamiento y estabilización de los electrodos Sonogel-Carbono
A continuación, se fabricaron varias baterías de electrodos Sonogel-Carbono, tanto
modificados con PEG como sin él, teniendo en cuenta todas las consideraciones
pertinentes [128].
Puesto que se deseaba llevar a cabo un proceso de calibración multivariante, las
medidas de los analitos y de sus mezclas debían gozar de la mayor reproducibilidad
posible. Como puede comprobarse en las referencias citadas anteriormente, el proceso de
fabricación del electrodo es sumamente rápido y sencillo. Sin embargo, adolece de cierto
carácter de irreproducibilidad. Por consiguiente, para evitar este problema, se pensó en
emplear un único electrodo Sonogel-Carbono, preacondicionado y estabilizado de
manera adecuada. La cuestión era cómo lograr estas dos cosas.
Una vez fabricados los electrodos Sonogel-Carbono, estos fueron sometidos a un
proceso de pulido mecánico, tal y como se describe en el Capitulo I, epígrafe 5.1. Tras la
inserción del contacto eléctrico, constituido por un fino hilo de cobre, los electrodos
estuvieron a punto para su utilización.
Seguidamente se procedió al proceso de preacondicionamiento y estabilización de
los mismos. Dicho procedimiento consiste en la aplicación sucesiva de etapas de limpieza
y medida con el electrodo sumergido en disolución reguladora en el interior de la celda
288
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
electroquímica. Cada tres etapas de limpieza como mínimo (las cuales serán tratadas
posteriormente en detalle), con la obtención de los correspondientes registros de los
voltamperogramas, se ejecuta una etapa de medida de un analito. La especie química
empleada en este caso fue el MF a la concentración de 0,10 mg·L-1 , puesto que su
comportamiento era perfectamente conocido y ya había sido estudiado con anterioridad.
Los resultados del proceso de preacondicionamiento y estabilización para varios
electrodos Sonogel-Carbono (modificados o no y mantenidos en disolución acuosa o fuera
de ella cuando no eran utilizados) aparecen reflejados en la siguiente figura:
Figura IV.1.- Variación de la intensidad de pico con respecto al tiempo
durante el proceso de preacondicionamiento y estabilización de los
electrodos Sonogel-Carbono.
Como
puede
observarse
en
la
figura,
a
lo
largo
del
proceso
de
preacondicionamiento y estabilización de los electrodos se produce una variación
(disminución) en la intensidad del pico del analito (MF) con respecto al tiempo, hasta
alcanzar un equilibrio o estabilización del citado parámetro electroquímico. Dicha
variación es menos brusca y más pequeña para el caso de un electrodo modificado con
PEG y mantenido en disolución acuosa (electrodo húmedo) en condiciones de noutilización. Además, la estabilización para este electrodo se alcanza de una forma más
rápida que en los otros casos y a valores más altos de intensidad de pico. Un electrodo sin
Capítulo IV
289
modificar sufre enormes y bruscas variaciones en la intensidad del pico con respecto al
tiempo, mientras que cuando está modificado pero se mantiene en seco en condiciones de
no-utilización, dichas variaciones son menores, aunque todavía un poco bruscas.
La estabilización de los electrodos secos se produce a valores más pequeños de
intensidad que el electrodo húmedo; por esta razón, el electrodo Sonogel-Carbono
seleccionado para continuar con la investigación fue el electrodo modificado con PEG y
húmedo, es decir, aquél que se mantuvo siempre en disolución acuosa en condiciones de
no-utilización. Las sucesivas etapas de limpieza (3 veces)-medida de los analitos a partir de
la estabilización del electrodo fueron necesarias con vistas a mantener la reproducibilidad
de las medidas efectuadas con posterioridad, puesto que cualquier modificación en la
superficie del electrodo propiciaría un cambio radical en su comportamiento, situación no
deseable si se pretendía realizar una ulterior calibración multivariante de las señales
obtenidas.
Estos resultados sobre el estudio del comportamiento de los electrodos han servido
para corroborar los obtenidos en investigaciones anteriores [1, 129]; es más, las figuras son
casi idénticas a pesar de no haberse realizado un estudio tan largo y exhaustivo en la
presente situación.
4.2. Selección de los analitos
Una
vez
fijadas
las
condiciones
experimentales
del
medio
regulador
y
seleccionadas la técnica electroquímica y el electrodo a emplear, se llevaron a cabo
determinaciones de diferentes tipos de fenoles con el fin de comprobar la reproducibilidad
de las medidas y observar la respuesta de las diferentes especies químicas estudiadas.
Para esto último, se partió de unas investigaciones recientes [129], basadas en la
determinación voltamperométrica del 4-cloro-3-metilfenol (MF) mediante un electrodo
Sonogel-Carbono modificado con PEG. De igual modo, en dicho trabajo, también se lleva
a cabo un estudio de las interferencias producidas por diferentes compuestos fenólicos
contaminantes en la determinación del citado fenol. Las especies químicas empleadas
como interferentes fueron las siguientes: 2-nitrofenol, 4-nitrofenol, 2,4-dinitrofenol, 2metil-4,6-dinitrofenol,
pentaclorofenol.
2,4-diclorofenol
(DCF),
2,4,6-triclorofenol
(TCF)
y
290
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
La
siguiente
figura
representa
la
superposición
de
los
voltamperogramas
correspondientes a cada uno de los reactivos anteriores, junto con la señal del MF:
Figura IV.2.- Superposición de los voltamperogramas correspondientes a
diferentes compuestos fenólicos: los nitrofenoles aparecen representados a
una concentración de 1 mg·L-1 , mientras que los restantes a 0,5 mg·L-1 ,
como consecuencia de la diferente sensibilidad del electrodo frente a los
analitos.
Como
se
desprende
de
la
figura,
los
clorofenoles
aparecen
agrupados
aproximadamente en la zona central de la misma y presentan señales bastante intensas y
bien definidas, con un buen grado de simetría, a diferencia del resto de fenoles. Además,
hay que tener en cuenta que los nitrofenoles se encuentran lo suficientemente próximos a la
zona de caída de corriente del fondo como para que su reproducibilidad y, por tanto, su
cuantificación sea problemática. Con respecto a la sensibilidad del electrodo frente a estos
últimos, baste observar las señales y recordar que la concentración para los nitrofenoles era
el doble que para el resto.
A raíz del estudio anterior, se decidió que los clorofenoles eran buenos candidatos
para continuar con las investigaciones. Sin embargo, el pentaclorofenol presentaba una
Capítulo IV
291
dificultad añadida, a pesar de la buena sensibilidad y las características de su señal
individual: complicaba en gran medida el proceso de limpieza electroquímica de los
electrodos, del cuál se hablará más adelante en profundidad. Es más, en algunos casos,
dicha especia química inutilizaba completamente el electrodo. En futuros estudios se prevé
la utilización de electrodos Sonogel-Carbono con el citado compuesto, una vez que se haya
encontrado la forma de limpiar y eliminar de manera eficaz los residuos de dicha especie
química, pero no se consideró pertinente incluirlo en el presente trabajo.
Por lo tanto, esto implicaba que tan sólo MF, DCF y TCF eran adecuados para el
objetivo planteado de la calibración multivariante. No obstante, faltaba un último
compuesto fenólico, puesto que las mezclas deseadas debían ser cuaternarias. Para ello, en
principio, se escogió el 2-clorofenol (2CF). Los resultados obtenidos en los primeros
ensayos individuales de los mismos se resumen en la siguiente figura:
Figura IV.3.- Superposición de los voltamperogramas correspondientes a
los cuatro clorofenoles: MF, 2CF, DCF y TCF a una concentración de 1
mg·L-1 .
Como se desprende de la figura, todas las señales se encuentran situadas en un
intervalo de unas cuantas decenas de mV, lo que implica un alto grado de solapamiento
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
292
entre las señales individuales. La siguientes figura, que representa los voltamperogramas
de todas las mezclas binarias y ternarias posibles de los clorofenoles, avalan esto último:
Figura IV.4.- Superposición de los voltamperogramas correspondientes a
todas las posibles mezclas binarias y ternarias constituidas por los cuatro
clorofenoles: MF, 2CF, DCF y TCF a una concentración de 1 mg·L-1 .
A partir de la figura, se desprende que tanto las mezclas binarias como las ternarias
de los clorofenoles están constituidas por un único pico. Esto nos permite afirmar que el
grado de solapamiento entre las distintas especies químicas es muy severo. Además, hay
que resaltar que todas las medidas fueron replicadas dos o tres veces, obteniéndose una
reproducibilidad muy alta entre las mismas (los coeficientes de variación de las réplicas de
las medidas fueron inferiores al 5 % en todos los casos y en la mayoría inferiores al 1-2 %)
para las condiciones experimentales comentadas anteriormente.
No obstante, el 2-clorofenol (2CF) ocasionó muchos problemas de limpieza del
electrodo (requería muchos barridos de limpieza), incluso cuando se realizaron cambios en
las condiciones experimentales iniciales con el fin de solventar esta cuestión:
§
pH de la reguladora
Capítulo IV
§
293
variaciones de la disolución del electrolito soporte en la celda, incluso cuando
se estudiaban réplicas de un mismo analito.
§
aplicación del proceso de limpieza sin llevar a cabo el registro de la señal, lo
que provocaba continuas disminuciones en las intensidades de los picos
Por este motivo, se pensó en su sustitución por otro compuesto fenólico monoclorado: el 4clorofenol (CF). La reproducibilidad obtenida para este analito haciendo varias réplicas fue
también muy buena (2-3 % de coeficiente de variación).
De acuerdo con todo lo anterior, los analitos seleccionados finalmente para
continuar con la investigación fueron MF, CF, DCF y TCF. La Figura IV.5 representa la
superposición de los voltamperogramas de los citados clorofenoles:
Figura IV.5.- Superposición de los voltamperogramas correspondientes a
los cuatro clorofenoles seleccionados: MF, CF, DCF y TCF a una
concentración de 1 mg·L-1 .
294
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
4.3. Determinación de las concentraciones de los analitos: cálculo del límite de
detección
Finalmente, fue necesario establecer un intervalo de concentraciones para los
analitos con el fin de obtener las curvas de calibrado de cada uno de ellos, así como para
llevar a cabo la posterior medición de las mezclas de los mismos como paso previo al
proceso de calibración multivariante.
Inicialmente se propusieron los siguientes intervalos: de 1 a 2 mg·L-1 (1; 1,25; 1,5;
1,75; 2) y de 0,5 a 1,5 mg·L-1 (0,5; 0,75; 1; 1,25; 1,5). No obstante, la selección de las
concentraciones se hubiese llevado a cabo única y exclusivamente de forma arbitraria. Lo
siguiente que se pensó fue partir de un valor de concentración que fuese inferior al valor
máximo admitido en las aguas para esta clase de compuestos según la literatura. Pero, dada
su extrema pequeñez (0,5 ìg·L-1 para el contenido total y 0,1 ìg·L-1 para los compuestos
individuales), y debido a que la sensibilidad alcanzada mediante aplicación directa de este
tipo de electrodo pudiese no ser tan elevada, se decidió establecer el intervalo de
concentraciones haciendo uso del límite de detección de cada compuesto para las
condiciones experimentales establecidas hasta ahora.
Por ello, se realizaron determinaciones de cada uno de los clorofenoles
seleccionados de forma individual partiendo del valor de concentración de 0,001 mg·L-1 . El
origen de esta cifra procede de investigaciones anteriores [1, 129], puesto que el valor del
límite de detección encontrado para el 4-cloro-3-metilfenol en dichos estudios fue de 2,8
ìg·L-1 (0,0028 mg·L-1 ). No obstante, el valor de concentración a partir del cual dieron señal
todos los analitos fue 0,02 mg·L-1 ; tan sólo el MF, DCF y TCF ofrecieron respuesta a 0,01
mg·L-1 . A partir de aquí, el límite superior fue fijado en 0,1 mg·L-1 , mientras que los
valores intermedios de concentración que se investigaron fueron 0,02, 0,03, 0,04 y 0,05
mg·L-1 . En la siguiente figura se representan los valores de intensidad obtenidos para cada
analito a los valores de concentración arriba indicados:
Capítulo IV
295
Figura IV.6.- Valores de intensidad de pico obtenidos para los diferentes
clorofenoles en el intervalo de concentraciones de 0,01 a 0,1 mg·L-1 .
Como puede observarse, los puntos se distribuyen formando la curva característica
de la zona próxima al límite de detección y no una línea recta. Esto indica que para
encontrar una zona donde la distribución de puntos sea lineal hay que aumentar un poco
más los valores de concentración. Por consiguiente, se estableció el intervalo de
concentraciones entre 0,05 y 0,25 mg·L-1 en incrementos constantes de 0,05 mg·L-1 . Se
dispondría, por tanto, de 5 puntos para construir las curvas de calibrado de cada analito, las
cuales, a su vez, conducirían a la obtención del límite de detección para cada uno de ellos;
como el valor más pequeño de intensidad a la concentración mínima obtenido
anteriormente fue de 16 nA, no se prevén problemas a la hora de establecer dichas curvas.
En la siguiente figura, aparecen representadas las curvas de calibrado para los 4
clorofenoles seleccionados, en el intervalo de concentraciones establecido. Las medidas se
llevaron a cabo por triplicado, representándose la media aritmética de los tres valores de
intensidad obtenidos, en cada caso. En el gráfico también se recogen las ecuaciones de las
rectas, junto con sus respectivos coeficientes de correlación:
296
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
Figura IV.7.- Curvas de calibrado para los clorofenoles seleccionados,
junto con sus respectivos coeficientes de correlación.
Como se desprende de la figura, las curvas de calibrado obtenidas son muy buenas
en todos los casos, a pesar de los valores tan pequeños de concentración.
A partir de aquí se pueden desarrollar los cálculos para determinar el límite de
detección para cada analito. Dichos cálculos se basan en definir este parámetro como al
concentración a la que corresponde una intensidad igual a la del blanco (yB) más tres veces
la desviación estándar del blanco (sB), como indica la siguiente expresión:
y = yB + 3 ⋅sB
(87)
En estos cálculos, se considera un criterio estadístico [607] que relaciona la desviación
estándar del blanco con la función sy/x y utiliza como yB la ordenada en el origen obtenida a
partir de la recta de calibrado en el rango más bajo de concentraciones. La función sy/x se
define como:
sy / x =
∑ (y − γ )2
n−2
(88)
Capítulo IV
297
donde ã son los puntos de la recta de calibrado que corresponden a los valores de X. En el
caso que nos ocupa, la ecuación de regresión es de la forma y = a + b·x, donde y
corresponde a la intensidad de corriente y x corresponde a la concentración del analito.
Cada punto de la representación gráfica, incluido el que representa el blanco, posee una
variación distribuida normalmente (sólo en el eje Y) con una desviación estándar estimada
por el parámetro sy/x; es, por ello, adecuado tomar sy/x en lugar de sB para estimar el límite
de detección. Igualmente, el valor de a puede considerarse como una estimación de yB.
Los datos obtenidos constatan la linealidad de la respuesta de la intensidad de pico
respecto a la concentración en el intervalo estudiado (Figura IV.7). La Tabla IV.1 muestra
los datos de intensidad de pico obtenidos para cada uno de los analitos en el intervalo de
concentraciones estudiado (0,05 – 0,25 mg·L-1 ):
Concentración (mg·L-1 ) IMF (nA)
IC F (nA) IDCF (nA) ITCF (nA)
0,05
13,87
8,86
14,03
14,58
0,10
24,96
16,61
24,43
23,56
0,15
35,63
23,69
34,71
32,46
0,20
45,55
30,76
44,81
40,90
0,25
56,56
38,22
54,30
50,21
Tabla IV.2.- Datos de intensidad de los cuatro clorofenoles empleados
para la obtención de las curvas de calibrado y el límite de detección de los
analitos.
El límite de detección (n = 5) para cada analito se calcula, por tanto, gracias a los
datos que aparecen también en la siguiente tabla:
Parámetro
MF
CF
DCF
TCF
Función sy=x = sblanco
0,34
0,21
0,32
0,21
Ordenada en el origen (Iblanco, nA)
3,52
1,77
4,18
5,76
Pendiente (b, nA·L·mg-1 )
221,93 145,74 201,84
177,21
ILD = Iblanco + 3·sblanco (nA)
4,56
2,41
5,14
6,39
LD = (ILD- Iblanco)/b (µg·L-1 )
4,9
4,4
4,8
3,6
298
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
Tabla IV.3.- Límites de detección para cada analito, así como los
parámetros empleados para su cálculo.
Los límites de detección obtenidos son bastante satisfactorios.
También se calculó el límite de cuantificación para cada compuesto fenólico a partir
de los datos anteriores:
Parámetro
MF
CF
DCF
TCF
Función sy=x = sblanco
0,34
0,21
0,32
0,21
Ordenada en el origen (Iblanco, nA)
3,52
1,77
4,18
5,76
Pendiente (b, nA·L·mg-1 )
221,93 145,74 201,84
177,21
ILC = Iblanco + 10·sblanco (nA)
6,97
3,91
7,39
7,86
LC = (ILC - Iblanco)/b (µg·L-1 )
16,3
14,7
15,9
11,9
Tabla IV.4.- Límites de cuantificación para cada analito, así como los
parámetros empleados para su cálculo.
De igual modo, los límites de cuantificación también fueron considerados como
satisfactorios.
5) Descripción Del Método Experimental Empleado Finalmente
Durante El Proceso De Calibración Multivariante
La técnica voltamperométrica empleada para llevar a cabo la determinación de los
cuatro clorofenoles, MF, CF, DCF y TCF, tanto para las señales individuales como para las
mezclas cuaternarias, fue la voltamperometría de redisolución adsortiva de impulso
diferencial o DPAdSV, cuyo fundamento, similar al de la DPASV, ha sido descrito con
anterioridad (Capítulo I, epígrafe 4.2). El intervalo de concentraciones en el que fueron
medidos los clorofenoles fue de 0,05 a 0,25 mg·L-1 , en incrementos de 0,05 mg·L-1 . Estos
valores son inferiores a los empleados en la mayor parte de las referencias señaladas
previamente.
La determinación se llevó a cabo en un medio tampón formado por una reguladora
Britton-Robinson, de pH aproximadamente igual a 4, y preparada tal y como se describe en
el Capítulo II. La elección del citado medio se realizó gracias a los buenos resultados
Capítulo IV
299
obtenidos con dicha reguladora en investigaciones anteriores [1, 105, 129], y por ser,
además, el medio en el cual las señales de los clorofenoles aparecían mejor definidas y con
la mayor intensidad posible.
El tipo de electrodo empleado fue un electrodo Sonogel-Carbono modificado con
polietilenglicol (PEG). El procedimiento para su fabricación aparece descrito en el
Capítulo I, epígrafe 5.1, así como en la Figura II.1. Antes de su utilización, los electrodos
fueron sometidos a una etapa previa de acondicionamiento en disolución acuosa. Esta clase
de polímeros se añadió como modificante durante el proceso de fabricación con el fin de
lograr las siguientes ventajas:
§
Mayor y más rápida estabilización del electrodo durante la etapa previa de
acondicionamiento.
§
Mejora en la sensibilidad del electrodo.
§
Mejor definición de los picos de los analitos y sus mezclas.
El procedimiento experimental empleado en esta parte de la Tesis Doctoral para la
determinación de los clorofenoles difiere bastante del utilizado en el capítulo referente a la
calibración multivariante de los metales pesados. Cuando se hace uso del electrodo de
mercurio, cada gota implica una renovación de la superficie del mismo (un nuevo
electrodo), siendo el sistema de formación de la gota de mercurio el que determina la
reproducibilidad de las medidas. Sin embargo, para obtener los voltamperogramas
correspondientes a los clorofenoles, se empleó tan sólo un único electrodo SonogelCarbono, perfectamente acondicionado y estabilizado, con el fin de garantizar la
reproducibilidad de las medidas y, por consiguiente, la posibilidad de llevar a cabo la
separación de las mezclas de los clorofenoles. Por esta razón, este nuevo procedimiento
experimental requería una serie de etapas alternas y sucesivas de limpiezas y medidas,
siendo la primera de ellas, intercalada entre dos etapas de medidas, la que permitía
reutilizar el citado electrodo. Hay que destacar, que la limpieza electroquímica del
electrodo fue desarrollada inicialmente para el MF [1, 105, 129], aunque se extendió
posteriormente a los otros tres clorofenoles, así como a las mezclas de los mismos.
En el momento en el que se superponen los voltamperogramas individuales de los
cuatro clorofenoles y el de la mezcla correspondiente, como aparece reflejado en la Figura
IV.8, se observa la diferencia tan pequeña existente entre la posición de los picos de los
300
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
analitos. Por consiguiente, si analizamos mediante voltamperometría una disolución que
contiene dichas especies, al final se obtiene un único pico cuya intensidad máxima es
aproximadamente la suma de las intensidades de los picos que se obtienen al determinar
cada una de ellas de forma individual (aunque en este caso la situación no está tan clara
como con las señales de talio y plomo, como se verá posteriormente). En resumen, puede
afirmarse que se produce un solapamiento muy severo entre las señales de los diferentes
clorofenoles, tal y como sucedía en el caso de los metales pesados, Tl+ y Pb2+. Por ello, se
hace necesaria la separación de los mismos a la hora de analizar la concentración de cada
uno de ellos en la disolución que se está tratando.
Figura IV.8.- Superposición de los voltamperogramas de MF, CF, DCF y
TCF a 0,25 mg·L-1 , así como de su correspondiente mezcla, con corrección
de línea base.
5.1. Parámetros empleados en la determinación voltamperométrica
La DPAdSV fue desarrollada en un aparato Autolab®/PGSTAT20, descrito ya
anteriormente. Los parámetros principales utilizados en las etapas de medida y limpieza
electroquímica fueron los siguientes:
Capítulo IV
301
Etapa de limpieza electroquímica: pretratamiento
§
Tiempo de purga (con N2 ) = 60 s (con fines de homogeneización).
§
Potencial de limpieza = -0,5 V.
§
Tiempo de limpieza = 120 s.
§
Tiempo de equilibrio = 5 s.
Etapa de medida: pretratamiento
§
Tiempo de purga (con N2 ) = 60 s.
§
Potencial de acumulación = 0 V.
§
Tiempo de acumulación = 600 s.
§
Tiempo de equilibrio = 5 s.
Etapa de limpieza electroquímica y medida: barrido
§
Potencial inicial = 0,3 V.
§
Potencial final = 1,25 V.
§
Velocidad de barrido = 6,4 mV·s-1 .
§
Amplitud de impulso = 0,10 V.
§
Tiempo de repetición del impulso = 0,6 s.
5.2. Procedimiento experimental
El procedimiento experimental propiamente dicho, tanto para la medición de los
analitos de forma individual como conjunta, es el que aparece descrito a continuación:
1. Primeramente, se situó la celda electroquímica en el Stand VA 663 de
Metrohm con 25 ml de reguladora Britton-Robinson, con el fin de llevar a
cabo una etapa de limpieza electroquímica. Esta etapa consiste simplemente
en someter al electrodo a un pretratamiento basado en la aplicación de un
potencial de –0,5 V durante 120 s, con un posterior barrido desde 0,3 V
hasta 1,25 V.
2. La limpieza se repite al menos tres veces, con el fin de eliminar de la
superficie del electrodo cualquier resto de analito que haya quedado
adsorbido en determinaciones anteriores (ver Figura IV.9):
302
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
Figura IV.9.- Superposición de los voltamperogramas correspondientes a
la determinación del MF (1 mg·L-1 ) y del primer y tercer barridos de
limpieza electroquímica posteriores.
El último de los barridos de limpieza se considera como el registro del fondo
o background.
3. A continuación, se adiciona en celda la cantidad adecuada del analito o
analitos en estudio, con el fin de llevar a cabo la etapa de medida.
4. Se aplica un potencial de 0 V durante 600 s, pasando nitrógeno al mismo
tiempo durante el primer minuto con el fin de homogeneizar la disolución.
5. Tras un tiempo de equilibrio de 5 s, se procese a registrar el
voltamperograma en el intervalo de oxidación que va desde 0,3 a 1,25 V.
6. Posteriormente, se limpian los electrodos con abundante agua destilada y se
cambia la disolución de la celda por una nueva que contiene tan sólo
reguladora Britton-Robinson.
7. Se ejecuta de nuevo el procedimiento de limpieza electroquímica descrito en
el apartado 1, completándose de este modo el ciclo.
8. Tanto los barridos de limpieza como los de las determinaciones de los
analitos fueron almacenados en archivos (conteniendo pares de valores
intensidad-potencial que conforman los voltamperogramas) con formato
Capítulo IV
303
ASCII, para su posterior tratamiento matemático. Al mismo tiempo, el
ordenador suministró la información relacionada con los parámetros de la
señal obtenida: el potencial al que aparece el máximo del pico, la intensidad
máxima del mismo, su semianchura y el área, así como también el valor de
la derivada.
6) Resultados De La Determinación Voltamperométrica
Una vez establecido el procedimiento experimental más adecuado para la
determinación voltamperométrica de los clorofenoles, se llevó a cabo el análisis
electroquímico con el fin de obtener los voltamperogramas correspondientes a las señales
individuales de cada uno de los analitos, así como a las mezclas de los mismos.
Para cada una de las muestras (individuales y mezclas) se obtuvo su
correspondiente voltamperograma por triplicado, constituido inicialmente por 189 puntos.
A partir de las réplicas se obtuvo el voltamperograma medio en cada caso. Para su
posterior tratamiento matemático, dichos voltamperogramas medios fueron utilizados al
completo, sin recortes, en el intervalo de potenciales estudiado: desde 0,30 hasta 1,25 V
(incrementos de 51 mV), excepto en aquellos casos donde se especifique lo contrario.
6.1. Patrones puros de los clorofenoles
En
la
Figura
IV.10,
aparecen
superpuestos
todos
los
voltamperogramas
correspondientes a los patrones puros de MF, CF, DCF y TCF en el intervalo de
concentraciones
investigado.
Son
cuatro
grupos
de
cinco
voltamperogramas
(promediados), uno para cada clorofenol (20 señales individuales en total). Dentro de cada
grupo, las señales electroquímicas difieren unas de otras en un valor de concentración de
0,05 mg·L-1 :
304
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
Figura IV.10.- Superposición de los voltamperogramas correspondientes
a las señales individuales de cada uno de los analitos en el intervalo de
concentraciones de 0,05 a 0,25 mg·L-1 .
Como puede observarse en la figura, los voltamperogramas presentan una cierta
inclinación, como consecuencia de la línea base. Si se lleva a cabo una corrección de la
misma, obtenemos como resultado la Figura IV.11. Dicha figura representa una ampliación
de la Figura IV.8, en la que se superponían los voltamperogramas correspondientes al valor
de concentración más elevado para todos los analitos. Como puede observarse, la tendencia
es la misma para todos los valores de concentración del intervalo estudiado: el TCF
aparece un poco más separado de los demás; MF y DCF se solapan bastante entre sí;
mientras que CF cae totalmente por debajo de DCF: solapamiento completo.
Capítulo IV
305
Figura IV.11.- Superposición de los voltamperogramas correspondientes
a las señales individuales de cada uno de los analitos en el intervalo de
concentraciones de 0,05 a 0,25 mg·L-1 con la línea base corregida.
A partir de los datos de los voltamperogramas anteriores se obtuvieron las
correspondientes curvas de calibrado (Figura IV.7), así como los límites de detección y de
cuantificación para cada analito (Tablas IV.3 y IV.4).
6.2. Mezclas de los patrones de los clorofenoles
Inicialmente se planteó medir mezclas de todo tipo: binarias, ternarias y
cuaternarias. De este modo, el número de mezclas a medir en cada caso vendría dado del
siguiente modo:
§
Mezclas binarias AB: 6 tipos (AB, AC, AD, BC, BD, CD) × 5 puntos de A × 5
puntos de B = 150 mezclas.
§
Mezclas ternarias ABC: 4 tipos (ABC, ABD, ACD, BCD) × 5 puntos A × 5
puntos B × 5 puntos C = 500 mezclas.
§
Mezclas cuaternarias ABCD: 1 tipo × 5 puntos A × 5 puntos B × 5 puntos C ×
5 puntos D = 625 mezclas.
306
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
En total serían 1295 mezclas, de las cuales, al menos, habría que medir entre un 15
y un 20 % de las mezclas totales, es decir, unas 200 determinaciones, distribuidas en tres
subconjuntos: entrenamiento (training set, trn), validación interna (validation o monitoring
set, val o mon) y validación externa (test set, tst).
No obstante, al final se decidió medir única y exclusivamente mezclas cuaternarias
(54 = 625 mezclas posibles), que contuviesen siempre los cuatro componentes, tomándose
también como válidas las consideraciones anteriores. Un esquema de cómo fueron
distribuidas dichas mezclas aparece reflejado en la siguiente figura:
Figura IV.12.- Esquema de la distribución de las distintas mezclas de
cada uno de los analitos de acuerdo con su concentración en el intervalo
comprendido entre 0,05 y 0,25 mg·L-1 : M = [MF]; C = [CF], D = [DCF] y
T = [TCF].
Cada mezcla (óvalo rojo) aparece constituida por cuatro valores de concentración
(M-C-D-T), cada uno de ellos correspondiente a un analito (MF-CF-DCF-TCF,
respectivamente). Como se desprende de la figura, el número de mezclas en ella
representado es de 250 y no de 625, como cabía esperar. Esto se debe a que sólo aparece
representada una parte de las mismas, puesto que la distribución correspondiente a las
mezclas remanentes hasta completar las 625 es repetición de la de la Figura IV.12: cada
Capítulo IV
307
125 mezclas constituyen una trama o distribución determinada, igual a una de las dos que
aparecen recogidas en la figura precedente. Dichas tramas difieren unas de otras tan sólo
en el valor de concentración del analito MF, que es igual a 0,05 mg·L-1 , 0,10 mg·L-1 , y así
sucesivamente hasta 0,25 mg·L-1 , para cada una de las tramas, respectivamente. De este
modo, el patrón o trama constituido por las 5 columnas de mezclas amarillas y verdes (125
mezclas) se repite tres veces: para las concentraciones de 0,05, 0,15 y 0,25 mg·L-1 de MF;
mientras que el constituido por las otras 5 columnas de mezclas verdes y rosas (125
mezclas) se repite tan sólo 2 veces: para las concentraciones de 0,10, y 0,20 mg·L-1 de MF.
Las concentraciones de los otros tres analitos varían siempre de la misma manera de una
trama a otra, difiriendo única y exclusivamente en la del MF del modo mencionado
anteriormente. Así, considerando sólo la primera trama (columnas amarillas y verdes), las
concentraciones de los otros analitos varían como sigue:
§
la concentración del CF varía de arriba abajo cada 5 filas: 0,05 mg·L-1 para las
primeras 5 filas, 0,10 mg·L-1 para las siguientes 5 filas, y así sucesivamente;
§
la concentración del DCF varía de arriba abajo en cada fila;
§
finalmente, la concentración del TCF varía de izquierda a derecha en cada
columna.
Por lo que respecta al significado de cada uno de los colores representados puede
decirse lo siguiente:
§
amarillo: indica un diseño de experimentos 34 completo, en el que las
concentraciones de los cuatro analitos se hicieron variar entre los siguientes
valores: 0,05, 0,15 y 0,25 mg·L-1 (los límites superior e inferior del intervalo de
concentraciones, así como el punto central) lo que supuso un total de 81
mezclas. En caso de que el procedimiento de resolución de mezclas
cuaternarias pudiese no ser efectivo, la elección de un diseño de experimentos
completo de tipo 34 permitiría resolver mezclas ternarias de los analitos
conociendo la concentración de uno de los mismos: las 81 mezclas pueden
subdividirse a su vez en tres grupos, constituidos por 27 mezclas cada uno,
donde la concentración de uno de los analitos (TCF, por ejemplo) se mantiene
constante.
§
rosa: hace referencia a un diseño de experimentos 24 completo, en el que las
concentraciones de los cuatro analitos se hicieron variar entre los siguientes
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
308
valores:
0,10
y
0,20
mg·L-1
(puntos
intermedios
del
intervalo
de
concentraciones), lo que supuso un total de 16 mezclas.
§
verde: señala aquellas mezclas que combinan todos los valores de
concentración del intervalo en estudio para los cuatro clorofenoles; en este
caso, no se siguió un diseño en particular, tan sólo se distribuyeron las mezclas
a lo largo de las tramas del modo indicado en la Figura IV.12, con el fin de
mantener la representatividad para la población global. Si pudiese hacerse
corresponder dicha distribución con algún tipo de diseño de experimentos, éste
sería de carácter fraccionario. El total de mezclas determinadas de este modo
fue de 60.
En definitiva, se determinaron 157 mezclas cuaternarias, lo que constituyó
aproximadamente un 25 % del total posible. En la Figura IV.13, se representan los
voltamperogramas promediados referentes a las diferentes mezclas de los clorofenoles
determinadas de acuerdo con el diseño establecido en la Figura IV.12 y siempre dentro del
intervalo de concentraciones investigado (los colores, aunque distintos a los empleados
anteriormente hacen referencia a cada uno de los grupos de señales comentados en los
párrafos precedentes):
§
verde: las 81 mezclas correspondientes al diseño de experimentos completo del
tipo 34 ;
§
rojo: las 16 mezclas correspondientes al diseño de experimentos completo del
tipo 24 ;
§
azul: las 60 mezclas correspondientes al diseño fraccionario.
Como se desprende de la figura, conforme el electrodo Sonogel-Carbono
modificado con PEG es utilizado, de manera continua, se produce una ligera evolución en
la señal ofrecida por el mismo: el comienzo del registro se produce a valores más elevados
de intensidad cada vez, lo que comúnmente se conoce como drift o deriva de la señal.
Dicha deriva puede eliminarse comúnmente por medio de la aplicación de técnicas de
normalización de señales tales como la SNV, la MSC o la OSC, entre otras (ver Capítulo I,
epígrafe 8.3), como veremos posteriormente.
Capítulo IV
309
Figura IV.13.- Superposición de los voltamperogramas correspondientes
a
las
mezclas
cuaternarias
de
los
analitos
en
el
intervalo
de
concentraciones de 0,05 a 0,25 mg·L-1 .
En la figura sólo aparecen los voltamperogramas promedio para cada mezcla,
siendo la reproducibilidad en todos los casos muy buena, con un coeficiente de variación
entre las réplicas inferior al 2,5 % en la mayoría de las situaciones, siendo inferior al 5 %
sólo para algunas mezclas.
Por último, además de los voltamperogramas que se han mostrado anteriormente,
también se determinaron los valores de los parámetros de pico en cada caso. Los
parámetros
suministrados
por
el
software
del
potenciostato/galvanostato
Autolab®
PGSTAT20, los cuales fueron ya comentados en el Capítulo III, referente a la calibración
multivariante del sistema Tl+ / Pb2+, son los siguientes: la posición (V, en V), la altura (I,
en nA), el área (S, en u.a.), la semianchura (W, en V) y la derivada (D, en A) de los picos
de las señales.
En las tablas que se describen a continuación, se recogen los valores de los
parámetros definidos anteriormente tanto para las señales individuales (patrones puros de
310
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
los clorofenoles) como para las mezclas de los analitos. Los valores de concentración de
los clorofenoles presentan la corrección de volumen.
Parámetros para los patrones puros de los clorofenoles
4-cloro-3-metilfenol (MF)
Potencial (V) Intensidad (nA) Área (10-9 ) Semianchura (V) Derivada (10-7 A) [MF]
0,050
0,783
13,690
1,141
0,076
4,640
0,100
0,778
24,790
2,150
0,081
7,966
0,150
0,768
35,510
3,168
0,086
11,230
0,200
0,768
45,520
4,079
0,081
14,580
0,250
0,763
56,540
5,175
0,081
17,500
Tabla IV.5.-. Valores de los parámetros de pico para los patrones puros de
4-cloro-3-metilfenol.
4-clorofenol (CF)
Potencial (V) Intensidad (nA) Área (10-9 ) Semianchura (V) Derivada (10-7 A) [CF]
0,050
0,793
8,479
0,681
0,065
3,132
0,100
0,793
16,390
1,311
0,076
5,621
0,150
0,793
23,550
1,986
0,081
7,850
0,200
0,783
30,620
2,633
0,076
9,986
0,250
0,783
37,860
3,366
0,081
12,180
Tabla IV.6.-. Valores de los parámetros de pico para los patrones puros de
4-clorofenol.
2,4-diclorofenol (DCF)
Potencial (V) Intensidad (nA) Área (10-9 ) Semianchura (V) Derivada (10-7 A) [DCF]
0,050
0,793
13,870
1,100
0,076
4,856
0,100
0,783
24,160
2,072
0,081
7,829
0,150
0,778
34,380
3,115
0,086
10,060
0,200
0,778
44,590
4,252
0,086
13,380
0,250
0,773
54,010
5,132
0,086
16,330
Tabla IV.7.-. Valores de los parámetros de pico para los patrones puros de
2,4-diclorofenol.
Capítulo IV
311
2,4,6-triclorofenol (TCF)
Potencial (V) Intensidad (nA) Área (10-9 ) Semianchura (V) Derivada (10-7 A) [TCF]
0,050
0,738
14,460
1,349
0,091
4,221
0,100
0,733
23,380
2,271
0,091
6,860
0,150
0,723
32,120
3,241
0,091
9,106
0,200
0,718
40,670
4,217
0,091
11,700
0,250
0,708
49,990
5,293
0,096
14,330
Tabla IV.8.-. Valores de los parámetros de pico para los patrones puros de
2,4,6-triclorofenol.
Parámetros para las mezclas de los patrones de los clorofenoles
Grupo del diseño de experimentos completo 34 (81 mezclas)
Mezcla
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
V (V)
0,758
0,763
0,763
0,763
0,763
0,763
0,763
0,763
0,763
0,758
0,758
0,758
0,758
0,758
0,758
0,758
0,758
0,758
0,748
0,748
0,748
0,753
0,753
0,748
I (nA) S (10-9 ) W (V) D (10-7 )
37,970 4,387 0,111 9,900
54,510 6,251 0,111 13,770
69,670 7,649 0,101 17,940
52,240 6,018 0,106 13,050
70,780 8,051 0,106 17,610
86,140 9,722 0,101 21,570
71,330 8,201 0,106 17,610
86,410 9,962 0,106 21,150
97,620 10,780 0,101 24,670
63,010 6,994 0,106 16,430
77,590 8,579 0,101 20,230
94,700 10,440 0,101 24,630
73,590 8,296 0,106 18,620
89,690 9,947 0,101 22,890
102,100 11,350 0,101 26,190
84,150 9,484 0,106 21,220
98,880 11,040 0,106 24,940
116,100 12,890 0,101 29,770
83,520 9,183 0,101 21,720
97,170 10,800 0,101 24,990
114,500 12,650 0,101 29,580
96,290 10,800 0,106 24,670
109,900 12,370 0,106 27,820
127,200 14,230 0,101 32,390
[MF]
0,050
0,050
0,050
0,050
0,050
0,050
0,050
0,050
0,049
0,149
0,149
0,149
0,149
0,149
0,148
0,149
0,148
0,148
0,248
0,248
0,247
0,248
0,247
0,247
[CF]
0,050
0,050
0,050
0,149
0,149
0,149
0,248
0,248
0,247
0,050
0,050
0,050
0,149
0,149
0,148
0,248
0,247
0,247
0,050
0,050
0,049
0,149
0,148
0,148
[DCF]
0,050
0,149
0,248
0,050
0,149
0,248
0,050
0,149
0,247
0,050
0,149
0,248
0,050
0,149
0,247
0,050
0,148
0,247
0,050
0,149
0,247
0,050
0,148
0,247
[TCF]
0,050
0,050
0,050
0,050
0,050
0,050
0,050
0,050
0,049
0,050
0,050
0,050
0,050
0,050
0,049
0,050
0,049
0,049
0,050
0,050
0,049
0,050
0,049
0,049
312
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
Mezcla
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
V (V)
0,753
0,753
0,748
0,728
0,738
0,743
0,743
0,748
0,753
0,748
0,753
0,753
0,738
0,738
0,743
0,738
0,743
0,743
0,748
0,748
0,748
0,738
0,743
0,743
0,743
0,748
0,748
0,743
0,748
0,748
0,718
0,723
0,733
0,723
0,728
0,738
0,728
0,738
0,743
0,723
I (nA) S (10-9 ) W (V) D (10-7 )
108,700 12,240 0,101 27,510
124,300 14,100 0,106 31,310
142,300 16,080 0,106 35,840
59,570 7,545 0,121 14,990
69,420 9,036 0,126 17,520
86,560 11,200 0,121 21,410
67,540 8,958 0,131 17,180
78,690 10,270 0,126 19,620
93,090 11,860 0,126 22,580
76,000 10,150 0,126 18,930
89,060 11,530 0,121 21,710
104,300 13,140 0,121 24,770
75,660 9,453 0,121 18,960
88,890 11,300 0,121 21,730
102,300 12,780 0,116 24,840
83,810 10,720 0,121 20,740
95,840 12,170 0,121 22,870
115,200 14,510 0,116 27,050
95,420 12,270 0,121 22,760
110,500 14,040 0,121 25,960
125,600 15,690 0,116 29,450
95,060 11,680 0,111 23,360
109,200 13,510 0,116 26,410
122,900 15,110 0,116 29,500
101,900 12,830 0,116 24,580
109,900 13,730 0,121 26,300
123,800 15,320 0,116 29,400
110,900 14,270 0,121 26,060
121,700 15,590 0,121 28,190
139,100 17,670 0,116 31,940
83,510 10,530 0,121 19,380
90,670 12,030 0,126 21,350
96,100 13,060 0,131 23,230
83,490 11,170 0,131 19,710
90,160 12,380 0,131 21,910
101,700 14,110 0,131 24,560
90,440 12,770 0,136 21,940
95,970 13,480 0,136 23,280
107,200 14,790 0,131 25,910
91,220 11,760 0,121 21,680
[MF]
0,247
0,247
0,246
0,050
0,050
0,050
0,050
0,050
0,049
0,050
0,049
0,049
0,149
0,149
0,148
0,149
0,148
0,148
0,148
0,148
0,148
0,248
0,247
0,247
0,247
0,247
0,246
0,247
0,246
0,246
0,050
0,050
0,049
0,050
0,049
0,049
0,049
0,049
0,049
0,149
[CF]
0,247
0,247
0,246
0,050
0,050
0,050
0,149
0,149
0,148
0,248
0,247
0,247
0,050
0,050
0,049
0,149
0,148
0,148
0,247
0,247
0,246
0,050
0,049
0,049
0,148
0,148
0,148
0,247
0,246
0,246
0,050
0,050
0,049
0,149
0,148
0,148
0,247
0,247
0,246
0,050
[DCF]
0,049
0,148
0,246
0,050
0,149
0,248
0,050
0,149
0,247
0,050
0,148
0,247
0,050
0,149
0,247
0,050
0,148
0,247
0,049
0,148
0,246
0,050
0,148
0,247
0,049
0,148
0,246
0,049
0,148
0,246
0,050
0,149
0,247
0,050
0,148
0,247
0,049
0,148
0,246
0,050
[TCF]
0,049
0,049
0,049
0,149
0,149
0,149
0,149
0,149
0,148
0,149
0,148
0,148
0,149
0,149
0,148
0,149
0,148
0,148
0,148
0,148
0,148
0,149
0,148
0,148
0,148
0,148
0,148
0,148
0,148
0,147
0,248
0,248
0,247
0,248
0,247
0,247
0,247
0,247
0,246
0,248
Capítulo IV
Mezcla
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
313
V (V)
0,728
0,733
0,723
0,728
0,738
0,728
0,738
0,738
0,728
0,708
0,713
0,708
0,713
0,713
0,713
0,713
0,718
I (nA) S (10-9 ) W (V) D (10-7 )
98,220 13,060 0,126 23,410
105,300 14,080 0,126 25,380
93,370 12,510 0,131 22,350
104,600 14,250 0,131 24,960
113,700 15,420 0,126 26,960
101,400 13,980 0,131 24,140
113,400 15,680 0,131 26,610
126,500 17,260 0,131 29,530
107,300 13,890 0,121 25,380
112,600 14,990 0,126 26,500
117,000 15,560 0,126 27,060
104,400 14,100 0,126 24,250
114,100 15,470 0,126 26,350
123,900 16,670 0,126 28,280
112,900 15,490 0,131 25,900
124,700 17,100 0,131 28,210
136,400 18,470 0,126 30,750
[MF]
0,148
0,148
0,148
0,148
0,148
0,148
0,148
0,147
0,247
0,247
0,246
0,247
0,246
0,246
0,246
0,246
0,245
[CF]
0,049
0,049
0,148
0,148
0,148
0,247
0,246
0,246
0,049
0,049
0,049
0,148
0,148
0,147
0,246
0,246
0,245
[DCF]
0,148
0,247
0,049
0,148
0,246
0,049
0,148
0,246
0,049
0,148
0,246
0,049
0,148
0,246
0,049
0,147
0,245
[TCF]
0,247
0,247
0,247
0,247
0,246
0,247
0,246
0,246
0,247
0,247
0,246
0,247
0,246
0,246
0,246
0,246
0,245
Tabla IV.9.-. Valores de los parámetros de pico para el grupo de mezclas
correspondiente al diseño de experimentos completo 34 (81 mezclas).
Grupo del diseño de experimentos completo 24 (16 mezclas)
Mezcla
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
V (V)
0,718
0,723
0,723
0,728
0,723
0,723
0,728
0,728
0,708
0,713
0,718
0,718
0,713
0,718
0,718
0,723
I (nA) S (10-9 ) W (V) D (10-7 )
78,650 10,270 0,121 18,550
91,420 11,810 0,121 21,310
83,690 10,890 0,121 19,490
97,820 12,480 0,121 22,380
91,040 11,470 0,121 21,240
103,800 12,950 0,116 24,160
99,680 12,460 0,116 22,970
117,000 14,630 0,116 26,810
89,700 12,170 0,131 21,110
99,590 13,580 0,126 23,210
93,830 12,980 0,131 22,010
106,700 14,620 0,131 24,700
102,000 13,710 0,126 23,830
111,700 14,890 0,126 25,720
108,800 14,660 0,131 25,020
120,700 16,120 0,126 27,510
[MF]
0,099
0,099
0,099
0,099
0,198
0,198
0,198
0,197
0,099
0,099
0,099
0,099
0,198
0,197
0,197
0,197
[CF]
0,099
0,099
0,198
0,198
0,099
0,099
0,198
0,197
0,099
0,099
0,198
0,197
0,099
0,099
0,197
0,197
[DCF]
0,099
0,198
0,099
0,198
0,099
0,198
0,099
0,197
0,099
0,198
0,099
0,197
0,099
0,197
0,099
0,197
[TCF]
0,099
0,099
0,099
0,099
0,099
0,099
0,099
0,099
0,198
0,198
0,198
0,197
0,198
0,197
0,197
0,197
314
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
Tabla IV.10.-. Valores de los parámetros de pico para el grupo de mezclas
correspondiente al diseño de experimentos completo 24 (16 mezclas).
Grupo del diseño de experimentos fraccionario (60 mezclas)
Mezcla
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
V (V)
0,733
0,733
0,738
0,733
0,743
0,738
0,733
0,733
0,733
0,733
0,733
0,733
0,728
0,728
0,733
0,733
0,728
0,728
0,733
0,728
0,723
0,728
0,728
0,728
0,718
0,723
0,723
0,743
0,743
0,743
0,733
0,738
0,733
0,738
0,738
I (nA) S (10-9 ) W (V) D (10-7 )
69,950 8,481 0,116 17,060
85,470 10,290 0,116 20,630
81,650 10,050 0,116 19,290
95,350 11,540 0,111 22,410
84,210 10,020 0,111 20,060
101,500 11,980 0,111 24,360
84,850 9,977 0,111 20,560
97,990 11,430 0,106 23,750
93,890 11,120 0,111 22,560
104,800 12,250 0,106 25,390
105,000 12,400 0,111 24,990
120,400 14,180 0,106 28,830
70,730 9,216 0,126 17,160
85,700 10,960 0,121 20,150
76,750 9,928 0,126 18,280
90,970 11,440 0,116 21,540
83,290 10,400 0,116 20,120
97,510 12,040 0,116 23,150
93,470 11,710 0,121 22,010
106,700 13,240 0,116 25,080
101,000 12,360 0,116 23,970
111,900 13,500 0,111 26,680
112,500 13,820 0,116 26,210
125,600 15,320 0,116 29,420
78,830 10,200 0,121 19,010
88,220 11,340 0,126 21,320
82,490 10,820 0,121 19,600
101,900 13,280 0,121 24,270
97,300 12,890 0,126 23,160
114,200 14,860 0,121 26,850
93,560 11,730 0,121 22,650
108,900 13,850 0,121 26,140
105,000 13,600 0,121 25,060
115,100 14,730 0,121 27,120
116,500 15,180 0,121 26,860
[MF]
0,099
0,099
0,099
0,099
0,099
0,099
0,198
0,198
0,198
0,198
0,198
0,197
0,050
0,050
0,050
0,049
0,149
0,148
0,148
0,148
0,247
0,247
0,247
0,246
0,099
0,099
0,099
0,099
0,099
0,099
0,198
0,198
0,198
0,197
0,197
[CF]
0,050
0,050
0,149
0,149
0,248
0,247
0,050
0,050
0,149
0,148
0,247
0,247
0,099
0,099
0,198
0,198
0,099
0,099
0,198
0,197
0,099
0,099
0,197
0,197
0,050
0,050
0,149
0,148
0,247
0,247
0,050
0,049
0,148
0,148
0,247
[DCF]
0,099
0,198
0,099
0,198
0,099
0,198
0,099
0,198
0,099
0,198
0,099
0,197
0,099
0,198
0,099
0,198
0,099
0,198
0,099
0,197
0,099
0,197
0,099
0,197
0,099
0,198
0,099
0,198
0,099
0,197
0,099
0,198
0,099
0,197
0,099
[TCF]
0,050
0,050
0,050
0,050
0,050
0,049
0,050
0,050
0,050
0,049
0,049
0,049
0,099
0,099
0,099
0,099
0,099
0,099
0,099
0,099
0,099
0,099
0,099
0,099
0,149
0,149
0,149
0,148
0,148
0,148
0,149
0,148
0,148
0,148
0,148
Capítulo IV
Mezcla
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
315
V (V)
0,738
0,723
0,728
0,728
0,733
0,723
0,728
0,733
0,738
0,728
0,733
0,733
0,738
0,713
0,723
0,723
0,723
0,728
0,733
0,723
0,728
0,723
0,728
0,733
0,733
I (nA) S (10-9 ) W (V) D (10-7 )
130,000 16,790 0,121 29,920
89,790 120,500 0,131 21,610
96,820 13,080 0,126 22,820
93,680 12,840 0,131 22,390
107,200 14,690 0,131 25,410
101,100 13,450 0,131 24,090
113,400 15,180 0,126 26,910
110,900 14,890 0,126 25,560
127,700 17,210 0,126 29,320
126,400 16,670 0,126 29,220
138,700 18,280 0,121 32,000
132,100 17,560 0,126 30,070
145,800 19,280 0,126 32,830
110,400 14,820 0,126 25,300
119,800 16,350 0,131 27,650
110,900 15,120 0,131 25,540
123,100 16,990 0,136 28,240
122,600 17,340 0,136 27,920
132,500 18,570 0,131 30,240
117,500 15,540 0,126 27,280
128,700 17,330 0,131 29,820
126,300 17,270 0,131 29,070
135,100 18,460 0,126 31,080
129,300 17,830 0,131 29,500
140,700 19,230 0,131 32,100
[MF]
0,197
0,050
0,049
0,049
0,049
0,148
0,148
0,148
0,148
0,247
0,246
0,246
0,246
0,099
0,099
0,099
0,099
0,099
0,098
0,198
0,197
0,197
0,197
0,197
0,196
[CF]
0,246
0,099
0,099
0,198
0,197
0,099
0,099
0,197
0,197
0,099
0,099
0,197
0,197
0,050
0,049
0,148
0,148
0,247
0,246
0,049
0,049
0,148
0,148
0,246
0,246
[DCF]
0,197
0,099
0,198
0,099
0,197
0,099
0,197
0,099
0,197
0,099
0,197
0,099
0,197
0,099
0,198
0,099
0,197
0,099
0,197
0,099
0,197
0,099
0,197
0,098
0,196
[TCF]
0,148
0,198
0,198
0,198
0,197
0,198
0,197
0,197
0,197
0,197
0,197
0,197
0,197
0,248
0,247
0,247
0,247
0,247
0,246
0,247
0,247
0,247
0,246
0,246
0,246
Tabla IV.11.-. Valores de los parámetros de pico para el grupo de mezclas
correspondiente al diseño de experimentos fraccionario (60 mezclas).
A parte de las 157 mezclas anteriores, las cuales se emplearían para desarrollar el
proceso de calibración multivariante, se determinaron además otras 6 mezclas en las que
las concentraciones de algunos de los analitos estuvieron fuera del intervalo de
concentraciones establecido (mezclas de extrapolación) o dentro del mismo, pero tomando
valores diferentes a los estipulados (mezclas de interpolación). Dependiendo del caso, uno,
dos y hasta tres analitos de las mezclas cuaternarias poseían un valor de concentración que
no pertenecía al intervalo de 0,05 - 0,25 mg·L-1 .
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
316
Discusión de ciertos datos experimentales obtenidos en la determinación de las mezclas
Cuando se llevó a cabo la determinación de las mezclas, se observaron dos
fenómenos curiosos:
§
la no aditividad entre las señales individuales de los analitos que componían las
mezclas, y
§
ciertas tendencias en los valores de intensidad de las mismas conforme se
mantenía constante la concentración de un analito y se variaban las de los
demás.
A continuación se procederá a comentar ambas situaciones.
El problema de la no aditividad entre las señales
La Figura IV.14 representa la comparación establecida entre los valores de
intensidad real obtenidos para cada mezcla (medición directa en el aparato Autolab® sobre
los voltamperogramas de las mezclas) y los valores de intensidad esperada (medición sobre
el voltamperograma suma de los voltamperogramas de los patrones individuales a las
concentraciones correspondientes, Principio de Aditividad):
Capítulo IV
317
Figura IV.14.- Superposición de los valores de intensidad real e
intensidad esperada para las 157 mezclas cuaternarias: Principio de
Aditividad.
Como puede observarse y a diferencia de lo que sucedía con las mezclas binarias de
metales pesados como el talio y el plomo (ver Capítulo III), en el caso de mezclas
cuaternarias de clorofenoles, si se suman las señales individuales de cada uno de los
patrones puros y se comparan con la señal correspondiente a la mezcla de los mismos, para
los mismos valores de concentración, el resultado no es el mismo. Esto demuestra que las
señales voltamperométricas de los clorofenoles en estudio no son aditivas. En otras
palabras, no se cumple el Principio de Aditividad, fenómeno que la comunidad científica
normalmente reconoce que sí se produce al hablar de señales electroquímicas.
La siguiente tabla muestra las diferencias existentes entre la intensidad real y la
esperada para diferentes grupos de mezclas:
Grupo
Intervalo de variación (%) Variación media (%)
Mezclas 1 a 27
De -12,89 a 7,86
-5,47
Mezclas 28 a 54
De -13,37 a 41,13
0,50
Mezclas 54 a 81
De -15,78 a 54,26
5,27
Mezclas 82 a 89
De -9,75 a 19,50
-3,65
Mezclas 90 a 97
De -9,53 a 13,92
1,42
Mezclas 98 a 109
De -10,86 a 15,80
-2,00
Mezclas 110 a 121
De -10,24 a 20,84
-1,86
Mezclas 122 a 133
De -6,14 a 39,52
2,14
Mezclas 134 a 145
De 1,84 a 62,46
12,95
Mezclas 146 a 157
De -0,71 a 33,87
21,86
Tabla IV.12.- Intervalos de variación y porcentaje de variación media
(calculados para la intensidad real con respecto a la intensidad esperada)
para diferentes grupos de mezclas: en cada grupo la concentración del
TCF permanece constante (0,05; 0,15; 0,25; 0,10; 0,20; 0,05; 0,10; 0,15;
0,20 y 0,25 mg·L-1 , de arriba abajo, respectivamente).
318
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
Por ejemplo, para las primeras 81 mezclas, el intervalo de variación de la intensidad
real con respecto a la intensidad esperada va ensanchándose. La diferencia entre los tres
grupos de 27 mezclas radica en que se aumenta el valor de concentración para el analito
TCF (hasta cinco veces más para el último grupo). Por consiguiente, el ensanchamiento de
dicho intervalo podría atribuirse a una saturación del electrodo conforme va aumentando el
valor de concentración (sirva también de ayuda la observación de la Figura IV.14). Con
respecto al grupo de 16 mezclas (mezclas 82 a 97), divididas en dos grupos de 8 según los
valores de concentración del TCF, ocurre lo contrario: el intervalo de variación de la
intensidad disminuye de un grupo a otro. En este caso, como la concentración de TCF ha
variado sólo el doble, quizás no ha dado tiempo a que se produzca el fenómeno acaecido
en el grupo anterior. Finalmente, en las últimas 60 mezclas (divididas en 5 grupos de 12,
de nuevo según los valores de concentración del TCF) se produce un desplazamiento del
intervalo hacia valores cada vez más positivos, como si ahora el electrodo SonogelCarbono modificado con PEG fuese midiendo cada vez más, provocando variaciones por
exceso. Esto puede explicarse como consecuencia de la saturación del mismo, pero desde
un punto de vista ligeramente diferente al anterior: la historia del electrodo es muy
compleja puesto que ha servido para llevar a cabo un muy elevado número de
determinaciones voltamperométricas (varios miles, contando los procesos de limpieza y las
réplicas de las señales); se recuerda que se ha estado utilizando siempre el mismo electrodo
desde su fabricación, preacondicionamiento y estabilización.
De acuerdo con lo explicado anteriormente, podría asegurarse que, como
consecuencia de ciertos fenómenos acontecidos durante el proceso de determinación de las
mezclas, es imposible aplicar el Principio de Aditividad al sistema en cuestión, constituido
por 4 clorofenoles, en un intervalo de concentraciones próximo al límite de detección de
los mismos para el electrodo empleado.
Tendencias en los valores de intensidad de las mezclas
El segundo fenómeno que se produjo durante el proceso de determinación de las
mezclas de clorofenoles consistió en la aparición de ciertas tendencias (inversiones) en los
valores de intensidad de las mezclas de los analitos conforme se mantenía constante la
concentración de un analito, normalmente TCF, y se variaban las de los demás. Así, por
ejemplo, para el grupo de mezclas pertenecientes al diseño de experimentos completo 34
(81 mezclas), la citada tabla aparece recogida a continuación:
Capítulo IV
319
[MF]
0,05
0,05
0,05
0,05
0,05
0,05
0,05
0,05
0,05
[CF] [DCF]
[TCF]
I (nA) I (nA) I (nA)
0,05 0,05 0,05 / 0,15 / 0,25 38,28 59,88 83,67
0,05 0,15 0,05 / 0,15 / 0,25 54,59 69,75 90,80
0,05 0,25 0,05 / 0,15 / 0,25 69,82 86,99 96,33
0,15 0,05 0,05 / 0,15 / 0,25 52,49 67,89 83,55
0,15 0,15 0,05 / 0,15 / 0,25 70,78 78,95 90,31
0,15 0,25 0,05 / 0,15 / 0,25 86,27 93,55 101,83
0,25 0,05 0,05 / 0,15 / 0,25 71,40 76,42 90,51
0,25 0,15 0,05 / 0,15 / 0,25 86,55 89,55 96,22
0,25 0,25 0,05 / 0,15 / 0,25 97,81 104,60 107,40
0,15
0,15
0,15
0,15
0,15
0,15
0,15
0,15
0,15
0,25
0,25
0,25
0,25
0,25
0,25
0,25
0,25
0,25
0,05
0,05
0,05
0,15
0,15
0,15
0,25
0,25
0,25
0,05
0,05
0,05
0,15
0,15
0,15
0,25
0,25
0,25
0,05
0,15
0,25
0,05
0,15
0,25
0,05
0,15
0,25
0,05
0,15
0,25
0,05
0,15
0,25
0,05
0,15
0,25
0,05 / 0,15 / 0,25
0,05 / 0,15 / 0,25
0,05 / 0,15 / 0,25
0,05 / 0,15 / 0,25
0,05 / 0,15 / 0,25
0,05 / 0,15 / 0,25
0,05 / 0,15 / 0,25
0,05 / 0,15 / 0,25
0,05 / 0,15 / 0,25
0,05 / 0,15 / 0,25
0,05 / 0,15 / 0,25
0,05 / 0,15 / 0,25
0,05 / 0,15 / 0,25
0,05 / 0,15 / 0,25
0,05 / 0,15 / 0,25
0,05 / 0,15 / 0,25
0,05 / 0,15 / 0,25
0,05 / 0,15 / 0,25
63,18
77,88
94,88
73,72
89,96
102,27
84,22
99,10
116,37
83,57
97,19
114,53
96,29
110,00
127,33
108,73
124,33
142,40
76,09
89,47
102,77
84,00
96,60
115,90
95,78
110,82
126,23
95,26
109,65
123,07
102,12
110,18
123,97
111,00
121,80
139,20
91,37
98,33
105,53
93,46
104,70
113,73
101,50
113,47
126,57
107,43
112,60
117,10
104,43
114,17
124,10
113,00
124,87
136,43
Tabla IV.13.- Valores de intensidad real para cada mezcla perteneciente al
diseño de experimentos completo 34 (grupo de las 81 mezclas).
Las conclusiones que se pueden extraer de la tabla anterior son las siguientes:
1. Cuando aumenta sólo la concentración de DCF (cada fila en grupos de tres),
los valores de intensidad de las mezclas también aumentan, lo que era de
esperar.
2. En el momento en que aumenta también la concentración de CF (cada tres
filas), como ha disminuido también la concentración de DCF, la intensidad
de los picos disminuye; no obstante, dichos valores, con respecto a la misma
320
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
concentración de DCF, son mayores. En resumen, las intensidades dentro de
cada grupo de tres aumentan progresivamente, al igual que entre grupos,
comparando siempre mezclas con la misma cantidad de DCF.
3. Esto ocurre siempre a todo lo largo de la tabla excepto cuando se produce
un cambio en la concentración de MF. En ese momento, el primer grupo de
tres mezclas presenta valores de intensidad que suponen una inversión
(inversión en filas) con respecto al grupo anterior: se produce una
disminución en los mismos en vez de el esperado aumento (valores
señalados en rojo). Esto podría deberse a la drástica disminución, en ese
punto, de la concentración de los otros analitos: CF y DCF. Cuando la
concentración de TCF es igual a 0,25 mg·L-1 (tercera columna de
intensidades), dichas inversiones no se producen en los primeros valores del
primer grupo, o al menos no se da de manera tan acusada como en los dos
casos precedentes (el TCF presenta su valor de concentración más elevado).
4. Al pasar de una columna a otra se produce un aumento en los valores de
intensidad, lo que también era de esperar, puesto que se va aumentando la
concentración de TCF (hasta tres veces en la segunda columna y hasta cinco
en la tercera). Sin embargo, hay que resaltar que en los últimos dos grupos
de tres mezclas de cada columna (valores señalados en verde), cuando se
pasa de una a otra, dicha tendencia desaparece; es más, los valores de
intensidad se mantienen constantes en algunos casos, mientras que en otros
invierten (inversión en columna) el orden (disminuyen en vez de aumentar).
Esto podría ser atribuible a la saturación de la superficie del electrodo a
altas concentraciones de los analitos.
Como puede observase, la situación no es nada sencilla. Sin embargo, en el caso de
los valores de intensidad correspondientes a las mezclas pertenecientes al diseño de
experimentos completo 24 (grupo de las 16 mezclas), el fenómeno de las inversiones no se
produce, como demuestra la siguiente tabla:
[MF]
0,10
0,10
0,10
0,10
[CF] [DCF] [TCF] I (nA) I (nA)
0,10 0,10 0,10 / 0,20 78,81 89,76
0,10 0,20 0,10 / 0,20 91,53 99,80
0,20 0,10 0,10 / 0,20 83,77 94,04
0,20 0,20 0,10 / 0,20 97,83 106,83
Capítulo IV
321
[MF]
0,20
0,20
0,20
0,20
[CF] [DCF] [TCF] I (nA)
0,10 0,10 0,10 / 0,20 91,23
0,10 0,20 0,10 / 0,20 103,83
0,20 0,10 0,10 / 0,20 99,79
0,20 0,20 0,10 / 0,20 117,07
I (nA)
102,27
111,77
108,87
120,87
Tabla IV.14.- Valores de intensidad real para cada mezcla perteneciente al
diseño de experimentos completo 24 (grupo de las 16 mezclas).
En este caso, el que no se produzca la inversión podría deberse a que los valores de
concentración de los analitos no son muy dispares entre sí (como máximo el doble), al
contrario de lo que sucedía con el grupo anterior. No obstante, dejando a un lado las
consideraciones relacionadas con el fenómeno de la inversión (tanto en una misma
columna como entre ellas), el resto de las explicaciones dadas anteriormente son válidas
también en este caso.
Finalmente, en las Tablas IV.15 y IV.16 se recogen los valores de intensidad
correspondientes al último grupo de mezclas, diseñado de acuerdo a un diseño de
experimentos fraccionario:
[MF]
0,10
0,10
0,10
0,10
0,10
0,10
0,20
0,20
0,20
0,20
0,20
0,20
[CF] [DCF]
[TCF]
I (nA) I (nA) I (nA)
0,05 0,10 0,05 / 0,15 / 0,25 70,13 78,96 110,73
0,05 0,20 0,05 / 0,15 / 0,25 85,68 88,35 119,77
0,15 0,10 0,05 / 0,15 / 0,25 81,97 82,54 111,17
0,15 0,20 0,05 / 0,15 / 0,25 95,41 102,03 123,53
0,25 0,10 0,05 / 0,15 / 0,25 84,27 97,46 122,83
0,25 0,20 0,05 / 0,15 / 0,25 101,70 114,30 132,50
0,05 0,10 0,05 / 0,15 / 0,25 84,96 93,69 117,70
0,05 0,20 0,05 / 0,15 / 0,25 98,12 109,03 128,87
0,15 0,10 0,05 / 0,15 / 0,25 93,95 105,07 126,40
0,15 0,20 0,05 / 0,15 / 0,25 104,83 115,17 135,37
0,25 0,10 0,05 / 0,15 / 0,25 105,20 116,50 129,50
0,25 0,20 0,05 / 0,15 / 0,25 120,57 130,13 140,80
Tabla IV.15.- Valores de intensidad real para cada mezcla perteneciente al
diseño
de
experimentos
fraccionario
(grupo
de
concentraciones de 0,05; 0,15 y 0,25 mg·L-1 para el TCF).
las
36
mezclas:
322
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
[MF]
0,05
0,05
0,05
0,05
0,15
0,15
0,15
0,15
0,25
0,25
0,25
0,25
[CF]
0,10
0,10
0,20
0,20
0,10
0,10
0,20
0,20
0,10
0,10
0,20
0,20
[DCF]
0,10
0,20
0,10
0,20
0,10
0,20
0,10
0,20
0,10
0,20
0,10
0,20
[TCF]
0,10 / 0,20
0,10 / 0,20
0,10 / 0,20
0,10 / 0,20
0,10 / 0,20
0,10 / 0,20
0,10 / 0,20
0,10 / 0,20
0,10 / 0,20
0,10 / 0,20
0,10 / 0,20
0,10 / 0,20
I (nA)
70,88
85,78
76,94
91,36
83,41
97,71
93,50
106,90
101,17
112,07
112,57
125,93
I (nA)
89,89
97,01
93,92
107,20
101,33
113,63
111,10
127,83
126,70
138,83
132,23
145,83
Tabla IV.16.- Valores de intensidad real para cada mezcla perteneciente al
diseño
de
experimentos
fraccionario
(grupo
de
las
24
mezclas:
concentraciones de 0,10 y 0,20 mg·L-1 para el TCF).
Los valores de intensidad (valores señalados en rojo) correspondientes a las mezclas
recogidas en la Tabla IV.15, sufren el mismo proceso de inversión (en filas, ya que no en
columnas) que las mezclas del diseño completo 34 , por lo que valen también para ellas las
consideraciones dadas en su momento. Sin embargo, la Tabla IV.16 es similar a la Tabla
IV.14; el fenómeno de inversión tampoco se produce en este caso. De igual modo, todas
aquellas explicaciones que no están relacionadas con la inversión de los valores de
intensidad de las mezclas son válidas también aquí.
Ambos fenómenos: inversión de las intensidades e incumplimiento del Principio de
Aditividad, podrían también achacarse a procesos de interferencia entre los analitos,
basados en el establecimiento de relaciones de competencia por llegar hasta la superficie
del electrodo, entre los diferentes analitos.
Recientemente, la presencia de dichas interferencias ha quedado demostrada [129].
En la siguiente tabla, se recoge el porcentaje de desviación producido por la interferencia
de dos de los clorofenoles utilizados en este capítulo (TCF y DCF) sobre otro de los
analitos (MF), para diferentes relaciones en masa interferente/analito. Como puede
observarse, la desviación producida en la señal del 4-cloro-3-metilfenol es bastante alta
cuando la relación en masa interferente/analito es 1:1, en algunos casos es incluso superior
al 50 % del valor de la señal original, y moderada cuando es 0,5:1.
Capítulo IV
Interferente
323
Relación (en masa) interferente:analito
Desviación (%)
1:1
36.5
0.5:1
-10.7
1:1
62.8
2,4,6-triclorofenol
2,4-diclorofenol
Tabla IV.17.- Efecto de algunos clorofenoles sobre la determinación del
4-cloro-3-metilfenol a la concentración de 1 mg·L-1 .
Una vez que se ha comprobado la existencia de interacciones (interferencias) entre
al menos tres de los analitos estudiados en este capítulo, no sería descabellado extender
también dicho carácter interferente al cuarto de los analitos: CF. Por lo tanto, y aunque las
relaciones de interferencia estudiadas han sido para mezclas binarias, en el caso que nos
ocupa puede pensarse que dichas relaciones deben ser aún bastante más complejas, habida
cuenta que las mezclas son cuaternarias y de la presencia de los fenómenos acaecidos
durante el proceso de determinación electroquímica de las mismas.
En definitiva, de este modo, se comprende la aparición de los fenómenos de
inversión de las intensidades y del incumplimiento del Principio de Aditividad, tan
característico de las señales electroquímicas, y que se han comentado anteriormente. Es
más, es de agradecer que no se haya producido la confluencia de fenómenos aún mucho
más complejos de los acontecidos, puesto que su explicación hubiese podido ser muy
difícil, por no decir imposible, sin llevar a cabo un estudio más exhaustivo del sistema
electroquímico constituido por los analitos en estudio.
7) Estudios Desarrollados Para La Calibración Multivariante
Del Sistema De Los Clorofenoles
7.1. Objetivo y resumen del trabajo
Siguiendo con el esquema planteado hasta ahora y desarrollado en el capítulo
precedente de esta Tesis Doctoral, el objetivo principal de este trabajo consiste en la
resolución del sistema electroquímico constituido por los clorofenoles: MF, CF, DCF y
TCF. Una vez visto el grado de solapamiento tan severo existente entre las señales
individuales de los analitos (la señal mezcla de los mismos da un solo pico
voltamperométrico, tal y como se aprecia en la Figura IV.8), se ve la necesidad de emplear
diferentes técnicas quimiométricas para lograr la consecución del objetivo planteado.
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
324
De este modo, y continuando con la tónica seguida hasta ahora, se desarrollarán
modelos de calibración multivariante que permitan resolver cada una de las mezclas
cuaternarias en sus componentes individuales. Sobre todo se emplearán técnicas de
calibración clásicas tales como PLS y MLR. Sin embargo, y al igual que con el sistema
electroquímico de los iones metálicos pesados (Capítulo III), se hará uso de un algoritmo
basado en la transformada wavelet con el fin de reducir las dimensiones de las señales
originales al mismo tiempo que se lleva a cabo una selección de caracteres; esto último
permitirá extraer la mayor y mejor información contenida en las mismas, en la forma de
coeficientes wavelet, los cuales serán utilizados para construir los correspondientes
modelos de calibración multivariante.
Otro de los objetivos planificados será el de establecer una comparación entre los
distintos tipos de técnicas de calibración multivariante empleadas: PLS, MLR y ANN.
Además, al igual que se hizo en el capítulo precedente, se compararán los resultados
obtenidos
haciendo
uso
de
dos
clases
de
información:
la
contenida
en
los
voltamperogramas de las muestras y la procedente de los parámetros de pico de las señales:
posición, intensidad, área, semianchura y derivada.
Aunque sistemas electroquímicos similares, constituidos por otros tipos de
compuestos fenólicos (clorofenoles [301, 306, 596], nitrofenoles [597, 601], metilfenoles
[598-600] e isómeros del fenol [155], algunos de los cuales se emplean en esta
investigación), ya han sido resueltos con anterioridad, la novedad de esta investigación
radica en los aspectos que se comentan a continuación:
§
Se trata de mezclas cuaternarias y aunque en algunas de las referencias
anteriores las mezclas estén constituidas también por cuatro o incluso cinco
fenoles, en esos casos, el solapamiento entre las especies no es tan severo como
en la situación presente (ver Figura III.11-D).
§
Este trabajo constituye una de las primeras aplicaciones del electrodo SonogelCarbono modificado con PEG, el cual ha sido desarrollado recientemente en
nuestro grupo.
§
La concentración de las especies químicas utilizadas aquí es sensiblemente
inferior a la empleada en otros trabajos de la literatura. Además, los valores se
encuentran casi en el límite de detección del electrodo para dichos analitos.
Capítulo IV
§
325
El proceso de selección de caracteres haciendo uso de la WT para el sistema
electroquímico en estudio también es novedoso. Es más, en la literatura no se
ha encontrado ningún otro trabajo en el que se emplee dicho procedimiento con
compuestos fenólicos.
§
El algoritmo empleado en este capítulo, cuya programación surgió a partir del
algoritmo utilizado en el Capítulo III, epígrafe 7, y que responde a las siglas de
WILMA (Wavelet Interface to Linear Modelling Analysis) se aplica también
de manera novedosa sobre mezclas de clorofenoles, puesto que hasta ahora
sólo se había esgrimido en la calibración multivariante del sistema Tl+ / Pb2+
del capítulo anterior y de señales procedentes de espectros de infrarrojos.
Finalmente, la selección del sistema de los clorofenoles (MF, CF, DCF y TCF) se
llevó a cabo por las siguientes razones:
§
Constituye un sistema de prueba adecuado a nuestros propósitos, puesto que
todos los compuestos fenólicos dan muy buenas señales en las condiciones
establecidas en el epígrafe 5 del presente capítulo.
§
La determinación de dichas especies es de gran importancia medioambiental,
puesto que han sido reconocidos como contaminantes prioritarios por
numerosas agencias medioambientales.
§
Como el grado de solapamiento entre las señales individuales de los analitos es
muy alto (la mezcla equivale a un único pico), el proceso de resolución es muy
complicado, beneficiando y justificando el empleo del procedimiento y las
técnicas propuestas.
Resumen de la metodología empleada
Como se ha apuntado anteriormente, la aplicación de técnicas quimiométricas se
hace necesaria a la hora de llevar a cabo la separación de las mezclas cuaternarias de
fenoles en sus componentes individuales. En el campo de la electroquímica, se han
aplicado con éxito técnicas de calibración multivariante del tipo MLR, PLS y ANN. Sin
embargo, a pesar de que dichos métodos están plenamente aceptados por la comunidad
científica en general, se va considerando cada vez más que las técnicas de
preprocesamiento de señales, como las transformadas de funciones, podrían ser de vital
importancia a la hora de mejorar el tratamiento de los datos.
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
326
Al igual que en el capítulo precedente y considerando las ventajas que ofrece la
WT, en el presente apartado de la Tesis Doctoral también se hizo uso de la transformada
wavelet como técnica de preprocesamiento de señales. A lo largo de la presente Memoria,
se ha demostrado y descrito en varios puntos la enorme utilidad de dicha herramienta, así
como el enorme potencial y la gran aplicabilidad que posee la transformada wavelet a la
hora de llevar a cabo el procesamiento de señales electroquímicas.
La metodología propuesta en este capítulo es similar a la aplicada para resolver el
sistema electroquímico constituido por los iones Tl+ y Pb2+. Se basa en el desarrollo de un
análisis multicomponente de los voltamperogramas de las mezclas de los fenoles mediante
el empleo de la transformada wavelet rápida (FWT). De este modo, se prevé seleccionar el
menor número posible de coeficientes wavelet que retengan la mayor parte de la
información química contenida en las señales voltamperométricas, con el fin de llevar a
cabo una selección de caracteres como etapa previa al posterior proceso de calibración.
Para ello se empleará un algoritmo denominado WILMA, muy similar al utilizado
en el Capítulo III, epígrafe 7. Aunque posteriormente se comentará el funcionamiento de
dicho algoritmo en profundidad, por ahora baste decir que WILMA goza de todas las
ventajas y propiedades del algoritmo inicial del que surgió (RUMIAR):
§
Reducción de datos.
§
Reducción de ruido, corrección de línea base y selección de caracteres.
§
Coeficientes wavelet seleccionados correspondientes a regiones contiguas en la
señal.
Sin embargo, la principal diferencia entre ambos algoritmos radica en que WILMA
incluye en su programación la búsqueda y desarrollo de los modelos de calibración
multivariante, haciendo uso de dos técnicas de calibración, como son MLR y PLS, como se
verá
posteriormente.
Además,
permite
obtener
aparte
los
coeficientes
wavelet
seleccionados, que pueden emplearse para ejecutar la calibración multivariante con otras
técnicas de calibración distintas (ANN, por ejemplo) y en un entorno ajeno al de su
programación.
Capítulo IV
327
Por tanto, la metodología propuesta en este caso es también muy similar a la
seguida durante la calibración multivariante de los iones metálicos y consta de las
siguientes etapas:
1. Descomposición de las señales en el dominio wavelet hasta el máximo nivel
de descomposición por medio de la FWT.
2. Ordenamiento
de
los
coeficientes
wavelet
para
cada
nivel
de
descomposición de acuerdo a su varianza o bien con respecto a algún
parámetro adecuado de correlación con las variables de respuesta:
coeficiente de correlación al cuadrado o la covarianza al cuadrado.
3. Determinación de forma iterativa del número de coeficientes wavelet a
retener para cada nivel de descomposición, mediante la búsqueda del valor
mínimo de la suma de cuadrados de los residuos de predicción (PRESSLOO,
estimada a través del procedimiento de Leave-One-Out). En esta etapa,
puede emplearse tanto MLR como PLS; en el caso del PLS, el número
óptimo de variables latentes también se elige sobre la base del PRESSLOO
más pequeño.
4. Finalmente, se considera como nivel óptimo de descomposición aquel que
presenta el valor de PRESSLOO más bajo.
Como se ha comentado anteriormente, los coeficientes wavelet seleccionados
constituyen un conjunto de variables independientes, que pueden utilizarse como
alimentación a otras técnicas de regresión diferentes. Además, al igual que RUMIAR y con
fines interpretativos, tanto los coeficientes elegidos como los coeficientes de regresión
calculados con WILMA pueden reconstruirse en el dominio original mediante la FWT
inversa.
En el trabajo que aquí se describe, se probaron 15 funciones wavelet diferentes y
varios criterios de relleno (padding) distintos, aunque una vez vistos los resultados
obtenidos en investigaciones anteriores [267], el que más se utilizó fue el de relleno con
ceros o “zero padding”. Una vez obtenidos diferentes conjuntos de coeficientes wavelet
seleccionados, se probaron diferentes técnicas de calibración multivariante: MLR, PLS y
ANN. El desarrollo y actuación de cada uno de los modelos de regresión obtenidos se
comprobó mediante la evaluación de sus habilidades predictivas sobre un conjunto de
validación externo.
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
328
7.2. Aplicación de técnicas para el análisis exploratorio de datos
Primeramente, antes de comenzar con el proceso de separación de las mezclas
cuaternarias de los clorofenoles en sus componentes individuales, se llevó a cabo un
análisis exploratorio de los datos obtenidos tras la determinación voltamperométrica. Las
acciones realizadas, así como las técnicas estadísticas empleadas para lograrlo, son las
siguientes:
§
Representación de las señales en un espacio multidimensional.
§
Análisis de clusters.
§
Análisis de componentes principales (PCA).
A continuación, resumimos los aspectos más importantes de cada una de ellas.
Representación de las señales en un espacio multidimensional
Tras la observación de la Figura IV.12, donde aparecen representadas en una tabla
todas las posibles mezclas que se obtienen al combinar los cuatro compuestos fenólicos
(MF, CF, DCF y TCF) con los 5 puntos que componen el intervalo de medida (0,05; 0,10;
0,15; 0,20 y 0,25 mg·L-1 ) se observa que las mezclas medidas aparecen distribuidas en tres
grupos:
§
81 mezclas que combinan sólo 3 valores de concentración (0,05; 0,15 y 0,25
mg·L-1 ), que corresponde a un diseño completo 34 .
§
16 mezclas que combinan sólo 2 valores de concentración (0,10 y 0,20 mg·L-1 ),
que corresponde a un diseño completo 24 .
§
Y, finalmente, 60 mezclas que combinan los 5 valores de concentración que
constituyen el intervalo, que conforman una especie de diseño fraccionario.
Tras estudiar un poco la posible disposición de las mezclas, se obtuvo como
conclusión la siguiente representación completa de las mismas (Figura IV.15). Como
puede observarse, dicha representación es tridimensional, puesto que inicialmente se
mantuvo constante la concentración de TCF. De la figura se desprende que no existen tres
grupos de mezclas, como se pensó en un principio, sino cuatro, por la división del grupo de
60 mezclas. Dicha representación serviría incluso para hacer una elección preliminar de los
distintos conjuntos de muestras, para su posterior tratamiento estadístico.
Capítulo IV
329
Figura IV.15.- Esquema representativo de las diferentes mezclas de
clorofenoles
determinadas
voltamperométricamente,
manteniendo
la
concentración de TCF constante: grupo de las 81 mezclas; grupo de las 16
mezclas; grupo de las 60 mezclas.
Una representación proyectada de las mezclas dio el siguiente resultado:
Figura IV.16.- Proyección en el plano de la representación tridimensional
de
las
diferentes
voltamperométricamente,
mezclas
manteniendo
de
clorofenoles
la
concentración
determinadas
de
TCF
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
330
constante: grupo de las 81 mezclas; grupo de las 16 mezclas; grupo de las
60 mezclas; los índices indican la posición con respecto al eje Z.
La correspondencia entre los puntos de las figuras y las mezclas es la siguiente:
§
Puntos amarillos: mezclas 1 a 81.
§
Puntos rojos: mezclas 82 a 97.
§
Puntos verdes: 36 mezclas del grupo de 60 (98, 99, 100, 101, 102, 103, 104,
105, 106, 107, 108, 109, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132,
133, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155, 156 y 157).
§
Puntos negros: 24 mezclas restantes del grupo de 60 (110, 111, 112, 113, 114,
115, 116, 117, 118, 119, 120, 121, 134, 135, 136, 137, 138, 139, 140, 141, 142,
143, 144 y 145).
Posteriormente, se intentó llevar a cabo una representación del total de las mezclas
en cuatro dimensiones. Para ello se pensó, en un principio, en emplear un tetraedro para
realizar dicha representación. Sin embargo, los resultados no fueron los esperados y no se
pudo sacar nada en claro a partir de ella. Como consecuencia de esto, se planteó un nuevo
tipo de representación basada en un cubo, cuyas dimensiones se corresponderían con las
concentraciones de los analitos siguientes: MF, CF y DCF. La cuarta dimensión
(concentración del analito TCF) se representaría en la diagonal del cubo. De este modo, se
obtuvo una figura similar a la representación de un cubo en un espacio tetradimensional:
son cinco cubos (uno por cada valor de concentración del intervalo establecido),
introducidos unos dentro de otros, como se recoge en la Figura IV.17. La leyenda de dicha
figura se recoge a continuación:
§
Símbolo azul: (equivalente al amarillo anterior) grupo de las 81 mezclas.
§
Símbolo rojo: grupo de las 16 mezclas.
§
Símbolo verde: 36 mezclas del grupo de las 60.
§
Símbolo negro: 24 mezclas del grupo de las 60.
§
Puntos (Ž): valor más bajo de concentración dentro de cada grupo de mezclas.
§
Cruces (\): valor intermedio de concentración dentro de cada grupo de
mezclas.
§
Asterisco (w): valor más alto de concentración dentro de cada grupo de
mezclas.
Capítulo IV
331
Figura IV.17.- Representación en cuatro dimensiones de las diferentes
mezclas
de
clorofenoles
determinadas
voltamperométricamente:
la
dirección diagonal representa los valores de concentración de TCF.
Por otro lado, la Figura IV.18 se corresponde con una proyección sobre el plano
MF – CF. En ella se aprecia cómo la(s) diagonal(es) del(os) cubo(s) representa la cuarta
dimensión: la concentración del analito TCF.
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
332
Figura IV.18.- Proyección en el plano MF – CF de las diferentes mezclas
de clorofenoles determinadas voltamperométricamente.
Hay que señalar que los valores numéricos que aparecen en los ejes de las dos
últimas figuras no tienen nada que ver con los valores de concentración de los analitos
(aparecen valores negativos); simplemente surgieron como consecuencia de la suma de
ciertas cantidades constantes a cada uno de dichos valores de concentración con el fin de
lograr la representación en cuatro dimensiones.
Gracias a estas representaciones, se llevó a cabo la selección de los distintos
conjuntos de mezclas: entrenamiento, validación interna y validación externa, como se
verá posteriormente, con el fin de desarrollar el proceso de calibración multivariante.
Análisis de clusters
Para ver el modo en como se agrupaban las señales de las mezclas, se llevó a cabo
un análisis de clusters; de este forma, se identificarían grupos de señales de características
similares. Las variables susceptibles de ser agrupadas fueron los valores de concentración
de los analitos en cada una de las mezclas.
Se investigaron dos algoritmos diferentes:
§
el algoritmo KNN (del vecino más cercano) y
§
el algoritmo K means (de las medias),
empleando los datos tanto centrados con respecto a la media como autoescalados.
Una vez realizadas algunas pruebas, se llegó a la conclusión de que los mejores
resultados se obtenían para los datos centrados con respecto a la media, considerando al
algoritmo KNN como el método más apropiado. Esto se debió a que el algoritmo K means
originaba un dendrograma demasiado ramificado, como consecuencia de que se cambiaba
el punto de referencia en cada ciclo (la media), a la hora de medir las distancias; mientras
que el algoritmo KNN respetaba la posición inicial de los puntos. La gran simetría
existente en la matriz de datos también fue responsable en parte de esta situación. Si dicha
matriz no hubiese sido tan simétrica, el análisis con cualquiera de los dos algoritmos habría
sido plausible, ofreciendo al mismo tiempo resultados similares.
Capítulo IV
333
La Figura IV.19 representa el dendrograma obtenido a partir del análisis de
clusters:
1)
4)
4)
4)
3)
2)
4)
4)
4)
Figura IV.19.- Resultado del análisis de clusters mediante el algoritmo
KNN con los datos centrados con respecto a la media.
A partir de la figura se observa que existen dos grupos de muestras bien
diferenciados:
1. Un grupo de 3 muestras: las mezclas de extrapolación (1).
2. Un grupo grande que comprende al resto (2) y, en medio de éste, se
encuentran las mezclas de interpolación. Salvo en la zona central (3), en la
que se produce una mayor ramificación de los clusters, y en los seis grupos
de cinco muestras cada uno (4), dispuestos casi a intervalos regulares, el
resto de las mezclas poseen características similares, puesto que surgen de
la misma rama (principal) del dendrograma.
El análisis de clusters sólo sirvió, en principio, para disponer de cierta idea acerca
del modo en como se agrupaban las muestras. Sin embargo, la técnica que ofreció mejores
334
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
resultados, mucho más acordes con los datos experimentales de que se disponía, fue el
análisis de componentes principales o PCA, el cual se describe a continuación.
Análisis de componentes principales (PCA)
Partiendo de los voltamperogramas de las mezclas que aparecen representados en la
Figura IV.13 y sin llevar a cabo ningún tipo de pretratamiento, se realizó un análisis de
componentes principales, con el fin de ver si existía algún tipo de agrupamiento entre las
mezclas. La siguiente figura recoge el gráfico de los scores para las dos primeras
componentes principales:
Figura IV.20.- Gráfico de los scores para las dos primeras componentes
principales obtenido a partir del PCA sobre los voltamperogramas de las
mezclas.
Capítulo IV
335
De la figura se desprende que existen dos grupos de mezclas claramente
diferenciados:
1. Mezclas 1 a 73.
2. Mezclas 74 a 163 (incluye las mezclas de interpolación y extrapolación).
Esto implica que a lo largo del proceso de medida se produce cierta variación entre las
señales, fenómeno que en principio sólo parece deberse a un proceso de evolución sufrido
por el electrodo Sonogel-Carbono modificado con PEG, empleado en la determinación de
las mezclas; no obstante, esta afirmación está aún por determinar.
Por otro lado, la evolución comentada anteriormente podría ser también la causante
de la deriva (vertical) de la señal o drift que se aprecia en la Figura IV.13: a medida que
avanza el proceso de medida, el comienzo del registro (intensidad del fondo) se produce a
valores cada vez más altos. Sin embargo, en la misma figura, puede también observarse
una pequeña deriva horizontal a partir de ciertas mezclas pertenecientes al grupo de las 81
mezclas (voltamperogramas de color verde próximos a los de color rojo). En la siguiente
figura puede apreciarse mejor el detalle:
Como se observa en la figura, la deriva vertical
es más acusada para los primeros voltamperogramas
correspondientes al grupo de las 81 mezclas (verde);
luego se produce un pequeño salto y, al mismo tiempo,
un ligero desplazamiento lateral de los máximos de los
picos que luego parece que vuelve a corregirse. La
citada deriva horizontal aparece recogida en el gráfico
de los scores correspondientes a las dos primeras
componentes principales del PCA: la mezcla 73 podría
considerarse
que
forma
parte
del
primer
grupo,
mientras que la 74 lo haría del segundo, y es a partir de
ésta cuando se produce el desplazamiento horizontal;
como si el electrodo hubiese sufrido algún cambio
brusco en su comportamiento en ese preciso instante.
336
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
Figura IV.21.- Ampliación de la Figura IV.13 correspondiente a la zona
donde se produce la deriva horizontal (círculo).
A priori, el problema causado por la deriva vertical podría soslayarse mediante la
aplicación de técnicas de normalización de señales: standard normal variate (SNV),
multiplicative scatter correction (MSC) y orthogonal signal correction (OSC). Sin
embargo, la deriva horizontal podría ser más difícil de eliminar, no obstante, para afrontar
esto podrían utilizarse las señales de los analitos puros durante la calibración, puesto que
en ellas, conforme aumenta la concentración, se va produciendo cierto desplazamiento del
máximo del pico hacia valores menos positivos (ver Tablas IV.5, IV.6, IV.7 y IV.8). Otra
posibilidad podría ser la de emplear un conjunto de entrenamiento donde se recojan dichas
variaciones; de este modo, y al comprender aquel los puntos extremos y central del
intervalo de concentraciones, es de esperar que se evitase dicho problema. Más adelante
trataremos estos temas en profundidad.
En resumen, el análisis de componentes principales ha resultado ser fundamental
puesto que, además de dar información sobre cómo se encuentran agrupadas las mezclas
cuaternarias de los clorofenoles, ha servido para explicar algunos de los resultados
experimentales observados durante el proceso de determinación de los voltamperogramas,
así como para pronosticar posibles causas que los hayan originado. Más adelante se
retomarán dichos resultados, puesto que son bastante importantes para el desarrollo
posterior de una parte de la investigación.
Hasta aquí se ha podido comprobar la efectividad de las técnicas para el análisis
exploratorio de datos y la importancia de las mismas cuando se desea comprender el
sistema en estudio antes de abordar el problema de una calibración multivariante.
7.3. Selección de los diferentes conjuntos de muestras: entrenamiento (trn), validación
interna (val) y validación externa (tst)
Una vez finalizado el análisis exploratorio de los datos y con los resultados
obtenidos a partir de él, se procedió a seleccionar los diferentes conjuntos en los que se
distribuirían las mezclas de los clorofenoles: entrenamiento (trn), validación interna (val) y
validación externa (tst), que permitirían el posterior desarrollo del proceso de calibración
multivariante.
Capítulo IV
337
El punto de partida lo constituyeron 157 mezclas cuaternarias de clorofenoles, las
cuales suponían poco más del 25 % del total de mezclas posibles (625), presentando todas
en principio un único pico en el voltamperograma. Los valores de concentración de los
analitos estuvieron todos dentro del intervalo comprendido entre 0,05 y 0,25 mg·L-1 , con lo
que no se consideraron las mezclas de interpolación y extrapolación.
Inicialmente, se pensó en una distribución como la que sigue:
§
Conjunto de entrenamiento (trn): 81 mezclas.
§
Conjunto de validación interna (val): 40 mezclas.
§
Conjunto de validación externa (tst): 36 mezclas.
A partir de aquí se plantearon diferentes estrategias de selección de los distintos
conjuntos de muestras, las cuales se describen a continuación.
Distribución original de las mezclas (orig)
A raíz de las conclusiones obtenidas tras el análisis exploratorio de los datos se
pensó en distribuir las muestras del siguiente modo:
§
trn: compuesto por el grupo de las 81 mezclas (símbolos azules en la Figura
IV.17).
§
val: compuesto por el grupo de las 16 mezclas (símbolos rojos en la Figura
IV.17), además de un cierto número de mezclas pertenecientes al grupo de 60
(símbolos verdes y negros en la Figura IV.17), 12 y 12, respectivamente. Esto
hacían 40 mezclas.
§
tst: formado por el resto de mezclas del grupo de 60 (símbolos verdes y negros
en la Figura IV.17), 24 y 12, respectivamente. Fueron 36 muestras en total.
La selección de las muestras pertenecientes al grupo de 60 para conformar el
conjunto de validación interna y externa se realizó del siguiente modo:
§
Una vez identificadas las muestras correspondientes con los símbolos negros
de la Figura IV.17, se dividieron de acuerdo con su posición en pares e
impares. Unas fueron a parar a un conjunto y las otras al otro (12 y 12). El
conjunto de validación interna lo constituyeron las mezclas siguientes: 110,
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
338
112, 114, 116, 118, 120, 135, 137, 139, 141, 143 y 145; mientras que el de
validación externa estuvo formado por las mezclas: 111, 113, 115, 117, 119,
121, 134, 136, 138, 140, 142 y 144.
§
Con respecto a las muestras identificadas como pertenecientes a los símbolos
verdes en la misma figura, se hicieron dos grupos. A partir de los mismos se
eligieron aquellas situadas en las siguientes posiciones: 1, 4, 7 y 10; 2, 5, 8 y
11; y 3, 6, 9 y 12. Éstas pasaron a formar parte del conjunto de validación
interna, constituido por las siguientes mezclas: 98, 101, 104, 107, 123, 126,
129, 132, 148, 151, 154 y 157; el resto de las muestras constituyeron el
conjunto de validación externa: 99, 100, 102, 103, 105, 106, 108, 109, 122,
124, 125, 127, 128, 130, 131, 133, 146, 147, 149, 150, 152, 153, 155 y 156.
La siguiente figura representa los voltamperogramas de las mezclas coloreados de
acuerdo al conjunto al que pertenecen: azul para el trn, rojo para el val y verde para el tst.
Figura IV.22.- Representación de los voltamperogramas de las mezclas
correspondientes a la distribución original: trn (81), val (40) y tst (36).
Capítulo IV
339
No confundir esta figura con la Figura IV.13, en la que se representaban los
distintos grupos de mezclas de acuerdo con el orden en el que fueron medidas: grupo de
81, 16 y 60 mezclas.
Distribución aleatoria de las mezclas basada en dos conjuntos (rand2)
Partiendo de la distribución original de las mezclas, se pensó en tomar los distintos
conjuntos de mezclas de forma aleatoria, para ver también como se comportaba el sistema.
En este caso, se utilizaron los conjuntos de entrenamiento y de validación interna y se
procedió a un muestreo aleatorio de los mismos; el conjunto de validación externa se dejó
tal y como estaba. De este modo, se consiguió una distribución aleatoria de las mezclas en
los siguientes conjuntos:
§
trn: compuesto por 82 mezclas escogidas aleatoriamente de un conjunto global
de 121 muestras (81 + 40 de la distribución original).
§
val: compuesto por las 39 mezclas restantes tras la selección del conjunto
anterior.
§
tst: idéntico al conjunto de validación externa de la distribución original (36
mezclas).
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
340
Figura IV.23.- Representación de los voltamperogramas de las mezclas
correspondientes a la distribución aleatoria basada en dos conjuntos: trn
(82), val (39) y tst (36).
Distribución aleatoria de las mezclas basada en los tres conjuntos (rand3)
Este caso es similar al anterior. También se parte de la distribución original de las
mezclas y, de igual modo, el muestreo se lleva a cabo de forma aleatoria. No obstante, en
vez de emplear sólo dos conjuntos, ahora se emplean los tres conjuntos: entrenamiento,
validación interna y validación externa. La distribución aleatoria de las mezclas conseguida
mediante este método fue la siguiente:
§
trn: compuesto por 81 mezclas escogidas aleatoriamente de un conjunto global
de 157 muestras (81 + 40 + 36 de la distribución original).
§
val: compuesto por 40 mezclas escogidas también aleatoriamente de un
conjunto global de 157 muestras.
§
tst: formado por las 36 mezclas restantes tras la selección de los dos conjuntos
precedentes.
Capítulo IV
341
Figura IV.24.- Representación de los voltamperogramas de las mezclas
correspondientes a la distribución aleatoria basada en los tres conjuntos:
trn (81), val (40) y tst (36).
Distribución de las mezclas basada en un diseño ortogonal (OA)
Finalmente, el último método de distribución de mezclas empleado se basó en un
diseño matricial ortogonal (OA, Orthogonal Array Design). Tales tipos de diseños
matriciales fueron aplicados por primera vez por Lan et al. en 1994 [608] para la
optimización de un determinado procedimiento analítico: la disolución por microondas de
muestras biológicas. El diseño OA descrito se correspondía con un diseño a dos niveles.
A lo largo del mismo año y del siguiente, los mismos autores continuaron con el
desarrollo y aplicación de diseños OA de diferentes niveles sobre diversos tipos de
muestras: OA a cuatro niveles también sobre muestras biológicas [609] a cinco niveles
sobre un sistema de reacción polarográfico para la determinación de selenio [610]; OA
mixto sobre la determinación de hidrocarburos aromáticos policíclicos determinados
mediante HPLC [611]; y, por último, OA a tres niveles de nuevo sobre muestras biológicas
[612].
De acuerdo con los citados investigadores, un diseño OA proporciona una
estrategia eficiente y efectiva para desarrollar un buen método quimiométrico de
optimización, permitiendo además ahorrar tiempo y coste en la experimentación. Entre las
propiedades que presenta este tipo de diseños podemos destacar las siguientes:
§
La ortogonalidad del diseño puede probarse fácilmente por medio de modelos
de regresión de tipo lineal o cuadrático, dependiendo del diseño.
§
Mediante las ecuaciones resultantes de la prueba de la ortogonalidad, el
establecimiento de un modelo polinomial que represente la superficie de
respuesta para el diseño en cuestión es relativamente simple.
§
Dicha superficie proporciona información sobre la velocidad de cambio de una
respuesta o acerca de la localización de un máximo o un mínimo con respecto
al conjunto de niveles de los factores cuantitativos, pudiendo resaltar
interacciones entre estos y otros factores de tipo cualitativo.
Algunas de sus ventajas también se resumen a continuación:
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
342
§
Se minimiza el número de experimentos, maximizando al mismo tiempo la
información susceptible de ser extraída a partir del diseño.
§
Se pueden encontrar relaciones más precisas entre las variables y las
respuestas.
§
Además, pueden estimarse algunas tendencias no lineales.
Una información mayor y más detallada sobre el diseño OA: propiedades, ventajas,
construcción, etc., puede encontrarse en las referencias indicadas anteriormente.
En nuestro caso, el tipo de diseño empleado fue un diseño matricial ortogonal a tres
niveles, el cual se representa como OA9 (34 ), donde 4 hace referencia al número de factores
(analitos) o columnas, 9 al de variables (mezclas) o filas y 3 al de niveles (valores de
concentración). En la tabla 1 de la referencia [612], se encuentra la matriz correspondiente
al citado diseño. Adaptando dicha matriz a la presente situación, se obtiene la siguiente
tabla, donde los valores de concentración aparecen expresados en mg·L-1 :
Mezclas [MF] [CF] [DCF] [TCF]
1
0,05 0,05
0,05
0,05
32
0,05 0,15
0,15
0,15
63
0,05 0,25
0,25
0,25
65
0,15 0,05
0,15
0,25
15
0,15 0,15
0,25
0,05
43
0,15 0,25
0,05
0,15
48
0,25 0,05
0,25
0,15
76
0,25 0,15
0,05
0,25
26
0,25 0,25
0,15
0,05
Tabla IV.18.- Matriz de las mezclas
constituyentes de un diseño matricial
ortogonal OA9 (34 ).
Todas las mezclas que constituyen el diseño OA a tres niveles pertenecen al grupo de 81
mezclas, el cual, de acuerdo con las representaciones llevadas a cabo en el epígrafe 7.2,
contiene los puntos extremos y central del intervalo de concentraciones en el que se
mueven los analitos.
Capítulo IV
343
La distribución de las mezclas conseguida mediante este método fue la siguiente:
§
trn:
compuesto
por
27
mezclas,
correspondientes
a
las
9
mezclas
4
constituyentes del diseño OA9 (3 ) junto con sus réplicas, con el fin de disponer
de un conjunto de entrenamiento más sólido.
§
val: compuesto por 216 mezclas, constituidas por las 72 mezclas restantes del
grupo de 81 con sus réplicas.
§
tst: formado por 228 mezclas, compuestas por las 76 mezclas restantes (grupo
de 16 y grupo de 60) con sus respectivas réplicas.
La siguiente figura representa los voltamperogramas de las mezclas coloreados de
acuerdo al conjunto al que pertenecen: azul para el trn, rojo para el val y verde para el tst.
Figura IV.25.- Representación de los voltamperogramas de las mezclas
correspondientes a la distribución basada en un diseño ortogonal: trn (27),
val (216) y tst (228).
La gráfica aparece tan densa como consecuencia de la presencia de las réplicas de
cada una de las mezclas.
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
344
Una vez distribuidas las mezclas en los conjuntos de entrenamiento, validación
interna y validación externa, habiendo hecho uso de diferentes métodos de selección, el
siguiente paso consiste en aplicar alguna técnica de pretratamiento de señales como paso
previo al desarrollo de la calibración multivariante.
7.4. Aplicación de técnicas para el pretratamiento de las señales
Las técnicas que se emplearon para el pretratamiento de las señales de las mezclas
cuaternarias de los clorofenoles tuvieron como finalidad principal la de corregir la línea
base y, al mismo tiempo, la deriva o drift vertical. Dicha variabilidad en las señales se
produjo como consecuencia de un proceso de evolución sufrido por el electrodo SonogelCarbono modificado con PEG durante la determinación de las mezclas. Por lo tanto, las
técnicas aquí aplicadas pertenecen al grupo de las técnicas de normalización, de las cuales
se habló en su momento (Capítulo I, epígrafe 8.3).
Las técnicas de normalización utilizadas en esta investigación fueron las siguientes:
§
Corrección de línea base manual (LB)
§
Standard Normal Variate (SNV)
§
Multiplicative Scatter Correction (MSC)
§
Orthogonal Signal Correction (OSC)
A continuación, se mostrarán los resultados obtenidos en cada caso.
Corrección de línea base manual (LB)
La primera técnica de normalización empleada para el pretratamiento de las señales
fue la corrección de línea base manual (LB). Esta técnica fue aplicada por medio del propio
potenciostato/galvanostato Autolab®, puesto que se encuentra incluida en el software del
aparato. Gracias a ello, se aplicó una LB lineal basada en el método de ajuste de la
tangente.
Sin embargo, dicho proceso se llevó a cabo manualmente; es decir, los puntos sobre
los cuales se proyectaría la línea base fueron elegidos por el operador, siendo distintos para
cada señal, con lo cual, casi con toda seguridad, se produjo un cambio en la desviación
estándar del fondo (background) en todos los casos. No obstante, dichos puntos no fueron
Capítulo IV
345
seleccionados arbitrariamente, sino de tal modo que se maximizasen los valores de
intensidad de los picos de los voltamperogramas. Además, con esta técnica no se pudo
disponer de las réplicas, sino sólo de los voltamperogramas medios. En cualquier caso, la
duda planeó a partir de entonces sobre este tipo de normalización, prefiriéndose antes la
utilización de cualquiera de las otras.
Los resultados obtenidos tras la aplicación de la corrección de línea base manual
aparecen recogidos en la siguiente figura:
Figura IV.26.- Resultados de la aplicación de una corrección de línea base
manual sobre los voltamperogramas de las mezclas de clorofenoles.
En la figura puede observarse más claramente la deriva horizontal sufridas por
algunas de las mezclas pertenecientes al grupo de 81 (verde) y de 16 (rojo), en la zona
situada a la izquierda de donde se encuentran los picos. El drift vertical también se aprecia
en las zonas del comienzo y fin de los voltamperogramas, pero en muchísima menor
medida una vez corregido con esta técnica de normalización.
346
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
Standard Normal Variate (SNV)
La siguiente técnica de normalización empleada fue la Standard Normal Variate
(SNV). En este caso, a cada una de las señales se le sustrae el valor medio de los puntos
(intensidades) que constituyen su voltamperograma y el resultado se divide por la
desviación estándar de dichos valores, obteniéndose de este modo las señales normalizadas
(ver Figura I.21).
Una representación de las señales ya normalizadas con la SNV se muestra en la
figura que aparece a continuación:
Figura IV.27.- Resultados de la aplicación de la Standard Normal Variate
(SNV) sobre los voltamperogramas de las mezclas de clorofenoles.
La deriva horizontal también se sigue notando en la misma posición que con LB.
Además, en este caso, la variabilidad vertical aparece ligeramente peor corregida en lo que
respecta al comienzo de los voltamperogramas y a la zona inmediatamente posterior a los
picos.
Capítulo IV
347
Multiplicative Scatter Correction (MSC)
Otra de las técnicas de normalización empleadas fue la Multiplicative Scatter
Correction (MSC). Esta técnica lleva a cabo la regresión de una señal medida frente a una
señal de referencia y corrige la señal medida usando la pendiente. En pocas palabras el
proceso se realiza del siguiente modo: la señal corregida se obtiene dividiendo la señal
original por la pendiente de la recta de regresión obtenida haciendo la regresión entre la
señal de referencia (señal media de las que componen el conjunto de entrenamiento) y la
señal medida (ambas centradas con respecto a la media) y sumando la media de la señal de
referencia, es decir, dando siempre la misma ordenada en el origen (intercepción). El
procedimiento se ejecuta para todas las señales de la matriz de datos.
La figura que aparece a continuación recoge los resultados de aplicar la técnica
MSC:
Figura IV.28.- Resultados de la aplicación de la Multiplicative Scatter
Correction (MSC) sobre los voltamperogramas de las mezclas de
clorofenoles.
348
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
Comparando las dos figuras con la representación de todas las señales normalizadas
para las técnicas SNV y MSC, se observa que los resultados son muy similares, aunque la
MSC da un poco más de altura a las señales normalizadas, lo cual puede deberse al hecho
de tomar la señal promedio del conjunto de entrenamiento como referencia. Por lo demás,
el desarrollo de ambas técnicas es idéntico, lo cual nos lleva a concluir que ambas podrían
ser bastante efectivas a la hora de soslayar los posibles problemas que pueda aportar la
deriva vertical de las señales.
Orthogonal Signal Correction (OSC)
La última técnica de normalización utilizada fue la Orthogonal Signal Correction
(OSC). Normalmente se emplea en aquellos casos en los que un modelo PLS captura una
gran varianza del bloque X en la primera componente principal, pero al mismo tiempo
retiene muy poca varianza del bloque de las respuestas Y. Esto se debe a que gran parte de
la varianza de X retenida es ajena a ella y no está correlacionada con el bloque Y; por
tanto, es susceptible de ser eliminada. Por ello, la OSC se basa en la eliminación de la
variabilidad de la matriz de las variables (mezclas) que no está correlacionada, es decir, es
ortogonal, con respecto a la matriz de las respuestas (concentraciones).
Los resultados de la aplicación de la misma se recogen en la siguiente figura:
Capítulo IV
349
Figura IV.29.- Resultados de la aplicación de la Orthogonal Signal
Correction (OSC) sobre los voltamperogramas de las mezclas de
clorofenoles.
De todas las técnicas de normalización vistas hasta ahora, la OSC ofrece
visiblemente los mejores resultados. La corrección del fenómeno de deriva vertical es casi
completa, a excepción de las zonas de los voltamperogramas inmediatamente anterior y
posterior a los picos, aunque dicha variabilidad es muy pequeña comparada con la
observada en los otros casos. En principio, vistos los resultados anteriores, la técnica OSC
parecería ser la más adecuada para llevar a cabo el pretratamiento de las señales de las
mezclas cuaternarias de clorofenoles, aunque se hicieron pruebas con todas ellas.
Por otro lado, al mismo tiempo que las técnicas de normalización corregían el
problema de la deriva vertical, también introducían un cierto artificio en las señales. Dicho
artificio consiste en lo siguiente: se parte de tres mezclas que se diferencian única y
exclusivamente en la concentración de un analito (por ejemplo, MF: mezcla 9 =
0,05/0,25/0,25/0,05; mezcla 18 = 0,15/0,25/0,25/0,05 y mezcla 27 = 0,25/0,25/0,25/0,05) y
que se encuentran afectadas por la deriva vertical, de modo que aparecen representadas en
el orden ascendente 9, 18 y 27, respectivamente, como indica la Figura IV.30-A:
A)
B)
C)
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
350
Figura IV.30.- Representación del artificio introducido en las señales tras
la aplicación de las técnicas de normalización: A) mezclas 9, 18 y 27
originales, sin normalizar; B) las mismas mezclas normalizadas con SNV;
y C) normalizadas con OSC.
En el momento en el que se aplica un proceso de normalización, se produce una
inversión en la posición de la línea base de cada una de ellas, de tal modo que la línea base
de la mezcla 9 supera a la de la mezcla 18 e incluso a la de la 27 (Figuras IV.30-B y IV.30C). El problema de esta situación estriba en que podría inducir a error a la hora de modelar
las señales normalizadas con las técnicas de calibración multivariante. Por consiguiente, es
bueno tener en cuenta la existencia de tales artificios.
A continuación, se abordará una pequeña descripción del algoritmo WILMA, así
como de las técnicas de calibración multivariante aplicadas, antes de presentar la discusión
de los resultados obtenidos con el proceso de calibración.
7.5. Breve descripción del algoritmo WILMA y de las técnicas empleadas en la
calibración multivariante
En el presente estudio, a la hora de desarrollar el proceso de calibración
multivariante, se emplearon fundamentalmente dos tipos de procedimientos con el fin de
resolver el solapamiento entre las señales electroquímicas correspondientes a los cuatro
clorofenoles: MF, CF, DCF y TCF. Dichos procedimientos fueron los siguientes:
§
Método de regresión por mínimos cuadrados parciales (PLS).
§
Algoritmo WILMA (Wavelet Interface to Linear Modelling Analysis).
En los siguientes epígrafes, se estudiará cada uno de ellos en profundidad.
Regresión por mínimos cuadrados parciales (PLS)
El método de regresión por mínimos cuadrados parciales se desarrolló sin ningún
tipo de tratamiento previo, aparte de la normalización, ni de selección de caracteres. Los
modelos PLS fueron calculados utilizando tanto los datos (señales de las mezclas)
centrados con respecto a la media (mean-centered) como autoescalados (autoscaling).
La manera de operar con el PLS se describe a continuación:
Capítulo IV
351
1. Se calcula el mejor modelo PLS, aquel que posee el valor de PRESS más
pequeño (para un determinado número de componentes principales), sobre
la base del conjunto de entrenamiento.
2. A partir de dicho modelo se predijeron las muestras que formaban parte del
conjunto de validación interna y de validación externa.
Los parámetros obtenidos tras la aplicación del modelo, los cuales dan una idea de
la bondad del mismo, son los siguientes:
§
SDEC / SDEP: desviación estándar de los errores calculados (para el trn) y
predichos (para val y tst), respectivamente. Su expresión es equivalente a la de
la Ecuación 85 (Capítulo III, epígrafe 6.3).
§
R2 : coeficiente de correlación al cuadrado.
§
R2 CV,LOO : coeficiente de correlación al cuadrado calculado mediante validación
cruzada (CV) por el método del Leave-One-Out (LOO), cuya ecuación es:
R 2CV ,LOO = 1 −
PRESS LOO
∑ (y i − ŷ i )2
(89)
i
donde yi es el valor experimental de la concentración e ŷi los predichos por el
modelo.
Algoritmo WILMA (Wavelet Interface to Linear Modelling Analysis)
El algoritmo de calibración WILMA ha sido recientemente desarrollado [521] por
el grupo de investigación del Prof. Seeber (Módena – Italia). Su origen se encuentra en el
algoritmo empleado en el epígrafe 7.2 del Capítulo III: RUMIAR.
WILMA (Wavelet Interface to Linear Modelling Analysis) constituye un nuevo
algoritmo basado en el acoplamiento de la transformada wavelet rápida (FWT) con
técnicas de regresión: MLR y PLS, con el fin de seleccionar modelos de regresión óptimos
entre la matriz de las señales y las variables de respuesta.
En pocas palabras el algoritmo WILMA, escrito en lenguaje MATLAB®, funciona
del siguiente modo: descompone cada señal en el dominio wavelet y luego, por medio del
criterio apropiado, selecciona los coeficientes wavelet que generan los mejores modelos de
352
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
regresión, evaluados mediante un criterio de validación cruzada basado en el método de
Leave-One-Out. La habilidad predictiva de estos modelos se comprueba posteriormente
sobre un conjunto de validación. El algoritmo, además, permite la reconstrucción de las
señales en su dominio original usando tan solo los coeficientes wavelet seleccionados, con
el fin de interpretar químicamente los resultados.
A continuación, se tratará en detalle el modo de operar del algoritmo WILMA (se
aconseja ver también Figura IV.31 y IV.32 paralelamente a la lectura de los siguientes
párrafos):
1. Sea X(m, p) la matriz de las variables descriptoras, formada por m señales
pertenecientes al conjunto de entrenamiento (objetos) de longitud p, e Y(m,
n) la matriz de las variables de respuesta, constituida por los valores para los
m objetos de la n variables a predecir.
2. Dada una función wavelet, w, y tras aplicar un criterio de padding, el
algoritmo descompone cada señal en el dominio de la FWT hasta que se
alcanza el máximo nivel de descomposición, l.
3. Para cada nivel de descomposición 1 ≤ j ≤ l, los coeficientes wavelet de la
base ortonormal [cj, dj, dj-1 , …, d1 ] calculados sobre los m objetos van a
constituir una matriz Bj(m, p'), cuyo número de columnas, p’, dependerá de
la longitud de la señal original, p, de la longitud de los filtros de
descomposición wavelet, Lo_D y Hi_D, y del nivel de descomposición, j.
4. Luego, se cambia el orden de las columnas de la matriz Bj siguiendo el
orden descendente de un parámetro apropiado. Dicho parámetro puede ser
cualquiera de los que aparecen a continuación:
§
la varianza (V) de cada columna de la matriz Bj;
§
el coeficiente de correlación al cuadrado (R2 ) entre cada columna de
la matriz Bj y cada columna de la matriz Y;
§
la covarianza al cuadrado (C 2 ) entre cada columna de la matriz Bj y
cada columna de la matriz Y.
5. De este modo, se obtienen n matrices Sj,i, una para cada variable de
respuesta individual, yi. Sin embargo, en el caso del ordenamiento
atendiendo al valor de V, todas las n matrices Sj,i para un nivel determinado
Capítulo IV
353
j son iguales, puesto que el cálculo de la varianza es independiente de las
distintas variables yi.
6. Finalmente, los coeficientes wavelet ordenados de cada matriz Sj,i pueden
seleccionarse
estableciendo
cierto
umbral
(threshold)
mediante
un
procedimiento basado en MLR o bien en PLS.
p
m
n
FWT
m
X
p’
Y
m
Bj
padding
j = 1, 2, ..., l
p’
n
V
p’
Sl,i
m
yn
m
y2
S2,i
y1
S1,i
l matrices para todas las variables yi
p’
Bl
MLR
n
m
PLS
B2
B1
1 matriz para cada nivel j
R2 ,C2
Sl,i
m
yn
m
y2
S2,i
S1,i
y1
l matrices para cada variable yi (*)
Figura IV.31.- Esquema del funcionamiento del algoritmo WILMA en las
etapas previas a la selección de los coeficientes wavelet.
Procedimiento basado en MLR
La selección de coeficientes wavelet siguiendo el procedimiento basado en MLR se
lleva a cabo de acuerdo con el esquema expuesto a continuación:
354
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
1. Se reduce el número de columnas de la matriz Sj,i mediante la eliminación
de todos aquellos coeficientes wavelet altamente correlacionados entre sí
(R2 > 0,9).
2. Posteriormente, se calcula un número q de modelos MLR (utilizando la
matriz pseudoinversa para resolver la ecuación de regresión), donde q es el
valor más pequeño entre el rango de la matriz Sj,i y un tercio del número de
objetos (m/3, evitando de este modo el overfitting): el primer modelo de
regresión se calcula entre la primera columna de la matriz Sj,i y la variable
yi; el segundo modelo de regresión se calcula empleando la primera y la
segunda columnas de la matriz Sj,i como variables descriptoras y así
sucesivamente, hasta que se hayan utilizado las primeras q columnas como
variables descriptoras.
3. Para cada modelo MLR, se calcula el correspondiente valor de PRESS
mediante la técnica de validación cruzada basada en el Leave-One-Out
(PRESSLOO),
quedando
retenidos
aquellos
coeficientes
wavelet,
ci,j,
correspondientes al modelo MLR con el mínimo valor de PRESSLOO, para
la variable de respuesta considerada yi, al nivel de descomposición dado j.
4. Seguidamente, para cada variable yi, se elige el nivel de descomposición
óptimo, L: aquel que posee el valor mínimo absoluto de PRESSLOO con
respecto a los otros niveles de descomposición.
5. Se
genera
la
correspondiente
matriz
de
los
coeficientes
wavelet
seleccionados, Wi.
Procedimiento basado en PLS
El procedimiento basado en PLS se implementó desarrollando las siguientes
operaciones sobre cada matriz Sj,i de coeficientes wavelet ordenados:
1. En el primer ciclo de cálculo, los p’ coeficientes wavelet son analizados con
un tamaño de paso SS = p’ / 20; esto es, se dividen en veinte intervalos de
igual longitud. Para cada número de paso 1 ≤ SN ≤ 20, se calcularon q
modelos PLS1 diferentes, cuyas dimensiones variaban entre 1 y q, usando
los coeficientes wavelet ordenados desde 1 hasta SN ·SS como variables
descriptoras. Al igual que antes, se fijó el máximo número de variables
latentes, q (para evitar sobreajuste), considerando el valor más bajo entre el
Capítulo IV
355
rango de la matriz de las variables descriptoras y un tercio del número de
objetos, m/3. Se almacenó el número (múltiplo de SS ) de los coeficientes
wavelet, Nmin , que dio el mínimo valor de PRESSLOO, junto con el número
correspondiente de variables latentes 1 ≤ qmin ≤ q, y se fijó un intervalo de
variables Nmin – SS ≤ x ≤ Nmin + SS . Luego, el valor SS se cambió ligeramente
mediante la adición de un número aleatorio, y se comprobó el nuevo valor
SS con el fin de que no fuese múltiplo o submúltiplo del anterior. A
continuación, usando este nuevo valor SS , se calculó un cierto número de
modelos PLS del modo descrito anteriormente y se obtuvieron valores
actualizados para Nmin y qmin , elegidos sobre la base de un nuevo valor de
PRESSLOO junto con los precedentes. El proceso se repitió al menos tres
veces (tres iteraciones, actualizando los valores Nmin , qmin y SS ). En caso de
que el nuevo Nmin no se incluyese dentro del intervalo de variables fijado
previamente, el procedimiento iterativo prosigue con la fijación de un nuevo
intervalo de variables y un nuevo valor de SS ; en cualquier otro caso, se
detiene.
2. El siguiente paso consiste en refinar la búsqueda mediante el cálculo de un
número [q·(2SS +1)] de modelos PLS1 (donde 2SS +1 es el número de
variables incluidas en el intervalo definido en la última iteración). Se
comienza usando todos los coeficientes wavelet ordenados desde 1 hasta
(Nmin - SS ) como variables descriptoras y se finaliza usando todos los
coeficientes desde 1 hasta (Nmin + SS ) como variables descriptoras, con un
incremento de 1. El número de coeficientes wavelet seleccionado y el
número correspondiente de variables latentes, para la matriz Sj,i considerada,
son, por tanto, los correspondientes al modelo PLS1 con el mínimo valor de
PRESSLOO.
Al igual que sucedía con el procedimiento basado en MLR, para cada variable yi, el
nivel de descomposición óptimo, L, será aquel que posea el valor mínimo absoluto de
PRESSLOO con respecto a los otros niveles de descomposición. A partir de él, se genera
también la matriz de los coeficientes wavelet seleccionados, Wi. Además, con este último
procedimiento basado en PLS, se emplearon datos centrados con respecto a la media o
autoescalados.
356
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
p’
n
Sl,1
m
m
y1
S2,1
S1,1
p’
n
(*)
R2 ,C2
Sl,2
m
m
y2
S2,2
S1,2
p’
n
Sl,n
m
m
yn
S2,n
S1,n
p’
n
MLR
PLS
Wn
m
yn
m
y2
W2
W1
y1
1 matriz de coeficientes para cada variable
Figura IV.32.- Esquema del funcionamiento del algoritmo WILMA en las
últimas etapas del mismo.
Capítulo IV
357
La idea de adoptar también este procedimiento de ordenamiento/selección en los
modelos de regresión PLS se basa en la consideración de que la eliminación de todos
aquellos coeficientes wavelet que no estén correlacionados con la variable de respuesta, o
que reflejen sólo una mínima cantidad de la varianza del bloque de la X, puede conducir a
modelos de regresión más estables, y a la larga permite obviar el uso de técnicas de
pretratamiento de señales, tales como corrección de línea base, SNV, MSC u OSC [265]
(ver también las citas indicadas en dicha referencia).
Con respecto al uso intensivo de la validación cruzada basada en el Leave-One-Out,
se sabe que este procedimiento puede conducir muy fácilmente a sobreajuste [311]. Con el
fin de dejar a un lado esta posibilidad, podrían desarrollarse dos alternativas:
§
un conjunto de validación aleatoria de Van der Voet [314] cada vez que un
coeficiente wavelet adicional (en el procedimiento basado en MLR) o variable
latente (en el procedimiento basado en PLS) se añada al cálculo del nuevo
modelo de regresión, o
§
podría adoptarse un grupo de validación cruzada.
En cualquier caso, como en WILMA se calcula un gran número de modelos de regresión,
la aplicación de alguna de estas técnicas implicaría un dramático incremento de esfuerzo
computacional.
Por tanto, para evitar el sobreajuste, una vez generada la matriz de los coeficientes
wavelet seleccionados, Wi, ya sea mediante el procedimiento basado en MLR o en PLS, el
correspondiente modelo de regresión puede validarse por medio de uno o más conjuntos de
muestras externos (en lo que respecta a la situación presente, lo que en epígrafes anteriores
se han denominado como conjuntos de validación interna y validación externa). Sea una
matriz compuesta por m’ señales de validación, cada una de ellas se descompone en el
dominio FWT hasta alcanzar el nivel de descomposición óptimo L, y luego los coeficientes
wavelet correspondientes a aquellos seleccionados previamente se utilizan como variables
descriptoras. La capacidad predictiva del modelo de regresión se evalúa posteriormente por
medio del parámetro SDEP: desviación estándar de los errores de predicción.
El algoritmo permite, además, evaluar el posible significado químico de la elección
de coeficientes llevada a cabo por el mismo. Para ello, representa, para cada variable yi, la
358
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
proyección de los coeficientes wavelet seleccionados de las matrices Wi, sobre el dominio
original (reconstruye las señales con los coeficientes wavelet). De este modo, se puede
observar qué parte de la señal es responsable de la calibración y permite obtener
información sobre las escalas a las que las características de interés son localizadas: formas
de la señal que contienen información relevante para predecir las variables yi. De la misma
forma, los coeficientes de regresión MLR y los coeficientes de pseudoregresión PLS
pueden también reconstruirse en el dominio original.
Obviamente, hay que tener en cuenta que las matrices Wi, de coeficientes wavelet,
pueden ser utilizadas como matrices de entrada de datos en otros modelos de calibración
externos, tales como: ANNs, GA, etc.
Como se ha enfatizado ya en epígrafes anteriores pertenecientes a este capítulo o a
capítulos precedentes, en la FWT, la aplicación de distintas funciones wavelet conduce a
diferentes descomposiciones de una señal en el dominio wavelet, tal que la elección de una
wavelet apropiada supone un punto crucial en el tratamiento. Una vez que se han calculado
los coeficientes wavelet, es posible entonces elegir entre tres criterios diferentes de
ordenamiento (V, R2 y C2 ). A renglón seguido, pueden emplearse dos métodos, basado en
MLR o bien basado en PLS, para la selección de los mismos. A partir de aquí, el algoritmo
WILMA realiza automáticamente y de un modo masivo la búsqueda de las condiciones
óptimas globales (parámetros citados anteriormente) para la calibración, puesto que la
elaboración de una estrategia para el estudio sistemático de la dependencia del desarrollo
de los modelos de regresión con respecto a dichos parámetros estuvo más allá del objetivo
de esta investigación.
Por otro lado, debe resaltarse que los factores a optimizar son todos de tipo
cualitativo: incluso es imposible considerar la longitud del filtro wavelet de un modo
independiente a la familia a la que pertenece la función wavelet implicada en la
descomposición. De este modo, no existe una aproximación basada en un diseño simple
que permita resolver el problema de la fuerte dependencia con respecto al conjunto de
datos.
Finalmente, es necesario mencionar que la velocidad de los microprocesadores
actuales posibilita en gran medida la obtención de los resultados completos para todas las
combinaciones de parámetros consideradas en un tiempo relativamente corto y sin ningún
Capítulo IV
359
tipo de supervisión por parte del usuario, exceptuando la evaluación de los resultados
finales. Es por ello que WILMA asigna todos los valores de interés para cada uno de los
parámetros considerados y los cálculos se repiten ciclo tras ciclo para todas las posibles
combinaciones de los mismos. En cada ciclo, la calidad del modelo de regresión
seleccionado como óptimo se evalúa por medio de los siguientes parámetros: R2 , R2 CV,LOO,
SDEC y, si se utiliza algún conjunto de validación, también el SDEP. Como puede
comprobarse, los parámetros de calidad son idénticos a los obtenidos con el método PLS
sin selección de caracteres (epígrafe anterior), para que los resultados obtenidos por ambos
procedimientos (WILMA y PLS) sean comparables. El origen de dichos parámetros se
encuentra en el algoritmo WILMA y no en el método PLS, aunque al inicio del epígrafe
parezca que se sugiere lo contrario.
Para terminar con la descripción del algoritmo, la siguiente figura representa un
esquema completo del proceso desarrollado por WILMA a modo de recopilación:
Figura IV.33.- Esquema recopilatorio del procedimiento desarrollado por
el algoritmo WILMA.
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
360
7.6. Discusión de los resultados obtenidos
En el presente epígrafe se resumen y discuten los resultados obtenidos tras la
aplicación de los métodos quimiométricos de calibración multivariante (PLS y algoritmo
WILMA)
sobre
los
voltamperogramas
de
las
muestras
previamente
tratados
(normalizados), con el fin de resolver las mezclas cuaternarias de los clorofenoles en sus
componentes individuales.
Resultados de la aplicación del método PLS sin selección de caracteres (PLS ssc)
Antes de dar a conocer los resultados obtenidos a raíz de la aplicación del método
PLS sin selección de caracteres (PLS ssc) como técnica de calibración multivariante, es
necesario hacer un pequeño resumen de todas las pruebas (13) que se han llevado a cabo
con el citado método:
§
Número de muestras: muestras con (471) y sin réplicas (157) e incluyendo o
no los voltamperogramas de los patrones puros de los analitos.
§
Distribución de las mezclas: originales, rand2 y rand3.
§
Técnica de pretratamiento: sin pretratamiento (NO), SNV, MSC y OSC.
§
Datos escalados: centrados con respecto a la media (m-c, mean centering) y
autoescalados (auto, autoscaling).
Hay que destacar que no se probaron todas las combinaciones posibles entre los
parámetros anteriores; no obstante, fueron utilizados todos en algún momento. Además, los
resultados para los datos autoescalados fueron, generalmente, un poco peores que los de
los datos centrados con respecto a la media. De ahí que la tabla que se presenta a
continuación, donde se resumen los resultados obtenidos con las mejores pruebas, sólo
muestre valores correspondientes a datos tratados con m-c:
Analito Normalización Distribución PC’s SDECtrn SDEPval SDEPtst
MF
NO
originales
9
0,0275
0,0688
0,0582
NO
rand3
10
0,0466
0,0577
0,0546
NO
rand3 + puros
9
0,0463
0,0593
0,0549
SNV
originales
9
0,0230
0,0830
0,0906
SNV
rand2
9
0,0304
0,0455
0,0385
Capítulo IV
361
Analito Normalización Distribución PC’s SDECtrn SDEPval SDEPtst
MF
SNV
rand3
8
0,0461
0,0597
0,0550
MSC
rand2
10
0,0271
0,0427
0,0402
OSC
originales
5
0,0297
0,0646
0,0580
OSC
rand2
7
0,0311
0,0460
0,0347
NO
originales
9
0,0342
0,2385
0,2808
NO
rand3
9
0,0496
0,0795
0,0766
rand3 + puros 14
0,0436
0,0737
0,0725
NO
CF
DCF
SNV
originales
11
0,0402
0,0430
0,0497
SNV
rand2
14
0,0241
0,0427
0,0543
SNV
rand3
11
0,0502
0,0669
0,0680
MSC
rand2
16
0,0167
0,0496
0,0545
OSC
originales
12
0,0172
0,0634
0,0701
OSC
rand2
8
0,0408
0,0361
0,0410
NO
originales
3
0,0613
0,0507
0,0557
NO
rand3
4
0,0574
0,0705
0,0541
NO
rand3 + puros
9
0,0565
0,0616
0,0450
SNV
originales
13
0,0280
0,0478
0,0463
SNV
rand2
12
0,0342
0,0489
0,0467
SNV
rand3
3
0,0611
0,0705
0,0480
MSC
rand2
11
0,0352
0,0511
0,0470
OSC
originales
8
0,0355
0,0532
0,0489
OSC
rand2
10
0,0281
0,0544
0,0421
NO
originales
5
0,0135
0,0343
0,0286
NO
rand3
10
0,0317
0,0473
0,0420
rand3 + puros 10
0,0308
0,0490
0,0431
NO
TCF
SNV
originales
10
0,0114
0,0108
0,0138
SNV
rand2
12
0,0098
0,0129
0,0178
SNV
rand3
10
0,0296
0,0478
0,0439
MSC
rand2
8
0,0131
0,0120
0,0120
OSC
originales
8
0,0070
0,0160
0,0142
OSC
rand2
9
0,0091
0,0102
0,0121
362
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
PC’s: número de componentes principales; SDEC & SDEP: desviación estándar de
los errores de cálculo (trn) y de predicción (val y tst), respectivamente.
Tabla IV.19.- Resultados obtenidos para las mejores pruebas con el
método de calibración multivariante PLS sin selección de caracteres.
En color rojo, aparecen resaltadas las pruebas correspondientes a los mejores
resultados (según los valores de SDEC y SDEP) para cada uno de los cuatro clorofenoles:
MF, CF, DCF y TCF. De la tabla anterior, pueden sacarse las siguientes conclusiones:
1. Las técnicas de normalización que parecen ofrecer mejores resultados son
SNV y OSC, aunque MSC proporciona también buenos resultados.
2. Para que se obtengan resultados aceptables, debe aplicarse algún proceso de
pretratamiento sobre los datos: cuando no se lleva a cabo una normalización
de los mismos, los valores de SDEC y SDEP son sensiblemente más altos
que cuando sí se realiza, sobre todo para los analitos CF y DCF.
3. Las distribuciones de muestras con las que funciona mejor el método PLS ssc
son la original y la rand2. Esto indica que las mezclas aparecen muy bien
representadas en todos los conjuntos de ambas distribuciones.
4. En general, la SNV funciona bien con los dos tipos de distribuciones,
mientras que la OSC lo hace mejor con la rand2. Esto puede deberse a que
la SNV es un tratamiento que no depende de ningún conjunto de muestras,
como es el caso de la OSC, donde se requiere un conjunto de entrenamiento
(normalmente, el de la distribución) sobre el que basar el proceso de
normalización. En pocas palabras, la normalización OSC depende bastante
del tipo de distribución, mientras que la SNV no se ve influenciada. En
términos de OSC, podría insinuarse que la distribución rand2 es mejor que
la original, puesto que el conjunto de entrenamiento de aquella parece
contener mezclas con un mayor grado de representatividad que el de esta
última.
5. La distribución rand3 no es particularmente buena en comparación con las
otras, ni siquiera cuando se adicionan las señales de los voltamperogramas
de los patrones puros. Sin embargo, a priori debería ser al contrario, puesto
que para la construcción de rand3, se hizo uso de todos los conjuntos de
muestras de la distribución original (con rand2 sólo se utilizaron trn y val;
tst permaneció inalterado), con lo cual se aumentaría la representatividad.
Capítulo IV
363
No obstante, hay que recordar la cuestión de la deriva vertical y el cambio
horizontal que se producía a partir de una mezcla determinada: el conjunto
tst de la distribución original debería verse más afectado por dichas
alteraciones que trn y val (al estar constituido por mezclas determinadas en
último lugar); por consiguiente, al mezclar los tres conjuntos para crear
rand3, se “contamina”, en cierto modo, de defectos los conjuntos de dicha
distribución.
6. En general, se obtuvieron predicciones muy satisfactorias para el TCF. Esto
es lógico, puesto que en la Figura IV.8 se observa que este analito es el que
aparece menos solapado con los demás (voltamperograma en color violeta).
Por lo tanto, es el que menos confusión debe presentar a la hora de ser
modelado por los modelos de regresión PLS ssc.
7. Para el MF, los resultados fueron sólo parcialmente buenos. Siguiendo con
la misma figura, éste presenta ya un buen grado de solapamiento con el
tercer analito: DCF.
8. Sin embargo, CF y DCF no fueron satisfactoriamente predichos, lo que era
de esperar. Hay que tener en cuenta que el pico voltamperométrico del CF
puro (Figura IV.8) se encuentra totalmente dentro del intervalo de
potenciales donde se localiza la intensidad máxima correspondiente al pico
del DCF puro. El solapamiento, en este caso, es total.
En el siguiente par de figuras se representan los gráficos de los residuos frente a los
valores experimentales de cada una de las variables para la prueba OSC con la distribución
de muestras rand2: en la Figura IV.34 pueden observarse los residuos de predicción para
las concentraciones de MF y CF, mientras que en la Figura IV.35 aparecen los
correspondientes a las predicciones de los analitos DCF y TCF:
364
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
A)
B)
Figura IV.34.- Gráfico de los residuos frente a las concentraciones
experimentales de: A) MF y B) CF, respectivamente, para el modelo de
calibración PLSssc / OSC / rand2 (basado en 7 y 8 coeficientes wavelet,
respectivamente): - - trn; - - val; - - tst.
Capítulo IV
365
A)
B)
Figura IV.35.- Gráfico de los residuos frente a las concentraciones
experimentales de: A) DCF y B) TCF, respectivamente, para el modelo de
calibración PLSssc / OSC / rand2 (basado en 10 y 9 coeficientes wavelet,
respectivamente): - - trn; - - val; - - tst.
En general, la tendencia observada en ambas figuras es satisfactoria, aunque los
valores de residuos son demasiado grandes en algunos casos, sobre todo para las
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
366
concentraciones más bajas. En términos numéricos, se calcularon los errores relativos (%)
promedio para todos los conjuntos de muestras, resultando los valores que se recogen en la
siguiente tabla:
MF
Error relativo
(%) trn
23,85
Error relativo
(%) val
29,60
Error relativo
(%) tst
26,76
Error relativo
(%) medio
26,73
CF
32,99
30,85
36,90
33,58
DCF
21,15
31,75
24,92
25,94
TCF
6,91
7,49
9,35
7,92
Analito
Tabla IV.20.- Errores relativos para cada conjunto de muestras obtenidos
a partir de las predicciones dadas por el modelo de calibración
multivariante PLSssc / OSC / rand2.
Considerando las figuras de los residuos al mismo tiempo, los valores numéricos
corroboran los resultados representados en las mismas: dispersión elevada de los residuos
para cada valor de concentración del intervalo, lo que se corresponde con errores relativos
un poco altos. Los valores más elevados se dan para el analito CF, lo que no es de extrañar
viendo la Figura IV.8: aparece totalmente solapado por el pico del DCF. Con respecto a
DCF y MF, los errores son ligeramente más pequeños (alrededor del 25 %). Finalmente, el
analito para el que se obtienen las mejores predicciones es el TCF, lo que era de esperar,
puesto que en la Figura IV.8 es el que aparece más alejado de todos. En la mejor situación
posible, los errores de todos los analitos deberían ser del mismo orden que para el TCF. La
razón estriba en el grado de solapamiento tan elevado que existe entre los otros
clorofenoles, a lo que hay que sumar el problema de la evolución del electrodo SonogelCarbono modificado con respecto al tiempo (conforme se va haciendo uso de él como
consecuencia de un cambio en la superficie del mismo): la deriva vertical que, aunque ha
sido corregida con técnicas de normalización, sus efectos parece que siguen dejándose
notar.
Globalmente, los resultados obtenidos a partir de la aplicación del método de
regresión por mínimos cuadrados sin selección de caracteres, con el fin de resolver las
mezclas cuaternarias de clorofenoles en sus componentes individuales, no fueron tan
buenos como se esperaba. Sin embargo, pudieron catalogarse como esperanzadores. Dicha
Capítulo IV
367
esperanza se puso, sobre todo, en el desarrollo del siguiente método de calibración
multivariante: el algoritmo WILMA.
Resultados de la aplicación del algoritmo WILMA
Al igual que con el método de calibración PLSssc, el algoritmo WILMA se aplicó
para la realización de numerosas pruebas (46) en las que se variaron todos los posibles
parámetros susceptibles de ser alterados. A continuación, se presenta un pequeño resumen
de los parámetros empleados:
§
Número de muestras: muestras con (471) y sin réplicas (157), incluyendo o
no los voltamperogramas de los patrones puros de los analitos e incluso
recortando las señales de los voltamperogramas: de 189 puntos a 82 puntos,
correspondiéndose con el intervalo de potenciales de 0,55 hasta 0,90 mV (zona
de los picos).
§
Distribución de las mezclas: originales, rand2, rand3 y OA.
§
Técnica de pretratamiento: sin pretratamiento (NO), LB, SNV, MSC y OSC.
§
Datos escalados: centrados con respecto a la media (m-c, mean centering) y
autoescalados (auto, autoscaling), sólo para el caso del PLS. En general, la
calibración haciendo uso de datos centrados con respecto a la media fue mejor
que con los datos autoescalados, tal y como sucedía con el método PLS ssc.
§
Criterios de padding: zero padding (zpd), symmetric padding (sym), smooth
padding de orden 0 y 1 (sp0 y spd, respectivamente) y periodic padding (ppd).
A raíz de los resultados obtenidos en el Capítulo III (epígrafe 7.3), el criterio de
padding mayormente utilizado fue el zpd, puesto que no había diferencias en
los resultados al pasar de uno a otro.
§
Criterios de ordenamiento: varianza (V), coeficiente de correlación al
cuadrado (R2 ) y covarianza al cuadrado (C 2 ).
§
Funciones wavelet: Daublets (db) 2, 4, 5, 6, 10 y 20; Symlets (sym) 4, 5 y 6;
Coiflets (coif) 1, 2, 3 y 5; Biortogonal inversa (rbio) 3.1; ésta última posee dos
filtros en vez de uno (uno para la aproximación y otro para el detalle), además,
el detalle se reconstruye con el filtro de la aproximación y viceversa.
§
Selección de coeficientes wavelet: generalmente se seleccionaron de forma
individual para cada variable, pero se hicieron algunas con una selección
global.
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
368
§
Técnicas de calibración multivariante: MLR y PLS.
De igual modo a como se trabajó con el método PLS ssc, tampoco se probaron todas las
combinaciones posibles entre los parámetros anteriores; no obstante, fueron utilizados
todos en algún momento. Las tablas que aparecen a continuación resumen los resultados
obtenidos con las mejores pruebas para cada una de las variables, siempre en el caso de
datos centrados con respecto a la media (en este caso, dado el enorme volumen de pruebas
realizado con el algoritmo WILMA, las conclusiones se ofrecen independientemente para
cada analito):
Analito Norm. Distribución
MF
Parámetros
SDECtrn SDEPval SDEPtst Coef.
rbio3.1 / zpd / C2 / PLS 0,0180
NO
originales
0,0775
0,0930
118
NO
rand2
db2 / zpd / V / MLR
0,0283
0,0421
0,0509
13
NO
rand3
coif3 / zpd / C2 / MLR
0,0512
0,0574
0,0551
6
LB
originales
coif3 / zpd / R2 / MLR
0,0246
0,0882
0,0877
17
LB
rand3
db4 / zpd / C2 / MLR
0,0503
0,0516
0,0504
10
MSC
rand3
db4 / zpd / V / PLS
0,0411
0,0585
0,0616
57
SNV
rand2
rbio3.1 / sp0 / R2 / MLR 0,0262
0,0399
0,0435
20
SNV
rand3
rbio3.1 / zpd / C2 / PLS 0,0483
0,0579
0,0536
12
SNV
rand3 + corte
0,0541
0,0678
0,0610
4
SNV
rand3 + puros rbio3.1 / zpd / C2 / PLS 0,0456
0,0579
0,0540
123
0,0031
0,0377
0,0933
51
sym4 / zpd / C2 / MLR 0,0291
0,0393
0,0355
12
SNV
OA9 (34 )
OSC
rand2
db4 / zpd / C2 / MLR
coif1 / zpd / V / PLS
Norm: tipo de técnica de normalización; distribución: tipo de distribución de los conjuntos
de muestras; SDEC & SDEP: desviación estándar de los errores de cálculo (trn) y de
predicción (val y tst), respectivamente; Coef: número de coeficientes wavelet seleccionado
por el modelo de regresión óptimo.
Tabla IV.21.- Resultados obtenidos de las mejores pruebas con el
algoritmo WILMA para el analito MF.
Las conclusiones que pueden extraerse de la tabla anterior con respecto a la
determinación del analito MF a partir de las mezclas cuaternarias son las siguientes:
1. Los peores resultados se obtuvieron utilizando la distribución original y la
ortogonal, con independencia de la técnica de normalización utilizada. La
primera adolecía de la deriva vertical sufrida por el electrodo (anteriormente
Capítulo IV
369
se intuyó que la técnica LB podría no ser tan buena como las otras como
consecuencia de la irreproducibilidad en el método de corrección de la línea
base), y a la segunda, le faltaba representatividad en el conjunto de
entrenamiento, al resultar demasiado pequeño (27 mezclas de entrenamiento
frente a 216 y 228 de validación interna y externa, respectivamente,
considerando las réplicas). Sin embargo, y como era de esperar, el peor
modelo con diferencia se correspondió con la distribución original cuando
no se aplicaba ninguna técnica de normalización.
2. Por otro lado, los mejores resultados se obtuvieron para la distribución
rand2, al igual que sucedió con el método PLS ssc, y utilizando al mismo
tiempo las técnicas de normalización SNV y OSC, aquellas que, en un
principio, se previeron que funcionarían mejor (ver Figuras IV.27 y IV.29).
El número de coeficientes wavelet pertenecientes a los modelos de
calibración óptimos (MLR, en ambos casos) no fue muy elevado, sino más
bien todo lo contrario.
3. En general, hay que resaltar que los modelos de calibración basados en
MLR dieron mejores resultados que los basados en PLS (en la tabla, sólo 5
de los 12 modelos son PLS). Es más, excepto en la SNV / rand3, el número
de coeficientes obtenido a partir de un modelo MLR es mucho más pequeño
que el de un modelo PLS (hasta seis veces más, comparando los casos más
extremos de uno y otro).
4. Como se ha comentado antes y al igual que sucedió con el método PLS ssc, la
distribución rand3 no funcionó como era de esperar, por los mismos
motivos ya expuestos. Ni siquiera adicionando los voltamperogramas de las
señales correspondientes a los patrones puros de los analitos al conjunto de
entrenamiento o recortando el número de objetos que componía cada
muestra (en un 43 %), se mejoró el desarrollo de los modelos de calibración,
ya fuera MLR o PLS, basados en dicha distribución.
5. Dejando a un lado las técnicas de normalización, la distribución que mostró
un mejor comportamiento fue rand2; por otro lado, sin considerar las
distribuciones, OSC y SNV fueron las técnicas de normalización que dieron
lugar a resultados más apetecibles.
6. Con respecto a los parámetros propios del algoritmo de calibración
WILMA:
370
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
§
el criterio de ordenamiento basado en la covarianza al cuadrado
parece ser más influyente (7 de 12 modelos) que la varianza (3) o el
coeficiente de correlación al cuadrado (sólo en 2 de los mejores
modelos de calibración);
§
en el caso del criterio de padding, en investigaciones anteriores se
había visto que la variación del mismo no ofrecía ninguna mejoría
en los resultados; por consiguiente, casi siempre se empleó zpd,
excepto en algunos casos, en los que se varió: por ejemplo, con el
modelo SNV / rand2, seleccionado como uno de los modelos
óptimos (dicho modelo pero con zpd como criterio de padding dio
resultados similares);
§
finalmente, la variación sistemática de la función wavelet no sirvió
para establecer ninguna preferencia por alguna familia en particular.
7. En resumen, y de forma muy similar a como sucedió con el método PLS ssc,
MF fue predicho bastante bien, con resultados también muy parecidos.
Analito Norm. Distribución
CF
Parámetros
SDECtrn SDEPval SDEPtst Coef.
NO
originales
db4 / zpd / C2 / MLR
0,0286
0,1339
0,1531
17
NO
rand2
coif3 / zpd / V / MLR
0,0448
0,0336
0,0553
16
2
NO
rand3
db2 / zpd / C / MLR
0,0481
0,0700
0,0724
10
LB
originales
sym6 / zpd / C2 / MLR
0,0275
0,0948
0,1777
20
LB
rand3
db4 / zpd / C2 / MLR
0,0513
0,0492
0,0633
11
MSC
rand3
rbio3.1 / zpd / V / PLS
0,0395
0,0723
0,0835
61
SNV
rand2
db4 / zpd / V / MLR
0,0458
0,0416
0,0503
15
SNV
rand3
sym6 / zpd / C2 / MLR
0,0482
0,0711
0,0792
13
SNV
rand3 + corte
db4 / zpd / C2 / MLR
0,0406
0,0759
0,0787
22
SNV
rand3 + puros rbio3.1 / zpd / C2 / PLS 0,0539
0,0690
0,0604
123
0,0140
0,0719
0,1593
66
rbio3.1 / zpd / R / MLR 0,0403
0,0539
0,0667
22
SNV
OSC
OA9 (34 )
rand2
db6 / zpd / V / PLS
2
Norm: tipo de técnica de normalización; distribución: tipo de distribución de los conjuntos
de muestras; SDEC & SDEP: desviación estándar de los errores de cálculo (trn) y de
predicción (val y tst), respectivamente; Coef: número de coeficientes wavelet seleccionado
por el modelo de regresión óptimo.
Capítulo IV
371
Tabla IV.22.- Resultados obtenidos de las mejores pruebas con el
algoritmo WILMA para el analito CF.
En este caso, las conclusiones que pueden extraerse con respecto a la determinación
del analito CF a partir de las mezclas cuaternarias son las siguientes:
1. Al igual que sucedía con el analito MF, los peores resultados se obtuvieron
con la distribución original y la ortogonal, con independencia de la técnica
de normalización utilizada.
2. Sin embargo, aunque los mejores resultados se obtuvieron también para la
distribución rand2, en combinación con la técnica de normalización SNV,
con este segundo analito se estableció una diferencia muy importante: el
modelo que empleaba las señales de rand2 sin normalizar se comportó de
manera muy notable, dando resultados similares a los de SNV. El número
de coeficientes wavelet de los modelos de calibración seleccionados como
óptimos (de nuevo MLR, en ambos casos) fue parecido a los de MF.
3. Por otro lado, los modelos de calibración multivariante basados en PLS
fueron claramente inferiores a los basados en MLR (3 de 12). El número de
coeficientes wavelet fue siempre muy superior al de los modelos MLR.
4. Con respecto a la distribución rand3, tampoco funcionó muy bien. Los
valores de SDEC y SDEP cuando se utilizó la MSC fueron también
intermedios, al igual que sucedió con MF. El modelo basado en OSC no fue
de los mejores, aunque sus resultados no estuvieron del todo mal.
5. A la hora de considerar los parámetros del algoritmo WILMA, hay que
destacar lo siguiente:
§
el criterio de ordenamiento C2 fue el que apareció en más modelos
(exactamente el mismo número que para MF); sin embargo, V
aumenta más su presencia a costa de R2 , que sólo aparece en uno;
§
igualmente, el criterio de padding empleado fue zpd;
§
el tipo de función wavelet presenta una mayor variabilidad en este
caso que en el del analito MF.
6. Finalmente y resumiendo, podría decirse que las predicciones para el analito
CF no fueron tan buenas como se esperaba con el método del algoritmo
372
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
WILMA, puesto que observando las dos tablas anteriores se desprende que
el método PLS ssc funciona mejor en este sentido, sobre todo para el conjunto
de validación externa (los correspondientes a los otros dos conjuntos son
más parecidos). Lo que sí es cierto es que el CF presenta en general valores
de SDEC y SDEP más altos que el MF.
Analito Norm. Distribución
DCF
Parámetros
SDECtrn SDEPval SDEPtst Coef.
NO
originales
db4 / zpd / C2 / MLR
0,0283
0,1089
0,1121
18
NO
rand2
coif1 / zpd / C2 / MLR
0,0347
0,0490
0,0503
18
NO
rand3
coif1 / zpd / C2 / MLR
0,0458
0,0520
0,0464
11
LB
originales
coif3 / zpd / R2 / MLR
0,0289
0,0570
0,0731
25
LB
rand3
db4 / zpd / C2 / MLR
0,0470
0,0691
0,0641
17
MSC
rand3
db2 / zpd / V / PLS
0,0479
0,0604
0,0598
48
SNV
rand2
coif1 / zpd / V / MLR
0,0327
0,0481
0,0411
21
SNV
rand3
db4 / zpd / C2 / MLR
0,0451
0,0583
0,0596
15
SNV
rand3 + corte
db4 / zpd / C2 / MLR
0,0563
0,0691
0,0535
7
SNV
rand3 + puros rbio3.1 / zpd / C2 / PLS 0,0557
0,0651
0,0421
123
0,0127
0,0669
0,1096
52
rbio3.1 / zpd / R2 / MLR 0,0388
0,0568
0,0573
24
SNV
OA9 (34 )
OSC
rand2
db4 / zpd / C2 / PLS
Norm: tipo de técnica de normalización; distribución: tipo de distribución de los conjuntos
de muestras; SDEC & SDEP: desviación estándar de los errores de cálculo (trn) y de
predicción (val y tst), respectivamente; Coef: número de coeficientes wavelet seleccionado
por el modelo de regresión óptimo.
Tabla IV.23.- Resultados obtenidos de las mejores pruebas con el
algoritmo WILMA para el analito DCF.
Las conclusiones que pueden extraerse con respecto a la determinación del tercer
analito, DCF, a partir de las mezclas cuaternarias se recogen a continuación:
1. De nuevo, los peores resultados coincidieron con los obtenidos para los dos
analitos
precedentes:
modelos
con
distribución
original
y
ortogonal,
independientemente de la técnica de normalización empleada.
2. Al igual que con el CF, los mejores resultados se obtuvieron para la
distribución rand2 y para los modelos que utilizaban los voltamperogramas
de las señales sin normalizar, en combinación con la técnica de
Capítulo IV
373
normalización SNV. Los coeficientes wavelet de los modelos óptimos (otra
vez MLR) fueron también del mismo orden que en casos anteriores.
3. Para el caso del analito DCF, los modelos seleccionados como los mejores
sólo incluyeron 3 basados en PLS, de manera similar a como sucedía con el
clorofenol CF. El número de coeficientes wavelet de dichos modelos fue
también muy elevado.
4. Sin embargo, en este caso, la distribución rand3 no funcionó tan mal como
en las otras dos situaciones anteriores: es más, el modelo en cuestión, donde
no se emplea ninguna técnica de pretratamiento previo, podría catalogarse
como bueno, aunque los valores de SDEC y SDEP, más altos que los de los
modelos seleccionados como óptimos, hicieron que no fuese elegido como
tal. Los correspondientes valores de los dos parámetros para la MSC fueron
también intermedios, al igual que antes. Y, de nuevo, la OSC no funcionó
también como con el analito MF.
5. Con respecto a los parámetros de WILMA, baste decir que el mejor criterio
de ordenamiento fue también C2 , que el criterio de padding utilizado fue
zpd, como en casi todas las pruebas, y que las dos funciones wavelet más
destacadas fueron rbio3.1 y db4, aunque la variabilidad de las mismas en los
modelos sea también patente con este tercer clorofenol.
6. En último lugar, y de igual modo que el CF, las predicciones para DCF no
fueron las esperadas. No obstante, sí que fueron muy parecidas a las
realizadas por el método PLS ssc, siendo el DCF el único clorofenol hasta
ahora que ha sido predicho de manera muy similar por los dos métodos de
calibración multivariante aplicados. También hay que destacar que los
valores de SDEC y SDEP son del mismo orden que los de CF y, por lo
tanto, superiores a los de MF. Esto es lógico, puesto que como se ha
comentado con anterioridad (ver Figura IV.8), CF y DCF son los analitos
que presentan un solapamiento más acusado, estando la señal de CF por
debajo siempre de la de DCF. En cambio, MF aparece un poco más
separado de DCF, aunque todavía bastante solapado con él.
374
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
Analito Norm. Distribución
TCF
Parámetros
SDECtrn SDEPval SDEPtst Coef.
NO
originales
db4 / zpd / C2 / PLS
0,0052
0,0964
0,0989
73
NO
rand2
db10 / zpd / C2 / MLR
0,0107
0,0106
0,0138
15
NO
rand3
rbio3.1 / zpd / R2 / MLR 0,0348
0,0427
0,0451
8
LB
originales
sym6 / zpd / C2 / MLR
0,0069
0,0433
0,0757
10
LB
rand3
db4 / zpd / C2 / MLR
0,0363
0,0268
0,0247
7
MSC
rand3
rbio3.1 / zpd / C2 / MLR 0,0313
0,0461
0,0387
13
SNV
rand2
db2 / zpd / C2 / MLR
0,0121
0,0104
0,0131
12
SNV
rand3
db4 / zpd / C2 / MLR
0,0325
0,0449
0,0435
9
SNV
rand3 + corte
db4 / zpd / C2 / MLR
0,0311
0,0467
0,0388
12
SNV
rand3 + puros
db4 / zpd / C2 / PLS
0,0306
0,0466
0,0490
127
SNV
OA9 (34 )
db6 / zpd / R2 / PLS
0,0053
0,0093
0,0751
12
OSC
rand2
sym6 / zpd / R2 / MLR
0,0102
0,0129
0,0165
19
Norm: tipo de técnica de normalización; distribución: tipo de distribución de los conjuntos
de muestras; SDEC & SDEP: desviación estándar de los errores de cálculo (trn) y de
predicción (val y tst), respectivamente; Coef: número de coeficientes wavelet seleccionado
por el modelo de regresión óptimo.
Tabla IV.24.- Resultados obtenidos de las mejores pruebas con el
algoritmo WILMA para el analito TCF.
En cuarto y último lugar, a continuación se presentan las conclusiones que pueden
extraerse con respecto a la determinación del tercer analito, TCF, a partir de las mezclas
cuaternarias:
1. Se repite la misma tónica expuesta anteriormente con respecto a los peores
modelos de calibración multivariante obtenidos: la combinación de la
distribución original u ortogonal con cualquier técnica de normalización
parece no funcionar de manera exitosa.
2. En relación con los mejores resultados, se repite la misma situación que con
CF y DCF: la distribución rand2 para las señales sin normalizar o en
combinación con la técnica de normalización SNV fue la que mejor llevó a
cabo su cometido. Los modelos se basaron también en MLR con no muchos
coeficientes wavelet.
3. Los modelos basados en PLS estuvieron casi fuera de lugar, como ha venido
sucediendo hasta ahora, haciendo uso de un elevado número de coeficientes,
Capítulo IV
375
excepto en el caso del modelo basado en una distribución ortogonal, donde
tan sólo fueron seleccionados 12 coeficientes.
4. La distribución rand3 siguió dando resultados intermedios, al igual que el
modelo basado en el MSC. No obstante, la OSC hizo un buen papel con el
TCF: el modelo basado en rand2 resultó ser bastante bueno, aunque con un
valor de SDEP para el conjunto de validación externa ligeramente más alto
de los obtenidos con los modelos de calibración óptimos.
5. En lo tocante a los parámetros del algoritmo: de nuevo los modelos mejores
se basan más en C2 como criterio de ordenamiento que en R2 o en V; es
más, éste último, desaparece; el criterio de padding fue de nuevo zpd; y,
finalmente, las dos funciones wavelet más destacadas fueron rbio3.1 y db4,
aunque la variabilidad de las mismas en los modelos sea también patente
con TCF, del mismo modo que sucedía con DCF.
6. El TCF, por encontrarse su señal más separada de las otras (ver Figura
IV.8), se predice mejor que cualquiera de los restantes analitos. Los valores
de SDEC y SDEP corroboran en buena medida esta afirmación. Además
fueron también muy similares a los obtenidos con el método PLSssc, siendo
muy inferiores a los obtenidos para los otros tres clorofenoles.
De igual modo que se hizo con uno de los mejores modelos de calibración
multivariante obtenido con el método PLS ssc, se calcularon los residuos para cada variable
y se representaron frente a los valores de concentración de cada analito, obteniéndose
figuras (que no incluiremos aquí) muy semejantes a las Figuras IV.34 y IV.35. También
ocurre que los valores de residuos son demasiado grandes en algunos casos, sobre todo
para las concentraciones más bajas. En términos numéricos, la siguiente tabla presenta los
errores relativos (%) promedio para todos los conjuntos de muestras:
MF
Error relativo
(%) trn
18,37
Error relativo
(%) val
23,59
Error relativo
(%) tst
30,99
Error relativo
(%) medio
24,31
CF
39,03
35,17
34,55
36,25
DCF
23,03
30,59
24,12
25,91
TCF
9,26
8,68
9,44
9,13
Analito
376
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
Tabla IV.25.- Errores relativos para cada conjunto de muestras obtenidos
a partir de las predicciones dadas por el modelo de calibración
multivariante MLR / SNV / rand2, basado en el algoritmo WILMA.
Los valores numéricos corroboran también los resultados de las figuras: dispersión
elevada de los residuos para cada valor de concentración del intervalo, lo que se
corresponde con errores relativos un poco altos. Los valores de los porcentajes de error son
muy parecidos a los obtenidos con el método PLS ssc, aunque aumentan un poco (1 – 3 %)
para CF y TCF, mientras que para MF disminuye y para DCF se mantiene. Los valores
más elevados se siguen dando para el analito CF; con respecto a DCF y MF, los errores son
ligeramente más pequeños; y, finalmente, TCF es el analito mejor predicho. Parece ser que
los mismos problemas que existían con el método PLS ssc siguen manteniéndose cuando se
aplica el algoritmo WILMA: el fenómeno de la deriva vertical introducido por el electrodo
y que constituye el principal problema que presentan las señales de partida.
En general, una vez vistos los resultados individuales de la aplicación del método
de calibración multivariante basado en el algoritmo WILMA, pueden obtenerse las
siguientes conclusiones globales:
1. Ni el tipo de función wavelet, ni el criterio de padding influyen mucho a la
hora de obtener un modelo con buenas capacidades predictivas, afirmación
que se ha visto corroborada en investigaciones anteriores [267,521].
2. El criterio de ordenamiento, no obstante, sí parece afectar en cierta medida,
siendo la covarianza al cuadrado (C 2 ) la que permite desarrollar un mejor
proceso de calibración. Por el contrario, el coeficiente de regresión al
cuadrado (R2 ) presenta los peores resultados.
3. Exceptuando el analito MF, la aplicación de una técnica de normalización
como paso previo al proceso de calibración multivariante parece que no es
necesaria cuando se utiliza el algoritmo WILMA, puesto que se han
seleccionado como óptimos modelos que obviaban dicho preprocesamiento:
en principio, parece que el proceso de selección de caracteres evita el
pretratamiento de los datos.
4. Los conjuntos de muestras pertenecientes a la distribución rand2 vuelven a
ser los más representativos de todos, como sucedía con el método PLS ssc.
Capítulo IV
377
5. Igualmente, las predicciones para MF y TCF podrían considerarse como
buenas, sobre todo las de TCF, mientras que con CF y DCF el algoritmo se
comportó de peor forma.
6. En general, y para terminar con las conclusiones, podría decirse que el
método del algoritmo WILMA no es muy diferente del de PLSssc: se
obtienen resultados similares con modelos de características análogas,
aunque la ventaja que presenta el primero es la de que parece no requerir un
preprocesamiento previo de los datos de partida.
Hasta aquí se recoge todo lo relacionado con la aplicación del método de
calibración multivariante basado en el algoritmo WILMA. No obstante, una vez visto que
tanto éste método como el de PLS ssc daban resultados similares, cuya calidad aparecía
enturbiada por un problema achacable a la deriva vertical, producida como consecuencia
de un proceso de evolución experimentado por el electrodo Sonogel-Carbono modificado,
durante el proceso de determinación de las señales de las mezclas cuaternarias de
clorofenoles, se decidió ir más allá para solventar dicho problema. Y es aquí donde entra
en juego la transferencia de calibración.
Procedimiento de transferencia de calibración (CT)
Como consecuencia de la deriva vertical debida a una variabilidad en el proceso de
medida, fenómeno que podría considerarse como intrínseco al electrodo Sonogel-Carbono,
se pensó en desarrollar un procedimiento de transferencia de calibración con el fin de
solventar dicho problema y mejorar los resultados obtenidos hasta ahora.
El punto de partida de esta idea fue el gráfico de los scores para las dos primeras
componentes principales obtenido a partir del PCA sobre los voltamperogramas de las
mezclas (ver Figura IV.20). En dicha figura, se identificaron dos grupos de mezclas
claramente diferenciados: el primero, constituido por las primeras 73 mezclas y el segundo,
por las restantes. La aplicación de la técnica PCA en la matriz formada por las 157 mezclas
corroboró la existencia de dicha variabilidad entre las mezclas, dependiendo del tiempo en
el que fueron medidas cada una de ellas. Así, en la siguiente figura, se recoge de nuevo el
gráfico de los scores de la Figura IV.20, indicándose de manera aproximada el orden de
medida de las señales correspondientes a los voltamperogramas de las mezclas
cuaternarias:
378
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
A
B
Figura IV.36.- Gráfico de los scores para las dos primeras componentes
principales obtenido a partir del PCA sobre los voltamperogramas de las
mezclas: la flecha indica el orden de medida de las muestras, mientras que
los colores rojo y azul los grupos A) y B), respectivamente, en los que
pueden agruparse.
Los dos grupos de muestras aparecen en diferentes colores: mezclas 1 a 73 y mezclas 74 a
157. El orden de medida fue desde la esquina inferior izquierda hasta la esquina superior
derecha, según indica la flecha.
A la vista de los resultados, se pensó llevar a cabo un procedimiento de
transferencia de calibración (CT). Normalmente, dicho procedimiento se utiliza en
espectroscopía cuando se desea llevar a cabo una calibración multivariante haciendo uso de
conjuntos de muestras que han sido determinados por medio de diferentes aparatos de
medida (puesto que no hay dos aparatos iguales), con el fin de no tener que rehacer de
nuevo toda la fase de calibración y poder emplear los modelos obtenidos en
investigaciones anteriores. Para más información, ver Capítulo I, epígrafe 8.4, así como las
referencias allí comentadas. En la presente situación, se pensó que la variabilidad existente
Capítulo IV
379
a lo largo de la determinación de las mezclas, que hacía que éstas se dividiesen claramente
en dos grupos, podía ser equivalente a como si se hubiesen medido dos grupos de mezclas
del mismo sistema pero con dos electrodos Sonogel-Carbono modificados diferentes (se
asemejó
el
sistema
de
dos
electrodos
al
sistema
constituido
por
los
dos
espectrofotómetros).
El procedimiento de transferencia de calibración empleado en este capítulo está
basado en la técnica de normalización OSC [325] y su esquema es el siguiente:
Grupo A
de mezclas
Grupo B
de mezclas
mncn
Cálculo de modelos PLS
para cada variable yi
Construcción de la matriz de
transferencia de calibración
mncn
Cálculo de la OSC basado en
los subgrupos seleccionados
Representación de los ajustes
de cada modelo PLS
Aplicación del modelo CTOSC al resto de mezclas
Selección de la matriz pseudo
inversa de cada modelo PLS
Selección de subgrupos para
ambos grupos de muestras
Desarrollo de nue vos modelos de
calibración multivariante
basados en el algoritmo WILMA
Figura IV.37.- Esquema del procedimiento de transferencia de calibración
basado en la técnica de normalización OSC (CT-OSC): mncn (mean
centering).
La explicación de dicho proceso es la siguiente:
1. Una vez seleccionados los grupos de muestras (centradas con respecto a la
media): las primeras 73 muestras (pertenecientes al grupo de 81 mezclas) y
380
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
las 84 mezclas restantes (las 8 últimas pertenecientes al grupo de 81 + grupo
de 16 + grupo de 60), se calcularon modelos PLS para cada variable yi, las
cuales se corresponden con las concentraciones de cada uno de los analitos
individuales, eligiendo con cuidado el número de variables latentes.
2. Se representaron las predicciones de cada modelo frente a los valores reales
de concentración.
3. Dentro de cada grupo y para cada variable, se seleccionó un subgrupo de
señales, constituidos por 12 señales cada uno (96 en total, incluyendo
repeticiones), que poseían una mayor influencia en el modelo: para ello se
requirió la matriz pseudoinversa del correspondiente modelo PLS.
4. El conjunto de muestras más representativas para cada variable en ambos
grupos (53 en total, una vez eliminadas las muestras repetidas) se empleó
como base para aplicar la técnica de normalización basada en la Orthogonal
Signal Correction, la cual eliminó aquellas componentes ortogonales con las
variables de respuesta que no eran debidas a la información principal
contenida en la matriz de las señales de las mezclas; el proceso se realizó en
un número fijo de iteraciones (20), para un intervalo de confianza dado (96
%) y normalizando con respecto a las cuatro variables al mismo tiempo.
5. El modelo de normalización OSC se extendió al resto de las señales (133).
6. Posteriormente, se tomó la matriz de datos con la transferencia de
calibración ya aplicada mediante la técnica OSC y se utilizó como entrada al
método de calibración multivariante basado en el algoritmo WILMA.
En resumen, tomando de cada grupo definido de señales aquellas que son más
representativas del global de las muestras, aplicando después la normalización OSC sobre
las mismas y, por último, extendiendo dicho modelo al resto de señales, se esperó corregir
el fenómeno de deriva vertical sufrido por el electrodo Sonogel-Carbono modificado. De
este modo, tras la calibración con WILMA se intentó mejorar los resultados obtenidos
hasta ahora.
En la anterior Figura IV.29, se representaron todas las señales de los
voltamperogramas de las mezclas corregidas mediante el procedimiento anterior de
transferencia de calibración basado en la OSC (CT-OSC). Como se comentó en su
momento, dicha corrección fue una de las mejores aplicadas sobre el conjunto de datos,
Capítulo IV
381
perteneciente a la distribución original, formado por las mezclas cuaternarias de
clorofenoles.
A continuación se muestra el gráfico de los scores para las dos primeras
componentes tras la aplicación de un análisis de componentes principales sobre la
distribución original de las señales, una vez finalizado el procedimiento CT-OSC:
Figura IV.38.- Gráfico de los scores para las dos primeras componentes
principales obtenido a partir del PCA sobre los voltamperogramas de las
mezclas después del procedimiento CT-OSC (2 grupos): los puntos de
color rojo se corresponden con muestras pertenecientes al grupo A y los
azules a los de B.
Como puede observarse en la Figura IV.38, los dos grupos de señales que aparecían
antes separados se encuentran ahora completamente intermezclados. En principio, parece
que la variabilidad entre las señales se ha corregido, aunque los resultados de los modelos
de calibración obtenidos a partir de WILMA tienen la última palabra.
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
382
Antes de ofrecer los mejores resultados obtenidos con el procedimiento CT-OSC,
hay que resaltar varios puntos:
§
la normalización OSC se realizó siempre teniendo en cuenta las cuatro
variables de respuesta, yi, al mismo tiempo, puesto que al hacerlo
individualmente para cada una de ellas, se obtuvieron resultados similares;
§
el procedimiento CT-OSC también fue aplicado sobre la distribución rand2,
pero los resultados obtenidos fueron tan similares a los de la distribución
original que no se hicieron más pruebas con rand2;
§
los resultados que aparecen en la Tabla IV.19 correspondientes a los modelos
PLSssc / OSC, fueron obtenidos gracias a la aplicación de CT-OSC; así se
explica la bondad de dichos resultados y que, en algunos casos, fuesen
similares o incluso mejores a los obtenidos con el algoritmo WILMA.
Una vez hechas estas aclaraciones, se presentan los mejores resultados para cada
uno de los analitos tras la aplicación del procedimiento CT-OSC:
Analito
Norm.
Distribución
Parámetros
MF
CT-OSC
originales
sym4 / zpd / R2 / MLR 0,0284 0,0524 0,0497
12
MF CT-OSC + corte
originales
sym4 / zpd / R2 / MLR 0,0272 0,0548 0,0585
15
CF
CT-OSC
originales
CF
CT-OSC + corte
originales
DCF
CT-OSC
originales
db6 / zpd / V / PLS
0,0361 0,0520 0,0443
19
DCF
CT-OSC
originales
db4 / sym / V / MLR
0,0367 0,0512 0,0453
11
coif3 / zpd / R2 / MLR 0,0359 0,0672 0,0737
19
sym6 / zpd / V / PLS
SDECtrn SDEPval SDEPtst Coef.
0,0406 0,0443 0,0443
36
coif3 / zpd / C2 / MLR 0,0444 0,0414 0,0406
14
DCF CT-OSC + corte
originales
TCF
originales
db2 / sp0 / V / MLR
0,0079 0,0154 0,0125
8
originales
db4 / zpd / V / MLR
0,0087 0,0171 0,0160
15
CT-OSC
TCF CT-OSC + corte
Norm: tipo de técnica de normalización; distribución: tipo de distribución de los conjuntos
de muestras; SDEC & SDEP: desviación estándar de los errores de cálculo (trn) y de
predicción (val y tst), respectivamente; Coef: número de coeficientes wavelet seleccionado
por el modelo de regresión óptimo.
Tabla IV.26.- Resultados obtenidos de las mejores pruebas con el
algoritmo WILMA tras la aplicación del procedimiento CT-OSC basado
en 2 grupos de muestras.
Capítulo IV
383
Como puede observarse, los resultados obtenidos son muy parecidos a los
anteriores del método PLS ssc y WILMA. No obstante, existen algunas diferencias que se
comentan a continuación:
1. Las pruebas se llevaron cabo tanto para las señales completas como
recortadas, tal como se aprecia en la tabla anterior. Sin embargo, los
resultados con las mezclas recortadas fueron siempre un poco peores que
con las mezclas completas; sólo en el caso del CF se obtuvo cierta mejoría
en los valores de SDEP para los conjuntos de validación interna y externa,
aunque no mucha. Con respecto al número de coeficientes seleccionado por
los modelos de calibración con WILMA, era de esperar que aumentasen
cuando se emplearon las señales recortadas (a menor número de puntos en
las señales de partida, lo lógico es que aumente el número de coeficientes,
puesto que se dispone de menor cantidad de información en la señal
recortada), aunque sorprendentemente disminuyó para el analito CF. Sin
embargo, esto se debió a que con las señales completas el modelo elegido
como óptimo se basaba en PLS, mientras que con las señales recortadas se
basaba en MLR.
2. En general, los resultados obtenidos con CT-OSC fueron similares a los del
método PLS ssc, mejorando un poco los de WILMA excepto para el analito
MF. El número de coeficientes wavelet seleccionado en los modelos de
calibración multivariante también se disminuyó en casi todos los casos: el
modelo sym6 / zpd / V / PLS para CF, por el contrario, aumentó, como
consecuencia de estar basado en PLS.
3. Un aspecto que resalta por sí solo es que los valores de SDEC y SDEP para
los tres primeros analitos se parecieron más tras aplicar el procedimiento
CT-OSC que con el resto de los métodos: antes dichos valores variaban en
orden ascendente de la siguiente manera TCF < MF < DCF < CF, mientras
que ahora casi no existe tal orden TCF < MF
DCF
CF.
4. Si los resultados fueron parecidos, los residuos también. Los gráficos de
representación de los residuos frente a las concentraciones de cada uno de
los analitos fueron similares a las Figuras IV.34 y IV.35. Tras observar los
gráficos de los residuos, ni siquiera eliminando de la matriz de las señales
de partida aquellas mezclas consideradas como outliers (las que poseían los
384
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
residuos más elevados), se obtuvo mejoría alguna, como muestra la
siguiente tabla:
Analito
Norm.
Distribución
Parámetros
SDECtrn SDEPval SDEPtst Coef.
MF
CT-OSC
originales
db6 / zpd / V / MLR
0,0224
0,0610
0,0505
10
CF
CT-OSC
originales
sym4 / zpd / V / PLS
0,0335
0,0518
0,0490
33
DCF
CT-OSC
originales
db2 / zpd / R2 / PLS
0,0359
0,0485
0,0495
50
TCF
CT-OSC
originales
db5 / zpd / C2 / MLR
0,0065
0,0148
0,0118
17
Norm: tipo de técnica de normalización; distribución: tipo de distribución de los conjuntos
de muestras; SDEC & SDEP: desviación estándar de los errores de cálculo (trn) y de
predicción (val y tst), respectivamente; Coef: número de coeficientes wavelet seleccionado
por el modelo de regresión óptimo.
Tabla IV.27.- Resultados obtenidos con el algoritmo WILMA tras la
eliminación de ocho señales outliers y la posterior aplicación del
procedimiento CT-OSC basado en 2 grupos de muestras.
Los valores de SDEP son más elevados, exceptuando el caso del analito
TCF; de igual modo, el número de coeficientes wavelet óptimos también
aumentó, incluso con el analito citado anteriormente.
5. Los modelos seleccionados como óptimos basados en MLR continuaron
siendo más abundantes que los basados en PLS, aunque en el caso de las
señales completas, los modelos de calibración para CF y DCF óptimos
fueron PLS.
6. Por último, en relación con los parámetros propios del algoritmo WILMA,
hay que subrayar los siguientes aspectos: el criterio de padding fue siempre
zpd, excepto en algunos casos donde se probaron algunos de los otros,
coincidiendo que sus correspondientes modelos fueron seleccionados como
óptimos; existió una mayor variabilidad en el criterio de ordenamiento de
los coeficientes wavelet, apareciendo mejores modelos basados en R2 y V
(C 2 aparece incluso con menos frecuencia); finalmente, tampoco puede
decirse que una función wavelet se comportase mejor que otra.
7. Los errores relativos calculados para cada conjunto de muestras y para cada
analito (procedimiento CT-OSC sin eliminar señales consideradas como
outliers) son los siguientes:
Capítulo IV
385
MF
Error relativo
(%) trn
22,45
Error relativo
(%) val
26,00
Error relativo
(%) tst
36,14
Error relativo
(%) medio
28,20
CF
34,82
33,83
41,43
36,69
DCF
34,34
33,23
28,55
32,04
TCF
6,37
7,10
9,69
7,72
Analito
Tabla IV.28.- Errores relativos para cada conjunto de muestras obtenidos
a partir de las predicciones dadas por los modelos de calibración
multivariante basados en el algoritmo WILMA tras el proceso CT-OSC (2
grupos): sym4 / zpd / R2 / MLR, sym6 / zpd / V / PLS, db4 / sym / V /
MLR y db2 / sp0 / V / MLR para MF, CF, DCF y TCF, respectivamente.
Los porcentajes de error relativo también son muy parecidos a los obtenidos
con el método PLS ssc y el algoritmo WILMA sin transferencia de
calibración. Hay que decir que excepto en el caso del TCF, cuyo error
relativo disminuye, todos los valores correspondientes a cada uno de los
analitos aumentan un poco y, el que más, el del DCF.
A la vista de los resultados anteriores, se realizó un nuevo intento para afinar aún
más el procedimiento CT-OSC. Para ello, a partir del gráfico de los scores para las dos
primeras componentes principales del PCA sobre las señales de partida se pensó en
aumentar el número de grupos de muestras, desde 2 (A y B) hasta 9 (A a I). La distribución
de los grupos se realizó teniendo en cuenta donde se situaban las señales con errores
relativos más altos, según la variable, apareciendo representada en la Figura IV.39. Dicha
distribución es la siguiente:
§
Grupo A: 10 señales (Ž).
§
Grupo B: 15 señales (Ž).
§
Grupo C: 24 señales (Ž).
§
Grupo D: 24 señales (Ž).
§
Grupo E: 8 señales (Ž).
§
Grupo F: 12 señales (Ž).
§
Grupo G: 6 señales (•).
§
Grupo H: 25 señales (–).
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
386
§
Grupo I: 33 señales (•).
D
I
C
A
B
H
E
G
F
Figura IV.39.- Gráfico de los scores para las dos primeras componentes
principales obtenido a partir del PCA sobre los voltamperogramas de las
mezclas (9 grupos desde A hasta I): los colores indican los diferentes
grupos de muestras seleccionados.
El número de muestras seleccionado dentro de cada uno de los 9 grupos para cada
modelo PLS y para cada variable yi fue el que se recoge a continuación:
§
8 señales para los grupos más numerosos: C, D, H e I, con más de 20 señales;
§
4 para el resto de los casos: A, B, E y F;
§
3 señales para G, puesto que está constituido por 6 muestras.
En total, 204 señales, incluyendo repeticiones, puesto que la selección se realizó para cada
variable dentro de cada grupo. Finalmente, el número de muestras elegido por el
procedimiento CT-OSC como las más representativas, sobre el que se basó la
normalización OSC, que luego sería aplicada al resto de señales de la matriz constituida
Capítulo IV
387
por la distribución original, fue de 92. Dicha cifra era un poco elevada, puesto que se
seleccionaba más del 50 % de las mezclas como las más representativas de un global de
157 señales. Por otro lado, las señales normalizadas ofrecieron una representación parecida
a la de la Figura IV.29; al igual que la representación de los scores, correspondientes a las
dos primeras componentes principales del PCA desarrollado sobre la matriz original, una
vez finalizado el proceso CT-OSC, se asemejó a la de la Figura IV.38, pero en este caso
con 9 grupos intermezclados en vez de 2:
Figura IV.40.- Gráfico de los scores para las dos primeras componentes
principales obtenido a partir del PCA sobre los voltamperogramas de las
mezclas después del procedimiento CT-OSC (9 grupos): cada símbolo a
color hace referencia a un grupo de muestras.
Una vez finalizado el procedimiento CT-OSC basado en 9 grupos, se obtuvieron los
valores de SDEC y SDEP de cada conjunto de muestras, para cada variable yi, tanto por el
método PLS ssc como por el algoritmo WILMA:
388
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
Analito Normalización Distribución PC’s SDECtrn SDEPval SDEPtst
MF
CT-OSC
originales
11
0,0105
0,0719
0,0767
CF
CT-OSC
originales
13
0,0132
0,0641
0,0703
DCF
CT-OSC
originales
8
0,0342
0,0587
0,0503
TCF
CT-OSC
originales
8
0,0072
0,0155
0,0148
PC’s: número de componentes principales; SDEC & SDEP: desviación estándar de
los errores de cálculo (trn) y de predicción (val y tst), respectivamente.
Tabla IV.29.- Resultados obtenidos para las mejores pruebas con el
método de calibración multivariante PLS sin selección de caracteres una
vez aplicado el procedimiento CT-OSC basado en 9 grupos de muestras.
Analito Norm.
Distribución
Parámetros
SDECtrn SDEPval SDEPtst Coef.
MF
CT-OSC
originales
sym5 / sp0 / C2 / MLR
0,0244
0,0737 0,0731
11
CF
CT-OSC
originales
db4 / zpd / V / MLR
0,0369
0,0573 0,0636
10
DCF
CT-OSC
originales
db6 / zpd / C2 / MLR
0,0373
0,0701 0,0624
12
TCF
CT-OSC
originales
db2 / sp0 / V / MLR
0,0081
0,0139 0,0132
8
Norm: tipo de técnica de normalización; distribución: tipo de distribución de los conjuntos
de muestras; SDEC & SDEP: desviación estándar de los errores de cálculo (trn) y de
predicción (val y tst), respectivamente; Coef: número de coeficientes wavelet seleccionado
por el modelo de regresión óptimo.
Tabla IV.30.- Resultados obtenidos de las mejores pruebas con el
algoritmo WILMA tras la aplicación del procedimiento CT-OSC basado
en 9 grupos de muestras.
Como se observa en las dos tablas anteriores, el intento de refinar el procedimiento
CT-OSC aumentando el número de grupos de 2 a 9 fue excesivo, por lo que se generaron
resultados peores de los ya obtenidos hasta ahora, tanto con el método PLS ssc como con el
algoritmo WILMA. Ni siquiera disminuyendo a la mitad el número de señales a tomar
como las más representativas de cada grupo durante el proceso CT-OSC (el primer
conjunto de 92 muestras se redujo hasta 52, número que ya no resultaba excesivo con el fin
de utilizarlo como base para la transferencia de calibración vía OSC), se consiguió mejora
alguna, sino todo lo contrario, como muestra la siguiente tabla:
Capítulo IV
389
Analito Norm.
Distribución
Parámetros
SDECtrn SDEPval SDEPtst Coef.
MF
CT-OSC
originales
sym5 / sp0 / C2 / MLR
0,0240
0,0705 0,0672
12
CF
CT-OSC
originales
db4 / zpd / V / MLR
0,0258
0,0756 0,0824
22
DCF
CT-OSC
originales
db6 / zpd / C2 / MLR
0,0372
0,0731 0,0655
11
TCF
CT-OSC
originales
db2 / sp0 / V / MLR
0,0079
0,0153 0,0151
10
Norm: tipo de técnica de normalización; distribución: tipo de distribución de los conjuntos
de muestras; SDEC & SDEP: desviación estándar de los errores de cálculo (trn) y de
predicción (val y tst), respectivamente; Coef: número de coeficientes wavelet seleccionado
por el modelo de regresión óptimo.
Tabla IV.31.- Resultados obtenidos de las mejores pruebas con el
algoritmo WILMA tras la aplicación del procedimiento CT-OSC basado
en 9 grupos de muestras, con la mitad de señales seleccionadas.
Los resultados no difieren significativamente de los obtenidos con un mayor
número de señales representativas: en algunos casos empeoran y en otros mejoran un poco;
lo que sí es evidente es que no se obtiene ningún tipo de mejora en las predicciones de los
analitos con respecto a los procedimientos de CT-OSC basados en 2 grupos y los que no
hacen uso de la transferencia de calibración.
Es menester recordar que el algoritmo WILMA también permitía evaluar el posible
significado químico de la elección de coeficientes realizada por el mismo, mediante la
proyección
de
los
coeficientes
wavelet
seleccionados
sobre
el
dominio
original
(reconstrucción de las señales con los coeficientes wavelet). Es más, los coeficientes de
regresión MLR y los coeficientes de pseudoregresión PLS podían también reconstruirse en
el dominio original. Sin embargo, debido a la complejidad del sistema, a diferencia del de
Tl+ / Pb2+ que era muy sencillo, la información que resulta de las representaciones de
dichos coeficientes en los casos comentados anteriormente es muy compleja, siendo muy
difícil, por no decir imposible en la mayoría de los casos, sacar algo en claro, aparte de
observar qué parte de la señal es responsable de la calibración y cuáles son las formas de la
misma que contienen información relevante para predecir las variables yi.
Las dos figuras siguientes representan un ejemplo de reconstrucción de señales de
mezclas de clorofenoles a partir de coeficientes wavelet (Figura IV.41) y de coeficientes de
regresión MLR (Figura IV.42) correspondientes al modelo CT-OSC (2 grupos) / db2 / sp0
/ V / MLR, cuyos valores de SDEC y SDEP aparecen recogidos en la Tabla IV.26:
390
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
A)
B)
Figura IV.41.- Reconstrucción de las señales de las mezclas de
clorofenoles a partir de los 8 coeficientes wavelet seleccionados por el
modelo de calibración CT-OSC (2 grupos) / db2 / sp0 / V / MLR: A)
señales originales y B) señales reconstruidas.
Capítulo IV
391
Figura IV.42.- Reconstrucción de las señales de las mezclas de
clorofenoles a partir de los coeficientes de regresión correspondientes al
modelo de calibración CT-OSC (2 grupos) / db2 / sp0 / V / MLR.
Como se desprende de ambas figuras, el modelo de calibración selecciona los
coeficientes wavelet en la zona donde se encuentran los picos de las mezclas, así como
también en aquellas zonas donde se producen cruces de las líneas base de los
voltamperogramas. No obstante, los coeficientes wavelet y de regresión mayores se sitúan
en la zona de los picos. Por lo demás, poca información química puede extraerse de dichas
representaciones, a diferencia de lo que sucedía con el sistema de los iones metálicos
pesados.
A continuación y para terminar con éste epígrafe, se resumirán las conclusiones que
se han alcanzado hasta ahora en el estudio de la calibración multivariante del sistema
cuaternario compuesto por los clorofenoles MF, CF, DCF y TCF.
7.7. Conclusiones
En esta última parte de la Tesis Doctoral, se ha hecho uso de varios métodos de
calibración multivariante con el fin de resolver el solapamiento producido por las señales
de los voltamperogramas correspondientes a cuatro clorofenoles: MF, CF, DCF y TCF.
Empleando como matriz inicial de datos las señales de las mezclas cuaternarias, se ha
hecho uso de dos técnicas de calibración: el PLS tradicional (sin proceso de selección de
caracteres) y un nuevo y reciente método basado en el algoritmo denominado WILMA
(Wavelet Interface to Linear Modelling Analysis). Éste último consiste en un acoplamiento
de la FWT con métodos de calibración multivariante del tipo MLR y PLS, con el fin de
seleccionar aquellos modelos de calibración óptimos. Dicho algoritmo permite seleccionar
los coeficientes wavelet más significativos (procedentes de la descomposición de la matriz
de muestras original) con el fin de modelar las variables de respuesta.
Los resultados obtenidos con ambos métodos han sido muy similares, habiéndose
generado modelos de calibración con una muy buena capacidad predictiva para la
concentración correspondiente al analito TCF, mientras que para el resto, dicha capacidad
de predicción disminuyó bastante en el siguiente orden: MF > DCF > CF. No hay que
392
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
olvidar que la señal del voltamperograma del último de dichos analitos se encontraba
totalmente cubierta por la señal del analito DCF.
Hay que resaltar que el sistema en estudio presenta un solapamiento muy severo,
cuya complejidad no aparece recogida en la literatura. A esto hay que añadir los problemas
causados por el fenómeno que el electrodo Sonogel-Carbono modificado ha sufrido durante
el procedimiento de medida de las muestras: la presencia de una deriva vertical que
aumentó paulatinamente el valor de la intensidad de corriente del fondo, lo que a su vez
originó una cierta variabilidad entre las mezclas. Conviene recordar también que las
concentraciones de los analitos estaban muy próximas al límite de detección del electrodo
con respecto a cada uno de ellos.
Mediante un procedimiento de transferencia de calibración basado en la técnica de
normalización OSC se consiguió reducir dicha variabilidad; sin embargo, tras la aplicación
de los dos métodos de calibración propuestos, los resultados de las predicciones no
lograron una mejora significativa.
Por otro lado, la reconstrucción de las señales originales de las mezclas mediante
los coeficientes wavelet y de regresión no aportó mucha información química adicional.
Fundamentalmente, sirvió de ayuda a la hora de identificar las formas de los
voltamperogramas que se consideraron relevantes para modelar la variable de respuesta en
estudio (concentración del analito de que se trate), así como las zonas de las señales
responsables de la calibración.
Además, se llevaron a cabo numerosas pruebas con el fin de averiguar qué
distribuciones y técnicas de normalización se adecuaban mejor al posterior proceso de
calibración. En un principio, para el método PLS ssc, las distribuciones rand2 y original
resultaron ser las más idóneas para desarrollar los mejores modelos predictivos,
combinadas al menos con alguna de estas dos técnicas de normalización: SNV u OSC.
Para el método basado en el algoritmo WILMA, la mejor distribución también resultó ser
la rand2, con la SNV como técnica de normalización. No obstante, el empleo de la
selección de caracteres permitió obtener también muy buenos resultados con las señales sin
normalizar.
Capítulo IV
393
Con respecto al primero de los parámetros intrínsecos al algoritmo WILMA, el
criterio de padding, se mantuvo fijo en casi todas las pruebas, pero cuando se varió dicho
criterio, los resultados obtenidos fueron muy similares en todos los casos. El único
parámetro un poco más sobresaliente fue el criterio de ordenamiento. Aunque es imposible
sugerir una regla general para la selección de un criterio óptimo, en algunas situaciones
sería preferible un criterio de ordenamiento respecto de otro: por ejemplo, sin transferencia
de calibración, la covarianza al cuadrado (C 2 ) fue el criterio que apareció con más
frecuencia en los modelos óptimos; después de aplicar el proceso CT-OSC, en cambio, los
criterios basados en la varianza (V) y el coeficiente de regresión (R2 ) cobraron un mayor
protagonismo. Con este sistema, desafortunadamente, la elección a priori del criterio de
ordenamiento no hubiese resultado una tarea trivial, puesto que habría implicado el
conocimiento previo no sólo de la forma de las señales, sino también de los aspectos
correlacionados con las variables de respuesta de las señales resultantes de la
descomposición con diferentes funciones wavelet, para todos y cada uno de los niveles de
descomposición posibles.
Los modelos óptimos obtenidos se basaron en una gran variabilidad de funciones
wavelet, por lo que no puede decirse que haya una familia de wavelets que sirviese mejor o
peor para cumplir el objetivo establecido al inicio del estudio. Queda así demostrado que
no existe ninguna dependencia sistemática del desarrollo de los modelos de calibración,
cuando se emplea dicho algoritmo, con respecto al tipo de wavelet y que no es posible
seleccionar a priori una determinada función wavelet como óptima para una clase de señal
en particular.
Finalmente, cabe destacar que la mayoría de los modelos de calibración
seleccionados como óptimos por el algoritmo WILMA se basaron en procedimientos de
selección de coeficientes mediante MLR, puesto que los modelos basados en el método
PLS generaban valores de SDEP más altos, así como un mayor número de coeficientes
wavelet.
Para finalizar con el capítulo, en el siguiente epígrafe se dará a conocer un ligero
esbozo acerca de algunos de los estudios que se están llevando a cabo actualmente con el
fin de mejorar los resultados obtenidos hasta ahora, así como también de las
investigaciones que se pretenden desarrollar en un futuro próximo.
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
394
8) Estudios Actualmente En Desarrollo Y A Culminar En Un
Futuro Próximo
Las investigaciones llevadas a cabo con el fin de desarrollar la calibración
multivariante para el sistema 4-cloro-3-metilfenol, 4-clorofenol, 2,4-diclorofenol y 2,4,6triclorofenol, resumidas en este capítulo de la presente Memoria, continúan en marcha en
la actualidad. Es más, existen todavía algunos estudios, los cuales, por falta de tiempo, no
han sido aún abordados.
A continuación, y en primer lugar, se comentarán los estudios que se encuentran en
desarrollo actualmente; posteriormente, y antes de pasar a las conclusiones finales, se
hablará un poco acerca de los trabajos cuya realización está prevista para un futuro
próximo.
8.1. Investigaciones que se encuentran actualmente en fase de desarrollo
§
Una de las primeras ideas que se ha puesto en práctica para eliminar el
problema de la variabilidad en las medidas, como consecuencia de una
modificación en la superficie activa del electrodo, consiste en relacionar las
medidas con dicha variabilidad mediante una calibración lineal. Las nuevas
variables, que ya no se corresponden con las concentraciones de los analitos,
son tres, en vez de cuatro:
1. el orden en el que se han realizado las medidas;
2. los días (a modo de cronología) en los que se ha determinado cada
mezcla;
3. el número de veces que se ha utilizado el electrodo Sonogel-Carbono
antes de medir una determinada mezcla;
y se pretende identificar cuál(es) de ella(s) presenta(n) un comportamiento más
susceptible de ser modelado. De este modo, una vez que se disponga de las
rectas de calibrado (con el algoritmo WILMA o mediante el PLS tradicional)
se tomará la mejor prueba y se restará la señal reconstruida, modelada en base
a la variabilidad, de las señales originales. De momento, los resultados parecen
prometedores, aunque no se hayan conseguido mejoras con respecto a los
anteriores. Esto también ha permitido la obtención de un buen número de
Capítulo IV
395
representaciones bastante interesantes de los residuos frente a las nuevas
variables. Sirva la Figura IV.43 como muestra. En ella puede verse que los
residuos del conjunto de entrenamiento están menos dispersos que los de los
conjuntos de validación interna y externa; esto podría sugerir que conforme se
hace uso del electrodo Sonogel-Carbono, se produce dicha variabilidad en las
medidas que causa la dispersión de los residuos. El espacio en blanco entre las
mezclas de entrenamiento se corresponde con la repetición de una serie de
muestras al observarse resultados extraños durante el proceso de medida.
Figura IV.43.- Representación de los residuos correspondientes a la
predicción de MF frente al número de medidas realizadas con el electrodo
Sonogel-Carbono modificado: trn, val y tst.
§
Por otro lado, se está aprovechando el reciente desarrollo del algoritmo
denominado
WPTER
(Wavelet
Packet
Transform
for
Efficient
pattern
Recognition of signals) [268], para aplicarlo a la distribución de datos original
que contiene las mezclas de los clorofenoles sin replicar ni normalizar, con el
fin de clasificar las distintas muestras replicadas (reconocimiento de patrones)
CALIBRACIÓN MULTIVARIANTE PARA EL SISTEMA 4-CLORO-3-METILFENOL,
4-CLOROFENOL, 2,4-DICLOROFENOL Y 2,4,6-TRICLOROFENOL
396
y obtener aquellas zonas de las señales que las hacen ser diferentes (que
permiten el establecimiento de diversos grupos).
§
Otra idea consiste en resolver sumas de analitos, en vez de analitos
individuales, principalmente los que se encuentran mayormente solapados (CF
y DCF, aunque también podría incluirse MF), de modo que a partir de los
modelos de calibración obtenidos puedan predecirse las concentraciones
individuales para cada variable de respuesta. Sin embargo, los resultados
obtenidos hasta ahora no han sido muy buenos.
§
Dado el volumen de pruebas llevado a cabo, el número de parámetros en juego
es enorme: distribución, técnica de normalización, parámetros propios de
WILMA, etc. Por ello se está intentando realizar un análisis de la varianza
(ANOVA), con el fin de seleccionar los parámetros más influyentes a la hora
de lograr una mejor separación de las señales.
§
En relación con lo anterior, la aplicación de un criterio t de Student por parejas
podría servir para averiguar si existen diferencias significativas entre los
valores de SDEP obtenidos con WILMA o con el método PLS tradicional. En
principio, ha resultado que no existe diferencia alguna entre ambos métodos, lo
que podría estar en consonancia con las conclusiones finales dadas en el
epígrafe anterior. No obstante, se continúa trabajando en ello.
§
Finalmente, hay que tener en cuenta que los coeficientes wavelet obtenidos con
WILMA pueden ser utilizados como entradas en modelos externos de
calibración como son las ANN. Por esta razón, se está estudiando la aplicación
de redes neuronales artificiales como herramienta de regresión sobre los
conjuntos de coeficientes wavelet seleccionados por los modelos de calibración
óptimos. En principio, los valores de SDEC y SDEP no son muy buenos, pero
esto puede deberse al hecho de que dichos coeficientes wavelet han sido
elegidos por su buen funcionamiento en modelos de calibración basados en
MLR o PLS. Pero esto no significa que se comporten igual de bien en los
modelos neuronales. Además, hay que tener en cuenta que con MLR y PLS se
modelan aspectos lineales de las señales, mientras que con ANN dichos
aspectos a modelar pueden ser también no lineales; por consiguiente, dichos
caracteres no lineales podrían estar ausentes de los conjuntos de coeficientes
wavelet seleccionados por WILMA, de ahí los pobres resultados obtenidos con
las redes neuronales.
Capítulo IV
397
8.2. Investigaciones que se prevé abordar en un futuro próximo
§
Una de las investigaciones que se ha pensado llevar a cabo en un futuro
próximo consiste en realizar el proceso de selección de caracteres con un
algoritmo genético (GA); es decir, seleccionar los coeficientes wavelet con un
GA previamente a la calibración en vez de utilizar un criterio de ordenamiento
como V, C2 o R2 . En la actualidad existen muchos programas de libre acceso,
también funcionales en entorno Matlab®, que pueden ser combinados con el
algoritmo WILMA para tal fin.
§
Otra posibilidad sería también la utilización de los parámetros de pico de cada
una de las señales de los voltamperogramas de las mezclas (posición o
potencial, altura o intensidad, área, semianchura y derivada de los picos) para
desarrollar la calibración multivariante, de manera parecida a como se aplicó
para resolver el sistema de los iones Tl+ y Pb2+, y que tan buenos resultados dio
en aquel caso.
§
Se prevé además continuar el trabajo con las redes neuronales artificiales, con
vistas a mejorar los resultados obtenidos hasta la fecha.
§
Por último, cabe destacar la posibilidad de emplear un método basado en
resolución de curvas multivariante (MCR), recientemente aplicado a datos
voltamperométricos [144], con el fin de establecer una comparación con los
métodos empleados en la presente Memoria y de mejorar, al mismo tiempo, los
resultados obtenidos.
CONCLUSIONES FINALES
CONCLUSIONES FINALES
401
CONCLUSIONES FINALES
I.- A pesar del severo solapamiento existente entre las señales correspondientes a
los voltamperogramas de los iones metálicos pesados: Tl+ y Pb2+, la capacidad que poseen
la transformada de Fourier y la transformada wavelet para detectar la información de alta
frecuencia contenida en los mismos queda bien demostrada. Ambos tipos de transformadas,
de funcionamiento y aplicabilidad similar, se comportan de manera adecuada a la hora de
estudiar las señales electroquímicas de ambos analitos.
II.- Los modelos neuronales de calibración obtenidos, basados en coeficientes de
Fourier y wavelet, presentan una topología simple, gozando al mismo tiempo de una
elevada capacidad predictiva. Dichos modelos pueden emplearse con éxito para la
resolución del sistema constituido por los dos iones anteriores.
III.- Las predicciones de las concentraciones de ambas especies en las mezclas
binarias son ligeramente mejores cuando se aplican modelos de calibración que combinan
redes neuronales artificiales (ANN) y transformadas de funciones (FT y WT) que con las
técnicas tradicionales: regresión por mínimos cuadrados parciales (PLS) y regresión de
componentes principales (PCR).
IV.- La transformada wavelet rápida (FWT) es factible de acoplarse de forma
bastante efectiva a criterios de selección de caracteres con el objetivo de encontrar el menor
número de coeficientes wavelet óptimos. Dichos coeficientes constituyen un nuevo
conjunto de variables predictoras, las cuales pueden introducirse en cualquier método de
calibración con fines predictivos.
V.- El procedimiento de selección de caracteres en el dominio wavelet aporta un
gran número de ventajas: 1) reducción de datos, lo que permite emplear tan sólo unos
pocos coeficientes wavelet para modelar toda la información contenida en una señal
completa cualquiera; 2) reducción de ruido, corrección de línea base y selección de
caracteres, las tres simultáneamente; y, finalmente, 3) el orden de las variables (coeficientes
wavelet) se tiene en cuenta de forma implícita, lo cual es particularmente útil para
propósitos interpretativos, como puede comprobarse a partir de la reconstrucción de las
CONCLUSIONES FINALES
402
señales originales de las mezclas mediante los coeficientes wavelet y de regresión de los
modelos.
VI.- El análisis sistemático llevado a cabo con dicho procedimiento permite obtener
modelos de regresión bastante satisfactorios haciendo uso de diferentes combinaciones de
parámetros: filtro wavelet, criterio de padding, criterio de selección de coeficientes y de
ordenamiento de los mismos, técnica de calibración, etc. Además, dicho análisis sugiere la
imposibilidad de establecer reglas generales para la selección de parámetros de regresión
óptimos. Los errores obtenidos cuando se incorpora un proceso de selección de caracteres
(Conclusiones IV a VI) son inferiores a cuando éste no se aplica (Conclusiones I a III).
VII.- Los procedimientos desarrollados en esta Memoria basados en la
combinación de las transformadas de Fourier y Wavelet con técnicas de calibración, se
muestran como herramientas quimiométricas muy poderosas capaces de ser aplicadas a la
resolución de mezclas más complejas que la que constituyeron los iones talio y plomo.
VIII.- El sistema electroquímico constituido por los iones Tl+ y Pb2+ también se
resuelve mediante un tratamiento quimiométrico simple y rápido basado en el empleo
directo de los parámetros de pico de cada una de las señales (mezclas binarias) como
variables de entrada a diversos métodos de calibración multivariante: MLR, PLS y ANN.
Al mismo tiempo, este estudio sirve para determinar la importancia de los parámetros
voltamperométricos (posición, altura, semianchura, área y derivada de los picos) a la hora
de predecir las concentraciones de las variables de respuesta.
IX.- Con independencia del método de calibración empleado, los resultados son
muy similares en todos los casos, aunque ligeramente mejores para los modelos de
calibración basados en ANN. Por otro lado, la influencia de los parámetros de posición y
semianchura de pico sobre los modelos de calibración es prácticamente irrelevante; en
cambio, las combinaciones de los parámetros de altura, área y derivada del pico presentan
los errores más pequeños para todos los conjuntos de muestras, lo que indica que estos tres
parámetros poseen la información más relevante de las señales.
X.- En general, los resultados no difieren significativamente de los obtenidos con
modelos más complejos (Conclusiones I a VI) y que requieren de un tratamiento estadístico
CONCLUSIONES FINALES
403
y matemático (a veces hasta un pretratamiento) para resolver el problema del solapamiento
de las señales voltamperométricas correspondientes al sistema electroquímico Tl+ / Pb2+.
XI.- Por otro lado, se emplea un único electrodo Sonogel-Carbono modificado con
polietilenglicol
con
el
fin
de
determinar
las
señales
de
los
voltamperogramas
correspondientes a mezclas de cuatro compuestos fenólicos (clorofenoles): 4-cloro-3metilfenol (MF), 4-clorofenol (CF), 2,4-diclorofenol (DCF) y 2,4,6-triclorofenol (TCF).
Dicho electrodo se acondiciona y estabiliza rápidamente manteniéndolo siempre sumergido
en disolución acuosa con vistas a garantizar la reproducibilidad de las medidas. Su
comportamiento, en general, es similar al obtenido en investigaciones precedentes.
XII.- Varios métodos de calibración multivariante: PLS tradicional (sin selección
de caracteres) y un nuevo método algorítmico (WILMA), basado en selección de caracteres
mediante técnicas de calibración de MLR y PLS, pueden aplicarse con el fin de resolver el
solapamiento severo producido entre las mezclas cuaternarias de dichos clorofenoles. El
algoritmo WILMA consiste en un acoplamiento de la FWT con métodos de calibración
multivariante del tipo MLR y PLS, con el fin de seleccionar aquellos modelos de
calibración óptimos basados en los coeficientes wavelet más significativos con respecto a
las variables de respuesta.
XIII.- Los resultados obtenidos con ambos métodos son muy similares,
generándose modelos de calibración con una muy buena capacidad predictiva para la
concentración correspondiente al analito TCF, mientras que para el resto, dicha capacidad
de predicción disminuye en el siguiente orden: MF > DCF > CF. La ausencia de bondad en
los resultados se debe fundamentalmente a tres factores: 1) las concentraciones de los
analitos están muy próximas al límite de detección del electrodo con respecto a cada uno de
ellos; 2) el sistema en estudio presenta un solapamiento muy severo; mayor que el de otras
mezclas recogidas en la literatura; y, por último, 3) la presencia de una deriva vertical,
como consecuencia de variaciones en la superficie del electrodo Sonogel-Carbono
modificado durante el procedimiento de medida de las muestras, la cual aumenta
paulatinamente el valor de intensidad de la corriente del fondo, lo que a su vez origina una
cierta variabilidad entre las mezclas.
CONCLUSIONES FINALES
404
XIV.- Mediante procedimientos de transferencia de calibración basados en la
técnica de normalización OSC se consigue reducir dicha variabilidad, aunque no se logra
una mejora significativa en los resultados de las predicciones.
XV.- Las pruebas sistemáticas llevadas a cabo con PLS tradicional y WILMA
ofrecen resultados similares en cuanto a las distribuciones y técnicas de normalización que
se adecúan mejor al proceso de calibración. Mientras que para el primero de ellos, las
distribuciones rand2 y original, combinadas con las técnicas de normalización SNV u OSC,
resultan idóneas, para el segundo método, la mejor distribución es también la rand2, pero
sólo con la SNV como técnica de normalización. Además, en este último caso, se obtienen
resultados muy buenos incluso con las señales sin normalizar.
XVI.- No se ha podido establecer ninguna regla general que permita seleccionar un
criterio de padding u ordenamiento óptimo a la hora de aplicar el algoritmo WILMA. Del
mismo modo, tampoco puede afirmarse que exista una familia de funciones wavelet que
descomponga de un modo mejor o peor el conjunto de señales que se pretende resolver. La
mayoría de los modelos de calibración seleccionados como óptimos por el algoritmo
WILMA están basados en procedimientos de selección de coeficientes mediante MLR,
puesto que los modelos basados en el método PLS generaban valores de SDEP más altos,
así como un número mucho mayor de coeficientes wavelet.
XVII.- Actualmente continuamos realizando intentos para mejorar la resolución del
sistema cuaternario de clorofenoles. Dichas tentativas se basan en técnicas diversas tales
como: definición de nuevas variables; empleo de otros algoritmos de desarrollo reciente,
como el WPTER; análisis de la varianza; uso de redes neuronales artificiales; selección de
caracteres con un algoritmo genético o la utilización de los parámetros de pico, entre otras.
XVIII.- Aunque en otros trabajos se han estudiado sistemas multicomponente de
fenoles con el fin de resolver el solapamiento de las señales electroquímicas haciendo uso
de técnicas quimiométricas, hay que destacar que en la presente Memoria, el sistema
cuaternario de fenoles utilizado presentaba un solapamiento mucho más severo que los
descritos hasta ahora en la bibliografía; es más, las concentraciones de las especies
químicas determinadas estuvieron siempre muy próximas al límite de detección del
electrodo Sonogel-Carbono y por debajo de las recogidas en otras referencias; por último,
CONCLUSIONES FINALES
405
es menester resaltar la utilización novedosa de procesos de selección de caracteres basados
en la transformada wavelet con el fin de resolver un sistema de tales características.
APÉNDICE I
Apéndice I
409
RESUMEN EN INGLÉS
1) Objective
Over the last years, the research group “Instrumentation and Environmental
Sciences” of the Department of Analytical Chemistry, University of Cadiz, has been
involved in studies related to chemical sensors, being in the field of electrochemical
sensors where our research works have obtained its greatest achievements. Especially, it
has to be noticed the experience acquired when applying carbon-paste electrodes, as well
as mercury electrodes. Recently, we have also taken a great step ahead in our research
works with the development and characterization of Sonogel-Carbon materials for
electrochemical sensors. By using them, we can affirm we are able to accomplish a great
sort of applications.
All the same, with the studies detailed in the Doctoral Thesis, our research group
deepens more in the field of chemometrics (use of statistical techniques in the design and
interpretation of experiments), applied to electrochemistry; fundamentally, to resolve the
problems of selectivity that appear when using voltammetric techniques.
That is why several mathematical algorithms have been developed, in cooperation
with the Italian research group managed by Prof. Renato Seeber, from Università degli
Studi di Modena e Reggio Emilia (Modena – ITALY), where part of the studies, which are
being summarized here, has been realized. Between the statistical techniques used, we
have to underline Wavelet Transforms and Artificial Neural Networks, as well as several
multivariate calibration methods such as Multilinear Regression and Partial Least-Square
Regression. The chemometric methodology we show here has been applied to various
organic and inorganic systems, more or less complex, which have been determined by
using several sorts of electrochemical sensors.
2) Introduction
2.1. The problem of overlapped signals in voltammetric techniques
The problem of determining two or more species with similar analytical signals has
been a matter of substantial interest since the former developments of the instrumental
RESUMEN EN INGLÉS
410
techniques of analysis. Nowadays, instrumental techniques combined with the suitable
chemical procedures allow to resolve this problem in most situations, but they are
inefficient in other ones.
In the case of electroanalytical techniques, because of their low cost and simplicity,
they have found numerous applications [1,2], but it often happens that different species
undergo oxidation or reduction at potential values that are very close to each other. In the
case of differential pulse and square wave voltammetries, serious overlapping occurs when
the difference in the peak potentials is less than 100/n mV, where n is the number of
electrons involved in the electrode charge transfer. Overlapped peaks are found more
commonly in voltammetry than in chromatography or most spectral methods, because the
width of a voltammetric peak (100 mV, typically) is an appreciable fraction of the
accessible potential range (1500 mV, frequently) for these techniques.
Besides experimental manipulations like changes of pH, of the supporting
electrolyte, or the use of modified electrodes, chemometrics offers efficient alternatives to
solve the problem of overlapping signals, including the most serious cases. The main
approaches employed are deconvolution or semidifferential techniques coupled to curve
fitting [3-7], multivariate curve resolution [8,9], and multivariate calibration [10-12].
Many
successful
applications
of
multivariate
calibration
in
the
field
of
electrochemistry have been recently reported, using different regression methods, i.e.,
multilinear regression (MLR) [13], principal component regression (PCR) [14-16],
continuum regression [17], partial least squares regression (PLS) [15,16,18,19] and
artificial neural networks (ANN) [20,21]. However, this kind of research is not commonly
carried out. In general, papers based on spectroscopic and chromatographic techniques
coupled with chemometric methods hit the headlines of analytical scientific publications.
2.2. Electrochemical systems and some aspects of ins trumentation
In this Doctoral Thesis, chemometry has been utilized with the aim of resolving
severely overlapped electrochemical signals. As it has already been pointed, the most
important statistical techniques applied to this matter have been Fourier Transform (FT),
Wavelet Transform (WT) and Artificial Neural Networks (ANN), as well as multivariate
calibration methods such as Multilinear Regression (MLR) and Partial Least-Square
Apéndice I
411
Regression (PLS). This methodology has been applied to various organic and inorganic
electrochemical systems, which are described as follows:
§
Inorganic system: consisting of binary mixtures of Tl+ and Pb2+, two of the
most dangerous heavy metals for the environment and living creatures, both
recognized as priority pollutants by the Environmental Protection Agency
(EPA). Although this system has already been studied in depth [7,17,19,22-27],
in certain cases including other ions such as In3+ and Cd2+, the multivariate
calibration of thallium and lead mixtures intends to resolve the cited system in
a novel way by means of a procedure that can be applied to similar systems.
§
Organic
system:
specifically
comprised
of
4-chloro-3-methylphenol
quaternary
(MF),
mixtures
of
4-chlorophenol
chlorophenols,
(CF),
2,4-
dichlorophenol (DCF) and 2,4,6-trichlorophenol (TCF), also considered as
priority pollutants by EPA and between the most dangerous chemicals for the
environment, animals and human beings. This system is much more complex
than the former and some publications exist about the toxicity and detection of
its components [28-32] and about the topic, which is more important for us: the
resolution of several mixtures of chlorophenols [20,33-38].
All
the
electrochemical
measurements
were
performed
with
an
AutoLab
PGSTAT20 (Ecochemie, Utrecht, Netherlands) potentiostat/galvanostat interfaced with a
personal computer, using the AutoLab software GPES for waveform generation and data
acquisition and elaboration. The experiments were carried out in a single-compartment
three-electrode cell, at room temperature (25 ± 1 °C), under nitrogen atmosphere when it
was necessary. The counter electrode was a platinum wire, and a silver/silver chloride/3 M
KCl electrode was used as the reference.
Depending on the electrochemical system, several sorts of electrochemical sensors
were used as work electrodes. The first electrochemical system (inorganic) was measured
with the classical hanging mercury drop electrode (HMDE) and the second one (organic)
with the recently developed polyethyleneglycol (PEG)-modified Sonogel-Carbon electrode
(PSCE). Differential pulse anodic stripping voltammetry (DPASV) was the voltammetric
technique used with HMDE and differential pulse adsorptive stripping voltammetry
(DPAdSV) with PSCE.
RESUMEN EN INGLÉS
412
The well-known HMDE electrode is very used in the field of electrochemistry,
fundamentally to determine metals. A more exhaustive description as well as some of its
applications can be found in [1,39,40]. However, it is worth to add some more details
about the other type of electrode: the Sonogel-Carbon electrode.
2.3. The Sonogel-Carbon composite electrode
In the last few years, our research group has oriented its studies towards the use of
powdered graphite as a material to build carbon-paste electrodes, either modified or
unmodified [41-43]. Nevertheless, recently, that conducting specie has been applied to the
construction of amperometric sensors based on sol-gel process, giving birth to this new
type of electrode: the so-called Sonogel-Carbon electrode [44-46]. It exists nowadays a
great interest in a new range of sol-gel-derived carbon-based electrodes for electrochemical
applications.
The sol-gel process is a chemical synthesis technique that enables the possibility of
preparing a wide variety of oxide compounds at far lower temperatures than conventional
methods. It is a fusionless method for the synthesis of ceramic and organically modified
ceramic materials.
We have proposed a novel sol-gel-based procedure as a way to yield solid carbon
composite electrodes. Classical procedures reported in the literature for the synthesis of
acid-catalyzed sol-gel-based electrode materials include the addition of an alcoholic
solvent to the initial precursor mixture to make it homogeneous (since the system is not
miscible). The later evaporation of this component involves an inevitable marked reduction
of the volume of the material, which is completely undesirable when solid electrodes are
being prepared. Also, these procedures generally need more than 10 min of sonication in
an ultrasonic bath for the hydrolysis reaction (and so the sol-gel process) to be initiated.
Our proposal was fairly different and was based on the use of sonocatalysis [47,48]
to synthesize solid carbon composite materials for the preparation of electrodes. By means
of sonocatalysis, high-energy ultrasound is applied directly to the precursors, and
ultrasonic cavitation is achieved so that hydrolysis with acidic water is promoted in the
absence of any additional solvent. Thanks to the phenomenon of ultrasonic cavitation, solgel reactions occur in a unique environment, leading to gels with special characteristics.
Apéndice I
413
These so-called sonogels are mainly of high density, with a fine texture and homogeneous
structure.
The next scheme shows the steps followed for the processing of the SonogelCarbon composite electrodes:
Figure 1
Electrode preparation procedure
To prepare the sonosol, the general procedure was as follows (Figure 1): 500 µL of
MTMOS was mixed with 100 µL of a 0.2 M HCl solution. This mixture was then
insonated for 5 s (energy dose 0.083 kJ·mL -1 ). Next, a fixed amount of graphite powder, 1
g, was added and homogeneously dispersed in the sonosol obtained. After several minutes,
the resulting material acquired enough consistency and the glass tubes were filled, leaving
a little extra mixture sticking out of the glass tube to make easy the ulterior polishing step.
After 20-24 h, the Sonogel-Carbon composite electrodes had got hardened and, therefore,
structured. Adherence between the developed material and glass was excellent. Before use,
the electrodes were polished with Nº 1200 emery paper to remove extra composite material
and wiped gently with weighing paper. Electrical contact was established by inserting a
copper wire.
RESUMEN EN INGLÉS
414
The applications of sonogels in the field of electrochemistry are not very extended
yet [49-52]; however, they are very used as superconducting materials [53] or in optical
devices [48,54].
The theory of the main chemometric techniques used in this Doctoral Thesis can be
found in the next references: Wavelet Transform [55-58], Artificial Neural Networks [5962] and multivariate calibration methods (MLR, PLS, etc.) [63].
3) First
Steps
In
The
Resolution
Of
The
Inorganic
Electrochemical System
3.1. Voltammetric parameters used
As remarked in the Introduction, Tl+ and Pb2+ are two highly polluting heavy
metals at almost all environmental levels. Their dangerousness for the health of living
creatures is markedly strong. We can find many references in the scientific literature about
the application of different chemometric techniques, which allow to establish multivariate
calibration models with the aim of resolving multianalyte systems (binary, ternary and
quaternary), most of these systems also containing Cd2+ and In3+.
In the first part of the Doctoral Thesis, we chose the thallium and lead ions as a
proof system. The multivariate calibration of their mixtures was carried out with the
purpose of finding a novel way of contributing to the resolution of such a well-known
electrochemical system.
The voltammetric technique used to determine both metallic ions individually, as
well as their mixtures, was DPASV with a HMDE electrode. A 2 M acetic acid / 2 M
ammonium acetate buffer solution was utilized as supporting electrolyte (pH = 4.8–5.0).
The main voltammetric parameters were as follows: deposition potential = -1.3 V;
deposition time = 120 s; rest period = 20 s; initial potential = -1.3 V; end potential = 0V;
scan rate = 8.5 mV·s-1 ; pulse amplitude = 0.10 V; pulse time = 0.07 s; pulse repetition time
= 0.6 s. The mercury drop surface was approximately 0.52 mm2 .
Forty different samples were determined experimentally. These samples were
distributed as follows: ten samples of pure thallium, ten samples of pure lead and twenty
mixtures of both ions. Subsequently, eight more mixtures were measured as an external
Apéndice I
415
test set. The concentration range was from 0.1 to 1.0 mg·L-1 . It has to be noticed that these
concentrations values were less than those used in other authors’ studies. The disposition
and concentration of the samples were as represented in next table:
T1
T2
T3
T4
T5
P1 T1P1
P2
T2P2
T8
T3P3
T5P3
T3P5
T10P2
T8P3
T9P4
T5P5
P6 T1P6
T10P5
T6P6
T2P7
P8
T8P6
T7P7
T3P8
P9 T1P9
T6P8
T4P9
T2P10
T10
T9P1
T4P4
P5
T9
T7P2
P4
P10
T7
T6P1
P3
P7
T6
T8P8
T9P9
T5P10
T10P10
T = Tl+; P = Pb 2+; and the numbers indicate the ions concentrations: 1 = 0,1 mg·L-1 , 2 = 0,2
mg·L-1 , ..., 10 = 1 mg·L-1 .
Table 1
An example of voltammetric signals is shown as follows:
Figure 2
RESUMEN EN INGLÉS
416
3.2. Exploratory data analysis
For this purpose, we applied lineal discriminant analysis (LDA) and principal
component analysis (PCA). The LDA was developed on the data of intensity, potential and
half width of the peaks for every voltammetric signal and the PCA on the forty-eight
voltammograms (mean-centered) obtained. The LDA plot and the PCA’s scores plot are
respectively as follow:
Figure 3
By using the LDA, it was intended to cluster the samples in three categories: pure
thallium, pure lead and mixtures of both ions, resulting a percentage of classification of
95.85 %.
Apéndice I
417
Figure 4
As shown in the scores plot, the samples are also clustered in terms of the content of
each ion: pure thallium, pure lead and their mixtures in the middle of the graph. The higher
the concentration of thallium in one specific mixture, the closer this mixture is with respect
to the patterns of pure thallium, and the same could be said for the content of lead,
excepting for some mixtures, whose situation was not the expected (T1P6, T3P5, T8P8 and
T10P10).
3.3. Prediction and separation of signals
To carry out this type of analysis, two different methods were used: a method of
estimation based on interpolation, and artificial neural networks, the last one as a pattern
recognition method and as a multivariate calibration technique.
Method of estimation based on interpolation
Assuming linearity between the voltammetric signals of the mixtures and their
corresponding pure patterns of Tl+ and Pb2+, it was thought that every mixture could be
express as a linear combination of their constituent pure patterns. The mathematical model
that defined this relationship is given by next equation:
RESUMEN EN INGLÉS
418
Ti Pj = α ⋅ Ti + β ⋅ Pj
where TiPj is the voltammogram of the corresponding mixture TiPj; Ti and Pj are the
voltammetric signal corresponding to the pure patterns, thallium and lead, respectively;
and " and $ are the contributions of every pattern to the whole signal of the mixture. The
indexes i and j take entire values from 1 to 10, which are equivalent to the concentration
values in the studied range from 0.1 to 1.0 mg·L-1 . In this way, it was obtained the
contribution of every pattern, Tl+ and Pb2+, existing in all the mixtures. Using least-square
regression method, the corresponding values for the correlation coefficients, R, were higher
than 0.99.
Once the models were established and their robustness tested, it was intended to fill
the gaps in Table 1 by applying a method of estimation based on interpolation. From the
signals of the pure patterns and the estimated values of " and $, a set of mathematical
models was built. The form of these models was as follows:
( )
(
( ))
f Ti Pj + λ ⋅ f (Tk Pl ) − f Ti Pj
Considering a linear evolution between two known signals in Table 1 and applying these
models, not only might it be possible to predict any mixture of the table, but it would also
be relatively simple to obtain the composition in both ions for every sample. In the second
place, it would only be necessary to vary the parameter 8, which take real values from 0 to
1.
Nevertheless, the results obtained for the predictions were not completely
satisfactory. After carrying out different tests, it was finally concluded that the procedure
of estimation based on interpolation was a good predictive tool only when some constraints
were met:
1. The concentration of one constituent ion was known in the mixture.
2. The predictions were mean-centered with respect to the real sample.
In these cases, the errors obtained for the composition of the mixtures were very
low.
Apéndice I
419
Artificial neural networks
The artificial neural networks were used in two different ways: pattern recognition,
to classify the different samples using the information contained in the electrochemical
parameters of intensity, potential and half width of the peaks, and multivariate calibration,
to resolve the mixtures and obtain the predicted concentration values for every ion, making
use of the voltammograms.
ANN as a pattern recognition method
In this case, the main objective was to determine and train the simplest neural
models to classify the samples in three categories, depending on the content in each ion:
pure thallium, pure lead and mixtures of both ions.
The specified characteristics to train and validate these models were as follows:
§
Topology: 3-X-2, a three layer feed-forward neural network, being X from 2 to
4. The input information was the voltammetric parameters (intensity, potential
and half width of the peaks, one for each neuron). The output information was
the concentration values for each ion (two ions, two neurons).
§
Training algorithm: back-propagation and delta-bar-delta algorithms.
§
Transfer functions: linear functions for the input layer and all the
combinations of sigmoidal and linear functions for the rest of the layers.
§
Other parameters: learning rate (0) and momentum (") were maintained
constant. The initial weights were randomly selected.
§
Validation method: cross-validation.
The best models, which achieved a percentage of classification of 100 %, are
summarized in next table:
Topology
3-4-2 3-4-2 3-3-2 3-2-2
Number of epochs 5207 5256 5685 6090
Table 2
RESUMEN EN INGLÉS
420
The transfer functions were linear-sigmoidal-linear in all cases, for the input,
hidden and output layers, respectively. The algorithm that worked better was backpropagation algorithm.
ANN as a multivariate calibration technique
ANNs as multivariate calibration techniques were applied on the first seven
dominant amplitudes obtained when applying a method to reduce dimensions based on
Fourier transform to the voltammograms. This procedure of reduction simplified notably
the models (from 80 points that constituted the signals originally to 7 points – amplitudes –
after FT) with the aim of predicting the concentration values of the ions in every mixture.
The method to reduce dimensions can be summarised in a very simple way: after a
previous low-pass filtering of the signals in the Fourier domain, a cut frequency was
defined so that it was obtained a number of Fourier coefficients so least as possible and, at
the same time, the least recomposition error of the signals (less than 3 %). In this way, 7
dimensions were preserved, corresponding to 7 amplitude values, which were associated
with the same number of input neurons in the models.
As the three layers neural models built did not give satisfactory results, we decided
to build more complex neural models with four layers of neurons. Their characteristics
were the next:
§
Topology: 7-X-Y-2, a four layer feed-forward neural network (with two
hidden layers in this case), being X from 5 to 6 and Y from 2 to 5. The input
information was the 7 amplitudes obtained after FT (one for each neuron). The
output information was the concentration values for each ion (two ions, two
neurons).
§
Training algorithm: improved back-propagation algorithm.
§
Transfer functions: linear functions for the input layer and all the
combinations of sigmoidal, gaussian and hyperbolic tangent functions for the
rest of the layers.
§
Other parameters: learning rate (0) and momentum (") were maintained
constant at the beginning of the training process, being varied after reaching a
certain number of epochs. The initial weights were randomly selected.
Apéndice I
§
421
Validation method: a validation set comprised of 8 samples randomly selected
from the 40 initial samples (without taking into account the external test set).
The best neural models obtained, including the corresponding root mean-square
error (RMS) for each set (trn = training set and val = validation set), appear in next table:
Topology and transfer functions RMStrn RMSval
7-5-2-2 lgss
0.0127
0.0359
7-5-3-2 lggt
0.0127
0.0304
7-5-4-2 lgts
0.0106
0.0259
7-5-6-2 ltts
0.0103
0.0368
7-6-3-2 ltss
0.0154
0.0299
7-6-4-2 lttg
0.0162
0.0238
7-6-5-2 ltgt
0.0127
0.0204
7-6-5-2 lsts
0.0103
0.0233
7-6-6-2 ltts
0.0100
0.0206
Transfer functions: l = linear; g = gaussian; s = sigmoidal;
t = hyperbolic tangent.
Table3
From the former table, the topology 7-6-6-2 ltts (linear-tangential-tangentialsigmoidal) was chosen as the best neural model. With this model, a refinement consisting
of varying the learning parameters (learning rate and momentum) was proposed with the
purpose of obtaining the optimal neural model (RMS errors so least as possible). The
combination of parameters that gave birth to the neural network with the least RMS errors
for the quoted topology was: 0 = 0.25 y " = 0.90. The RMS errors for the training and the
validation sets were: RMStrn = 0.0040 y RMSval = 0.0168, respectively.
The relative errors in the concentrations of Tl+ and Pb2+ were less than 10 % and 7
% (in absolute value), respectively. That supposed an improvement with respect to the
results appearing in the literature. However, for the most predictions, the error was not
higher than 2 – 3 %. In some cases, the errors expressed in mg·L-1 for the pure patterns
were lower than the hundredth of mg·L-1 . In general, those errors affected the thousandth
of mg·L-1 .
RESUMEN EN INGLÉS
422
4) Article Published in the Scientific Journal: ‘Microchimica
Acta’
The next studies, continuing the former ones, are reported in a scientific paper
entitled: “Use of Artificial Neural Networks, Aided by Methods to Reduce Dimensions, to
Resolve Overlapped Electrochemical Signals. A Comparative Study Including other
Statistical Methods”, published in the journal Microchimica Acta.
This work came into being because the results obtained in the previous studies were
suspicious of overfitting. The use of neural networks with four layers and the subsequent
increasing in the complexity of the model (a great number of adjustable parameters) might
have caused overfitting. For more details, please go to Appendix II.
5) Article Published in the Scientific Journal: ‘Talanta’
The following studies, also continuing the former ones, are reported in a scientific
paper entitled: “Multicomponent Analysis of Electrochemical Signals in the Wavelet
Domain”, published in the journal Talanta.
In this case, it was intended to improve the process to reduce dimensions, making a
better use of the wavelet transform, including a feature selection process. Besides, other
objective was to improve the results obtained in previous studies. For more details, please
go to Appendix III.
6) Study of Importance of Peak Parameters to Resolve
Overlapped Electrochemical Signals
Chronologically, the studies carried out until now to resolve the binary
electrochemical system consisting of mixtures of two metallic ions, Tl+ and Pb2+, can be
summarized as follows:
1. Exploratory data analysis to classify the samples and a first attempt to
predict the concentration of both ions in every mixture (first part).
2. Use of artificial neural networks, aided by methods to reduce dimensions
based on Fourier and wavelet transforms, with the aim of predicting the
content in thallium and lead in the mixtures. A comparative study including
Apéndice I
423
other multivariate calibration methods, such as PLS and PCR, was also
carried out (article published in ‘Microchimica Acta’).
3. The proposal of a methodology, based on the fast wavelet transform, for
feature selection prior to multivariate calibration (MLR and PLS) with the
same purpose as the previous studies. The results were also compared with
those obtained after applying ANN (article published in ‘Talanta’).
A brief collecting of the results could be given here:
Modelo
RMStrn RMSmon RMStst
PLS full
0.0328
0.0368 0.0496
FT+PLS
0.0378
0.0226 0.0514
WT(9)+PLS
0.0502
0.0464 0.0605
WT(11)+PLS
0.0480
0.0468 0.0589
PCR full
0.0334
0.0373 0.0498
FT+PCR
0.0382
0.0227 0.0511
WT(9)+PCR
0.0504
0.0466 0.0608
WT(11)+PCR 0.0481
0.0481 0.0592
FT+7-3-2 ltg
0.0235
0.0264 0.0447
FT+7-2-2 ltg
0.0254
0.0269 0.0426
WT+9-3-2 lss
0.0225
0.0297 0.0774
WT+9-2-2 lgt 0.0299
0.0256 0.0475
WT+-3-2 lsg
0.0229
0.0169 0.0486
WT+11-2-2 lsg 0.0230
0.0164 0.0474
FS+MLR
0.0186
0.0208 0.0350
FS+PLS
0.0260
0.0227 0.0365
FS+4-2-2 lgg
0.0258
0.0239 0.0300
PLS: partial least-square regression; PCR: principal component regression; MLR: multilinear regression;
full: neither pretreatment nor data reduction; FT: previous procedure to reduce dimensions with FT; WT:
previous procedure to reduce dimensions with WT (using a certain number of wavelet coefficients); X-Y-Z:
neural network topology with certain transfer functions: l = linear; g = gaussian; s = sigmoidal; t = hyperbolic
tangent; FS: previous procedure of feature selection based on WT.
Table 4
RESUMEN EN INGLÉS
424
As shown in the table, the results obtained were very similar regardless the
procedure used. However, thanks to the advantages of WT to carry out a feature selection
(FS) process (paper of Talanta), the results achieved were slightly better.
Hitherto, it has to be noticed that the objective proposed, i.e. the development of
chemometric methods applied to the treatment of overlapped electrochemical signals, has
been reached satisfactorily. The methods developed are considered very powerful tools that
will show their usefulness in a more evident way when applied to analytical systems more
complex than the binary system comprised of Tl+ and Pb2+, a proof system used to
establish a general methodology of application.
In the case of simple situations, as the previously mentioned binary system, it was
intended to develop alternative methodology that was able to resolve the problem in a
simpler and faster way. The next paragraphs describe the procedure used.
6.1. Parameters defining the voltammetric peaks
The information contained in the voltammograms of the samples has been the
unique information used until now to resolve the overlapped signals. Nevertheless, other
kind of information was still left. We are referring to the peak parameters.
While voltammograms had been utilized for multivariate calibration, which allowed
to predict the concentrations of the ions in every mixture (our main objective), the ‘new’
information contained in the peak parameters had been simply used for exploratory and
pattern recognition analysis.
In this part of the Doctoral Thesis, we summarize the results obtained by using the
new set of information with multivariate calibration purposes. It has to be noticed that this
type of study has been only found in one reference in the scientific literature [64]. In this
case, the authors tested neural network models based on one peak parameter: the height
(intensity) of the voltammetric signals.
Our work is completely different by far. Here we proposed different models,
making use of several chemometric techniques such as MLR, PLS and ANN, with the aim
of studying the relevance of each one of the five peak parameters in the resolution of the
inorganic electrochemical system.
Apéndice I
425
The peak parameters collected for every sample were:
§
Position (V): potential at which the current with respect to the baseline has a
maximum (units = volts – V).
§
Height (I): maximum current (intensity) with respect to the baseline (units =
ampere – A).
§
Peak Area (S): area of the peak corrected for the baseline (arbitrary units).
§
Half Width (W): the difference between the peak potential, Ep , and the potential
at half height, Ep/2 (units = volts – V).
§
Derivative (D): the sum of the absolute values of the maximum and the
minimun in the derivative of the peak (units = ampere – A).
To apply the different chemometric techniques, we used all the possible
combinations between these parameters. So, the number of models built with the quoted
statistical methods was as follows:
§
Models using 5 parameters: 1 (VISWD).
§
Models using 4 parameters: 5 (VISW, VISD, VIWD, VSWD, ISWD).
§
Models using 3 parameters: 10 (VIS, VIW, VID, VSW, VSD, VWD, ISW,
ISD, IWD, SWD).
§
Models using 2 parameters: 9 (VI, VS, VD, IW, IS, ID, SW, SD, WD); the
model VW was not tested because the variability of these two parameters and
subsequently the information contained was not big enough.
§
Models using 1 parameter: 3 (I, S, D); the models V and W were not tested for
the same reasons indicated previously.
6.2. Results obtained
In the case of ANNs, the number of models increased dramatically since all the
possible combinations between the transfer functions (sigmoidal, hyperbolic tangent and
gaussian) for the topology Z-2-2 (where Z is the number of parameters), were tested.
The validation set was comprised of the next samples: T2, T9, P3, P8, T1P6, T4P4,
T6P1, T9P9 and T10P5. The remaining 32 calibration samples constituted the training set.
The external test set (8 mixtures) was used to validate the neural models. Using simple
RESUMEN EN INGLÉS
426
topologies (18 adjustable parameters at worst) and repeating every model five times, with
initial weights randomly selected [62,65,66], overfitting was avoided.
The best results obtained are collected in next table:
Modelos
RMStrn RMSmon RMStst
VISWD (MLR)
0.0242 0.0271 0.0526
VISD (MLR)
0.0244 0.0264 0.0520
ISD (MLR)
0.0274 0.0284 0.0477
SD (MLR)
0.0316 0.0283 0.0509
VISWD (PLS – 3 PCs)
0.0273 0.0283 0.0479
ISWD (PLS – 3 PCs)
0.0273 0.0284 0.0477
VISD (PLS – 3 PCs)
0.0273 0.0283 0.0478
VSWD (PLS – 2 PCs)
0.0316 0.0283 0.0509
ISD (PLS – 3 PCs)
0.0274 0.0284 0.0477
SWD (PLS – 2 PCs)
0.0316 0.0283 0.0509
VSD (PLS – 2 PCs)
0.0316 0.0283 0.0509
SD (PLS – 2 PCs)
0.0316 0.0283 0.0509
VISWD ltg (ANN)
0.0218 0.0272 0.0474
VISD lgg (ANN)
0.0218 0.0269 0.0436
ISD lgg (ANN)
0.0234 0.0261 0.0416
SD lgg (ANN)
0.0255 0.0292 0.0420
Table 5
The main conclusions that may be extracted from the table on top are these:
1. Regardless the chemometric technique applied, the results are very similar
in all cases, but a bit better for ANN models.
2. V and W parameters are not very important because results are very similar
between models differing in them.
3. The combination of the parameters I, S and D seems to give the lower RMS
errors for the training, validation and test sets.
4. Even models built with S and D give only a slightly higher RMS error for
the different sets.
Apéndice I
427
This means that the intensity, area and derivative of the signals are fundamental for
the resolution of the overlapped system. As the area is directly proportional to the intensity,
the inclusion of intensity in the model when S and D are presented only caused a slightly
improvement. Moreover, the derivative is related to the position and the intensity of the
peak; that is why D is essential and V irrelevant since the last one does not possess the
mentioned relationship.
The next figure, corresponding to the loadings plot when carrying out a principal
component analysis on the voltammetric parameters, confirms the theory exposed in the
last paragraph.
A) loadings plot on mean-centering data; B) loadings plot on autoscaling data.
Figure 5
As it can be seen, the parameters I and D have the highest values of the principal
components in both plots; S is very important in the autoscaling plot, but in the meancentering plot only has a small relevance.
In general, we can affirm that the results are not very different than those obtained
with the more complex models previously summarized (papers in Talanta and
Microchimica Acta). Nevertheless, due to the simplicity and quickness of the analyses
done using directly the peak parameters and comparing the results, it could be advisable to
resolve this binary system by means of chemometric treatment on the voltammetric
parameters of the signals.
RESUMEN EN INGLÉS
428
7) Multivariate Calibration On Highly Overlapped Electrochemical Signals Of Quaternary Mixtures Of Chlorophenols
Determined By A Peg-Modified Sonogel-Carbon Electrode
7.1. Defining the problem
As it has been reported in former sections, the process of fabrication of a new type
of electrode, called the Sonogel-Carbon electrode, has been recently published. This part
(the last one) of the Doctoral Thesis presents one of the first applications of this kind of
electrode as an amperometric sensor to determine the content of chlorophenolic
compounds,
namely,
4-chloro-3-methylphenol
(MF),
4-chlorophenol
(CF),
2,4-
dichlorophenol (DCF) and 2,4,6-trichlorophenol (TCF), both individually and in mixtures.
The electroanalytical technique used was differential pulse adsorptive stripping
voltammetry (DPAdSV) and a Sonogel-Carbon electrode modified with polyethylenglycol
(PEG) was used as the working electrode. This sort of polymer was added as a modifier
during the process of fabrication in order to achieve the following advantages:
§
More and faster stabilization of the electrode during its previous conditioning.
§
Improving the sensibility of the electrode.
§
Better definition of the peaks of the analytes and their mixtures.
Since all measurements were carried out with the same electrode, an electrochemical
procedure to renew its surface was applied to guarantee the reproducibility among the
measurements: the variation coefficients were quite lower than 5 % in all cases. In idle
conditions the electrode was hold in pure water.
The main voltammetric parameters were as follows: deposition potential = 0 V;
deposition time = 600 s; pulse repetition time = 0.6 s; scan rate = 6.4 mV·s-1 ; pulse
amplitude = 100 mV.
The calibration plots and the detection limits (LD, see next table) calculated for
every analyte indicate that the PEG-modified Sonogel-Carbon electrode is quite adequate
to determine this kind of pollutants:
Apéndice I
429
Analyte
LD (:
: g·L-1 )
4-chloro-3-methylphenol
4.9
4-chlorophenol
4.4
2,4-dichlorophenol
4.8
2,4,6-trichlorophenol
3.6
Table 6
An example of the voltammetric responses obtained with this electrode is shown in
next figure:
Individual signals of chlorophenols and their mixture at 0.25 mg·L-1 : 4-chloro3-methylphenol (MF), 4-chlorophenol (CF), 2,4-dichlorophenol (DCF) and
2,4,6-trichlorophenol (TCF)
Figure 6
The individual signals are well defined, but highly overlapped to one another as the unique
peak obtained for their mixture demonstrates.
A study of the interferences among the selected phenols was carried out. Binary,
ternary (see next figure) and quaternary mixtures (see former figure) were measured,
showing a severe interaction between the analytes in the form of a unique signal in all
cases:
RESUMEN EN INGLÉS
430
Binary mixtures: two plots at the top of the figure and ternary mixtures at the
bottom. The concentration of the analytes is 1 mg·L-1 .
Figure 7
For this reason, the resolution of the quaternary mixtures for these chlorophenols was
planned.
7.2. Application of chemometric techniques
As shown in the previous figures, the application of chemometric techniques seems
to be a good way to resolve this organic electrochemical system. That is why multivariate
calibration based on MLR and PLS with a previous procedure of feature selection in the
wavelet domain has been used to build up predictive regression models.
A set of 157 quaternary mixtures of chlorophenols, apparently giving a single peak
signal, were measured, the analytes concentrations being in the range from 0.05 to 0.25
Apéndice I
431
mg·L-1 . Prior to data analysis this set of mixtures was split into three subsets: training,
monitoring and test sets, consisting approximately of 81, 40, and 36 mixtures, respectively;
each considered signal was the average of three replicates.
Different strategies of forming the training, monitoring and test sets were tested,
ranging from random selection to selection according to an orthogonal array design [67]
(see next figure). Likewise, several normalization methods, such as standard normal variate
(SNV), multiplicative scatter correction (MSC) and orthogonal signal correction (OSC),
were tested in order to correct the vertical shift due to variability in the measurement
process.
Blue = training set; red = monitoring set; green = test set.
Original signals
Randomized
signals (2 sets)
Orthogonal
design
Randomized
signals (3 sets)
Figure 8
Two kind of procedures were used to carry out the calibration process in order to
resolve the overlapping between the organic electrochemical signals:
§
A partial least-square (PLS) regression method.
§
A wavelet-based calibration algorithm called WILMA (Wavelet Interface to
Linear Modelling Analysis), recently developed by the Prof. Seeber’s research
group in Modena – Italy. The article published in Talanta was the origin of this
algorithm.
The following sections summarize the results obtained after applying every
statistical method on the voltammograms of the samples.
RESUMEN EN INGLÉS
432
Partial least-square regression (PLS)
PLS models were calculated using both mean-centered and autoscaled data. The
predictions obtained gave similar errors in most cases. That is why the next table only
shows the results for mean-centered data:
Analyte Normalization PC’s SDECtrn SDEPmon SDEPtst
MF
SNV
9
0.0304
0.0455
0.0385
CF
SNV
11
0.0402
0.0430
0.0497
DCF
SNV
13
0.0280
0.0478
0.0463
TCF
SNV
10
0.0114
0.0108
0.0138
MF
MSC
10
0.0271
0.0427
0.0402
CF
MSC
16
0.0167
0.0496
0.0545
DCF
MSC
11
0.0352
0.0511
0.0470
TCF
MSC
8
0.0131
0.0120
0.0120
MF
OSC
7
0.0311
0.0460
0.0347
CF
OSC
8
0.0408
0.0361
0.0410
DCF
OSC
10
0.0281
0.0544
0.0421
TCF
OSC
9
0.0091
0.0102
0.0121
MF
None
9
0.0275
0.0688
0.0582
CF
None
9
0.0342
0.2385
0.2808
DCF
None
3
0.0613
0.0507
0.0557
TCF
None
5
0.0135
0.0343
0.0286
Normalization: normalization method; PC’s: number of principal
components; SDEC & SDEP : standard deviation of error of calculation
and prediction, respectively; trn, mon and tst: training (81), monitoring
(40) and test sets (36), respectively.
Table 7
In general, quite satisfactory predictions were obtained for TCF and, partially, for
MF, while CF and DCF were not satisfactory predicted. It has to be noticed that the
voltammetric peak of pure CF lies entirely in the potential range where pure DCF intensity
maximum is located (see the plot of the quaternary mixture). PLS based on SNV and OSC
normalization generally performed better than on MSC normalization. Moreover, the
Apéndice I
433
normalization pretreatment is absolutely necessary to improve the results, mainly for CF
and DCF.
Globally, the results were not as good as expected but hopeful. This leaded to the
application of the following chemometric method.
The wavelet-based calibration algorithm
The WILMA algorithm accomplishes the selection of optimal regression models by
coupling the discrete wavelet transform (WT) with MLR and PLS regression techniques.
The algorithm, written in MATLAB language, works as follows: it decomposes each signal
into the WT domain and then, by means of proper criteria, selects the wavelet coefficients
that give the best regression models, as evaluated by the leave-one-out cross-validation
criterion. The predictive ability of the regression models is then checked on an external test
set. The algorithm also allows the reconstruction of the signals back in the original domain
using only the selected wavelet coefficients, with the aim of interpreting chemically the
results. A wider scheme of WILMA’s operation can be seen in next scheme (Figure 9 ):
RESUMEN EN INGLÉS
434
Scheme of the wavelet-based calibration algorithm
(WILMA)
Signals
Partial Least
Square
Regression (PLS)
Multilinear
regression (MLR)
Padding criteria
Types of wavelets used
• Zpd (zero padding)
• Sym (symmetric
padding)
• Spd (smooth padding)
• Daubechies (db 2, 4, 5, 6,
10 & 20)
• Coiflets (coif 1, 2, 3 & 5)
• Symlets (sym 4, 5 & 6)
• Biorthogonal (rbio 3.1)
Padding s ignals
Application of FWT
Sorting wavelet coefficients
•
•
•
•
Covariance (C 2 )
Variance (V)
Correlation coefficient (R 2 )
Spearman’s correlation
coefficient (S 2 )
Matrix of
wavelet
coefficient
s
Sorting with re s pe ct to yi
Multivariate
calibration
models to select
wavelet
coefficients
(PRESSLOO min)
Selection of the
best
decomposition
level
(PRESSLOO
min)
Re c onstruc tion
of signals in the
wave le t domain
Figure 9
Matrix of
wavelet
coefficients for
every yi, which
gives the best
fitted model
Validation of the
best model with
an external test set
Apéndice I
435
The algorithm gave the best results working on the randomised training and monitoring
sets, as shown in next table:
Analytes
Set
Norm.
Parameters
SDECtrn SDEPmon SDEPtst Coef.
MF
Random 2 sets SNV sp0 / rbio3.1 / R2 / MLR 0.0262
0.0399
0.0435
20
CF
Random 2 sets SNV
zpd / db4 / V / MLR
0.0458
0.0416
0.0503
15
DCF
Random 2 sets SNV
zpd / coif1 / V / MLR
0.0327
0.0481
0.0411
21
TCF
Random 2 sets SNV
zpd / db2 / C2 / MLR
0.0121
0.0104
0.0131
12
MF
Random 2 sets OSC
zpd / sym4 / C2 / MLR
0.0291
0.0393
0.0355
12
CF
Random 2 sets OSC zpd / rbio3.1 / R2 / MLR 0.0403
0.0539
0.0667
22
DCF
Random 2 sets OSC zpd / rbio3.1 / R2 / MLR 0.0388
0.0568
0.0573
24
TCF
Random 2 sets OSC
zpd / sym6 / R2 / MLR
0.0102
0.0129
0.0165
19
MF
Random 2 sets None
zpd / db2 / V / MLR
0.0283
0.0421
0.0509
13
CF
Random 2 sets None
zpd / coif3 / V / MLR
0.0448
0.0336
0.0553
16
DCF
Random 2 sets None
zpd / coif1/ C2 / MLR
0.0347
0.0490
0.0503
18
TCF
Random 2 sets None
zpd / db10 / C2 / MLR
0.0107
0.0106
0.0138
15
Norm: normalization method; Coef: number of wavelet coefficients; SDEC & SDEP : standard deviation of
error of calculation and prediction, respectively; trn, mon and tst: training, monitoring and test sets,
respectively.
Table 8
As happened with PLS models, quite good predictions were obtained for the two
analytes, MF and TCF, while CF and DCF were not entirely satisfactory predicted. The
explanation is the same as that given before. Excepting for MF, the normalization
pretreatment does not seem to be necessary with the WILMA algorithm. It has to be
noticed that the whole results correspond to MLR models; this means that MLR generally
performs better than PLS and selecting a less number of wavelet coefficients. The SDEP
values when using the normalization technique OSC are not as good as the results obtained
by applying SNV, excepting for the MF analyte. Furthermore, a set of randomised signals
gives the best results with the WILMA algorithm, as in the case of the PLS regression
method.
RESUMEN EN INGLÉS
436
Calibration transfer procedure
Because of the vertical shift due to variability in the measurement process,
phenomenon that seems intrinsic to the Sonogel-Carbon electrode, a calibration transfer
procedure was carried out in order to improve the results obtained until now.
Principal component analysis (PCA) on the whole signal matrix (157 mixtures)
corroborated a certain degree of variability among the mixtures, depending on the time
they were measured:
Figure 10
The figure on top (scores plot) shows two groups of mixtures A (red) and B (blue). The
order of measurement was from the left-bottom corner to the right-top corner of the plot, as
the arrow indicates.
Thus, a calibration transfer procedure was attempted by using an OSC-based
method [68]. The scores plot from the PCA after carrying out this calibration process gave
place to the next samples distribution:
Apéndice I
437
Figure 11
As seen in the figure, now group A and B are completely mixed up. This situation might
improve the results after applying the WILMA algorithm. Nevertheless, the results
obtained were very similar to the previous ones:
Analytes
Parameters
SDECtrn SDEPmon SDEPtst Coef.
MF
zpd / sym4 / R2 / MLR
0.0284
0.0524
0.0497
12
CF
sym6 / zpd / V / PLS
0.0406
0.0443
0.0443
36
DCF
zpd / db6 / V / PLS
0.0361
0.0520
0.0443
19
TCF
sp0 / db2 / V / MLR
0.0079
0.0154
0.0125
8
Coef: number of wavelet coefficients; SDEC & SDEP : standard deviation of error
of calculation and prediction, respectively; trn, mon and tst: training, monitoring
and test sets, respectively.
Table 9
In this case, unlike the former application of WILMA, a PLS model was chosen as the best
calibration model for CF and DCF analytes.
RESUMEN EN INGLÉS
438
Looking at the SDEP errors showed in previous tables, it is clear that apart from the
similarity in the results certain improvement has been achieved, even in the number of
wavelet coefficients, which were selected by the feature selection process and subsequently
used to build the multivariate calibration models. Nevertheless, when it was intended to
refine the calibration transfer process based on OSC by using more groups, the SDEP
errors got worse.
7.3. Future work
The research summarized in this part of the Doctoral Thesis is being performing
currently in order to improve the results reported previously. Some of the studies foreseen
are collected as follows:
§
Artificial neural networks are being tested as regression tools, on the wavelet
coefficients selected by the WILMA algorithm as descriptors. In this way, we
want to check whether a non-linear regression technique can lead to a
significant improvement.
§
Other possibility consists of carrying out the feature selection process with a
genetic algorithm (GA), i.e. select the wavelet coefficients previously with a
GA instead of using a sorting step, as WILMA performs now.
§
Finally, although the complexity of this electrochemical system advises against
using only the peak parameters (position, height, area, derivative and half
width) to resolve the overlapping, it would be worth to take a chance.
8) References
[1]
P. T. Kissinger, W. R. Heineman, Laboratory Techniques in Electroanalytical
Chemistry,2nd Edn., Marcel Dekker, New York, 1996.
[2]
I. Naranjo-Rodríguez, J. L. Hidalgo-Hidalgo de Cisneros, Organic Analysis in
Environmental Samples by Electro-chemical Methods (Encyclopedia of Analytical
Chemistry: Instrumentation and Applications). In: R. A. Meyers (Ed.) John Wiley
& Sons, United Kingdom, 2000, vol. 4, p. 3035–3064.
[3]
D. P. Binkley, R. E. Dessy, Anal. Chem., 52 (1980) 1335.
[4]
T. F. Brown, S. D. Brown, Anal. Chem., 53 (1981) 1410.
[5]
C. A. Scolari, S. D. Brown, Anal. Chim. Acta, 166 (1985) 253.
Apéndice I
439
[6]
B. Raspor, I. Pizeta, M. Branica, Anal. Chim. Acta, 285 (1994) 103.
[7]
H. N. A. Hassan, M. E. M. Hassouna, I. H. I. Habib, Talanta, 46 (1998) 1195.
[8]
R. Tauler, A. Smilde, B.R. Kowalski, J. Chemometrics, 9 (1995) 31.
[9]
M. Esteban, C. Arino, J. M. Diaz-Cruz, M. S. Diaz-Cruz, R. Tauler, 19 (2000)
Trends Anal. Chem., 49.
[10]
H. Martens, T. Naes, Multivariate Calibration, Wiley, Chichester, 1989.
[11]
R. G. Brereton, Analyst, 125 (2000) 2125.
[12]
P. Geladi, Chemom. Intell. Lab. Syst., 60 (2002) 211.
[13]
K. Bessant, S. Saini, J. Electroanal. Chem., 489 (2000) 76.
[14]
J. M. G. Fraga, A. I. J. Abizanda, F. J. Moreno, J. J. A. Leon, Talanta, 46 (1998)75.
[15]
J. Saurina, S. H. Cassou, E. Fabregas, S. Alegret, Anal. Chim. Acta, 405 (2000)
153.
[16]
Y. Ni, L. Wang, S. Kokot, Anal. Chim. Acta, 439 (2001) 159.
[17]
M. C. Ortiz, J. Arcos, L. Sarabia, Chemom. Intell. Lab. Syst., 34 (1996) 245.
[18]
A. Henrion, R. Henrion, G. Henrion, F. Sholz, Electroanalysis, 2 (1990) 309.
[19]
A. Herrero, M. C. Ortiz, Talanta, 46 (1998) 129.
[20]
R. M. De carvalho, C. Mello, L. T. Kubota, Anal. Chim. Acta, 420 (2000) 109.
[21]
E. Cukrowska, L. Trnkova, R. Kizek, J. Havel, J. Electroanal. Chem., 503 (2001)
117.
[22]
M. C. Antunes, J. E. J. Simão, A. C. Duarte, R. Tauler, Analyst, 127 (2002) 809.
[23]
D. Allegri, G. Mori, R. Seeber, Analyst, 121 (1996) 1359.
[24]
A. Herrero, M. C. Ortíz, Anal. Chim. Acta, 348 (1997) 51.
[25]
A. Cladera, J. Alpízar, J. M. Estela, V. Cerdà, M. Catasús, E. Lastres, L. García,
Anal. Chim. Acta, 350 (1997) 163.
[26]
J. Alpízar, A. Cladera, V. Cerdà, E. Lastres, L. García, M. Catasús, Anal. Chim.
Acta, 340 (1997) 149.
[27]
O. Abollino, M. Cocchi, E. Mentasti, R. Seeber, A. Ulrici, J. Chemometrics,
submitted.
[28]
E. M. Boyd, K. Killham, A. A. Meharg, Chemosphere, 43 (2001) 157.
[29]
Z. Aksu, J. Yener, Waste Management, 21 (2001) 695.
[30]
H. –Y. Chen, A. –M. Yu, D. –K. Xu, Fresenius J. Anal. Chem., 359 (1997) 542.
[31]
A. Cladera, M. Miró, J. M. Estela, V. Cerdà, Anal. Chim. Acta, 421 (2000) 155.
[32]
M. A. Oturan, N. Oturan, C. Lahitte, S. Trevin; J. Electroanal. Chem., 507 (2001)
96.
RESUMEN EN INGLÉS
440
[33]
J. Gorodkin, B. Sogaard, H. Bay, H. Doll, P. Kolster, S. Brunak, Comput. Chem.,
25 (2001) 301.
[34]
F. Navarro-Villoslada, L. V. Pérez-Arribas, M. E. León-González, L. M. Polo-Díez,
Anal. Chim. Acta, 381 (1999) 93.
[35]
Y. Ni, L. Wang, S. Kokot, Anal. Chim. Acta, 431 (2001) 101.
[36]
M. del Olmo, C. Díez, A. Molina, I. del Orbe, J. L. Vílchez, Anal. Chim. Acta, 335
(1996) 23.
[37]
I. Rodríguez, M. H. Bollaín, R. Cela, J. Chromatogr. A, 750 (1996) 341.
[38]
R. Todeschini, D. Galvagni, J. L. Vílchez, M. del Olmo, N. Navas, Trends Anal.
Chem., 18(2), (1999) 93.
[39]
J. Wang, Analytical Electrochemistry, 2ª ed., John Wiley & Sons, Inc., New York,
2000.
[40]
F. Vydra, K. Štulík, E. Juláková, Electrochemical Stripping Analysis, Ellis
Horwood Limited, Chichester, Sussex, UK, 1976.
[41]
M. M. Cordero-Rando, I. Naranjo-Rodríguez, J. L. Hidalgo-Hidalgo de Cisneros,
Anal. Chim. Acta, 370 (1998) 231.
[42]
I. Naranjo-Rodríguez, J. A. Muñoz-Leyva, J. L. Hidalgo-Hidalgo de Cisneros,
Anal. Chim. Acta, 344 (1997) 167.
[43]
I. Naranjo-Rodríguez, J. A. Muñoz-Leyva, J. L. Hidalgo-Hidalgo de Cisneros,
Talanta, 43 (1996) 1117.
[44]
M. M. Cordero-Rando, J. L. Hidalgo-Hidalgo de Cisneros, E. Blanco, I. NaranjoRodríguez, Anal. Chem., 74 (2002) 2423.
[45]
M. M. Cordero Rando, Development and Characterization of Sonogel-Carbon
Materials as a Base of Electrochemical Sensors, Doctoral Thesis, Cadiz (2001).
[46]
J. L. Hidalgo-Hidalgo de Cisneros, M. M. Cordero-Rando, I. Naranjo-Rodríguez, E.
Blanco-Ollero, L. Esquivias-Fedriani, Patent P200100556, Spain (2001).
[47]
J. Zarzycki, Heterog. Chem. Rev., 3 (1994) 243.
[48]
E. Blanco, L. Esquivias, R. Litrán, M. Piñero, M. Ramirez-del-Solar, N. de la RosaFox, Appl. Organomet. Chem., 13(5) (1999) 399.
[49]
M. M. Cordero-Rando, I. Naranjo-Rodríguez, J. M. Palacios-Santander, L. M.
Cubillana-Aguilera, J. L. Hidalgo-Hidalgo de Cisneros, Anal. Chim. Acta,
submitted.
[50]
B. Ballarin, C. Zanardi, L. Schenetti, R. Seeber, J. L. Hidalgo-Hidalgo de Cisneros,
Synth. Met., 139(1) (2003) 29.
Apéndice I
[51]
441
B. Ballarin, M. Gazzano, J. L. Hidalgo-Hidalgo de Cisneros, D. Tonelli, R. Seeber,
Anal. Bioanal. Chem., 374 (2002) 891.
[52]
B. Ballarin, M. M. Cordero-Rando, E. Blanco, J. L. Hidalgo-Hidalgo de Cisneros,
R. Seeber, D. Tonelli, Collect. Czech. Chem. Commun., 68 (2003) 1420.
[53]
R. Erce-Montilla, M. Piñero, N. de la Rosa-Fox, A. Santos, L. Esquivias, J. Mater.
Res., 16(9) (2001) 2572.
[54]
M. M. Haridas, N. Goyal, R. Jayesh, Ceram. Int., 24(6) (1998) 415.
[55]
Y. Meyer, Wavelets. Algorithms and Applications, SIAM, Philadelphia, 1993.
[56]
Y. P. Chan, Wavelet Basics, Kluwer Academic Publishers, Norwell, Massachusetts,
1995.
[57]
B. K. Alsberg, A. M. Woodward, D. B. Kell, Chemom. Intell. Lab. Syst., 37 (1997)
215.
[58]
R. T. Ogden, Essential Wavelets for Statistical Applications and Data Analysis,
Birkhäuser, Boston, 1996.
[59]
J. Zupan, J. A. Gasteiger, Anal. Chim. Acta, 248 (1991) 1.
[60]
J. Zupan, J. Gasteiger, Neural Networks for Chemists: An Introduction, VCH,
Weinheim, 1992.
[61]
D. Svozil, V. Kvasnièka, J. Pospíchal, Chemom. Intell. Lab. Syst., 39 (1997) 43.
[62]
F. Despagne, D. L. Massart, Analyst, 123 (1998) 157R.
[63]
D. L. Massart, B. G. M. Vandeginste, L. M. C. Buydens, S. de Jong, P. J. Lewi, J.
Smeyers-Verbeke, Handbook of Chemometrics and Qualimetrics (Part A and B),
Data Handling in Science and Technology, vol. 20A-B, Elsevier, Amsterdam, 1998.
[64]
J. Alpízar, A. Cladera, V. Cerdà, E. Lastres, L. García, M. Catasús, Anal. Chim.
Acta, 340 (1997) 149.
[65]
T. W. Kauffman, P. C. Jurs, J. Chem. Inf. Comput. Sci., 41 (2001) 408.
[66]
D. R. Hush, B. G. Horne, IEEE Signal Process. Mag., 1(8) (1993) 16.
[67]
Wei Guang Lan, Ming Keong Wong, Ni Chen, Yoke Min Sin, Analyst, 120 (1995)
1115.
[68]
J. Sjöblom, O. Svensson, M. Josefson, H. Kullberg, S. Wold, Chemom. Intell. Lab.
Syst., 44 (1998) 229.
APÉNDICE II
Microchim. Acta 142, 27–36 (2003)
DOI 10.1007/s00604-002-0958-9
Original Paper
Use of Artificial Neural Networks, Aided by Methods to Reduce
Dimensions, to Resolve Overlapped Electrochemical Signals.
A Comparative Study Including other Statistical Methods
J. M. Palacios-Santander1, A. Jiménez-Jiménez2 , L. M. Cubillana-Aguilera1 , I. Naranjo-Rodrı́guez1 ,
and J. L. Hidalgo-Hidalgo-de-Cisneros1;
1
2
Departamento de Quı́mica Analı́tica, Universidad de Cádiz, Polı́gono Rı́o San Pedro, Apartado 40,
Puerto Real 11510, Cádiz, Spain
Servicio de Informática Cientı́fica y Estadı́stica, Universidad de Cádiz, Polı́gono Rı́o San Pedro, Apartado 40,
Puerto Real 11510, Cádiz, Spain
Received October 4, 2002; accepted December 15, 2002; published online May 19, 2003
# Springer-Verlag 2003
Abstract. A method using artificial neural networks
(ANNs) combined with Fourier Transform (FT) and
Wavelet Transform (WT) was used to resolve overlapping electrochemical signals. This method was studied as a powerful alternative to traditional techniques
such as principal component regression (PCR) and
partial least square (PLS), typically applied to this kind
of problems.
WT and FT were applied to experimental electrochemical signals. These are two alternative methods
to reduce dimensions in order to obtain a minimal
recomposition error of the original signals with the
least number of coefficients, which are utilized as
input vectors on neural networks. Tl þ and Pb2 þ mixtures were used as a proof system.
In this paper, neural networks with a simple topology and a high predictive capability were obtained,
and a comparative study using PLS and PCR was
done, producing the neural models with the lowest
RMS errors. By comparing the error distributions
associated with all the different models, it was established that models based on FT and WT (with 11
Author for correspondence. E-mail: [email protected]
coefficients) neural networks were more efficient in
resolving this type of overlapping than the other
chemometric methods.
Key words: Fourier transform; wavelet transform; artificial neural
networks; overlapped electrochemical signal processing; differential pulse anodic stripping voltammetry.
The problem of determining two or more species
with similar analytical signals has been a matter of
substantial interest since the former developments
in instrumental techniques of analysis. Nowadays,
instrumental techniques combined with the suitable
chemical procedures are able to resolve this problem
in most situations, but inefficient in others. For example, electroanalytical techniques have found numerous
applications [1, 2] due to their simplicity and low cost,
but selectivity problems occur frequently. Overlapped
peaks occur more commonly in voltammetry than in
chromatography or most spectral methods, because
the width of a voltammetric peak is an appreciable
fraction of the accessible potential range. It is in these
situations that statistical techniques and methods
based on signal processing play an important role,
allowing the separation of signals including the most
serious overlapping cases.
28
Between the statistical techniques used most frequently for deconvolution and simultaneous evaluation of overlapped signals, independently of the type
of signal, are the signal ratio resolution method
[3], multivariate calibration methods (PLS, PCR, etc)
[4, 5], derivation of signals [6], curve fitting [7],
Fourier transform (FT) [8], wavelet transform (WT)
[9] and ANNs [10–12].
FT is one of the most well-known and most frequently used tools in any scientific discipline. Using
this kind of transform, a signal f(t) is represented as a
combination of basis functions, normally sines and
cosines. This means that the original signal is decomposed in a sum of sinusoidal signals at different frequencies. The FT has two fundamental advantages: it
is simple, and it can be explained in physical terms
(undulatory nature of many signals).
WT now plays a special role in the field of
signal processing: data pre-processing [9], de-noising
and compression [13, 14], and overlapped signals
processing [15] among others. While the basis functions of FT are unlimited in duration and smooth
and periodic, the component functions of WT are
finite, asymmetric and non-periodic. This provides
WT with the advantageous characteristic of compressing information, as it allows to approximate signals
with features that change over time and signals that
have jumps and other non-smooth features. Another
important characteristic of WT is that this type of
transform can represent a non-stationary signal,
where, in contrast to FT, the frequency depends on
the variable t,.
In wavelet analysis, linear combinations of wavelet
functions are used to represent signals f(t). This representation allows you to separate a signal into multiresolution components. The fine and coarse resolution
components capture the high-frequency and the lowfrequency parts of a signal, respectively. In the same
way, these representations are useful in a broad range
of applications, such as data compression, signal and
image processing, non-parametric statistical estimation, numerical analysis, chemistry, astronomy and
oceanography.
Nowadays ANNs, understood as black box models,
are accepted by the scientific society and extensively
used to perform multicomponent analysis [16] and
pattern recognition [17]. ANNs have already been utilized in combination with most analytical techniques,
and the number of applications in electroanalysis is
also increasing [18, 19]. There are many general
J. M. Palacios-Santander et al.
books about the application of this method in chemistry [20, 21].
Although the theory and principles of ANNs
have been dealt with in detail in the literature
[22, 23], a small summary about the issue will be
given here.
Similar to the biological structures of living organisms, ANNs consist of a set of processing units called
neurones (cells or nodes) which are capable of sharing
information. In particular, there are neural models that
can be used as supervised models with a predictive
feature. These models have a disposition in several
layers: an input layer, one or more hidden layers,
and an output layer, all of them connected to each
other between adjacent layers which determine the
structure or the topology of the network. The number
of nodes in the input and output layer are defined by
the problem being solved. The input layer receives
the experimental information (such as experimental
parameters conveniently or not pre-processed which
constitute the training set) while the output layer delivers the response function. Regarding the hidden
layers, they encode and organize the information
received from the input layer and deliver it to the
output layer. A bias is used to calculate the net input
of a neuron from all the neurons connected to it. The
neuron calculates a weighed sum for each signal. The
objective is basically the adequate estimation of a set
of parameters called weights by an iterative process
named network training. These weights establish the
importance of the connections between the neurones
and are able to generate a neural network model with
a minimum error rate. The model obtained can be
validated using another set of samples called test
set.
The statistical validation of the training and the test
sets guarantees a satisfactory neural model when the
error function (RMS error: root mean square error) for
the training and the test samples is sufficiently small.
Moreover, this type of validation is of general character and allows you to compare with other supervised
models.
The process of calculating a predictive neural
model is based on a type-gradient algorithm of convergence which tries to obtain the configuration of
weights that gives the minimum RMS error.
In this paper, a procedure for resolving hard overlapped electrochemical signals is proposed. This
procedure uses Fourier and wavelet transforms as
methods to reduce dimensions in connection with
29
A Comparative Study Including other Statistical Methods
artificial neural networks, instead of multivariate calibration techniques such as PLS and PCR. The wellknown Tl þ and Pb2 þ mixture, which has already
been resolved (but with higher concentrations of the
ions) by the traditional methods PLS and PCR, is
employed as the proof system [24].
Although the new procedure is more complicated
from the mathematical viewpoint, its use should be
justified whether its ability of prediction was better
than that of PLS and PCR or it opened a new way
of treating this kind of signals statistically. Furthermore, it must be taken into account that PLS and
PCR can only be used in those cases where linearity
exists between the initial data and the values of the
response function; by contrast, the proposed procedure is applicable to highly non-linear signal=
concentration relationships as well as to linear ones,
since these transforms lend a non-linear character to
the reduced data.
Moreover, the justification to use artificial neural
networks as a method to resolve hard overlapped signals versus PLS and PCR is based on the fact that
previous pre-processing of the initial information
(voltammograms) was done by applying Fourier and
wavelet transforms, both suitable to detect small
changes in the resultant signal frequency associated
with a hard overlapping. By contrast, there is no guarantee that the PLS approach theoretically extracts the
most reliable information [25], and the use of this
method depends in part on what is known about the
data, the nature of noise and signals and so on. This
can also be applied to PCR, since PLS is more powerful than PCR.
Both transforms applied as methods to reduce
dimensions will allow you to show all information
contained in the signal as a vector with a few coefficients. In this paper, the two types of transforms will
be compared in order to find out which has the best
ability to reduce and retain information. The preprocessing of the signals by FT and WT allows you to
find simple and stable neural models with three layers
to resolve the problem of overlapped signals. The
problem of overfitting should be avoided using the
least number of coefficients possible to determine
the network parameters. Furthermore, a comparative
study of the results of these methods with those of
PCR and PLS will be carried out. The plots of the
RMS errors for each model will give an idea about
the best model from all those assayed. And finally, by
using box and whiskers plots, a comparison between
the error distributions will be carried out for all
models applied.
Experimental
The DPASV (Differential Pulse Anodic Stripping Voltammetry)
measurements were carried out with an Autolab+=PGSTAT20 system coupled to a Metrohm VA 663 Stand. An electrochemical three
electrode cell, with a platinum auxiliary electrode, a silver=silver
chloride, 3 M potassium chloride reference electrode and an HMDE
(Hanging Mercury Drop Electrode, Metrohm) was employed.
Analytical reagent grade chemicals were used throughout the
experiments. Voltammograms were recorded at room temperature.
All solutions were de-aerated with nitrogen, when necessary, for at
least 10 min prior to carrying out the experiments.
A 2 M acetic acid=2 M ammonium acetate buffer solution was
utilized as supporting electrolyte (pH ¼ 4.8–5.0). Lead and thallium
solutions were prepared from nitrate salt stock solutions of
250 mg l 1.
The voltammetric parameters were as follows: deposition
potential ¼ 1.3 V; deposition time ¼ 120 s; rest period ¼ 20 s;
initial potential ¼ 1.3 V; end potential ¼ 0 V; scan rate ¼
8.5 mV s 1; pulse amplitude ¼ 0.10 V; pulse time ¼ 0.07 s; pulse
repetition time ¼ 0.6 s. The drop surface was approximately
0.52 mm2.
For signal processing and statistical treatment the following
software packages were used: MATLAB+ 5.1, Statistica+ 5.1,
Unscrambler+ 7.01 and EXCEL+ 97 Pro. Qnet+ 2000 neural network software was utilized to obtain the neural models.
Results and Discussion
In this paper, a supervised neural model is used as a
direct pattern recognition method. In some studies, all
points the instrument gives for each signal (in the
present case, 80 points) are utilized as input vectors
[10, 11]. However, this means working with a large
number of dimensions, much redundant information, a
relatively high computation time and possibly overparametrization of the model. To avoid these problems, we applied the methods to reduce dimensions
(to compress information) as a previous step to the
estimation of the neural models.
We used a feedforward-type (connections must
connect to the next layer) and multilayered neural
network with an improved faster back propagation
(BP) algorithm. There are two adaptive parameters
(learning rate and momentum) for each weight in a
BP neural network. The improved BP algorithm will
make the learning process faster and avoid a local
minimum in the surface of the RMS error. These types
of networks operate in a supervised mode.
Backpropagation training is accomplished using the
following logic sequence: 1) data is supplied to the
input layer as a normalized vector and combined in
the next (hidden) layer(s). 2) Each node of a given
30
hidden layer(s) processes the vector received multiplying it by a weight vector and adding bias value.
3) The resulting value is then processed through a
transfer function. This transfer function serves to
define the response of each neuron as a value that
ranges from 0 (absence of response) to 1 (maximum
intensity of the response). The transfer functions used
here are the sigmoid function, f(x) ¼ 1=(1 þ exp( x)),
the Gaussian function, f(x) ¼ exp( x2) and the
hyperbolic tangent, f(x) ¼ (tanh(x) þ 1)=2. 4) Each
node’s output value is combined in the current hidden
or output layer to form the layer’s output vector. This
output vector becomes the input vector for the next
layer. 5) Processing proceeds to the next layer until
arriving at the output layer where the final output
vector is obtained. 6) The final output vector is combined with the training target vector to obtain the output layer’s error vector. This is obtained for each
hidden layer implying that the error is backpropagated
through the network (thus the name for the paradigm).
7) Next, the weight vectors for each node must be
updated using learning rate and momentum factor.
The momentum term helps to keep the training process stable by damping weight change oscillations. 8)
All input vectors (patterns) are processed through the
network to adjust the weights for a given iteration. 9)
The RMS error between the network response and the
training targets is computed after each iteration. The
RMS error is also equivalent to the standard deviation
of the error in the network’s response. 10) If a dispositive to modify and control the learning rate parameter is active for the run, a new learning rate (eta) is
computed based on the change in the RMS error
value. 11) The entire process cycle starts again with
next training iteration.
One of the objectives of this paper was to obtain
topologies as simple as possible to resolve overlapped
signals of two species by a pattern recognition model.
The key to this is using methods (FT and WT) to reduce
dimensions of the original data that allow to simplify
the input information without losing the non-linear
character associated with the overlapping, so that the
posterior neural model is as simple as possible.
To apply the proposed procedure, forty different
samples were determined experimentally. These samples were distributed as follows: ten samples of pure
thallium, ten samples of pure lead and twenty mixtures of both ions. The range of concentration was
from 0.1 to 1.0 mg L 1. The disposition and concentration of the samples were as represented in Table 1.
J. M. Palacios-Santander et al.
Table 1. Concentrations of samples used
Sample
[Tl þ ]
[Pb2 þ ]
Sample
[Tl þ ]
[Pb2 þ ]
T1
T2
T3
T4
T5
T6
T7
T8
T9
T10
L1
L2
L3
L4
L5
L6
L7
L8
L9
L10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
T1L1
T1L6
T2L2
T2L7
T3L3
T3L8
T4L4
T4L9
T5L5
T5L10
T6L1
T6L6
T7L2
T7L7
T8L3
T8L8
T9L4
T9L9
T10L5
T10L10
0.1
0.1
0.2
0.2
0.3
0.3
0.4
0.4
0.5
0.5
0.6
0.6
0.7
0.7
0.8
0.8
0.9
0.9
1.0
1.0
0.1
0.6
0.2
0.7
0.3
0.8
0.4
0.9
0.5
1.0
0.1
0.6
0.2
0.7
0.3
0.8
0.4
0.9
0.5
1.0
L ¼ Pb2 þ ; T ¼ Tl þ ; in mg L 1.
We intended to choose two mixtures for both thallium and lead concentration values. Apart from that,
another eight samples were measured later than the
others and used as an external test set (tst) to check the
predictive ability of the models.
The analysed mixtures showed very hard overlapping between the signals of both ions as shown in
Fig. 1.
The samples produced a discrete data set composed
of the full voltammograms of the samples, each one
consisting of 80 points, the potential ranging from
0.3 to 0.7 V.
Fig. 1. Superposition of voltammograms: (a) 0.7 mg L 1 of Tl þ
(T7); (b) 0.7 mg L 1 of Pb2 þ (L7); (c) mixture of 0.7 mg L 1 of
Tl þ and 0.7 mg L 1 of Pb2 þ (T7L7)
31
A Comparative Study Including other Statistical Methods
Fig. 2. Procedure used in the preprocessing and the statistical
treatment of the electrochemical signals carried out with different
chemometric tools
A comparison of the neural models and other statistical methods was performed. A scheme of the
procedure applied using these chemometric tools is
shown in Fig. 2.
Reduction of Dimensions Using Transforms
Fourier Transform
A subroutine of MATLAB was designed to obtain the
FT of all voltammograms and reduce the number of
initial data (dimensions). In this way, the signals are
transformed from the time domain to the frequency
domain. Afterwards, a cut frequency is chosen and a
low-pass filter is applied. This filter removes high frequencies (usually noise) and maintains exclusively low
frequencies (high amplitudes) which contain the information related to the signals. Immediately after this,
the filtered signals are reconstructed at the time domain
using the inverse Fourier transform in order to estimate
the recomposition errors by the next equation:
vffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffi
u 80
uX ðei ei Þ2
100
ð1Þ
"¼t
e2i
i¼1
where ei and ei represent the points of the original
and reconstructed signals, respectively.
The final objective is to obtain a suitable cut frequency that gives a number of Fourier coefficients as
small as possible and, at the same time, the smallest
recomposition error of the signals. Varying the parameter of the cut frequency, a chart was obtained with
the different recomposition errors for each signal, as
well as their respective Fourier coefficients. The
‘‘best’’ value for the cut frequency was selected establishing a strategy of commitment between the recomposition error and the number of Fourier coefficients.
So, this cut frequency was ! ¼ 4 Hz for a voltammogram of 128 frequencies. The minimum number of
dimensions (Fourier coefficients) corresponding to
this frequency was N ¼ 7, i.e. the seven fundamental
amplitudes equivalent to the first three harmonics of
the Fourier series. In this manner, every signal with 80
points was reduced to only 7 components of frequency, resulting in a recomposition error lower than
3% in all cases (calculated by expression (1)). To
summarize, a dimension reduction of 91.25% was
obtained for the original signals, maintaining at least
97% of the information.
Wavelet Transform
The objective is the same as with FT: obtaining a
number of wavelet coefficients as small as possible
with the smallest recomposition error of the signals.
Different kinds of wavelet basis were tested: Haar,
Daublet ‘n’ (n ¼ 3, 4, 6, 8, 10, 12, 14, 16, 18 and 20),
Symmlet ‘m’ (m ¼ 2–8) and Coiflet ‘g’ (g ¼ 1–5).
These wavelets were applied to all the signals. The
differences between these types of wavelets are well
explained in the bibliography [26].
A MATLAB+ program was used to examine the
reductions of the dimensions. Five decomposition
levels and different thresholdings were applied. Considering the recomposition error of the signals as well
as the number of coefficients obtained, Symmlet 3 and
Symmlet 4 wavelets were selected (typical wavelets to
represent symmetric signals as in these cases).
After de-noising and compression of the signals,
the wavelet coefficients, which represented the
reduced signals, were obtained: 9 and 11 for Symmlet
3 and Symmlet 4, respectively. Likewise, in each case
the percentage of zero coefficients and the recomposition percentage of the signals after their reconstruction were obtained as well. Thus, the complete cycle
of WT application was as follows: decomposition, denoising, compression and signals reconstruction.
Table 2 presents the results obtained in the processes of reduction with the two types of transforms.
This table shows that the reduction percentage of
coefficients obtained with FT is slightly greater. Likewise, the recomposition minimum (and the maximum)
error percentages in FT were less than in WT.
32
J. M. Palacios-Santander et al.
Table 2. Comparison of efficacy of the methods to reduce dimensions: FT and WT
Dimension reduction
methods
Number of
coefficients
Decomposition level
(! ¼ Fourier)
Percentage of
reduction of
coefficients
Recomposition
minimum
error (%)
Recomposition
minimum
error (%)
Symlet 3 (WT)
Symlet 4 (WT)
9
11
4
4
90.72
89.62
1.42
0.71
4.75
3.77
! ¼ 4 Hz
91.25
0.27
2.62
Fourier (spectrum
of 128 frequencies)
7
Neural Network Analysis
Neural Networks Based on Fourier Coefficients
A set of network topologies with three layers (perceptron) was designed to resolve the mixtures of
analytes by using the Fourier coefficients obtained
for each signal after having applied the process to
reduce dimensions. These models had 7 input nodes
(the seven Fourier coefficients for each signal) and 2
output nodes (the concentrations for each ion). A low
number of hidden neurons was used to avoid overfitting and overparametrization of the system and to
obtain a model as simple as possible.
The characteristics of these models were as follows:
– Topology: 7-X-2, where X 2 {2, 3}.
– Activation functions: linear for input layer, and all
the possible combinations of gaussian, sigmoid and
hyperbolic tangent functions for the rest of the
layers.
– Training set (trn): 32 samples.
– Monitoring set (mon): selected randomly at first
and then fixed for the remaining methods, consisted
of 8 samples: T1, T8, T1L1, T2L2, T8L3, T4L9,
T6L1 and T1L6.
– External test set (tst): T1L9, T2L10, T3L5, T5L3,
T6L8, T8L6, T9L1 and T10L2.
– Starting weights values: as they were randomly
generated, three ANN runs were made and the
resulting RMS’s were averaged.
The best neural models, i.e. with the least RMS
values for both the training and the test sets obtained,
were: 7-3-2 linear-tangential-gaussian (ltg) (7 nodes
in the input layer with linear activation functions, 3
nodes in the hidden layer with hyperbolic tangent
activation functions and 2 nodes in the output layer
with gaussian activation functions) and 7-2-2 lineartangential-gaussian (ltg) (7 nodes in the input layer
with linear activation functions, 2 nodes in the hidden
layer with hyperbolic tangent activation functions and
2 nodes in the output layer with gaussian activation
functions). The RMS values for each set are shown in
Table 3.
Both neural models were trained and validated
again by varying two adaptive parameters, the learning rate () and the momentum (). Both parameters
optimize the rate at which a network learns. The
results obtained in this way did not improve the
RMS errors significantly. This indicates that the optimal neural models can be considered the previous
ones.
Table 3. Comparison of RMS errors obtained with each model
Optimal model
RMS(trn)
RMS(mon)
RMS(tst)
The root mean square (RMS) error of each set
(training, monitoring and test set) was obtained for
all cases. The RMS error was used as a decision parameter to find the best model. This parameter is defined
by the following equation:
sffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffi
P
2
i ðyi yi Þ
ð2Þ
RMS ¼
n
PCR full
FT þ PCR
WT(9) þ PCR
WT(11) þ PCR
PLS full
FT þ PLS
WT(9) þ PLS
WT(11) þ PLS
7-3-2 ltg
7-2-2 ltg
9-3-2 lss
9-2-2 lgt
11-3-2 lsg
11-2-2 lsg
0.0334
0.0382
0.0504
0.0481
0.0328
0.0378
0.0502
0.0480
0.0235
0.0254
0.0225
0.0299
0.0229
0.0230
0.0373
0.0227
0.0466
0.0481
0.0368
0.0226
0.0464
0.0468
0.0264
0.0269
0.0297
0.0256
0.0169
0.0164
0.0498
0.0511
0.0608
0.0592
0.0496
0.0514
0.0605
0.0589
0.0447
0.0426
0.0774
0.0475
0.0486
0.0474
where yi represents the measured concentration for the
ions; yi represents the predicted concentration for the
ions; and n is the number of samples.
RMS(trn) ¼ RMS error for training set; RMS(mon) ¼ RMS error for
monitoring set; RMS(tst) ¼ RMS error for external test set; l ¼ lineal
activation function; g ¼ gaussian activation function; s ¼ sigmoid
activation function; t ¼ hyperbolic tangent activation function.
33
A Comparative Study Including other Statistical Methods
The predicted values for the concentrations of both
thallium and lead ions were obtained by utilizing
the best models, and the relative percentage errors
were below 6% on average.
Neural Networks Based on Wavelet Coefficients
In this case, the wavelet coefficients that were
obtained with the Symmlet 3 and Symmlet 4 wavelets
(9 and 11 coefficients, respectively) were employed as
input vectors in the neural networks.
Neural models with three layers were developed,
similarly to the neural networks based on Fourier
coefficients. Their topologies were as follows: 9-X-2
for Symmlet 3 (9 input nodes, one for each coefficient; 2 output nodes, one for each concentration of
the ions; X 2 {2, 3} hidden neurones) and 11-X-2 for
Symmlet 4 (11 input nodes, one for each coefficient; 2
output nodes, one for each concentration of the ions;
X 2 {2, 3} hidden neurones).
The same training parameters, and the same training, monitoring and test sets as used for the Fourier
models, were applied, and overfitting was avoided in
the same way.
A set of different neural models was tested for each
case: 9 and 11 wavelet coefficients from Symmlet 3 and
Symmlet 4, respectively. The best models using
Symmlet 3 coefficients, with the lowest RMS errors, had
the following topologies: 9-3-2 linear-sigmoid-sigmoid
(lss) and 9-2-2 linear-gaussian-tangential (lgt). The RMS
error values appear in Table 3. The relative percentage
errors were on average below 8% for the two models.
The best models using Symmlet 4 coefficients
produced these topologies: 11-3-2 linear-sigmoidgaussian (lsg) and 11-2-2 linear-sigmoid-gaussian
(lsg). The RMS errors are shown in Table 3 as well.
The RMS values were less than in the case of models
with 9 wavelet coefficients and quite similar to those
obtained with Fourier models. Here, the relative percentage errors were also on average below 6%.
As in the Fourier case, after trying to refine these
models using the same procedure, the results obtained
were not significantly better than the previous ones.
That is why the neural models, shown in Table 3, are
considered the best ones for this proof binary system.
Comparative Study of Both Kinds
of Neural Networks
To compare the ability of reducing and retaining
information, we obtained the improving percentages
of each neural model based on wavelet coefficients
compared to the models constructed using Fourier
coefficients. The comparison was established between
wavelet and Fourier models with the same number of
hidden neurons. The percentage of improvement was
remarkably better in the case of the RMS(mon) values,
17% on average; i.e. when using a wavelet procedure
of compression, the results for the monitoring set
improve by approximately 17% in comparison to a
Fourier procedure. For the RMS(trn) errors, the results
were very similar in all cases and, finally, as shown in
Table 3, the best RMS(tst) values were obtained with
Fourier transforms, which indicates that there is no
improvement in this case when using a wavelet model.
In general, the neural models with 11 coefficients
allow greater improvements than models with 9 coefficients. There is reason to assume that neural models
using 11 wavelet coefficients are better than those
with 9 coefficients. Using more wavelet coefficients
to compress and reconstruct the signals, and consequently maintaining more information, may affect this
situation. However, almost all mixtures were predicted with concentration errors lower than a hundredth of mg L 1, independently of the model used.
It has been proved that the prediction capability as
well as the recomposition percentage obtained in this
paper were slightly better with Fourier models,
despite the more advantageous characteristics of WT
as a pre-processing tool. The reason is the form of the
signal which is usually gaussian (their fitting errors
are lower than 2%). Since all gaussian functions can
decompose in a sum of sines and cosines functions, it
is not surprising that FT adapts better than WT in the
representation of this type of signals and in the process of reducing dimensions. Furthermore, the use of
Fourier coefficients allows you to construct simpler
neural models than using wavelet coefficients.
Multivariate Calibration Methods
PCR Analysis
The PCR analysis was carried out with the aid of the
software package Unscrambler+ 7.01 and the variables chosen as follows: independent variables were
1) the 80 points of all voltammograms of the samples
(PCR full), and 2) the Fourier and wavelet coefficients
obtained after pre-processing the initial data with the
respective transforms (FT þ PCR and WT þ PCR);
dependent variables were the concentration values of
each ion for each sample. All data was centered, and
34
J. M. Palacios-Santander et al.
Fig. 3. Box & whiskers plot of thallium (a) and lead (b) error distributions for all models: PCR (principal component analysis); PLS
(partial-least square); FULL (using all the initial data without reduction of dimensions); FT (using Fourier coefficients); WT (using wavelet
coefficients: (9) for Symmlet 3 and (11) for Symmlet 4); 7-3-2 and 7-2-2 (Fourier neural models topologies); 9-3-2, 9-2-2, 11-3-2 and 11-22 (wavelet neural models topologies); ltg (linear-tangential-gaussian); lss (linear-sigmoid-sigmoid); lgt (linear-gaussian-tangential); lsg
(linear-sigmoid-gaussian)
35
A Comparative Study Including other Statistical Methods
the model was validated using the same monitoring
set as for neural models. The rest of samples (32)
made up the training set (trn).
The best number of components, which explained
the greatest variance, was 3 in PCR full model and 2
in FT þ PCR and WT þ PCR models. This means that
a pre-processing step reduces the number of principal
components. The RMS errors obtained for both the
training and the monitoring set are shown in Table
3. The external test set was used to check the predictive ability of the models as well. The RMS error
values can also be found in Table 3.
All models obtained make predictions in a similar
way, but RMS errors are lower in PCR full and
FT þ PCR models.
PLS Analysis
Using the same software and developing the analysis
as PCR (with the same variables, procedure, validation method and training, monitoring and external
sets), the best number of components was 3 in PLS
full model and 2 in FT þ PLS and WT þ PLS models,
as in the previous analysis. The RMS errors for each
set of samples can be seen in Table 3. As shown, the
results are not much different than the PCR ones.
As in PCR analysis, RMS errors are lower in PLS
full and FT þ PLS models.
Comparison Between all Statistical Methods
The lowest RMS(trn) and RMS(mon) errors appear with
wavelet models using 11 coefficients, and Fourier
neural models show the lowest RMS(tst) errors (Table
3). In general, PCR and PLS models have a worse
predictive ability with the external test set. Nevertheless, PCR full, PLS full, FT þ PCR and FT þ PLS models have RMS(tst) values very similar to Fourier and
wavelet neural models. This means that the use of
Fourier transforms as a pre-processing procedure produces less RMS errors independently of the multivariate calibration technique used to resolve the mixtures.
Besides, in the case of PCR and PLS full models
without pre-processing, their good performance can
be attributed to the linearity of the binary system of
mixtures resolved here. In general, the full methods
that give a better response to solve the two overlapped
peaks are neural models with FT and WT preprocessing. They perform slightly better than PLS
and PCR, the traditional models which would be the
most suitable methods for resolving this kind of problem, even when the initial data presents linearity.
The box and whiskers plots of Fig. 3 were obtained
by using the thallium and lead error distributions
obtained for all different models with the same training, monitoring and test sets. As shown, Fourier and
wavelet neural models (Fourier and wavelet transform
as previous techniques applied to neural networks)
provide a more sensitive precision than linear models
PLS and PCR, except for model 9-3-2 lss. WT þ PLS
and WT þ PCR models offer the worst precision with
both ions.
Conclusions
The models combining transforms and neural networks presented here are able to predict the concentrations of the two ions in the mixtures slightly better
than the traditional techniques, PLS and PCR, even
when the initial data presents high linearity. This is
due to the ability of Fourier and wavelet transforms to
detect information of high frequency due to the hard
overlapping between the two signals of the ions,
which is what linear models (PLS and PCR) are not
able to do.
Both FT and WT have demonstrated to be tools of
similar performance with voltammetric signals, but
the topologies obtained with FT are simpler. For this
reason, the use of FT may be considered more adequate for the signals studied in this paper: it is possible that the use of WT would be preferable for another
type of signals, more asymmetric or further than the
gaussian form.
Acknowledgements. We thank Ministerio de Educaci
on, Cultura y
Deportes of Spain for the help given in the form of a research grant
which made possible the realization of this study. We also thank
Junta de Andalucı́a for supporting our investigation group.
References
[1] P. T. Kissinger, W. R. Heineman, Laboratory Techniques in
Electroanalytical Chemistry, 2nd Edn., Marcel Dekker, New
York, 1996.
[2] I. Naranjo-Rodrı́guez, J. L. Hidalgo-Hidalgo-de-Cisneros,
Organic Analysis in Environmental Samples by Electrochemical Methods (Encyclopedia of Analytical Chemistry:
Instrumentation and Applications). In: R. A. Meyers (Ed.)
John Wiley & Sons, United Kingdom, 2000, vol. 4,
p. 3035–3064.
[3] Z. Grabaric, B. S. Grabaric, M. Esteban, E. Cassasas, Determination of Small Amounts of Analytes in the Presence
of a Large Excess of One Analyte From Multivariate Global
Signals of Differential-Pulse Voltammetry and Related
36
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
A Comparative Study Including other Statistical Methods
Techniques With the Signal Ratio Resolution Method, Analyst
1996, 121, 1845.
R. M. De Carvalho, C. Mello, L. T. Kubota, Simultaneous
Determination of Phenol Isomers in Binary Mixtures by
Differential Pulse Voltammetry Using Carbon Fibre Electrode
and Neural Networks With Pruning as a Multivariate Tool,
Anal. Chim. Acta 2000, 420, 109.
F. Navarro-Villoslada, L. V. Perez-Arribas, M. E. Le
onGonzález, L. M. Polo-Dı́ez, Selection of Calibration Mixtures
and Wavelengths for Different Multivariate Calibration
Methods, Anal. Chim. Acta 1995, 313, 93.
J. R. Morrey, On Determining Spectral Peak Positions From
Composite Spectra With a Digital Computer, Anal. Chem.
1968, 40, 905.
W. Huang, T. L. E. Henderson, A. M. Bond, K. B. Oldham,
Curve Fitting to Resolve Overlapping Voltammetric Peaks:
Model and Examples, Anal. Chim. Acta 1995, 304, 1.
I. Pizeta, Deconvolution of Non-Resolved Voltammetric Signals, Anal. Chim. Acta 1994, 285, 95.
C. Cai, P. de B. Harrington, Wavelet Transform Preprocessing
for Temperature Constrained Cascade Correlation Neural
Networks, J. Chem. Inf. Comput. Sci. 1999, 39, 874.
A. Cladera, J. Alpı́zar, J. M. Estela, V. Cerda, M. Catas
us, E.
Lastres, L. Garcı́a, Resolution of Highly Overlapping Differential Pulse Anodic Stripping Voltammetric Signals Using
Multicomponent Analysis and Neural Networks, Anal. Chim.
Acta 1997, 350, 163.
C. Bessant, S. Saini, Simultaneous Determination of Ethanol,
Fructose and Glucose at an Unmodified Platinum Electrode
Using Artificial Neural Networks, Anal. Chem. 1999, 71,
2806.
W. Hongmei, W. Lishi, X. Wanli, Z. Baogui, L. Chengjun,
F. Jianxing, An Application of Artificial Neural Networks.
Simultaneous Determination of the Concentration of Sulphur
Dioxide and Relative Humidity With a Single Coated Piezoelectric Crystal, Anal. Chem. 1997, 69, 699.
U. Depczynski, K. Jetter, K. Molt, A. Niem€
oller, The Fast
Wavelet Transform on Compact Intervals as a Tool in Chemometrics. II. Boundary Effects, Denoising and Compression,
Chemom. Intell. Lab. Syst. 1999, 49, 151.
E. Llobet, J. Brezmes, R. Ionescu, X. Vilanova, S. Al-Khalifa,
J. W. Gardner, N. B^arsan, X. Correig, Wavelet Transform and
[15]
[16]
[17]
[18]
[19]
[20]
[21]
[22]
[23]
[24]
[25]
[26]
Fuzzy ARTMAP-Based Pattern Recognition for Fast Gas
Identification Using a Micro-Hotplate Gas Sensor, Sens.
Actuators B 2002, 83, 238.
X. Shao, W. Cai, P. Sun, Determination of the Component
Number in Overlapping Multicomponent Chromatograms
Using Wavelet Transform, Chemom. Intell. Lab. Syst. 1998,
43, 147.
P. J. Gemperline, J. R. Long, V. G. Gregoriou, Non-Linear
Multivariate Calibration Using Principal Components Regression and Artificial Neural Networks, Anal. Chem. 1991, 63,
2313.
D. Wienke, G. Kateman, Adaptative Resonance Theory Based
Artificial Neural Networks for Treatment of Open-Category
Problems in Chemical Pattern Recognition – Application to
UV-Vis and IR Spectroscopy, Chemom. Intell. Lab. Syst. 1994,
23, 309.
C. Krantz-R€
ulcker, M. Stenberg, F. Winquist, I. Lundstr€
om,
Electronic Tongues for Environmental Monitoring Based on
Sensor Array and Pattern Recognition: A Review, Anal. Chim.
Acta 2001, 426, 217.
E. Cukrowska, L. Trnková, R. Kizek, J. Havel, Use of
Artificial Neural Networks for the Evaluation of Electrochemical Signals of Adenine and Cytosine Mixtures Interfered
With Hydrogen Evolution, J. Eletroanal. Chem. 2001, 503,
117.
J. Zupan, Neural Networks and Pattern Recognition.
Academic Press, USA, 1998.
J. Zupan, J. Gasteiger, Neural Networks for Chemists: An
Introduction. VCH, Weinheim, 1992.
F. Despagne, D. L. Massart, Neural Networks in Multivariate
Calibration, Analyst 1998, 123, 157R.
J. Zupan, J. Gasteiger, Neural Networks: A New Method for
Solving Chemical Problems or Just a Passing Phase?, Anal.
Chim. Acta 1991, 248, 1.
M. C. Ortı́z, J. Arcos, L. Sarabia, Using Continuum Regression for Quantitative Analysis With Overlapping Signals
Obtained by Differential Pulse Voltammetry, Chemom. Intell.
Lab. Syst. 1996, 34, 245.
R. G. Brereton, Chemometrics in Analytical Chemistry,
Analyst 1987, 112, 1635.
R. Todd Ogden, Essential Wavelets for Statistical Applications
and Data Analysis. Birkh€auser, Boston, 1997.
APÉNDICE III
Talanta 59 (2003) 735 /749
www.elsevier.com/locate/talanta
Multicomponent analysis of electrochemical signals in the
wavelet domain
Marina Cocchi a,*, J.L. Hidalgo-Hidalgo-de-Cisneros b, I. Naranjo-Rodrı́guez b,
J.M. Palacios-Santander b, Renato Seeber a, Alessandro Ulrici c
b
a
Dipartimento di Chimica, Università di Modena e Reggio Emilia, Via Campi 183, 41100 Modena, Italy
Departamento de Quı́mica Analı́tica, Facultad de Ciencias, Universidad de Cádiz, Polı́gono Rı́o San Pedro, Apartado 40, 11510,
Puerto Real, Cádiz, Spain
c
Dipartimento di Scienze Agrarie, Università di Modena e Reggio Emilia, Via Kennedy 17, 42100 Reggio Emilia, Italy
Received 5 August 2002; received in revised form 24 October 2002; accepted 13 November 2002
Abstract
Successful applications of multivariate calibration in the field of electrochemistry have been recently reported, using
various approaches such as multilinear regression (MLR), continuum regression, partial least squares regression (PLS)
and artificial neural networks (ANN). Despite the good performance of these methods, it is nowadays accepted that
they can benefit from data transformations aiming at removing baseline effects, reducing noise and compressing the
data. In this context the wavelet transform seems a very promising tool. Here, we propose a methodology, based on the
fast wavelet transform, for feature selection prior to calibration. As a benchmark, a data set consisting of lead and
thallium mixtures measured by differential pulse anodic stripping voltammetry and giving seriously overlapped
responses has been used. Three regression techniques are compared: MLR, PLS and ANN. Good predictive and
effective models are obtained. Through inspection of the reconstructed signals, identification and interpretation of
significant regions in the voltammograms are possible.
# 2002 Elsevier Science B.V. All rights reserved.
Keywords: Differential pulse anodic stripping voltammetry; Multivariate calibration; Fast wavelet transform; Variables selection
1. Introduction
One of the main limitations to the application of
electroanalytical techniques in the field of quantitative analysis is often due to lack of selectivity. In
fact, it often happens that different species un-
* Corresponding author. Tel.: /39-59-2055029; fax: /3959-373543.
E-mail address: [email protected] (M. Cocchi).
dergo oxidation or reduction at potential values
that are very close to each other. In the case of
differential pulse and square wave voltammetries,
serious overlapping occurs when the difference in
the peak potentials is less than 100 mV divided by
the number of electrons involved in the electrode
charge transfer. This situation is rather common in
practice, since 100 mV represent an appreciable
fraction of the accessible potential region. Besides
experimental manipulations like changes of pH, of
0039-9140/02/$ - see front matter # 2002 Elsevier Science B.V. All rights reserved.
PII: S 0 0 3 9 - 9 1 4 0 ( 0 2 ) 0 0 6 1 5 - X
736
M. Cocchi et al. / Talanta 59 (2003) 735 /749
the supporting electrolyte, or the use of modified
electrodes, chemometrics offers efficient alternatives to solve the problem of overlapping signals.
The main approaches employed are deconvolution
or semidifferential techniques coupled to curve
fitting [1 /5], multivariate curve resolution [6,7],
and multivariate calibration [8 /10]. Many successful applications of multivariate calibration in the
field of electrochemistry have been recently reported [11 /19], using different regression methods,
i.e., multilinear regression (MLR) [15], principal
component regression [14,16,19], continuum regression [12], partial least squares regression (PLS)
[11,13,16,19] and artificial neural networks (ANN)
[17,18].
The main advantage of using regression methods based on latent variables, such as PCR, PLS,
etc., lies in their flexibility, which allows modelling
of complex signals also in the presence of background noise. Despite the generally good performances of these methods, it is nowadays accepted
that they can benefit from data transformations
aiming at removing baseline effects, reducing
noise, compressing the data [10,20]. The wavelet
transform (WT) [21] is very efficient for all these
purposes, since it offers the advantage of performing data reduction and denoising at the same time.
The fast wavelet transform (FWT) has been
applied as a pre-processing tool in multivariate
calibration of NIR spectra [22 /25], of fluorescence
data [26], of X-ray powder diffraction spectra [27],
while example of multivariate calibration of electroanalytical signals through FWT have not been
reported so far.
The optimal wavelet filters, apart from few
exceptions [22], are usually chosen empirically
looking at the decomposition of the mean spectrum or at the shape of the signals. In the quoted
papers, the level of decomposition is chosen either
considering the features of the mean spectrum or
simply as the maximum possible level of decomposition. As regards feature selection, mainly two
approaches are proposed: (1) the wavelet coefficients are thresholded by using criteria based on
the evaluation of PLS weights [24] or PLS regression coefficients [22]; (2) the wavelet coefficients
are previously sorted by variance [23,26,27] or by
correlation [25], and the subset giving stable or
best performing regression models, is then selected.
In particular, Niemoller et al. [25] considered a
fixed number, M , of the ranked (according to
correlation with the y properties) coefficients,
from which a starting population is derived and
fed into a genetic algorithm (GA), which seeks the
best combination of the M wavelet coefficients.
The fitness function to be optimised contains the
standard prediction errors for both calibration and
internal validation sets, relative to MLR models.
This approach seems particularly appealing because many different combinations of coefficients
are tested. However, the use of GA is computationally heavy and the application of GA on a
limited preselected number of coefficients further
limits the search.
In the present work, we adopted a simplified
approach where, instead of using GA, the selection
of the wavelet coefficients to be used as the
predictor variables is done by the recursive application of MLR models. Once the optimal wavelet
coefficients are selected, different regression techniques can be employed for the calculation of the
final calibration model. Furthermore all possible
decomposition levels are considered. The proposed
methodology goes through the following steps:
/ the signals are decomposed into the wavelet
domain by using the FWT at the maximum
level of decomposition;
/ for each level of decomposition the wavelet
coefficients are sorted either according to their
variance or to their squared correlation coefficient calculated with respect to the analyte
concentrations;
/ for each level of decomposition, the number of
wavelet coefficients to be retained can be fixed
or can be iteratively determined searching for
the minimum of the standard deviation of error
of predictions (SDEPLOO, estimated by the
Leave One Out procedure) by means of MLR;
/ finally, the optimal decomposition level is
considered the one giving the highest squared
correlation coefficients.
The selected coefficients constitute a set of
independent variables, which can be fed to differ-
M. Cocchi et al. / Talanta 59 (2003) 735 /749
ent regression techniques. For interpretative purposes, both the selected coefficients and the
calculated regression coefficients can be reconstructed into the original domain by using the
inverse FWT.
Further critical steps are the choice of the most
suitable wavelet function and of the padding
criterion [28 /30]. In this work, 15 different wavelet
functions and three kinds of padding were tested.
The various sets of selected coefficients, corresponding to the different combinations of these
options, were used as input to three regression
techniques: MLR, PLS and ANN. The performance of the different regression models has been
tested evaluating their predictive abilities on an
external validation set.
The outlined WT-based feature selection procedure has been applied to a set of seriously overlapped voltammetric signals recorded on mixtures
of thallium and lead in the concentration range
0.1 /1 mg l 1, which were recently collected by
some of us; in a preliminary paper [31] this data set
was analysed by ANN regression, coupled to
Fourier Transform or WT compression. The
results obtained were promising, even if WT was
employed only for denoising purpose.
The systematic analysis conducted in the present
work showed that quite satisfactory regression
models can be obtained in the correspondence to
different parameter combinations, suggesting that
no general rules for the selection of optimal
regression parameters (e.g. wavelet function, padding criterion, regression technique) can be drawn.
737
amidal algorithm also called FWT. It operates on
an individual discrete signal of length 2l by
splitting it into 2l1 long orthogonal subspaces,
called approximations and details respectively.
The decomposition is performed applying two
filters (each wavelet being uniquely defined by a
set of wavelet filter coefficients) to the original
signal: a low-pass filter only retaining the low
frequency content of the signal, i.e. the approximations, and a high-pass filter, collecting the high
frequency content, i.e. the details. The procedure
can be recursively applied (wavelet tree) by applying the same two filters to the approximation
vector, until the length of the resulting vectors
equals 1, as shown in Fig. 1. In this way, sharp and
coarse properties of the signal are captured and
disjointed into different sub-spaces, i.e. vectors or
sets of wavelet coefficients, obtaining the so called
‘signal multiresolution’. For each level of decomposition, j, it is possible to obtain a perfect
reconstruction of the original signal by inverse
FWT, using the approximations at level j and all
the details from j to l level. In other words, the
signal is represented in terms of a unique orthonormal basis [cAj cDj cDj/1. . .cDl]. On the
contrary, when the goal is to remove noise or to
perform data compression or feature selection,
only a representative, i.e. informative for the given
purposes, set of wavelet coefficients is retained by
applying a suitable thresholding procedure.
2. Methods
2.1. Wavelet analysis and feature selection
The WT is a powerful signal processing technique, whose peculiarity lies in the ability to map the
frequency content of a signal as a function of the
original domain, offering the possibility of (dual)
time /frequency localisation. For a detailed description of the WT and of its properties reference
is given to dedicated literature [21,28,32,33]; only a
brief description is provided here. The discrete WT
has been implemented through the Mallat’s pyr-
Fig. 1. Mallat pyramid algorithm. Approximation and details
vectors are indicated by cA and cD respectively.
738
M. Cocchi et al. / Talanta 59 (2003) 735 /749
Scheme 1.
In the present work FWT is applied in order to
accomplish feature selection prior to regression
analysis. The procedure is outlined in Scheme 1.
First, the signal matrix is padded to the next power
of two, then each signal is decomposed in the
wavelet domain until reaching the maximum
decomposition level, obtaining a three-dimensional matrix with dimension jlevel /pwavelet
coefficients /msignals. In the subsequent step this
three-dimensional matrix can be reduced to a
two-dimensional matrix by calculating, alternatively: (i) the variance of the wavelet coefficients
along the dimension of the signals (variance
sorting), or (ii) the squared correlation coefficients
with the y variables (correlation sorting). In the
latter case, as many matrices as y variables are
obtained. The elements of each row, i.e. each level
of decomposition, of the variance matrix or of the
correlation coefficient matrices respectively, are
sorted in ascending order. Each slice of the wavelet
M. Cocchi et al. / Talanta 59 (2003) 735 /749
coefficients matrix (pwavelet coefficients /msignals at a
given level of decomposition) is ordered accordingly.
Then, for each level of decomposition, the
coefficients are thresholded according to two
different criteria:
(1) A fixed number, k , of coefficients, defined by
the user, is selected. In the case of variance sorting,
the first k sorted coefficients are retained; in the
case of correlation sorting, for each y variable a
different number of coefficients may be chosen: k 1
for y 1, k 2 for y 2, and so on. These coefficients
correspond to the first k 1, k 2, etc. sorted elements
of the relevant correlation matrices. The coefficients to be selected for further analyses include all
those chosen for each single y variable, without
repetition, which means that if the same coefficient
has been selected for more than one y variable, it is
only considered once.
(2) An automatic selection criterion is implemented as follows. A first screening prunes the
sorted wavelet coefficients by excluding those
coefficients that show a pairwise correlation higher
than 0.90 with at least one of the preceding
coefficients. For each y variable, the number of
retained coefficients is progressively increased
from one to the rank of the wavelet coefficients
matrix of the considered level (pcoefficients /
msignals) and the corresponding MLR models are
calculated. In order to obtain more stable regression models the pseudo-inverse matrix is used in
the regression equation. For each y variable, the
coefficients corresponding to the regression model
attaining the minimum SDEPLOO are selected. The
coefficients to be selected for further analyses
include all those chosen for each single y variable,
without any repetition.
In this way, a set of optimal wavelet coefficients
is selected for each level of decomposition; the
average squared correlation coefficient of each of
these coefficients over the y variables is calculated.
The optimal decomposition level is considered as
that showing the highest mean squared correlation
coefficient value.
The selected wavelet coefficients of the optimal
decomposition level are then used as input variables for different regression methods.
739
The algorithm for performing selection procedure was written in MATLAB† 6.1 language by
employing the Wavelet Toolbox ver. 2.1 [34].
2.2. Filters and values of the parameters
The decomposition into the FWT domain is
essentially based on a simple scheme: convolution
and downsampling. As usual, when a convolution
is performed on finite-length signals, border distortions arise. Generally, to deal with this problem
the signal is extended on the boundaries (signal
padding) by computing few extra coefficients at
each stage of the decomposition process, in order
to get a perfect reconstruction.
The evaluation of the effects of different padding criteria on the resulting calibration models
can be extremely important when the independent
variables are wavelet coefficients deriving by the
application of the FWT to a set of signals. In fact,
the values of the wavelet coefficients that are
calculated vary depending on the criterion that is
adopted for signal extension. For this reason, three
different padding criteria [29,30,34], that are
available in the Wavelet Toolbox† for MATLAB,
have been systematically compared in this work:
1) sym */symmetric padding: signals are recovered outside their original support by symmetric boundary value replication;
2) zpd */zero padding: signals are extended adding zeros outside the original support;
3) spd */smooth padding (order 1): signals are
recovered outside their original support by a
first-order derivative extrapolation: this is
done using a linear extension fit to the first
two and last two values.
Fifteen wavelets belonging to different families
have been considered in the present study: 7
orthonormal wavelets from the Daubechies family
(dbl, db2, db3, db4, db5, db10 and db20), 3 coiflets
(coif1, coif2 and coif5) and 5 symlets (sym4, sym5,
sym6, sym7 and sym8).
Both variance and correlation sorting of the
coefficients were used. Both automatic and fixed,
with four coefficients (two for each y variable in
740
M. Cocchi et al. / Talanta 59 (2003) 735 /749
the case of correlation sorting), selection criteria
were employed.
All the combinations resulting from the above
cited values of the parameters have been tested:
this led to 3 /15 /2/2/180 cycles of calculations.
2.3. Partial least squares regression
The wavelet coefficients have always been meancentred. The optimal number of PLS components
has been chosen by cross validation. In order to
determine the number of significant components,
r *, the value of the predicted residual error sum of
squares, PRESSLOO (estimated by the Leave One
Out procedure), obtained by adding a further
component, is compared with the PRESSLOO
value corresponding to the previous one. When
the resulting ratio [PRESSLOO(r */1)/PRESSLOO(r *)] is higher than 1, r * is reached.
The performance of each PLS model has been
tested by the standard deviation of error of
predictions, SDEPTEST, estimated on a test set of
9 mixtures. For each combination of parameters
(wavelet filter, padding, sorting and selection
criteria) the best performing PLS models were
selected and their predictive ability was further
checked by an external validation set (SDEPEXT)
consisting of 8 mixtures.
For the calculations the PLS Toolbox ver. 2.1.1
[35] was employed and a MATLAB routine was
written in order to calculate all the 180 PLS
models automatically.
2.4. Multilinear regression
The wavelet coefficients have always been meancentred. The pseudo-inverse has been used in
the MLR equation with zero intercept. The
performance of each MLR model has been tested
by the standard deviation of error of predictions,
SDEPTEST, estimated on a test set of 9 mixtures.
For each combination of parameters (wavelet
filter, padding, sorting and selection criteria) the
best performing MLR models were selected and
their predictive ability was further checked by an
external validation set (SDEPEXT) consisting of 8
mixtures.
For the calculations of the MLR models a
routine was written in order to calculate
all the 180 MLR models automatically.
MATLAB
2.5. Artificial neural network regression
Since the training set consists of 31 objects and
the number of selected wavelet coefficients ranged
from 3 to 12, only the ni-2-2 topology, where ni is
the number of input coefficients, was considered in
order to avoid overfitting [36,37].
The number of adjustable parameters (N ) can
be calculated by the formula [37]:
N (input nodeshidden nodes)
(hidden nodesoutput nodes)
hidden nodesoutput nodes:
It is clear that in order not to exhaust the
degrees of freedom of our system not more than 11
input coefficients should be considered and that
overfitting is likely to occur when the number of
input coefficients exceed 6. For comparative
purposes ANN regression models have been
computed for all the 180 sets of coefficients but
among the best performing models we selected
those bearing a number of input coefficients not
higher than 6. The configurations of the neural
models tested were:
. training algorithm: improved back-propagation.
. activation functions: linear for the input layer
and all possible combination of gaussian, sigmoid and hyperbolic tangent function for the
hidden and output layers.
The program QNET† 2000 has been used for the
ANN calculations.
The training of the net was stopped by minimising the standard deviation of error of predictions, SDEPTEST, estimated on a test set of 9
mixtures. Since the starting weights are randomly
generated for each set of coefficients five ANN
runs were made and the resulting SDEPs were
averaged.
For each combination of parameters (wavelet
filter, padding, sorting and selection criteria) the
M. Cocchi et al. / Talanta 59 (2003) 735 /749
best performing ANN models corresponding to
low SDEPTEST and to small number of coefficients, were selected. However, it is worth noticing
that in the case of ANN the test set is used to stop
the training of the network and thus it does not
represent a true validation set, being rather a
monitoring set. Accordingly the predictive ability
of the chosen ANN models was checked by the
external validation set (SDEPEXT) of 8 mixtures.
3. Experimental section
3.1. Differential pulse anodic stripping voltammetry
The differential pulse anodic stripping voltammetry measurements were carried out at an Autolab/PGSTAT20 electrochemical system coupled to
a Metrohm VA 663 Stand. An electrochemical
three electrode cell, with a platinum auxiliary
electrode, a silver/silver chloride, 3 M potassium
chloride reference electrode and an Hanging
Mercury Drop Electrode, from Metrohm, was
employed.
Analytical reagent grade chemicals were used
throughout the experiments. Voltammograms
were recorded at room temperature. All solutions
were de-aerated with nitrogen for at least 10 min
prior to realising the experiments. A 2 M acetic
acid/2 M ammonium acetate buffer solution was
utilised as supporting electrolyte (pH 4.8/5.0).
Lead and thallium solutions were prepared from
nitrate salt stock solutions at 250 mg l1 concentration.
The voltammetric parameters were as follows:
deposition potential //1.30 V; deposition
time /120 s; rest period /20 s; initial
potential //1.30 V; end potential /0.00 V; scan
rate /8.5 mV s 1; pulse amplitude /0.10 V; pulse
time /0.07 s; pulse repetition time /0.6 s. The
drop surface was approximately 0.52 mm2.
A region of the full voltammogram of each
sample corresponding to 80 points in the potential
range from /0.30 to /0.70 V was used for the
multivariate calibration analysis.
741
3.2. Sampling
Forty mixtures of thallium and lead at concentrations ranging from 0.1 to 1.0 mg l 1 were
experimentally analysed. The whole experimental
domain was spanned as shown in Table 1.
Nine out from these mixtures were used as
internal test set (monitoring set for ANN), namely
T2, T9, L3, L8, T1L6, T4L4, T10L5, T6L1, and
T9L9, where L indicates lead, T indicates Thallium, 1 corresponds to a concentration of 0.1
mg l 1, 2 corresponds to 0.2 mg l 1 and so on.
After some time 8 additional mixtures were
measured in order to obtain an external validation
set (TESTEXT); they are shown in Table 1 and
correspond to T1L9, T2L10, T3L5, T5L3, T6L8,
T8L6, T9L1, and T10L2, respectively.
4. Results and discussion
The results obtained with the automatic selection of the wavelet coefficients gives generally
lower standard deviation error of calculations
(SDEC) and of prediction of the validation set
(SDEPTEST) with respect to the fixed selection
criterion.
The results obtained with the automatic selection criterion and different combinations of the
other parameters for each regression technique are
shown in Fig. 2a/d. In this figure, SDEC (Fig. 2a
and c), and SDEPTEST (Fig. 2b and d) values are
reported for each cycle of calculations. Each plot
corresponds to a given sorting criterion of the
wavelet coefficients, different symbols being used
for the three padding criteria. On the abscissa for
each regression technique, in the order MLR, PLS,
and ANN, the wavelet filters are ordered as
follow: db1, db2, db3, db4, db5, db10, db20,
sym4, sym5, sym6, sym7, sym8, coif1, coif2, and
coif5. Summarising each group of 15 points on the
abscissa corresponds to a different regression
method and within the 15 points the first 7 ones
correspond to the daublets, the following 5 ones to
the symlets and the last 3 ones to the coiflets
wavelet family.
It can be seen that the variance sorting criterion
performs generally better with respect to the
M. Cocchi et al. / Talanta 59 (2003) 735 /749
742
Table 1
Composition of the samples
[Pb] (mg l 1)
0.0
0.0
0.1
0.2
0.3
0.4
[TI] (mg l 1) 0.5
0.6
0.7
0.8
0.9
1.0
T1a
T2b
T3a
T4a
T5a
T6a
T7a
T8a
T9b
T10a
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
L1a
T1L1a
L2a
L3b
L4a
L5a
L6a
T1L6b
L7a
L8b
L9a
T1L9c
L10a
T2L2a
T2L7a
T3L3
a
c
T2L10c
a
T3L5
T3L8
T4L4b
T5L3
c
T4L9a
a
T5L10a
T5L5
T6L1b
T6L6a
T7L2a
T7L7a
T8L3a
c
T8L6c
a
T9L1
T6L8c
T9L9b
T9L4
T10L2c
T8L8a
T10L5b
T10L10a
Columns, lead concentration; rows, thallium concentration. aTraining set; btest set (monitoring set for ANN); cexternal test set.
regression sorting one, giving on average lower
values of both SDEC and SDEPTEST.
The selection of wavelet coefficients with the
biggest variance has already given good results in
regression tasks [23,26]. However, the lowest
SDEC and SDEPTEST values obtainable by the
different criteria are of similar magnitude.
The performance of the different models does
not differ significantly by varying the padding
criterion used, except for the wavelet filters of
higher orders. This is somewhat to be expected
since the extension of the signal on the boundaries
(padding) requires the computation at each stage
of decomposition, of few extra coefficients, whose
number depends on the length of the filter.
Different padding criteria lead to more and more
different values of the wavelet coefficients with
increasing levels of decomposition. However, the
results obtained show that this problem does not
constitute serious drawback if an effective criterion
for the selection of the wavelet coefficients is
adopted.
The linear (MLR and PLS) and the non linear
(ANN) regression techniques furnish equivalent
models with respect to fit and predictive capability,
thus indicating that a linear equation is sufficient
to explain the behaviour of the investigated
system.
The best performing models for each combination of parameters are reported on Table 2
together with the SDEPEXT values. The SDEPEXT
values are systematically worse than the corresponding SDEPTEST ones, resulting anyway within
similar ranges. This is probably due to the fact that
the mixtures belonging to the external test set were
measured in a different time period and a calibration transfer procedure [13] has not been applied.
In Table 2, the SDEC, SDEPTEST and SDEPEXT
values for the PLS regression model calculated by
using the whole voltammograms, each one consisting of 80 points, are also reported. The
dimensionality of these PLS models was of 3 and
4 significant latent variables, according to leave
one out cross validation, for thallium and lead
respectively. The PLS models reported on Table 2,
obtained after feature selection, show a dimensionality for both dependent variables (thallium
and lead concentrations) that is lower than (2
significant PLS components) or equal to the
dimensionality of the PLS models on the untreated
voltamogramms. Only in the cases where the PLS
models converged to the MLR, i.e. where the
number of PLS components is equal to the number
of selected coefficients, the dimensionality for the
PLS model for thallium reached 4 latent variables
(PLS models on rows 3, 5 and 10, Table 2). At a
first sight, it may seem that there is no significant
reduction of the model complexity after wavelet
analysis. However, the number of PLS latent
variables is influenced by the fact that the wavelet
M. Cocchi et al. / Talanta 59 (2003) 735 /749
743
Fig. 2. (a) Automatic coefficient selection */Variance sorting (AV). SDEC values (training set) vs number of cycles for the different
padding criteria: %, zero padding; I, symmetric padding; m, smooth padding. (b) Automatic coefficient selection */Variance sorting
(AV) SDEPTEST values (test/monitoring set) vs number of cycles for the different padding criteria: %, zero padding; I, symmetric
padding; m, smooth padding. In the case of smooth padding the points corresponding to db10, sym4, sym5, sym6 and sym7 were
omitted from the plot (Fig. 2a and b) showing SDEP values between 0.15 and 0.28. These cases correspond to regression models where
only one coefficient was selected; the following coefficients in order of variance being strongly correlated to this one were discarded. (c)
Automatic coefficient selection */Correlation sorting (AR). SDEC values (training set) vs number of cycles for the different padding
criteria: %, zero padding; I, symmetric padding; m, smooth padding. (d) Automatic coefficient selection */Correlation sorting (AR)
SDEPTEST values (test/monitoring set) vs number of cycles for the different padding criteria: %, zero padding; I, symmetric padding;
m, smooth padding.
coefficients were selected under the constrain of
not being correlated, and the models are indeed
more parsimonious being needed at maximum 9
wavelet coefficients as independent variables. A
great benefit may come from this as well in data
storage.
Despite the fact that the improvement (fit and
prediction) of the regression models after wavelet
compression is, in the present case, not particularly
remarkable, these models perform better, suggesting that regression in the wavelet domain may be
advantageous. Actually, the voltammograms relative to the studied mixtures do not show any
significant instrumental noise and exhibit quite a
smooth behaviour, and the advantages of wavelet
analysis can be better appreciated in more complex
matrices, where the signal to noise ratio cannot be
enhanced to optimal extent.
Two of the best performing models in Table 2,
i.e. the plot of residuals vs. experimental lead and
thallium concentrations are reported in Fig. 3a
and Fig. 4a and in Fig. 3b and Fig. 4b, respectively. The trends are in general satisfactory. The
relative percent errors, for the training set and for
the test set, result on average below 5% for the best
MLR model (Fig. 3) considering both thallium
744
M. Cocchi et al. / Talanta 59 (2003) 735 /749
Table 2
Standard deviation of error of calculation (SDEC) and of prediction for test set (SDEPTEST) and external test set (SDEPEXT)
PLS considering the whole signal (80 variables)
pad crit
wav
SDEC
SDEPTEST
SDEPEXT
0.0291
0.0347
0.0503
selcrit
lev ncfs SDEC
SDEPTEST
SDEPEXT
AR
AV
FR
FV
AR
AV
FR
FV
AR
AV
FR
FV
3
5
4
3
6
5
5
5
3
4
6
3
10
3
4
4
4
3
4
4
6
6
4
4
0.0186
0.0268
0.0245
0.0315
0.0296
0.0262
0.0312
0.0275
0.0240
0.0239
0.0275
0.0300
0.0208
0.0183
0.0229
0.0292
0.0240
0.0201
0.0242
0.0266
0.0274
0.0224
0.0249
0.0250
0.0350
0.0423
0.0379
0.0521
0.0496
0.0454
0.0638
0.0633
0.0404
0.0413
0.0983
0.0492
AR
AV
FR
FV
AR
AV
FR
FV
AR
AV
FR
FV
4
5
4
5
6
5
5
5
3
6
3
5
9
3
4
4
4
3
4
4
6
4
4
4
0.0302
0.0268
0.0260
0.0296
0.0296
0.0262
0.0322
0.0293
0.0267
0.0282
0.0278
0.0292
0.0330
0.0183
0.0227
0.0306
0.0240
0.0201
0.0267
0.0305
0.0307
0.0222
0.0329
0.0305
0.0440
0.0423
0.0365
0.0483
0.0496
0.0454
0.0633
0.0481
0.0477
0.0406
0.0609
0.0480
AR
AV
FR
FV
AR
AV
FR
FV
AR
AV
FR
FV
3
6
4
3
6
5
5
3
4
6
3
5
6
3
4
4
4
3
4
4
4
4
4
4
0.0215
0.0237
0.0221
0.0263
0.0269
0.0237
0.0250
0.0250
0.0272
0.0230
0.0243
0.0258
0.0256
0.0260
0.0281
0.0261
0.0298
0.0243
0.0275
0.0266
0.0300
0.0269
0.0331
0.0239
0.0717
0.0486
0.0345
0.0477
0.0356
0.0436
0.0822
0.0438
0.0533
0.0465
0.0432
0.0300
MLR
zpd
sym
spd
sym7
sym5
sym7
coif2
coif2
sym5
coif2
sym8
sym8
db20
coif5
sym6
PLS
zpd
sym
spd
db20
sym5
sym7
coif1
coif2
sym5
coif2
coif1
sym8
db3
coif2
coifl
NNa
zpd
sym
spd
sym6
db3
sym7
coif5
coif2
sym5
coif2
sym4
db20
db3
db2
coif1
The reported values are: the average of SDEC and SDEP for [Pb2 ] and [TI] , respectively; the padding criterion (pad_crit); the
wavelet filter (wav); the criteria used in coefficient selection (selcrit): A/automatic, F/fixed; the criteria used in coefficient sorting:
R/squared correlation coefficient; V/variance; the optimum decomposition level (lev); the number of selected wavelet coefficients
(ncfs).
a
The network topology is always ncfs-2-2. The transfer functions used in each level are for each row, respectively: lgg; lsg; lsg; lgg;
lgg; lsg; lst; lgg; lsg; lgg; lgg; lgg. Where l stands for linear; g for gaussian; s for sigmoid and t for hyperbolic tangent; i.e. lgg: input/
linear; hidden/gaussian; output/gaussian.
M. Cocchi et al. / Talanta 59 (2003) 735 /749
745
Fig. 3. (a) Residuals vs. experimental thallium concentrations, by using the MLR model calculated on the selected (sym7, automatic
selection criterion, correlation sorting) wavelet coefficients: k, training set; %, test/monitoring set; j, external test set. (b) Residuals
vs. experimental lead concentrations, by using the MLR model calculated on the selected (sym7, automatic selection criterion,
correlation sorting) wavelet coefficients: k, training set; %, test/monitoring set; j, external test set.
746
M. Cocchi et al. / Talanta 59 (2003) 735 /749
Fig. 4. (a) Residuals vs. experimental thallium concentrations, by using the NN model calculated on the selected (coif1, fixed selection
criterion, variance sorting) wavelet coefficients: k, training set; %, test/monitoring set; j, external test set. (b) Residuals vs.
experimental lead concentrations, by using the NN model calculated on the selected (coif1, fixed selection criterion, variance sorting)
wavelet coefficients: k, training set; %, test/monitoring set; j, external test set.
and lead. The best ANN model (Fig. 4) behaves
analogously for lead, while the average relative
percent error for thallium, is of 7% for the training
set and of 8% for the test set. In the case of the
external test set, the average relative percent error,
for both metals, is as well below 5%, considering
M. Cocchi et al. / Talanta 59 (2003) 735 /749
747
Fig. 5. Few representative original voltamogramms on top and the corresponding reconstructed signals (coif1 selected coefficients by
using a fixed number, 4, of coefficients, with the variance sorting criterion) on bottom. Pure lead: solid grey lines; pure thallium: solid
black lines; mixtures of the two metals: dotted grey lines.
either the MLR or the ANN model, except for two
or three mixtures. In general, the lead content is
better predicted than thallium. These errors are
comparable with those reported in previously
published studies [12,13], although it has to be
taken into account that the experimental conditions are different and the thallium and lead peaks
are less heavily overlapped in the case reported in
the cited references.
In Figs. 5 and 6 a comparison between original
and reconstructed signals for the two best performing models are reported. It is interesting to
notice that in one case (coif1, Fig. 5) the selected
wavelet coefficients highlight the position of the
maximum corresponding to lead and thallium
peaks, respectively. On the contrary, in the other
case (sym7, Fig. 6), the wavelet coefficients focus
on the regions where the lead and thallium peaks
cross each other: these regions are thus supposed
to capture the discontinuities due to the different
slope directions of the signal corresponding to the
two different peaks.
5. Conclusions
In this work we have shown that FWT can be
effectively coupled to predictive feature selection
criteria in order to find a minimum number of best
performing wavelet coefficients. These coefficients
constitute a new set of predictor variables that can
be passed to any regression methods. The proposed procedure allowed us to calculate satisfactory multivariate calibration models for both
[TI ] and [Pb2] ions, whose voltammetric responses, were seriously overlapped under the
studied experimental conditions. That of overlapped signals constitutes a well known and widely
studied problem and many other chemometric
approaches have been successfully applied, to
thallium and lead mixtures as well; however, there
are many advantages that can be envisaged when
feature selection is accomplished in wavelet domain. These can be summarised as follows:
(1) Data reduction. Very few wavelet coefficients are able to model the relevant information
748
M. Cocchi et al. / Talanta 59 (2003) 735 /749
Fig. 6. Few representative original voltamogramms on top and the corresponding reconstructed signals (sym7 selected coefficients by
using the automatic selection criterium, 10 coefficients, and the correlation sorting criterion) on bottom. Pure lead: solid grey lines;
pure thallium: solid black lines; mixtures of the two metals: dotted grey lines; correlation sorting criterion) on bottom. Pure lead: solid
grey lines; pure thallium: solid black lines; mixtures of the two metals: dotted grey lines.
contained in a whole signal. For the data examined
by us, 3 or 4 coefficients have been sufficient to
obtain predictive regression models. Thus, lowering to a significant extent the ratio between the
number of variables and the number of objects, it
is possible to use a wider pool of regression
techniques in different experimental context;
(2) The possibility of doing simultaneously
denoising, background removal, and feature selection;
(3) The selected wavelet coefficients correspond
to contiguous regions of the signal; i.e. the order of
the variables is implicitly taken into account,
which is particularly helpful for interpretative
purposes. In fact, once they are reconstructed in
the original domain, it is not only possible to
localise the spectral regions correlated to the
dependent variables, but also to establish at which
scale (frequency) the features of interest are
located. In other words, the representation in the
wavelet domain offers the possibility to use not
only the single intensity values of the signal, but
also peak widths, slopes of particular regions,
degree of smoothness, and many other shape
features, in order to predict the dependent variables.
M. Cocchi et al. / Talanta 59 (2003) 735 /749
Acknowledgements
Financial support from MURST (Rome) (Ricerche di Interesse Nazionale) and Junta de
Andalucia are acknowledged. We also thank
Ministerio de Educacion, Cultura y Deportes of
Spain for the help given with a research grant.
References
[1] D.P. Binkley, R.E. Dessy, Anal. Chem. 52 (1980) 1335.
[2] T.F. Brown, S.D. Brown, Anal. Chem. 53 (1981) 1410.
[3] C.A. Scolari, S.D. Brown, Anal. Chim. Acta 166 (1985)
253.
[4] B. Raspor, I. Pizeta, M. Branica, Anal. Chim. Acta 285
(1994) 103.
[5] H.N.A. Hassan, M.E.M. Hassouna, I.H.I. Habib, Talanta
46 (1998) 1195.
[6] R. Tauler, A. Smilde, B.R. Kowalski, J. Chemometrics 9
(1995) 31.
[7] M. Esteban, C. Arino, J.M. Diaz-Cruz, M.S. Diaz-Cruz,
R. Tauler, Trends Anal. Chem. 19 (2000) 49.
[8] H. Martens, T. Naes, Multivariate Calibration, Wiley,
Chichester, 1989.
[9] R.G. Brereton, Analyst 125 (2000) 2125.
[10] P. Geladi, Chemom. Intell. Lab. Syst. 60 (2002) 211.
[11] A. Henrion, R. Henrion, G. Henrion, F. Sholz, Electroanalysis 2 (1990) 309.
[12] M.C. Ortiz, J. Arcos, L. Sarabia, Chemom. Intell. Lab.
Syst. 34 (1996) 245.
[13] A. Herrero, M.C. Ortiz, Talanta 46 (1998) 129.
[14] J.M.G. Fraga, A.I.J. Abizanda, F.J. Moreno, J.J.A. Leon,
Talanta 46 (1998) 75.
[15] K. Bessant, S. Saini, J. Electroanal. Chem. 489 (2000) 76.
[16] J. Saurina, S.H. Cassou, E. Fabregas, S. Alegret, Anal.
Chim. Acta 405 (2000) 153.
[17] R.M. De carvalho, C. Mello, L.T. Kubota, Anal. Chim.
Acta 420 (2000) 109.
[18] E. Cukrowska, L. Trnkova, R. Kizek, J. Havel, J.
Electroanal. Chem. 503 (2001) 117.
749
[19] Y. Ni, L. Wang, S. Kokot, Anal. Chim. Acta 439 (2001)
159.
[20] V. Centner, J. Verdu-Andres, B. Walczak, D.J. Rimbaud,
F. Despagne, L. Pasti, R Poppi, D.L. Massart, O.E. De
Noord, Appl. Spectrosc. 54 (2000) 608.
[21] B. Walczak (Ed.), Wavelets in Chemistry, Elsevier Press,
Amsterdam, NL, 2000.
[22] D.J. Rimbaud, B. Walczak, R.J. Poppi, O.E. De Noord,
D.L. Massart, Anal. Chem. 69 (1997) 4317.
[23] J. Trygg, S. Wold, Chemom. Intell. Lab. Syst. 42 (1998)
209.
[24] B.K. Alsberg, A.M. Woodward, M.K. Winson, J.J. Rowland, D.B. Kell, Anal. Chim. Acta 368 (1998) 29.
[25] U. Depczynski, K. Jetter, K. Molt, A. Niemoller, Chemom. Intell. Lab. Syst. 47 (1999) 179.
[26] L. Eriksson, J. Trygg, R. Bro, S. Wold, Anal. Chim. Acta
420 (2000) 181.
[27] T. Artursson, A. Hagman, S. Bjork, J. Trygg, S. Wold,
S.P. Jacobsson, Appl. Spectrosc. 54 (2000) 1222.
[28] G. Strang, in: G. Strang, T. Nguyen (Eds.), Wavelet and
Filterbanks, Wellesey Cambridge Press, Wellesey, MA,
1996.
[29] F.T. Chau, T.M. Shih, J. Gao, C.K. Chan, Appl.
Spectrosc. 50 (1996) 339.
[30] J.W. Hayes, D.E. Glover, D.E. Smith, M.W. Overton,
Anal. Chem. 45 (1973) 277.
[31] J.M. Palacios-Santander, A. Jimenez-Jimenez, I. NaranjoRodriguez, L.M. CubillanaAguilera, J.L. Hidalgo-Hidalgo-de-Cisneros, Mikrochimica Acta, in press.
[32] I. Daubechies, Ten Lectures on Wavelets, SIAM Press,
Philadelphia, USA, 1992.
[33] S. Mallat, A Wavelet Tour of Signal Processing, Academic
Press, Oval Road, London, 1998.
[34] M. Misiti, Y. Misiti, G. Oppenheim, J.M. Poggi, Wavelet
Toolbox User’s Guide, MathWorks Inc, Natick, MA,
1999.
[35] B.M. Wise, N.B. Gallagher, PLS Toolbox 2.1.1, Eigenvector Research Inc, WA, USA, 1998.
[36] F. Despagne, D.L. Massart, Analyst 123 (1998)
157.
[37] J.W. Kauffman, P.C. Jurs, J. Chem. Inf. Comput. Sci. 41
(2001) 408.
BIBLIOGRAFÍA
Bibliografía
475
BIBLIOGRAFÍA
[1]
M. M. Cordero Rando, Desarrollo y caracterización de materiales sonogel-carbono
como base para sensores electroquímicos, Tesis Doctoral, Cádiz (2001).
[2]
M. Ebelman, Ann. Chimie Phys., 16 (1846) 129.
[3]
T. Graham, J. Chem. Soc., 17 (1864) 318.
[4]
C. B. Hurd, Chem. Rev., 22 (1938) 403.
[5]
R. Roy, J. Am. Ceram. Soc., 39 (1956) 145.
[6]
R. Roy, J. Am. Ceram. Soc., 52 (1969) 344.
[7]
L. Levene, I. M. Thomas, U.S. Patent 3640093 (1972).
[8]
H. Dislich, Angewandt Chemie, 10 (1971) 363.
[9]
B. E. Yoldas, J. Mater. Sci., 10 (1975) 1856.
[10]
B. E. Yoldas, J. Mater. Sci., 12 (1977) 1203.
[11]
M. Yamane, A. Shinji, T. Sakaino, J. Mater. Sci., 13 (1978) 865.
[12]
A. V. Narasimham, J. De Physique, Supl. Nº 11, 40 (1979) C8-223.
[13]
N. V. Malykh, I. A. Ogorodnikov, J. De Physique, Supl. Nº 11, 40 (1979) C8-300.
[14]
K. S. Suslick, Pour la science, Nº 138 (1989) 88.
[15]
S. W. Wong, W. Y. Chon, AIChE Journal, Nº2, 15 (1969) 281.
[16]
E. Blanco, L. Esquivias, R. Litrán, M. Piñero, M. Ramírez del Solar, N. De la Rosa
Fox, App. Organometal. Chem., 13(5) (1999) 399.
[17]
M. Tarasevich, Cer. Bull., 63 (1984) 500.
[18]
K. S. Alber, J. A. Cox, Microchim. Acta, 127 (1997) 131.
[19]
C. Malins, H.G. Glever, T.E. Keyes, J.G. Vos, W.J. Dressick, B.D. MacCraith,
Sens. Actuators B, 67 (2000) 89.
[20]
C. von Bültzingslöwen, A. K. McEvoy, C. McDonagh, B. MacCraith, Anal. Chim.
Acta, 480 (2003) 275.
[21]
M. Lechna, I. Holowacz, A. Ulatowska, H. Podbielska, Surf. Coat. Technol. 151152 (2002) 299.
[22]
C. McDonagh, P. Bowe, K. Mongey, B. D. MacCraith, J. Non-Cryst. Solids, 306
(2002) 138.
[23]
M. A. Macêdo, M. A. Aegerter, J. Sol-Gel Sci. Technol., 2 (1994) 667.
[24]
A. E. Aliev, H. W. Shin, Solid State Ion., 154-155 (2002) 425.
[25]
N. Özer, Solar Energy. Mater. Solar. Cells, 68 (2001) 391.
Bibliografía
476
[26]
H. Wang, M. Yan, Z. Jiang, Thin Solid Films, 401 (2001) 211.
[27]
A. Walkarius, Electroanalysis, 10(18) (1998) 1217.
[28]
P. Ganesan, H. Colon, B. Haran, B. N. Popov, J. Power Sources, 115 (2003) 12.
[29]
B. J. Hwang, R. Santhanam. C. H. Chen, J. Power Sources, 114 (2003) 244.
[30]
J. M. Amarilla, M. L. Pérez-Revenga, B. Casal, E. Ruiz-Hitzky, Catal. Today, 78
(2003) 571.
[31]
C. -M. Shen, X, -G. Zhang, Y. -K. Zhou, H. -L. Li, Mater. Chem. Phys., 78 (2003)
437.
[32]
J. Seneviratne, J. A. Cox, Talanta, 52 (2000) 801.
[33]
S. V. M. de Moraes, J. B. Passos, P. Schossler, E. B. Caramão, C. C. Moro, T. M.
H. Costa, E. V. Benvenutti, Talanta, 59(5) (2003) 1039.
[34]
C. A. Lundgren, R. W. Murray, J. Electroanal. Chem., 227 (1987) 287.
[35]
J. Watson, T. W. Zerda, Appl. Spectrosc., 45 (1991) 1360.
[36]
O. Dvorak, M. K. de Armond, J. Phys. Chem., 97 (1993) 2646.
[37]
J. de Zeeuw, J. Luong, Trends Anal. Chem., 21 (2002) 594.
[38]
N. Ishizuka, H. Kobayashi, H. Minakuchi, K. Nakanishi, K. Hirao, K. Hosoya, T.
Ikegami, N. Tanaka, J. Chromatrogr. A, 960 (2002) 85.
[39]
K. Maruszewski, A. Hreniak, J. Czy¿ewski, W. Strêk, Opt. Mater., 22 (2003) 221.
[40]
M. A. Kim, W. -Y. Lee, Anal. Chim. Acta, 479 (2003) 143.
[41]
J. Gun, M. Tsionsky, L. Ravinovich, Y. Golan, I. Rubinstein, O. Lev, J.
Electroanal. Chem., 395 (1995) 57.
[42]
L. Ravinovich, J. Gun, M. Tsionsky, O. Lev, J. Sol-Gel Sci Technol., 8 (1997)
1077.
[43]
F. Montilla, E. Morallón, J. L. Vázquez, J. Alcañiz-Monje, D. Cazorla-Amorós, A.
Linares-Solano, Carbon, 40 (2002) 2193.
[44]
M. Opallo, M. Saczek-Maj, Electrochem. Commun., 3 (2001) 306.
[45]
P. Wang, Y. Yuan, X. Jing, G. Zhu, Talanta, 53 (2001) 863.
[46]
C. Sánchez, B. Alonso, F. Chapusot, F. Ribot, P. Audebert, J. Sol-Gel Sci. Technol.,
2 (1994) 161.
[47]
R. J. P. Corriu, J. J. E. Moreau, P. Thepot, M. W. Chi Man, C. Chorro, J.-P. LerePorte, J.-L. Sauvajol, Chem. Mater., 6 (1994) 640.
[48]
M. Onada, T. Moritake, T. Matsuda, H. Nakayama, Synth. Met., 71 (1995) 2255.
[49]
M. Onada, T. Matsuda, H. Nakayama, Jpn. J. Appl. Phys., 35 (1996) 294.
Bibliografía
[50]
477
M. M. Verghese, K. Ramanathan, S. M. Ashraf, M. N. Kamalasanan, B. D.
Malhotra, Chem. Mater., 8 (1996) 822.
[51]
P. Audebert, P. Calas, G. Cerveau, R. J. P. Corriu, N. Costa, J. Electroanal. Chem.,
372 (1994) 275.
[52]
P. Audebert, G. Cerveau, R. J. P. Corriu, N. Costa, J. Electroanal. Chem., 416
(1996) 89.
[53]
M. Guglielmi, P. Colombo, G. Battaglin, A. Boscolo-Boscoletto, Eur. Mater. Res.
Soc. Monogr., 5 (1992) 111.
[54]
M. A. Maluleke, V. M. Linkov, Sep. Purif. Technol., 32(1-3) (2003) 377.
[55]
N. K. Singh, B. Lal, R. N. Singh, Int. J. Hydrogen Energy, 27 (2002) 885.
[56]
B. N. Olivier, L. A. Coury, J. O. Egekeze, C. S. Sosnoff, Y. Zhang, R. W. Murray,
C. Keller, M. X. Umana, en Biosensor Technology: Fundamentals and Applications
R. P. Buck, W. E. Hatfield, M. X. Umana, E. F. Bowden (Eds.), Marcel Dekker,
New York 1990.
[57]
M. M. Collinson, C. G. Rausch, A. Voight, Langmuir, 13 (1997) 7245.
[58]
G. Oskam, P. C. Searson, J. Phys .Chem. B, 102(14) (1998) 2464.
[59]
O. Lev, M Tsionsky, L. Rabinovich, V. Glezer, S. Sampath, I. Pankratov, J. Gun,
Anal. Chem., 67(1) (1995) 22A.
[60]
P. V. A. Pamidi, C. Parrado, S. A. Kane, J. Wang, M. R. Smyth, J. Pingarrón,
Talanta, 44 (1997) 1929.
[61]
J. A. Cox, S. D. Holmstron, M. E. Tess, Talanta, 52 (2000) 1081.
[62]
S. N. Tan, L. Hua, Anal. Chim. Acta, 450 (2001) 263.
[63]
L. Hua, S. N. Tan, Anal. Chim. Acta, 403 (2000) 179.
[64]
C. C. Hsueh, M. M. Collinson, J. Electroanal. Chem., 420 (1997) 243.
[65]
J. Wang, P. Pamidi, V. B. Nascimento, L. Angnes, Electroanalysis, 9 (1997) 689.
[66]
J. Wang, P. Pamidi, C. Parrado, D. S. Park, J. Pingarrón, Electroanalysis, 9 (1997)
908.
[67]
N. de la Rosa-Fox, R. Erce-Montilla, M. Piñero, L. Esquivias, Opt. Mater., 22
(2003) 1.
[68]
W. Que, X. Hu, Opt. Mater., 22 (2003) 31.
[69]
J. I. Dulebohn, S. C. Haefner, K. A. Bergland, K. R. Dunbar, Chem. Mater., 4
(1992) 506.
[70]
M. E. Tex, J. A. Cox, Anal. Chem., 70 (1998) 187.
[71]
D. -D. Lee, S. -D. Choi, K. -W. Lee, Sens. Actuators B, 24-25 (1995) 607.
Bibliografía
478
[72]
K. Kimura, T. Sunagawa, M. Yokoyama, Chem. Lett., (1995) 967.
[73]
W. Kim, S. Chung, S. B. Park, S. C. Lee, C. Kim, S. D. Sung, Anal. Chem., 69
(1997) 95.
[74]
Y. Guo, A. R. Guadalupe, Sens. Actuators B, 46 (1998) 213.
[75]
Z. Ji, A. R. Guadalupe, Electroanalysis, 11(3) (1999) 167.
[76]
V. Bekiari, P. Lianos, J. Lumin., 101 (2003) 135.
[77]
Y. Tatsu, K. Yamashita, M. Yamaguchi, S. Yamamura, H. Yamamoto, S.
Yoshikawa, Chem. Lett., (1992) 1615.
[78]
P. Audebert, C. Demaille, C. Sánchez, Chem. Mater., 5 (1993) 911.
[79]
H. -C. Tsai, R. -A. Doong, H. -C. Chiang, K. -T. Chen, Anal. Chim. Acta, 481
(2003) 75.
[80]
B. Liu, Y. Cao, D. Chen, J. Kong, J. Deng, Anal. Chim. Acta, 478 (2003) 59.
[81]
M. Albareda-Sirvent, A. L. Hart, Sens. Actuators B, 87 (2002) 73.
[82]
J. Li, S. N. Tan, H. Ge, Anal. Chim. Acta, 335 (1996) 137.
[83]
S. L. Chut, J. Li, S. N. Tan, Analyst, 122 (1997) 1431.
[84]
T.-M. Park, E. I. Iwuoha, M. R. Smyth, R. Freaney, A. J. McShane, Talanta, 44
(1994) 973.
[85]
I. Pankratov, O. Lev, J. Electroanal. Chem., 393 (1995) 35.
[86]
S. Sampath, O. Lev, Anal. Chem., 68 (1996) 2015.
[87]
S. Sampath, O. Lev, J. Electroanal. Chem., 426 (1997) 131.
[88]
S. Bharathi, O. Lev, Anal. Commun., 35 (1998) 29.
[89]
L. Coche-Guérente, S. Cosnier, P. Labbé, Chem. Mater., 9 (1997) 1348.
[90]
F. Tian, G. Zhu, Anal. Chim. Acta, 451 (2002) 251.
[91]
J. Wang, P. V. A. Pamidi, D. S. Park., Anal. Chem., 68 (1996) 2705.
[92]
J. Wang, D. S. Park, P. V. A. Pamidi, J. Electroanal. Chem., 434 (1997) 185.
[93]
J. Wang, P. V. A. Pamidi, D. S. Park, Electroanalysis, 9 (1997) 52.
[94]
J. Wang, P. V. A. Pamidi, Anal. Chem., 69 (1997) 4490.
[95]
J. Wang, P. V. A. Pamidi, K. R. Rogers, Anal. Chem., 70 (1998) 1171.
[96]
D. B. Holt, P. R. Gauger, A. W. Kusterbeck, F. S. Ligler, Biosens. Bioelect., 17
(2002) 95.
[97]
P. Pulido-Tofiño, J. M. Barrero-Moreno, M. C. Pérez-Conde, Anal. Chim. Acta,
429 (2001) 337.
[98]
A. E. G. Cass (Ed.), Biosensors: A Practical Approach, Oxford University Press,
New York, 1990.
Bibliografía
[99]
479
D. Diamond (Ed.), Principles of Chemical and Biological Sensors, John Wiley &
Sons, Inc., New York, 1998.
[100] A. J. Cunningham, Introduction to Bioanalytical Sensors, John Wiley & Sons, Inc.,
New York, 1998.
[101] A. Baraldi, R. Capelletti, M. Casalboni, C. Mora, M. Pavesi, R. Pizzoferrato, P.
Prosposito, F. Sarcinelli, J. Non-cryst. Solids, 317 (2003) 231.
[102] W. Que, X. Hu, Q. Y. Zhang, Chem. Phys. Lett., 369 (2003) 354.
[103] X. Chen, Z. Zhong, Z. Li, Y. Jiang, X. Wang, K. Wong, Sens. Actuators B, 87
(2002) 233.
[104] D. S. Shankaran, N. Uehara, T. Kato, Anal. Chim. Acta, 478 (2003) 321.
[105] M. M. Cordero-Rando, J. L. Hidalgo-Hidalgo de Cisneros, E. Blanco, I. NaranjoRodríguez, Anal. Chem., 74 (2002) 2423.
[106] D. R. Shankaran, N. Uehara, T. Kato, Anal. Chim. Acta, 478(2) (2003) 321.
[107] G. Wang, J. -J. Xu, H. -Y. Chen, Z. -H. Lu, Biosens. Bioelect., 18 (2003) 335.
[108] P. -C. Chiang, W. -T. Whang, Polymer, 44 (2003) 2249.
[109] M. Tsionsky, G. Gun, V. Glezer, O. Lev, Anal. Chem., 66 (1994) 1747.
[110] X. Yang, L. Hua, H. Gong, S. N. Tan, Anal. Chim. Acta, 478 (2003) 67.
[111] S. S. Rosatto, P. T. Sotomayor, L. T. Kubota, Y. Gushikem, Electrochim. Acta, 47
(2002) 4451.
[112] J. Niu, J. Y. Lee, Anal. Commun., 36 (1999) 81.
[113] C. Preininger, H. Clausen-Schaumann, A. Ahluwalia, D. de Rossi, Talanta, 52
(2000) 921.
[114] A. Ivaska, A. Lewenstam, R. Sara (Eds), Contemporary Electroanalytical
Chemistry, Plenum Press, New York, 1990.
[115] R. Kalvoda (Ed.), Electroanalytical Methods in Chemical and Environmental
Analysis, Plenum Press, New York, 1987.
[116] W.
F.
Smyth,
Voltammetric
Determination
of
Molecules
of
Biological
Significance, John Wiley & Sons, Chichester, Sussex, UK, 1992.
[117] F. W. Fifield, P. J. Haines, (Eds.), Environmental Analytical Chemistry, 2ª ed.,
Blackwell Science, London, UK, 2000.
[118] K. Rajeshwar, J. G. Ibanez, Environmental Electrochemistry: Fundamentals and
Applications in Pollution Abatement, Academic Press, San Diego, 1997.
[119] I. Naranjo-Rodríguez, J. L. Hidalgo-Hidalgo de Cisneros, Organic analysis in
environmental samples by electrochemical methods, en: R. A. Meyers (Ed.),
Bibliografía
480
Encyclopedia of Analytical Chemistry: Instrumentation and Applications, John
Wiley & Sons, United Kingdom, 2000, vol. 4, pp. 3035–3064.
[120] F. Vydra, K. Štulík, E. Juláková, Electrochemical Stripping Analysis, Ellis
Horwood Limited, Chichester, Sussex, UK, 1976.
[121] P. T. Kissinger, W. R. Heineman (Eds), Laboratory Techniques in Electroanalytical
Chemistry, 2ª ed., Marcel Dekker, New York, 1996.
[122] J. Wang, Analytical Electrochemistry, 2ª ed., John Wiley & Sons, Inc., New York,
2000.
[123] A.
Bard,
L.
R.
Faulkner,
Electrochemical
Methods:
Fundamentals
and
Applications, 2ª ed., John Wiley & Sons, New York, 2001.
[124] A. M. Bond, Modern Polarographic Methods in Analytical Chemistry, Marcel
Dekker Inc., 1980.
[125] M.M. Cordero-Rando, I. Naranjo-Rodríguez, J. L. Hidalgo-Hidalgo de Cisneros,
Anal. Chim. Acta, 370 (1998) 231.
[126] I. Naranjo-Rodríguez, J. A. Muñoz-Leyva, J. L. Hidalgo-Hidalgo de Cisneros,
Anal. Chim. Acta, 344 (1997) 167.
[127] I. Naranjo-Rodríguez, J. A. Muñoz-Leyva, J. L. Hidalgo-Hidalgo de Cisneros,
Talanta, 43 (1996) 1117.
[128] J. L. Hidalgo-Hidalgo de Cisneros, M. M. Cordero-Rando, I. Naranjo-Rodríguez, E.
Blanco Ollero, L. Esquivias Fedriani, Patente P200100556, España (2001).
[129] M. M. Cordero-Rando, I. Naranjo-Rodríguez, J. M. Palacios-Santander, L. M.
Cubillana-Aguilera, J. L. Hidalgo-Hidalgo de Cisneros, Anal. Chim. Acta,
(enviado).
[130] J. Zarzycki, Heterog. Chem. Rev., 3 (1994) 243.
[131] B. Ballarin, C. Zanardi, L. Schenetti, R. Seeber, J. L. Hidalgo-Hidalgo de Cisneros,
Synth. Met., 139(1) (2003) 29.
[132] B. Ballarin, M. Gazzano, J. L. Hidalgo-Hidalgo de Cisneros, D. Tonelli, R. Seeber,
Anal. Bioanal. Chem., 374 (2002) 891.
[133] B. Ballarin, M. M. Cordero-Rando, E. Blanco, J. L. Hidalgo-Hidalgo de Cisneros,
R. Seeber, D. Tonelli, Collect. Czech. Chem. Commun., 68 (2003) 1420.
[134] R. Erce-Montilla, M. Piñero, N. de la Rosa-Fox, A. Santos, L. Esquivias, J. Mater.
Res., 16(9) (2001) 2572.
[135] M. M. Haridas, N. Goyal, R. Jayesh, Ceram. Int., 24(6) (1998) 415.
[136] B. S. Grabariæ, R. J. O’Halloran, D. E. Smith, Anal. Chim. Acta, 133 (1981) 349.
Bibliografía
481
[137] W. Huang, T. L. Henderson, A. M. Bond, K. B. Oldham, Anal. Chim. Acta, 304
(1995) 1.
[138] D. P. Binkley, R. E. Dessy, Anal. Chem., 52 (1980) 1335.
[139] T. F. Brown, S. D. Brown, Anal. Chem., 53(9) (1981) 1410.
[140] C. A. Scolari, S. D. Brown, Anal. Chim. Acta, 166 (1984) 253.
[141] B. Raspor, I. Piz ta, M. Branica, Anal. Chim. Acta, 285 (1994) 103.
[142] H. N. A. Hassan, M. E. M. Hassouna, I. H. I. Habib, Talanta, 46 (1998) 1195.
[143] M. C. Antunes, J. E. J. Simão, A. C. Duarte, R. Tauler, Analyst, 127 (2002) 809.
[144] M. S. Díaz-Cruz, M. Esteban, A. R. Rodríguez, Anal. Chim. Acta, 428 (2001) 285.
[145] P. B. Harrington, P. J. Rauch, C. Cai, Anal. Chem., 73(14) (2001) 3247.
[146] H. Martens, T. Naes, Multivariate Calibration, 2nd ed., Wiley, Chichester, UK,
1989.
[147] R. G. Brereton, Analyst, 125 (2000) 2125.
[148] P. Geladi, Chemom. Intell. Lab. Syst., 60 (2002) 211.
[149] A. Henrion, R. Henrion, G. Henrion, F. Sholz, Electroanalysis, 2 (1990) 309.
[150] M. C. Ortíz, J. Arcos, L. Sarabia, Chemom. Intell. Lab. Syst., 34 (1996) 245.
[151] A. Herrero, M. C. Ortíz, Talanta, 46 (1998) 129.
[152] J. M. G. Fraga, A. I. J. Abizanda, F. J. Moreno, J. J. A. León, Talanta, 46 (1998)
75.
[153] K. Bessant, S. Saini, J. Electroanal. Chem., 489 (2000) 76.
[154] J. Saurina, S. H. Cassou, E. Fabregas, S. Alegret, Anal. Chim. Acta, 405 (2000)
153.
[155] R. M. de Carvalho, C. Mello, L. T. Kubota, Anal. Chim. Acta, 420 (2000) 109.
[156] E. Cukrowska, L. Trnková, R. Kizek, J. Havel, J. Electroanal. Chem., 503 (2001)
117.
[157] Y. Ni, L. Wang, S. Kokot, Anal. Chim. Acta, 439 (2001) 159.
[158] R. Seeber, A. Ulrici, Quim. Anal., 18 (1999) 11.
[159] G. Horlick, Anal. Chem., 44(6) (1972) 943.
[160] J. W. Hayes, D. E. Glover, D. E. Smith, M. W. Overton, Anal. Chem., 45(2) (1973)
277.
[161] J. M. Palacios Santander, Técnicas matemáticas aplicadas a la resolución de señales
electroquímicas del sistema Pb(II)/Tl(I), Tesis de Licenciatura, Cádiz (2000).
Bibliografía
482
[162] J. M. Palacios-Santander, A. Jiménez-Jiménez, L. M. Cubillana-Aguilera, I.
Naranjo-Rodríguez, J. L. Hidalgo-Hidalgo-de-Cisneros, Microchim. Acta, 142
(2003) 27.
[163] B. Barshan, B. Ayrulu, Neural Networks, 15(1) (2002) 131.
[164] Y. C. Kwok, A. Manz, Analyst, 126 (2001) 1640.
[165] X. Q. Zhang, J. B. Zheng, H. Gao, Analyst, 125 (2000) 915.
[166] I. Piz ta, Anal. Chim. Acta, 285 (1994) 95.
[167] M. I. Pilo, G. Sanna, R. Seeber. J. Electroanal. Chem., 323 (1992) 103.
[168] D. Allegri, G. Mori, R. Seeber, Analyst, 121 (1996) 1359.
[169] A. Fellinger, Anal. Chem., 66(19) (1994) 3066.
[170] D. W. Kirmse, A. W. Westerberg, Anal. Chem., 43(8) (1971) 1035.
[171] E. Küllik, M. Kaljurand, L. Ess, J. Chromatogr., 118 (1976) 313.
[172] P. A. Boudreau, S. P. Perone, Anal. Chem., 51(7) (1979) 811.
[173] Z. Grabariæ, B. S. Grabariæ, M. Esteban, E. Cassasas, Analyst, 121 (1996) 1845.
[174] R. J. O’Halloran, D. E. Smith, Anal. Chem., 50(9) (1978) 1391.
[175] D. E. Smith, Anal. Chem., 48(6) (1976) 517A.
[176] D. E. Smith, Anal. Chem., 48(2) (1976) 221A.
[177] R. J. Schwall, A. M. Bond, R. J. Loyd, J. G. Larsen, D. E. Smith, Anal. Chem.,
49(12) (1977) 1797.
[178] R. J. Schwall, A. M. Bond, D. E. Smith, Anal. Chem., 49(12) (1977) 1805.
[179] M. G. Amin, K. Difeng, IEEE Trans. Circuits Syst. II-analog. Dig. Signal Proc.,
42(10) (1995) 631.
[180] M. S. Wang, Z. Bao, Opt. Eng., 34(5) (1995) 1333.
[181] S. H. Nawab, E. Dorken, IEEE Trans. Signal Proc., 43(4) (1995) 998.
[182] S. Wada, IEICE Trans. Fundam. Electron. Commun. Comput. Sci., E78A(3) (1995)
431.
[183] F. T. S. Yu, G. W. Lu, Appl. Opt., 33(23) (1994) 5262.
[184] G. S. Cunningham, W. J. Williams, IEEE Trans. Signal Proc., 42(6) (1994) 1496.
[185] W. Chen, N. Kehtarnavaz, T. W. Spencer, IEEE Trans. Signal Proc., 41(7) (1993)
2488.
[186] P. J. Kootsookos, B. C. Lovell, B. Boashash, IEEE Trans. Signal Proc., 40(8)
(1992) 1971.
[187] K. Darowicki, P. Œlepski, J. Electroanal. Chem., 547(1) (2003) 1.
[188] R. M. C. So, X. Q. Wang, J. Sound Vib., 259(3) (2003) 677.
Bibliografía
483
[189] K. Darowicki, A. Krakowiak, A. Zieliñski, Electrochem. Commun., 4(2) (2002)
158.
[190] R. Drai, M. Khelil, A. Benchaala, NDT & E Int., 35(8) (2002) 567.
[191] F. Jurado, J. R. Saenz, Electr. Power Syst. Res.,62(3) (2002) 183.
[192] J. Morlet, Sampling theory and wave propagation, Proc. 51st Annu. Meet. Soc.
Explor. Geophys., Los Ángeles, 1981.
[193] P. Goupillaud, A. Grossmann, J. Morlet, Geoexploration, 23(1) (1984) 85.
[194] P. Goupillaud, A. Grossmann, J. Morlet, Geophysics, 49(5) (1984) 669.
[195] A. Grossmann, J. Morlet, T. Paul, J. Math. Phys., 26(10) (1985) 2473.
[196] A. Grossmann, J. Morlet, T. Paul, Ann. Inst. Henri Poincare, 45(3) (1986) 293.
[197] A. Grossmann, M. Holschneider, R. Kronland-Martinet, J. Morlet, Adv. Electron.
Electron. Phys., S19 (1987) 289.
[198] I. Daubechies, A. Grossmann, Commun. Pure Appl. Math., 41(2) (1988) 151.
[199] Y. Meyer, Wavelets and Operators, Rapport CEREMADE, Nº 8704, Univ. ParisDauphine, Paris, France, 1987.
[200] Y. Meyer, Orthonormal wavelets, Congr. Int. Phys. Math., Swansea, 1988.
[201] I. Daubechies, Comm. Pure Appl. Math., 41(7) (1988) 909.
[202] Y. Meyer, Wavelets. Algorithms and Applications, SIAM, Philadelphia, 1993.
[203] Y. P. Chan, Wavelet Basics, Kluwer Academic Publishers, Norwell, Massachusetts,
1995.
[204] G. Strang, SIAM Rev., 31(4) (1989) 614.
[205] O. Rioul, M. Vetterli, IEEE Signal Proc. Mag., October (1991) 14.
[206] I. Daubechies, S. Mallat, A. S. Willsky, IEEE Trans. Inf. Theory, 38(2 Pt2) (1992)
529.
[207] P. Duhamel, P. Flandrin, T. Nishitani, A. H. Tewfik, M. Vetterli, IEEE Trans.
Signal Proc., 41(12) (1993) 3213.
[208] J. R. Williams, K. Amaratunga, Int. J. Num. Methods Eng., 37(14) (1994) 2365.
[209] P. M. Bentley, J. T. E. McDonnell, Electron. Commun. Eng. J., 6(4) (1994) 175.
[210] A. Graps, IEEE Comput. Sci. Eng., 2(2) (1995) 50.
[211] M. Akay, Ann. Biomed. Eng., 23(5) (1995) 529.
[212] B. K. Alsberg, A. M. Woodward, D. B. Kell, Chemom. Intell. Lab. Syst., 37 (1997)
215.
[213] R. T. Ogden, Essential Wavelets for Statistical Applications and Data Analysis,
Birkhäuser, Boston, 1996.
Bibliografía
484
[214] A. Antoniadis, G. Oppenheim (Eds.), Wavelets and Statistics, vol. 103, Lecture
Notes in Statistics, Springer-Verlag, New York, 1995.
[215] G. W. Wornell, in: A. V. Oppenheim (Ed.), Signal Processing in Fractals. A
Wavelet Based Approach, Prentice Hall Signal Processing Series, Prentice-Hall,
Upper Saddle River, NJ, 1996.
[216] A. Cohen, R. D. Ryan, Wavelets and Multiscale Signal Processing, vol. 11, Applied
Mathematics and Mathematical Computation, Chapman and Hall, London, 1995.
[217] M. Vetterli, J. Kovacevic, Wavelets and Subband Coding, Prentice Hall,
Englewood Cliffs, NJ, 1995.
[218] A. N. Akansu, R. A. Haddad, Multiresolution Signal Decomposition. Transforms.
Subbands. Wavelets, Academic Press, San Diego, CA, 1992.
[219] M. V. Wickerhauser, Adapted Wavelet Analysis From Theory to Software, A. K.
Peters, Wellesley, MA, 1994.
[220] A. Bruce, H. -Y. Gao, S+Wavelets User’s Manual, ver. 1.0, StatSci Division,
Mathsoft, Inc., Seattle, 1994.
[221] W. Härdle, G. Kerkyacharian, D. Picard, A. Tsybakov, Wavelets, Approximation
and Statistical Applications, vol. 129, Lectures Notes in Statistics, Springer-Verlag,
New York, 1998.
[222] G. Keiser, A Friendly Guide to Wavelets, 6th ed., Birkhäuser-Boston, 1999.
[223] G. Strang, en: G. Strang, T. Nguyen (Eds.), Wavelets and Filter Banks, WellesleyCambridge Press, USA, 1996.
[224] S. Mallat, IEEE Trans. Pattern Anal. Machine Intell., 11(7) (1989) 674.
[225] M. Vetterli, C. Herley, IEEE Trans. Signal Proc., 40 (1992) 2207.
[226] G. Beylkin, SIAM J. Num. Anal., 29(6) (1992) 1716.
[227] B. Walczak, D. L. Massart, Chemom. Intell. Lab. Syst., 36(2) (1997) 81.
[228] R. Coifman, Y. Meyer, M. V. Wickerhauser, Wavelet analysis and signal
processing, en: M. B. Ruskai, G. Beylkin, R. Coifman, I. Daubechies, Y. Meyer, L.
Raphael (Eds.), Wavelets and Their Applications, Jones and Barlett, New York,
1992, pp. 153-178.
[229] R. Coifman, Y. Meyer, M. V. Wickerhauser, Size properties of wavelet packets, en:
M. B. Ruskai, G. Beylkin, R. Coifman, I. Daubechies, Y. Meyer, L. Raphael (Eds.),
Wavelets and Their Applications, Jones and Barlett, New York, 1992, pp. 453-470.
Bibliografía
485
[230] M. V. Wickerhauser, Acoustic signal processing with wavelet packets, en: C. K.
Chui (Ed.), Wavelets: A Tutorial in Theory and Applications, Academic Press,
New York, 1992, pp. 679-700.
[231] B. Jawerth, W. Sweldens, SIAM Rev., 36(3) (1994) 377.
[232] N. Hessnielsen, M. V. Wickerhauser, Proc. IEEE, 84(4) (1996) 523.
[233] L. Manganiello, C. Vega, A. Ríos, M. Valcárcel, Anal. Chim. Acta, 456(1) (2002)
93.
[234] C. Perrin, B. Walczak, D. L. Massart, Anal. Chem., 73(20) (2001) 4903.
[235] F. Ehrentreich, L. Summchen, Anal. Chem., 73(17)(2001) 4364.
[236] U. Depczynski, K. Jetter, K. Molt, A. Niemöller, Chemom. Intell. Lab. Syst., 49
(1999) 151.
[237] C. Cai, P. B. Harrington, J. Chem. Inf. Comput. Sci., 38(6) (1998) 1161.
[238] S. M. M. Rahman, Md. K. Hasan, Signal Process., 83(5) (2003) 913.
[239] E. Llobet, J. Brezmes, R. Ionescu, X. Vilanova, S. Al-Khalifa, J. W. Gardner, N.
Bârsan, X. Correig, Sens. Actuators B., 83 (2002) 238.
[240] U. Depczynski, K. Jetter, K. Molt, A. Niemoller, Chemom. Intell. Lab. Syst., 47
(1999) 179.
[241] F. T. Chau, T. M. Shih, J. B. Gao, C. K. Chan, Appl. Spectrosc., 50(3) (1996) 339.
[242] F. T. Chau, J. B. Gao, T. M. Shih, J. Wang, Appl. Spectrosc., 51(5) (1997) 649.
[243] M. Misra, S. J. Qin, S. Kumar, D. Seemann, AIChE J. Proc. Syst. Eng., 46(1)
(2000) 119.
[244] X. Shao, Z. Yu, L. Sun, Spectrochim. Acta, Part A, 59(5) (2003) 1075.
[245] Y. Zhang, J. Mo, T. Xie, P. Cai, X. Zou, Analyst, 125 (2000) 1303.
[246] X. Shao, W. Cai, P. Sun, M. Zhang, G. Zhao, Anal. Chem., 69(9) (1997) 1722.
[247] X. Shao, W. Cai, P. Sun, Chemom. Intell. Lab. Syst., 43 (1998) 147.
[248] C. Cai, P. B. Harrington, J. Chem. Inf. Comput. Sci., 39(5) (1999) 874.
[249] H. Chen, J. Hewit, Mechatronics, 10 (2000) 699.
[250] G. Y. Chen, T. D. Bui, A. Krzyzak, Pattern Recognit., 36(7) (2003) 1597.
[251] S. G. Nikolov, H. Hutter, M. Grasserbauer, Chemom. Intell. Lab. Syst., 34 (1996)
263.
[252] X. -Y. Jing, D. Zhang, J. -Y. Yang, Pattern Recognit., 36(7) (2003) 1675.
[253] M. Kobayasi, T. Muroya, Pattern Recognit. Lett., 24(11) (2003) 1737.
[254] M. Greiner, B. Jouault, J. Schmiegel, J. Giesemann, P. Lipa, H. Eggers, Rev. Mex.
Fis., 44(S2) (1998) 11.
Bibliografía
486
[255] Z. Nesic, Wavelet analysis of paper machine data, Tesis Doctoral, Vancouver
(1996).
[256] P. Teppola, P. Minkkinen, J. Chemometrics, 14 (2000) 383.
[257] K. B. Murray, D. Gorse, J. M. Thornton, J. Mol. Biol., 316(2) (2002) 341.
[258] C. Hejase de Trad, Q. Fang, I. Cosic, Biophys. Chem., 84(2) (2000) 149.
[259] S. Wei, M. Y. Chou, Phys. Rev. Lett., 76 (1996) 2650.
[260] J. P. Modisette, P. Nordlander, J. L. Kinsey, B. R. Johnson, Chem. Phys. Lett., 250
(1996) 485.
[261] J. L. Calais, Int. J. Quantum Chem., 58 (1996) 541.
[262] D. J. Rimbaud, B. Walczak, R. J. Poppi, O. E. de Noord, D. L. Massart, Anal.
Chem., 69(21) (1997) 4317.
[263] J. Trygg, S. Wold, Chemom. Intell. Lab. Syst., 42 (1998) 209.
[264] B. K. Alsberg, A. M. Woodward, M. K. Winson, J. J. Rowland, D. B. Kell, Anal.
Chim. Acta, 368 (1998) 29.
[265] L. Eriksson, J. Trygg, E. Johansson, R. Bro, S. Wold, Anal. Chim. Acta, 420 (2000)
181.
[266] T. Artursson, A. Hagman, S. Bjork, J. Trygg, S. Wold, S.P. Jacobsson, Appl.
Spectrosc., 54 (2000) 1222.
[267] M. Cocchi, J. L. Hidalgo-Hidalgo-de-Cisneros, I. Naranjo-Rodríguez, J. M.
Palacios-Santander, R. Seeber, A. Ulrici, Talanta, 59 (2003) 735.
[268] M. Cocchi, R. Seeber, A. Ulrici, Chemom. Intell. Lab. Syst., 57(2) (2001) 97.
[269] I. Turkoglu, A. Arslan, E. Ilkay, Computers Biol. Med., 33(4) (2003) 319.
[270] N. Ruiz-Reyes, M. Rosa-Zurera, F. López-Ferreras, P. Jarabo-Amores, Signal
Proc., 83(5) (2003) 919.
[271] B. R. Bakshi, G. Stephanopoulos, AIChE J., 42(2) (1996) 477.
[272] L. Ding, Y. Yan, Q. Xue, G. Jin, Opt. Commun., 216(1-3) (2003) 105.
[273] A. S. Tolba, Dig. Signal Proc., 12(4) (2002) 441.
[274] J. Z. Wang, J. Biomed. Inform., 34(2) (2001) 129.
[275] B. Walczak, D. L. Massart, Trends Anal. Chem., 18(8) (1997) 451.
[276] A. K. Leung, F. Chau, J. Gao, Chemom. Intell. Lab. Syst., 43(1-2) (1998) 165.
[277] K. Jetter, U. Depczynski, K. Molt, A. Niemöller, Anal. Chim. Acta, 420 (2000) 169.
[278] K. I. Hildrum, T. Isaksson, T. Naes, A. Tandberg, Near Infrared Spectroscopy
Bridging the Gap between Data Analysis and NIR Applications, Ellis Horwood,
New York, 1992.
Bibliografía
487
[279] H. van de Waterbeemd, (Ed.), QSAR: Chemometric Methods in Molecular Design,
VCH, Weinheim, 1995.
[280] T. Naes, E. Risvik (Eds.), Multivariate Analysis of Data in Sensory Science, Data
Handling in Science and Technology Series, Elsevier, Ámsterdam, 1996.
[281] P. K. Hopke, X. H. Song, Chemom. Intell. Lab. Syst., 37 (1997) 5.
[282] S. D. Brown, R. S. Bear, Crit. Rev. Anal. Chem., 24 (2) (1993) 99.
[283] P. Geladi, B. R. Kowalsky, Anal. Chim. Acta., 185 (1986) 1.
[284] Q. Shen, J. -H. Jiang, G. -L. Shen, R. -Q. Yu, Anal. Bioanal. Chem., 375 (2003)
248.
[285] M. Zahouily, A. Rhihil, H. Bazoui, S. Sebti, D. Zakarya, J. Mol. Model., 8(5)
(2002) 168.
[286] C. M. García-Jares, B. Medina, Fresenius’ J. Anal. Chem., 357(1) (1997) 86.
[287] G. Turnes, A. Cladera, E. Gómez, J. M. Estela, V. Cerdà, J. Electroanal. Chem.,
338 (1992) 49.
[288] H. Wold, Multivariate Analysis, en P. R. Krishnaiah, (Ed.), Academic, New York,
1966, p. 391.
[289] C. Krantz-Rülcker, M. Stenberg, F. Winquist, I. Lundström, Anal. Chim. Acta, 426
(2001) 217.
[290] R. Jones, T. J. Coomber, J. P. McCormick, A. F. Fell, B. J. Clark, Anal. Proc., 25
(1988) 381.
[291] C. Demir, P. Hindmarch, R. G. Brereton, Analyst, 125 (2000) 287.
[292] R. Seeber, G. Sferlazzo, R. Leardi, A. Dalla Serra, G. Versini, J. Agric. Food
Chem., 39(10) (1991) 1764.
[293] E. Marengo, M. C. Gennaro, D. Giacosa, C. Abrigo, G. Saini, M. T. Avignone,
Anal. Chim. Acta, 317 (1995) 53.
[294] S. Kokot, T. D. Phuong, Analyst, 124 (1999) 561.
[295] A. López-Molinero, A. Villareal-Caballero, J. R. Castillo, Spectrochim. Acta, Part
B, 49(7) (1994) 677.
[296] D. L. Massart, B. G. M. Vandeginste, L. M. C. Buydens, S. de Jong, P. J. Lewi, J.
Smeyers-Verbeke, Handbook of Chemometrics and Qualimetrics (Part A and B),
Data Handling in Science and Technology, vol. 20A-B, Elsevier, Amsterdam, 1998.
[297] D. M. Haaland, E. V. Thomas, Anal. Chem., 60 (1988) 1193.
[298] D. M. Haaland, E. V. Thomas, Anal. Chem., 60 (1988) 1202.
[299] E. V. Thomas, D. M. Haaland, Anal. Chem., 62 (1990) 1091.
Bibliografía
488
[300] P. MacLaurin, P. J. Worsfold, M. Crane, P. Norman, Anal. Proc., 29 (1992) 65.
[301] F. Navarro-Villoslada, L. V. Pérez-Arribas, M. E. León-González, L. M. Polo-Díez,
Anal. Chim. Acta, 313 (1995) 93.
[302] F. R. Burden, R. G. Brereton, P. T. Walsh, Analyst, 122 (1997) 1015.
[303] P D. Wentzell, L. Vega-Montoto, Chemom. Intell. Lab. Syst., 65 (2003) 257.
[304] S. K. Schreyer, M. Bidinosti, P. D. Wentzell, Appl. Spectrosc., 56 (2002) 789.
[305] A. Espinosa-Mansilla, A. Muñoz de la Peña, F. Salinas, M. Martínez-Galera, Anal.
Chim. Acta, 276 (1993) 141.
[306] J. C. G. Esteves da Silva, M. C. P. O. Marques Laquipai, Anal. Lett., 31(14) (1998)
2549.
[307] C. Ubide, J. Lizarreta, J. Grau, G. López-Cueto, Analyst, 125 (2000) 1709.
[308] C. Domingo, J. García-Carmona, M. A. Fanovich, J. Saurina, Analyst, 126 (2001)
1792.
[309] P. Gratteri, G. Cruciani, Analyst, 124 (1999) 1683.
[310] A. Guiberteau, T. Galeano, N. Mora, F. Salinas, J. M. Ortíz, J. C. Viré, Comput.
Chem., 25 (2001) 459.
[311] V. Centner, J. Verdú-Andrés, B. Walczak, D. J. Rimbaud, F. Despagne, L. Pasti, R.
Poppi, D. L. Massart, O .E. de Noord, Appl. Spectrosc., 54(4) (2000) 608.
[312] R. G. Brereton, Analyst, 112 (1987) 1635.
[313] M. Forina, D. Grava, R. Boggia, S. Lanteri, P. Conti, Anal. Chim. Acta, 295 (1994)
109.
[314] H. Van der Voet, Chemom. Intell. Lab. Syst., 25 (1994) 313.
[315] B. Efron, R. Tibshirani, An Introduction to the Bootstrap, Wiley, New York, 1993.
[316] R. Wehrens, W. van der Linden, J. Chemometrics, 11 (1997) 157.
[317] T. Fearn, Flat or natural? A note on the choice of calibration samples, pp. 61-66, en:
Near Infrared Spectroscopy Bridging the Gap between Data Analysis and NIR
Applications, Ellis Horwood, New York, 1992.
[318] T. Naes, T. Isaksson, J. Chemometrics, 5 (1991) 49.
[319] O. E. de Noord, Chemom. Intell. Lab. Syst., 23 (1994) 65.
[320] A. Savitzky, M. J. E. Golay, Anal. Chem., 36(8) (1964) 1627.
[321] W. R. Hruschka, Data analysis: wavelength selection methods, pp. 35-55 en: P. C.
Williams, K. Norris (Eds.), Near-infrared Reflectance Spectroscopy, Am. Cereal
Assoc., St. Paul, MI, 1987.
[322] R. J. Barnes, M. S. Dhanoa, S. J. Lister, Appl. Spesctrosc., 43(5) (1989) 772.
Bibliografía
489
[323] P. Geladi, D. McDougall, H. Martens, Appl. Spectrosc., 39 (1985) 491.
[324] B. M. Wise, N. B. Gallagher, PLS Toolbox ver. 2.1.1, Eigenvector Research Inc.,
WA, USA, 1998.
[325] J. Sjöblom, O. Svensson, M. Josefson, H. Kullberg, S. Wold, Chemom. Intell. Lab.
Syst., 44 (1998) 229.
[326] S. Wold, H. Antti, F. Lindgren, J. Öhman, Chemom. Intell. Lab. Syst., 44 (1998)
175.
[327] S. Wold, M. Sjöström, Chemom. Intell. Lab. Syst., 44 (1998) 3.
[328] J. Trygg, S. Wold, J. Chemometrics, 16(3) (2002) 119.
[329] J. Trygg, J. Chemometrics, 16(6) (2002) 283.
[330] F. McClure, Analysis using Fourier transforms, en: Handbook of Near-Infrared
Analysis, D. A. Burns, E. W. Ciurczak, (Eds.), Dekker, New York, 1992, pp. 181224.
[331] B. Walczak, D. L. Massart, Chemom. Intell. Lab. Syst., 27 (1995) 41.
[332] I. N. Wakeling, H. J. H. Macfie, J. Chemometrics, 6 (1992) 189.
[333] B. Walczak, Chemom. Intell. Lab. Syst., 29 (1995) 63-73.
[334] A. Singh, Chemom. Intell. Lab. Syst., 33 (1996) 75.
[335] A. S. Hadi, J. Roy. Stat. Soc., B56 (1994) 393.
[336] P. J. Brown, C. H. Spielgelman, M. C. Denham, Phil. Trans. R. Soc. Ser. A, 337
(1991) 311.
[337] I. E. Frank, Chemom. Intell. Lab. Syst., 1. (1987) 232.
[338] A. Höskuldsson, Chemom. Intell. Lab. Syst., 14 (1992) 139.
[339] D. J. Rimbaud, D. L. Massart, R. Leardi, O. E. de Noord, Anal. Chem., 67(23)
(1995) 4295.
[340] V. Centner, D. L. Massart, O. E. de Noord, S. de Jong, B. G. M. Vandeginste, C.
Sterna, Anal. Chem., 68 (1996) 3851.
[341] J. S. Shenk, M. O. Westerhaus, US Patent No. 4866644, Sept. 12, 1989.
[342] L. Zhang, G. W. Small, M. A. Arnold, Anal. Chem., 74(16) (2002) 4097.
[343] Y. Wang, D. J. Veltkamp, B. R. Kowalski, Anal. Chem., 63 (1991) 2750.
[344] Z. Wang, T. Dean, B. R. Kowalski, Anal. Chem., 67 (1995) 2379.
[345] T. B. Blank, S. T. Sum, S. D. Brown, S. L Monfre, Anal. Chem., 68 (1996) 2987.
[346] B. Walczak, E. Bouveresse, D. L. Massart, Chemom. Intell. Lab. Syst., 36 (1997)
41.
[347] F. Despagne, D. Walczak, D. L. Massart, Appl. Spectrosc., 52 (1998) 732.
Bibliografía
490
[348] L. Duponchel, C. Ruckebusch, J. P. Huvenne, P. Legrand, J. Mol. Struct., 480-481
(1999) 551.
[349] M. Forina, G. Drava, C. Armanino, R. Boggia, S. Lanteri, R. Leardi, P. Corti, P.
Conti, R. Giangiacomo, C. Galliena, R. Bigoni, I. Quartari, C. Serra, D. Ferri, O.
Leoni, L. Lazzeri, Chemom. Intell. Lab. Syst., 27 (1995) 189.
[350] O.E. Noord, Chemom. Intell. Lab. Syst., 25 (1995) 85.
[351] E. Bouveresse, D. L. Massart, Vib. Spectrosc., 11 (1996) 3.
[352] E. V. Thomas, Anal. Chem., 72(13) (2000) 2821.
[353] R. Kramer, The Challenge of Calibration Transfer, Fourth European Symposium on
Near
Infrared
(NIR)
Spectroscopy,
Integration
into
Process
Control,
Biotechnological Institute, 2000, Kolding DK, Report No. 00-5-1, 129.
[354] F. W. Koehler, G. W. Small, R. J. Combs, R. B. Knapp, R. T. Kroutil, Anal. Chem.,
72(7) (2000) 1690.
[355] K. -S. Park, Y. -H. Ko, H. Lee, C. -H. Jun, H. Chung, M. -S. Ku, Chemom. Intell.
Lab. Syst., 55 (2001) 53.
[356] H. -W. Tan, S. D. Brown, J. Chemometrics, 15(8) (2001) 647.
[357] P. Geladi, H. Bärring, E. Dåbakk, J. Trygg, H. Antti, S. Wold, B. Karlberg, J. Near
Infrared Spectrosc., 7 (1999) 251.
[358] F. Sales, M. P. Callao, F. X. Rius, Chemom. Intell. Lab. Syst., 38 (1997) 63.
[359] A. Herrero, M. C. Ortíz, Anal. Chim. Acta, 348 (1997) 51.
[360] B. J. Wythoff, Chemom. Intell. Lab. Syst., 18 (1993) 115.
[361] C. Borggaard, H. H. Thodberg, Anal. Chem., 64 (1992) 545.
[362] S. Wold, Chemom. Intell. Lab. Syst., 14 (1992) 71.
[363] S. D. Oman, T. Naes, A. Zube, J. Chemometrics, 7 (1993) 195.
[364] S. Wold, H. Kettaneh-Wold, B. Skagerberg, Chemom. Intell. Lab. Syst., 7 (1989)
53.
[365] T. Naes. T. Isaksson, B. Kowalski, Locally weighted regression in NIR analysis.
Anal. Chem., 62 (1990) 664.
[366] Z. Y. Wang, T. Isaksson, B. R. Kowalski, Anal. Chem., 66 (1994) 249.
[367] S. Sekulics, M. B. Seasholtz, Z. Wang, B. R. Kowalski, Anal. Chem., 65 (1993)
835A.
[368] J. R. Hilera, V. J. Martínez, Redes Neuronales Artificiales. Fundamentos, Modelos
y Aplicaciones, Ed. RA-MA, 1995.
[369] P. A. Jansson, Anal. Chem., 63(6) (1991) 357A.
Bibliografía
491
[370] W. S. McCulloch, W. Pitts, Bull. Math. Biophy., 5 (1943) 115.
[371] D. O. Hebb, The Organization of Behavior, Wiley, New York, 1949.
[372] F. Rosenblatt, Psycholog. Rev., 65 (1958) 386.
[373] B. Widrow, M. E. Hoff, Adaptive switching circuits, en: IRE WESCON
Convention Record, New York, 1960, pp. 96-104.
[374] N. Nilsson, Learning Machines, McGraw-Hill, New York, 1965.
[375] M. L. Minsky, S. A. Papert, Perceptrons. MIT Press, Cambridge, MA, 1969.
[376] D. E. Rumelhart, G. E. Hinton, R. J. Williams, Learning internal representations by
error
propagation,
en:
Parallel
Distributing
Processing,
Explorations in the
Microstructure of Cognition, vol. 1 Foundations, D.E. Rumelhart, J.L. McClelland
(Eds.), MIT Press, Cambridge, MA, 1986, pp. 318-362.
[377] P. Werbos, Beyond regression: new tools for prediction and analysis the behavioral
sciences, Tesis Doctoral, Harvard, Cambridge, 1974.
[378] J. Zupan, J. A. Gasteiger, Anal. Chim. Acta., 248 (1991) 1.
[379] J. Zupan, Neural Networks and Pattern Recognition, Academic Press, USA, 1998.
[380] J. Zupan, J. Gasteiger, Neural Networks for Chemists: An Introduction, VCH,
Weinheim, 1992.
[381] C. Lau, B. Widrow (Eds.), Special issue on neural networks, I: theory and
modelling, Proc. IEEE., 78(9) (1990).
[382] D. Svozil, V. Kvasnièka, J. Pospíchal, Chemom. Intell. Lab. Syst., 39 (1997) 43.
[383] D. R. Hush, B. G. Horne, IEEE Signal Proc. Mag., 10(1) (1993) 8.
[384] M. N. Taib, R. Andrés, R. Narayanaswamy, Anal. Chim. Acta, 330 (1996) 31.
[385] P. Strumillo, W. Kaminski, Neural networks with orthogonalised transfer functions,
ESANN’2001 proceedings, European Symposium on Artificial Neural Networks,
2001, Bruges (Bélgica), pp. 401.
[386] C. Wan, P. B. Harrington, J. Chem. Inf. Comput. Sci., 39(6) (1999) 1049.
[387] B. E. Miller, J. E. Colgate, Using a wavelet network to characterize real
environments for haptic display, Proceedings of the ASME Dynamic Systems and
Control Division, 1998.
[388] X. Zhang, J. Qi, R. Zhang, M. Liu, Z. Hu, H. Xue, B. Fan, Comput. Chem., 25
(2001) 125.
[389] C. C. Holmes, B. K. Mallick, IEEE Trans. Neural Networks, 11(1) (2000) 27.
[390] G. Castellano, A. M. Fanelli, M. Pelillo, IEEE Trans. Neural Networks, 8 (1997)
519.
Bibliografía
492
[391] J. Zhang, J. -H. Jiang, P. Liu, Y. -Z. Liang, R. -Q. Yu, Anal. Chim. Acta, 344
(1997) 29.
[392] R. J. Poppi, D. L. Massart, Anal. Chim. Acta, 375 (1998) 187.
[393] R. M. de Carvalho, C. Mello, L. T. Kubota, Anal. Chim. Acta, 420 (2000) 109.
[394] B. Robitaille, B. Marcos, M. Veillette, G. Payre, Computers Chem. Engng., 20(9)
(1996) 1133.
[395] E. P. P. A. Derks, L. M. C. Buydens, Chemom. Intell. Lab. Syst., 41 (1998) 171.
[396] F. Despagne, D. L. Massart, Analyst, 123 (1998) 157R.
[397] J. Zupan, M. Noviè, I. Ruisánchez, Chemom. Intell. Lab. Syst., 38 (1997) 1.
[398] K. -T. Lau, P. McAlernon, J. M. Slater. Analyst, 125 (2000) 65.
[399] Y. Vander Heyden, P. Vankeerberghen, M. Novic, J. Zupan, D. L. Massart,
Talanta, 51 (2000) 455.
[400] Q. Li, X. Yao, X. Chen, M. Liu, R. Zhang, X. Zhang, Z. Hu, Analyst, 125 (2000)
2049.
[401] D. Wienke, G. Kateman, Chemom. Intell. Lab. Syst., 23(2) (1994) 309.
[402] L. C. Bain, B. Lazzerini, U. Halici (Eds.), Innovations in ART Neural Networks,
Studies in Fuzziness and Soft Computing, vol. 43, Springer-Verlag, 2000.
[403] D. Yaffe, Y. Cohen, G. Espinosa, A. Arenas, F. Giralt, J. Chem. Inf. Comput. Sci.,
42(3) (2002) 768.
[404] J. Devillers (Ed.), Neural Networks in QSAR and Drug Design, Academic Press,
London, 1996.
[405] B. A. Berg, Comput. Phys. Commun., 98 (1996) 35.
[406] E. P. P. A. Derks, Aspects of artificial networks and experimental noise, Tesis
Doctoral, University of Nijmegen, the Netherlands, Chapter 2, 1997.
[407] R. Tibshirani, Neural Computat., 8 (1995) 152.
[408] B. Walczak, Anal. Chim. Acta, 322 (1996) 21.
[409] P. Deveka, L, Achenie, J. Intell. Fuzzy Syst., 3 (1995) 287.
[410] M. Norgaard, Neural network based system identification toolbox, Technical
report, Institute of Automation, Technical University, Denmark, 1995.
[411] M. Defernez, E. K. Kemsley, Analyst, 124 (1999) 1675.
[412] J. F. Rusling, Anal. Chem., 55(11) (1983) 1713.
[413] E. P. P. A. Derks, M. L. M. Beckers, W. J. Melssen, L. M. C. Buydens, Computers
Chem., 20 (1995) 439.
Bibliografía
493
[414] E. P. P. A. Derks, M. S. Sánchez Pastor, L. M. C. Buydens, Chemom. Intell. Lab.
Syst., 34 (1996) 299.
[415] P. J. Gemperline, Chemom. Intell. Lab. Syst., 39 (1997) 29.
[416] B. A. Berg, J. Riedler, Comput. Phys. Commun., 107 (1997) 39.
[417] R. Beale, T. Jackson, Neural Computing: An Introduction, Institute of Physics
Publishing, Bristol, 1992.
[418]
J. L. McClelland, D. E. Rumelhart, Parallel Distributed Processing, vol. 1. MIT
Press, London, 1988.
[419] J. A. Freeman, D. M. Skapura, Neural Networks, Algorithms, Applications and
Programming Techniques, Addison-Wesley, Reading, MA, 1991.
[420] R. Hecht-Nielsen, Neurocomputing, Addison-Wesley, Reading, MA, 1991.
[421] P. D. Wasserman, Neural Computing: Theory and Practice, Van Nostrand
Reinhold, New York, 1989.
[422] J. Smits, W. J. Melssen, L. M. C. Buydens, G. Kateman, Chemom. Intell. Lab. Syst.,
22 (1994) 165.
[423] Q. L. Ma, A. Yan, Z. Hu, Z. Li, B. Fan, Anal. Chim. Acta, 406 (2000) 247.
[424] A. Chilingarian, S. Ter-Antonyan, A. Vardanyan, H. J. Gils, J. Knapp, H. Rebel, M.
Roth, Nuclear Phys. B (Proc. Suppl.), 52B (1997) 237.
[425] A. López-Molinero, J. Pino, A. Castro, J. R. Castillo, Anal. Lett., 36(1) (2003) 245.
[426] S. Bell, E. Nazarov, Y. F. Wang, J. E. Rodríguez, G. A. Eiceman, Anal. Chem.,
72(6) (2000) 1192.
[427] P. B. Harrington, Anal. Chem., 70(7) (1998) 1297.
[428] C. Wan, P. B. Harrinton, Anal. Chim. Acta, 408 (2000) 1.
[429] E. R. Collantes, R. Duta, W. J. Welsh, W. L. Zielinski, J. Brower, Anal. Chem.,
69(7) (1997) 1392.
[430] S. A. Corne, Concepts Mag. Res., 8(5) (1996) 303.
[431] M. Babri, S. Rouhami, A. Massoumi, ALN American Laboratory News, Marzo
(2000) 28.
[432] K. -H. Ott, N. Aranibar, B. Singh, G. W. Stockton, Phytochemistry, 62(6) (2003)
971.
[433] M. Blanco, J. Pagès, Anal. Chim. Acta, 463(2) (2002) 295.
[434] D. A. Cirovic, Trends Anal. Chem., 16(3) (1997) 148.
[435] C. -C. Hsueh, Y. Liu, M. Henry, M. S. Freund, Anal. Chim. Acta, 397 (1999) 135.
Bibliografía
494
[436] R. E. Shaffer, S. L. Rose-Pehrsson, R. A. McGill, Anal. Chim. Acta, 384 (1999)
305.
[437] R. E. Shaffer, S. L. Rose-Pehrsson, Anal. Chem., 71(19) (1999) 4263.
[438] Y. Tominaga, Chemom. Intell. Lab. Syst., 49 (1999) 105.
[439] V. Gerbi, G. Zeppa, R. Beltramo, A. Carnacini, A. Antonelli, J. Sci. Food Agric.,
78 (1998) 417.
[440] M. J. Latorre, R. Peña, S. García, C. Herrero, Analyst, 125 (2000) 307.
[441] M. J. Benito, M. Cruz Ortíz, M. Sagrario Sánchez, L. A. Sarabia, M. Iñiguez,
Analyst, 124 (1999) 547.
[442] S. Osowski, D. D. Nghia, Pattern Recognit., 35 (2002) 1949.
[443] T. Visser, H. J. Luinge, J. H. van der Maas, Anal. Chim. Acta, 296 (1994) 141.
[444] H. J. Luinge, E. D. Leussink, T. Visser, Anal. Chim. Acta, 345 (1997) 173.
[445] C. Affolter, J. T. Clerc, Chemom. Intell. Lab. Syst., 21 (1993) 151.
[446] J. R. M. Smits, P. Schoenmakers, A. Stehmann, F. Sijstermans, G. Kateman,
Chemom. Intell. Lab. Syst., 18 (1993) 27.
[447] M. E. Munk, M. S. Madison, E. W. Robb, Microchim. Acta, 2 (1991) 505.
[448] W. Wu, D. L. Massart, Chemom. Intell. Lab. Syst., 35 (1996) 127.
[449] U. Hare, J. Brian, J. H. Prestegard, J. Biomol. NMR, 4 (1994) 35.
[450] V. Venkatasubramanian, R. Vaidyanathan, Y. Yamamoto, Computers Chem.
Engng., 14(7) (1990) 699.
[451] J. Angstenberger, D. Berkemeier, M. Kühn, R. Weber, Application of fuzzy
technologies and neural networks in rubber industry, Proceedings of ESIT 97,
European Symposium on Intelligent Techniques, Bari, 1997, pp. 58-62.
[452] K. Belarbi, K. Bettou, A. Mezaache, J. Proc. Control, 10 (2000) 35.
[453] H. Wang, Y. Zhou, Y. Zhao, Q. Li, X. Chen, Z. Hu, Anal. Chim. Acta, 429 (2001)
207.
[454] C. Hoskins, D. M. Himmelblau, Computers Chem. Eng., 16 (1992) 241.
[455] C. Hoskins, D. M. Himmelblau, AIChe J., 37 (1991) 137.
[456] M. Bhat, T. J. McAvoy, Computers Chem. Eng., 15 (1990) 573.
[457] C. Puebla, Chemom. Intell. Lab. Syst., 26 (1994) 27.
[458] Y. Shimizu, J. Chem. Eng. Japan, 32(1) (1999) 51.
[459] N. Qian, T. J. Sejnowski, J. Molec. Biol., 202 (1988) 568.
[460] M. Vieth, A. Kolinsky, J. Skolnicek, A. Sikorski, Acta Biochim. Pol., 39 (1992)
369.
Bibliografía
495
[461] A. I. Popescu, J. Biophys., 7(1-2) (1997) 1.
[462] N. Bhat, T. J. McAvoy, Computers Chem. Engng., 14(4-5) (1990) 573.
[463] P. B. Harrington, Anal. Chem., 66(6) (1994) 802.
[464] D. J. Livingstone, D. T. Manallack, I. V. Tetko, J. Comput.-Aided Mol. Design, 11
(1997) 135.
[465] J. Bourquin, H. Schmidli, P. van Hoogevest, H. Leuenberger, Eur. J. Pharm. Sci., 6
(1998) 287.
[466] J. Bourquin, H. Schmidli, P. van Hoogevest, H. Leuenberger, Eur. J. Pharm. Sci., 7
(1998) 5.
[467] Ž. Kurtanjek, J. Biotechnol., 65 (1998) 23.
[468] V. Tchistiakov, C. Ruckebusch, L. Duponchel, J. -P. Huvenne, P. Legrand,
Chemom. Intell. Lab. Syst., 54 (2000) 93.
[469] W. -L. Xing, X. -W. He, Chem. Lett., 25 (1996) 1065.
[470] W. -L. Xing, X. -W. He, Analyst, 122 (1997) 587.
[471] H. Wei, L. Wang, W. Xing, B. Zhang, C. Liu, J. Feng, Anal. Chem., 69(4) (1997)
699.
[472] J. Amador-Hernández, A. Cladera, J. M. Estela, P. L. López-de-Alba, V. Cerdà,
Analyst, 123 (1998) 2235.
[473] P. J. Gemperline, J. R. Long, V. G. Gregoriu, Anal. Chem., 63(20) (1991) 2313.
[474] M. Kompany-Zareh, A. Massoumi, Sh. Pezeshk-Zadeh, Talanta, 48 (1999) 283.
[475] A. Izquierdo, G. López-Cueto, J. F. Rodríguez Medina, C. Ubide, Quim. Anal., 17
(1998) 67.
[476] J. Saurina, S. Hernández-Cassou, Analyst, 124 (1999) 745.
[477] P. Bhandare, Y. Mendelson, R. A. Peura, G. Janatsch, J. D. Kruse-Jarres, R.
Marbach, H. M. Heise, Appl. Spectrosc., 47(8) (1993) 1214.
[478] F. Despagne, D. L. Massart, P. Chabot, Anal. Chem., 72(7) (2000) 1657.
[479] M. Blanco, J. Coello, H. Iturriaga, S. Maspoch, J. Pagès, Chemom. Intell. Lab.
Syst., 50 (2000) 75.
[480] R. Wehrens, W. E. van der Linden, Anal. Chim. Acta, 334 (1996) 93.
[481] A. Cladera, J. Alpízar, J. M. Estela, V. Cerdà, M. Catasús, E. Lastres, L. García,
Anal. Chim. Acta, 350 (1997) 163.
[482] J. Alpízar, A. Cladera, V. Cerdà, E. Lastres, L. García, M. Catasús, Anal. Chim.
Acta, 340 (1997) 149.
[483] C. Bessant, S. Saini, Anal. Chem., 71(14) (1999) 2806.
Bibliografía
496
[484] E. Richards, C. Bessant, S. Saini, Chemom. Intell. Lab. Syst., 61 (2002) 35.
[485] A. A. Ensafi, T, Khayamian, M. Atabati, Talanta, 57 (2002) 785.
[486] V. Dohnal, M. Farková, J. Havel, Chirality, 11(8) (1999) 616.
[487] Y. Zhou, A. Yan, H. Xu, K. Wang, X. Chen, Z. Hu, Analyst, 125 (2000) 2376.
[488] M. E. Ramos-Nino, C. A. Ramírez-Rodríguez, M. N. Clifford, M. R. Adams, J.
Appl. Microbiol., 82 (1997) 168.
[489] K. Héberger, A. P. Borosy, J. Chemometrics, 13 (1999) 473.
[490] G. W. Kauffman, P. C. Jurs, J. Chem. Inf. Comput. Sci., 41 (2001) 408.
[491] R. Vendrame, Y. Takahata, J. Mol. Struct. (Teochem), 89 (1999) 55.
[492] C. Cai, P. B. Harrington, Anal. Chem., 71(19) (1999) 4134.
[493] M. Bos, A. Bos, W. E. van der Linden, Anal. Chim. Acta, 233 (1990) 31.
[494] C. W. Brown, S. –C. Lo, Anal. Chem., 70(14) (1999) 2983.
[495] A. Cichocki, R. Unbehauen, Neural Networks for Optimization and Signal
Processing, Wiley, New York, 1993.
[496] E. P. P. A. Derks, B. A. Pauly, J. Jonkers, E. A. H. Timmermans, L. M. C.
Buydens, Chemom. Intell. Lab. Syst., 39(2) (1997) 143.
[497] F. B. M. Suah, M. Ahmad, M. N. Taib, Sens Actuators B, 90(1-3) (2003) 182.
[498] A. Ortega, S. Marco, A. Perera, T. Šundic, A. Pardo, J. Samitier, Sens Actuators B,
78(1-3) (2001) 32.
[499] W. -L. Xing, X. -W. He, Sens Actuators B, 66(1-3) (2000) 272.
[500] W. Yan, C. Diao, Z. Tang, X. Li, Sens Actuators B, 66(1-3) (2000) 283.
[501] H. Miao, M. Yu, S. Hu, J. Chromatogr. A, 749 (1996) 5.
[502] I. Cukrowski, J. Havel, Electroanalysis, 12(18) (2000) 1481.
[503] I. Cukrowski, M. Farková, J. Havel, Electroanalysis, 13(4) (2001) 295.
[504] R. González-García, R. Rico-Martínez, W. Wolf, M. Lübke, M. Eiswirth, Ing.
Quim., 345 (1998) 173.
[505] S. W. Ellacott, J. C. Masson, I. J. Anderson (Eds.), Mathematics of Neural
Networks: Models, Algorithms and Applications, Operations Research/Computer
Science Interfaces, vol. 8, Kluwer Academic Publishers, Boston, 1997.
[506] S. Nogué, Intoxicaciones por rodenticidas, en: Toxicología Clínica, L. Marruecos,
S. Nogué, J. Nolla, (Eds.), Springer-Verlag Ibérica, Barcelona, 1993, pp. 267-274.
[507] F. H. Lovejoy, Clin. Toxicol. Rev., 4 (1982)5.
[508] S. Nogué, A. Mas, A. Parés, P. Nadal, A. Bertrán, J. Milla, M. Carrera, J. To, M. R.
Pazos, J. Corbella, J. Toxicol. Clin. Toxicol., 19 (1982) 1015.
Bibliografía
497
[509] G. Zartner-Nyilas, H. Valentin, K.-H. Schaller, R. Schiele, Thallium: ökologische,
unmweltmedizinische und industrielle Bedeutung (Talio: su importancia ecológica,
sanitario-ambiental e industrial), en: Agrar- und Umweltforschung in BadenWürttemberg, vol. 3, Stuttgart, 1983.
[510] M. A. H. Hafez, M. E. Khalifa, Talanta, 44 (1997) 787.
[511] M. Wilgocki, M. Cyfert, Anal. Chim. Acta, 222(2) (1989) 351.
[512] A. Ciszewski, W. Wasiak, W. Ciszewska, Anal. Chim. Acta, 343 (1997) 225.
[513] T. -H. Lu, H. -Y. Yang, I. W. Sun, Talanta, 49 (1999) 59.
[514] Ø. Mikkelsen, K. H. Schrøder, Anal. Chim. Acta, 458 (2002) 249.
[515] J. Labuda, M. Vaníèková, Anal. Chim. Acta, 208 (1988) 219.
[516] J. J. Berzas-Nevado, J. Rodríguez-Flores, Fresenius J. Anal. Chem., 342 (1992)
273.
[517] Z. Grabariæ, B. S. Grabariæ, M. Esteban, E. Cassasas, Anal. Chim. Acta, 312 (1995)
27.
[518] C. A. Scolari, S. D. Brown, Anal. Chim. Acta, 178 (1985) 239.
[519] S. D. Brown, Anal. Chim. Acta, 181 (1986) 1.
[520] C. Locatelli, F. Fagioli, C. Bighi, T. Garai, Talanta, 34(6) (1987) 529.
[521] M. Cocchi, R. Seeber, A. Ulrici, J. Chemometrics, (2003) in press.
[522] A. Carvajal, V. Ubeda, M. A. Maestre, GOMENSORO S.A., Polarografía,
Voltamperometría de Redisolución, Fundamentos y Aplicaciones, Metrohm, 1991.
[523] I. T. Joliffe, Principal Component Analysis, Springer-Verlag; New York, 1986.
[524] S. D. Brown, Appl. Spectrosc., 49(12) (1995) 14A.
[525] A. Cladera, J. Alpízar, J. M. Estela, V. Cerdà, M. Catasús, E. Lastres, L. García, J.
Electroanal. Chem. & Interf., 338 (1992) 49.
[526] B. Walczak (Ed.), Waveles in Chemistry, Elsevier Press, Amsterdam, NL, 2000.
[527] I. Daubechies, Ten Lectures on Wavelets, SIAM Press, Philadelphia, USA, 1992.
[528] S. Mallat, A Wavelet Tour of Signal Processing, Academic Press, Oval Road,
London, UK, 1998.
[529] M. Misiti, Y. Misiti, G. Oppenheim, J. M. Poggi, Wavelet Toolbox User’s Guide,
Mathworks Inc., Natick, USA, 1999.
[530] W. Frenzel, S. Kekler, Anal. Chim. Acta, 310 (1995) 437-446.
[531] J. Wang, Y. Lin, L. Chen, Analyst, 118 (1993) 277-280.
[532] J. Gilbert, Sci. Tot. Environ., 143 (1994) 103-111.
Bibliografía
498
[533] J.W. Moore, S. Ramamoorthy, Organic Chemical in Natural Waters: Applied
Monitoring and Impact Assessment, Springer Verlag, New York, 1984.
[534] H.G. Neumann, Int. Arch. Environ. Health, 60 (1988) 151.
[535] G. Kalf, Crit. Rev. in Toxicology, 18 (1987) 141.
[536] Merck Manual of Diagnosis and Therapy, ed. R. Berkow, Merck, Rahway, NJ, 14th
edn., 1982, p. 2300.
[537] G. Jenkins, W. Hartung, The Chemistry of Organic Medicinal Products, Wiley,
NewYork, 1950, p. 100.
[538] E.C.V. Butler, G. Dal Pont, J. Chromatogr., 609 (1-2) (1992) 113.
[539] K. Lindstrom, J. Nordin, J. Chromatogr., 128 (1976) 13.
[540] A. Schultz, J. Chromatogr., 269 (1983) 208.
[541] G. E. Bately, J. Chormatogr., 389 (1987) 409.
[542] D. Roston, P. Kissinger, Anal. Chem., 53 (1981) 1695.
[543] G. K. Buckee, J. Inst. Brew., 98 (2) (1992) 78.
[544] Y.S. Drugov, G.V. Murav’eva, Zh. Anal. Khim., 46 (1991) 2014-2020.
[545] P. Ciccoli, A. Cecinato, E. Brancaleoni, M. Frattoni, Fresenius Environ. Bull., 1
(1992) 73-78.
[546] H. P. Cleghorn, P. Fellin, Toxic. Environ. Chem., 34 (1992) 85-98.
[547] A. Buikema, M. McGinnes, J. Cairns, Phenols in Aquatic Exosystems: A Selected
Review of Recent Literature. Marine Environ. Res. 2, Applied Science Publishers,
London, 1979.
[548] L. Landner, Bull. Contam. Toxicol., 18 (1977) 663.
[549] P. J. Vuorinen, Chemosfere, 14 (1985) 1729.
[550] J. Särkka, Chemosfere, 14 (1985) 469.
[551] Van Oettingen, Phenol and its Derivatives: The relationship between their chemical
constitution and their effect of the organism; National Institute of Health: The
Netherlands, 1949.
[552] M. Stob, Handbook of naturally occurring food toxicants; CRC Press Ltd.: Boca
Raton, FL, 1983.
[553] T. Colborn, F. S. von Saal, A. M. Soto, Envir. Health Perspect., 101 (1993) 378384.
[554] A. Morales, D. A. Birkholz, S. E. Hrudey, Water Environ. Res., 64 (5) (1992) 660.
[555] P. A. Realini, J. Chromatogr. Sci., 19 (1981) 124.
Bibliografía
499
[556] L. H. Keith, Advances in the Identification an Analysis of Organic Pollutants in
Water, Vol. 1, Ann Arbor Science, Ann Arbor, MI, 1981.
[557] R. H. Burttschell, A. A. Rosen, P. M. Middleton, M. B. Ettinger, J. Am. Water
Works Assoc., 51 (1959) 205.
[558] Drinking Water Directive 80/778/EEC, Commission of the European Communities,
Brussels, 1980.
[559] Directive 76/160/EEC, Commission of the European Communities, Brussels, 1975.
[560] United States Environmental Protection Authority, Toxic Substances Control Act
(TSCA), USEPA, Washington, DC. 1979.
[561] D. A. Baldwin, J. K. Debowski, Chromatographia, 26 (1988) 186.
[562] C. P. Ong, H. K. Lee, S. F. Y. Li, J. Chromatogr., 464 (1989) 405.
[563] E. F. Mohler, L. N. Jacob, Anal. Chem., 29 (1957) 1369.
[564] P. Koppe, F. Dietz, J. Traud, Ch. Rübelt, Fresenius’ J. Anal. Chem., 285 (1977) 1.
[565] J. Gorodkin, B. Søgaard, H. Bay, H. Doll, P. Kølster, S. Brunak, Comput. Chem.,
25 (2001) 301.
[566] H. -Y. Chen, A. -M. Yu, D. -K. Xu, Fresenius J. Anal. Chem., 359 (1997) 542.
[567] M. Szewczynska, M. Trojanowicz, Chem. Anal., 45(5) (2000) 667.
[568] Z. Liu, B. Liu, J. Kong, J. Deng, Anal. Chem., 72(19) (2000) 4707.
[569] B. Wang, S. Dong, J. Electroanal. Chem., 487 (2000) 45.
[570] J. Li, L. S. Chia, N. K. Goh, S. N. Tan, Anal. Chim. Acta, 362 (1998) 203.
[571] M. S. Ureta-Zañartu, P. Bustos, M. C. Diez, M. L. Mora, C. Gutiérrez, Electrochim.
Acta, 46 (2001) 2545.
[572] M. S. Ureta-Zañartu, P. Bustos, C. Berríos, M. C. Diez, M. L. Mora, C. Gutiérrez,
Electrochim. Acta, 47 (2002) 2399.
[573] Z. Aksu, J. Yener, Waste Management, 21 (2001) 695.
[574] E. M. Boyd, K. Killham, A. A. Meharg, Chemosphere, 43 (2001) 157.
[575] M. C. García Parrilla, F. J. Heredia, A. M. Troncoso, Food Res. Int., 32 (1999) 433.
[576] M. A. Oturan, N. Oturan, C. Lahitte, S. Trevin, J. Electroanal. Chem., 507 (2001)
96.
[577] F. J. Benítez, J. Beltrán-Heredia, J. L. Acero, F. J. Rubio, J. Hazard. Mater. B, 79
(2000) 271.
[578] D. Ryan, K. Robards, Analyst, 123 (1998) 31R.
Bibliografía
500
[579] Toxicological Profile for Chlorophenols. Agency for Toxic Substances and Disease
Registry (ATSDR), Department of Health and Human Services, Public Health
Service. Atlanta, GA, U.S., 1999.
[580] F.
Muller,
L.
Caillard,
Chlorophenols,
en:
Wiley-VCH
(Ed.),
Ullmann's
Encyclopedia of Industrial Chemistry, 6ª ed., Wiley-VCH, Weinheim, Germany,
2002.
[581] Chorophenols, in Guidelines for Canadian Drinking Water Quality. FederalProvincial Subcommittee on Drinking Water of the Federal-Provincial Committee
on Environmental and Occupational Health, Ottawa, Canada, 1987.
[582] Toxic Substances Profiles: Chlorophenols (CP) and Dichlorophenols (DCP), in
Guidelines for Managing Water Quality Impacts Within UK European Marine
Sites. English Nature, UK Marine Special Areas of Conservation’s Project, WRC
Swindon, 1999, p. 440.
[583] Occupational Exposures to Chlorophenols, in IARC Monographs Programme on
the Evaluation of Carcinogenic Risks to Humans, 41 (1986) 319.
[584] http://www.panreac.com/esp/catalogo/fichastec/TECNIC/165226ES.HTM.
[585] http://physchem.ox.ac.uk/MSDS/CH/4-chloro-3-methylphenol.html.
[586] http://www.speclab.com/compound/c59507.htm.
[587] http://www.bayerandina.com/bayerand.nsf/0/05256c980078fd1a05256cd2005d242
6?OpenDocument.
[588] http://www.chemicalland21.com/arokorhi/industrialchem/organic/p-CHLOROPHE
NOL.htm.
[589] http://www.mtas.es/insht/ipcsnspn/nspn0850.htm.
[590] http://www.cdc.gov/niosh/ipcs/ipcs0850.html.
[591] http://physchem.ox.ac.uk/MSDS/CH/4-chlorophenol.html.
[592] http://www.cdc.gov/niosh/rtecs/sk2ab980.html.
[593] http://ntp-support.niehs.nih.gov/NTP_Reports/NTP_Chem_HS_HTML/NTP_
Chem1/Radian106-48-9.html (así como referencias allí citadas).
[594] http://www.speclab.com/compound/c120832.htm.
[595] http://www.speclab.com/compound/c88062.htm.
[596] F. Navarro-Villoslada, L. V. Pérez-Arribas, M. E. León-González, L. M. Polo-Díez,
Anal. Chim. Acta, 381 (1999) 93.
[597] A. Cladera, M. Miró, J. M. Estela, V. Cerdà, Anal. Chim. Acta, 421 (2000) 155.
Bibliografía
501
[598] M. del Olmo, C. Díez, A. Molina, I. de Orbe, J. L. Vílchez, Anal. Chim. Acta, 335
(1996) 23.
[599] I. Rodríguez, M. H. Bollaín, R. Cela, J. Chromatogr. A, 750 (1996) 341.
[600] R. Todeschini, D. Galvagni, J. L. Vílchez, M. del Olmo, N. Navas, Trends Anal.
Chem., 18(2) (1999) 93.
[601] Y. Ni, L. Wang, S. Kokot, Anal. Chim. Acta, 431 (2001) 101.
[602] I. Naranjo Rodríguez, M. Barea Zamora, J. M. Barberá Salvador, J. A. Muñoz
Leyva, M. P. Hernández Artiga, J. L. Hidalgo Hidalgo de Cisneros, Microchim.
Acta, 126 (1997) 87.
[603] I. Naranjo Rodríguez, J. A. Muñoz Leyva, J. L. Hidalgo Hidalgo de Cisneros, Anal.
Chim. Acta, 344 (1997) 167.
[604] I. Naranjo Rodríguez, J. A. Muñoz Leyva, J. L. Hidalgo Hidalgo de Cisneros,
Analyst, 122 (1997) 601.
[605] M. M. Cordero Rando, I. Naranjo Rodríguez, J. L. Hidalgo Hidalgo de Cisneros,
Anal. Chim. Acta, 370 (1998) 231.
[606] M. M. Cordero Rando, M. Barea Zamora, J. M. Barberá Salvador, I. Naranjo
Rodríguez, J. A. Muñoz Leyva, J. L. Hidalgo Hidalgo de Cisneros, Microchim.
Acta, 132 (1999) 7.
[607] J. C. Miller, J. N. Miller, Estadística para Química Analítica, Addison-Wesley,
Iberoamericana, 1993.
[608] W. G. Lan, M. K. Wong, N. Chen, Y. M. Sin, Analyst, 119 (1994) 1659.
[609] W. G. Lan, M. K. Wong, N. Chen, Y. M. Sin, Analyst, 119 (1994) 1669.
[610] W. G. Lan, M. K. Wong, K. K. Chee, Y. M. Sin, Analyst, 120 (1995) 273.
[611] W. G. Lan, K. K. Chee, M. K. Wong, H. K. Lee, Y. M. Sin, Analyst, 120 (1995)
281.
[612] W. G. Lan, M. K. Wong, N. Chen, Y. M. Sin, Analyst, 120 (1995) 1115.
Descargar