implementación de análisis multivariado en resonancia magnética

Anuncio
IMPLEMENTACIÓN DE ANÁLISIS MULTIVARIADO EN RESONANCIA
MAGNÉTICA NUCLEAR PARA ESTUDIOS METABONÓMICOS
JESSICA MEDINA
UNIVERSIDAD DEL VALLE
FACULTAD DE CIENCIAS NATURALES Y EXACTAS
DEPARTAMENTO DE QUÍMICA
PROGRAMA DE QUÍMICA
Santiago de Cali, Junio de 2013
i
IMPLEMENTACIÓN DE ANÁLISIS MULTIVARIADO EN RESONANCIA
MAGNÉTICA NUCLEAR PARA ESTUDIOS METABONÓMICOS
JESSICA MEDINA
Proyecto de Trabajo de Grado presentado como requisito para optar al título de
Química
Director
Julien Wist, Ph.D.
Codirectora
Victoria Andrea Arana Rengifo, M.Sc.
UNIVERSIDAD DEL VALLE
FACULTAD DE CIENCIAS NATURALES Y EXACTAS
DEPARTAMENTO DE QUIMICA
PROGRAMA DE QUÍMICA
Santiago de Cali, Junio de 2013
ii
UNIVERSIDAD DEL VALLE
FACULTAD DE CIENCIAS NATURALES Y EXACTAS
DEPARTAMENTO DE QUIMICA
PROGRAMA DE QUÍMICA
Jessica Medina
IMPLEMENTACIÓN DE ANÁLISIS MULTIVARIADO EN RESONANCIA
MAGNÉTICA NUCLEAR PARA ESTUDIOS METABONÓMICOS
Palabras clave: Café, Metabonómica, Discriminación, Clasificación, Componentes
Principales, Mínimos Cuadrados Parciales.
iii
A mi Madre y mi Padrino, gracias a ustedes por creer en mis sueños.
iv
AGRADECIMIENTOS
Esto ha sido posible gracias al apoyo de las personas que han creído en mí y que me han
dado la fortaleza para seguir adelante. Mi padrino Gesan Medina, quien decidió apoyar mis
sueños y lo ha hecho con todo su corazón le agradezco infinitamente por depositar su
confianza en mí y porque gracias a personas como él me siento en deuda con la vida.
A mi mamá Nancy Medina, gracias a todo su esfuerzo y sus enseñanzas me han convertido
hoy en una persona fuerte, muchas gracias por cuidar siempre de mí. Mi primo John
Medina, por estar siempre atento y creer en mí. A Ana Victoria Charria gracias por todo su
apoyo y a mi primito Emmanuel Medina quien espero algún día lea esto le sirva como
impulso para hacer cosas grandes. A ustedes, mi familia les agradezco por estar siempre ahí
y ayudarme a convertirme en lo que ahora soy, gracias a Dios por ponerlos a ustedes a mi
lado.
A mi director Julien Wist, gracias por apoyarme, por la confianza que ha depositado y por
exigirme cada día más, gracias a eso he ido encontrando mi camino. Gracias por permitirme
participar en este proyecto, por sus enseñanzas, por su tiempo y paciencia para cada
explicación. A mis compañeras de DARMN, Victoria Arana por todo su apoyo para llevar a
cabo este proyecto, por formar un gran equipo de trabajo, y a Karina Vélez por su compañía
y apoyo, gracias a las dos por abrirme las puertas y convertirse en mis amigas, por las risas
y las experiencias compartidas.
A mis amigas, Nathaly Ortiz y Alejandra Fernández con quienes crecí durante esta etapa
gracias por brindarme su amistad incondicional, y por todos los momentos que hemos
pasado. A mis compañeros, Ivonne, Jazmín, Olga, Carlos, Jackson y Sara por hacer este
camino tan agradable en su compañía.
Doy gracias a Dios y a la vida, por rodearme de personas tan valiosas por las cuales vale la
pena seguir luchando y soñando.
v
TABLA DE CONTENIDO
RESUMEN
xiii
1.
INTRODUCCIÓN
1
2.
OBJETIVOS
4
3.
2.1. Objetivo General
4
2.2. Objetivos Específicos
4
MARCO TEÓRICO Y ANTECEDENTES
5
3.1.
Metabonómica aplicada al café
5
3.2.
Pretratamiento de datos
5
3.3.
T2 de Hotelling
7
3.4.
Métodos no supervisados
7
3.4.1. Análisis de componentes principales
3.5.
Métodos supervisados
7
8
3.5.1. Mínimos cuadrados parciales
8
3.5.2. Mínimos cuadrados parciales como método discriminante
9
3.5.3. Mínimos cuadrados parciales ortogonales con análisis discriminante
3.6.
Validación
10
11
3.6.1. Validación Cruzada K-FOLD
11
3.6.2. Validación cruzada- Dejando uno afuera
12
3.6.3. Parámetros indicadores de calidad
12
3.6.4. Matriz de confusión
13
4.
JUSTIFICACIÓN Y PLANTEAMIENTO DEL PROBLEMA
15
5.
METODOLOGÍA Y PARTE EXPERIMENTAL
16
vi
5.1.
6.
Protocolo de adquisición de espectros de café
16
5.1.1. Preparación de la muestra
16
5.1.2. Espectroscopia RMN
16
5.2.
Preprocesamiento
16
5.3.
Metodología para el análisis de datos
17
RESULTADOS Y DISCUSIÓN
6.1.
18
Discriminación por especie Arábica y Robusta
6.1.1. Validación de los modelos para discriminación de especie
6.2.
Clasificación de café colombiano
18
23
24
6.2.1. Validación de los modelos para discriminación en departamentos de
Colombia
29
6.2.2. Variables discriminantes en el café colombiano
30
7.
CONCLUSIONES
33
8.
REFERENCIAS
34
9.
ANEXOS
38
Anexo 1. PCA para todo el conjunto de datos
38
Anexo 2. Código empleado para la PCA
38
Anexo 3.Código empleado para la OPLSDA
40
vii
LISTA DE FIGURAS
Figura 1. Perfiles 1H-RMN para diferentes tipos de café. Comparación para las especies
Arábica y Robusta en grano verde (A) y tostado (B). Comparación para los departamentos
de Santander y Cauca (C).
2
Figura 2. Comparación de espectro empleando pretratamiento de datos
6
Figura 3. Ilustración del modelo PCA
8
Figura 4. Algoritmos para los modelos PCA, PLS y OPLS
11
Figura 5. Bloques para validación cruzada con K=5
12
Figura 6. Preprocesamiento de datos.
17
Figura 7. Perfil 1H-RMN de extracto de café tostado molido en metanol
18
Figura 8. Comparación de perfiles de las especies Arábica y Robusta
19
Figura 9. Puntuaciones obtenidas para la discriminación Arábica- Robusta en PCA(A),
PLSDA (B) y OPLSDA (C)
21
Figura 10. Comparaciones de las cargas (A) y coeficientes (B) para la discriminación
Arábica-Robusta
22
Figura 11. Comparación de perfiles de Nariño, Santander y Cauca
25
Figura 12. Puntuaciones obtenidas para discriminación por tres departamentos de
Colombia en PCA (A), PLSDA (B) y OPLSDA (C)
27
Figura 13. Comparaciones de las cargas (A) y los coeficientes (B) para discriminación
por tres departamentos de Colombia.
29
Figura 14.Matriz de correlación (A) y pseudo espectro de correlación (B) para
discriminación de café en departamentos de Colombia
viii
32
LISTA DE TABLAS
Tabla 1. Matriz de confusión
14
Tabla 2. Validación de los modelos para discriminación Arábica- Robusta
24
Tabla 3. Resultados test de predicción departamentos de Colombia por PLSDA y
OPLSDA
29
Tabla 4. Validación de los modelos para discriminación Nariño, Cauca y Santander
30
Tabla 5. Matriz de confusión obtenida por PLSDA y OPLDA
30
ix
LISTA DE ANEXOS
Anexo 1. PCA para todo el conjunto de datos
38
Anexo 2. Código empleado para la PCA
38
Anexo 3.Código empleado para la OPLSDA
40
x
LISTA DE SÍMBOLOS, ABREVIATURAS Y /O ACRÓNIMOS
RMN
Resonancia Magnética Nuclear
MS
Espectrometría de Masas, por sus siglas
en inglés
NIRS
Espectroscopía de Infrarrojo Cercano, por
sus siglas en inglés
PCA
Análisis de Componentes Principales, por
sus siglas en inglés
PLS
Mínimos Cuadrados Parciales, por sus
siglas en inglés
PLSDA
Mínimos
Cuadrados
Parciales
con
Análisis Discriminante, por sus siglas en
inglés
OPLSDA
Mínimos
Cuadrados
Parciales
Ortogonales con Análisis Discriminante,
por sus siglas en inglés
OSC
Señal de Corrección Ortogonal, por sus
siglas en inglés
HRGC
Cromatografía
de
Gases
de
Alta
Resolución, por sus siglas en inglés
IRMS
Relación Isotópica con Espectrometría de
Masas, por sus siglas en inglés
LDA
Análisis Discriminante Lineal, por sus
siglas en inglés
CV
Validación Cruzada, por sus siglas en
inglés
NIPALS
Non-Linear Iterative Partial Least Squares
MSECV
Error Cuadrático Medio de Validación
xi
Cruzada, por sus siglas en inglés
MSEC
Error Cuadrático Medio de Calibración,
por sus siglas en inglés
PRESS
Suma de la Predicción del Error, por sus
siglas en inglés
TSS
Total de la Suma de los Cuadrados, por
sus siglas en inglés
RSS
Suma Residual de los Cuadrados, por sus
siglas en inglés
MeOD
Metanol Deuterado
TMS
Tetrametilsilano
BBO
Broad Band Probe
xii
RESUMEN
En este proyecto, se implementaron métodos multivariados para realizar estudios
metabonómicos en muestras de café, para ello se tomaron espectros 1H-RMN de extractos
de café tostado molido. Posteriormente, en el conjunto de datos se emplearon técnicas de
preprocesamiento como binning, escalamiento y detección de outliers. Se implementaron
los métodos multivariados PCA, PLSDA, OPLSDA para discriminar especies de café
Robusta y Arábica, donde se demostró la igualdad de predicción de los métodos PLSDA y
OPLSDA. Además empleando los métodos ya mencionados se realizó la discriminación
por origen en tres departamentos de Colombia: Nariño, Cauca y Santander. Finalmente, se
determinaron las variables importantes para dichas discriminaciones y su correlación para
el
caso
de
los
departamentos
xiii
de
Colombia.
1. INTRODUCCIÓN
La metabonómica inicia a finales de 1990, cuya primera definición fue dada en 1999 por
Jeremy Nicholson y sus colegas como “Una medida cuantitativa de respuesta metabólica
dinámica multiparamétrica de los sistemas vivos ante estímulos patofisiológicos o
modificación genética”.1 Esta definición es entendida como el estudio de los metabolitos en
un sistema y sus interacciones. Dicha disciplina se encarga de cuantificar e identificar
conjuntos de metabolitos, así como hacer seguimiento de algunos de ellos.2 Dado que los
metabolitos son expresiones de procesos bioquímicos y que se cuenta con herramientas que
permiten detectarlos, ellos proveen información acerca del estado y funcionamiento de un
sistema.
En un estudio metabonómico generalmente se requiere detectar la mayor cantidad de
metabolitos por medio de una metodología altamente reproducible. Actualmente, las
técnicas analíticas como RMN3 (Resonancia Magnética Nuclear), MS4 (Espectrometría de
Masas, por sus siglas en inglés) y NIRS5 (Espectroscopia de Infrarrojo Cercano, por sus
siglas en inglés) conforman las principales plataformas utilizadas.
El espectro o cromatograma obtenido en determinadas condiciones, con las señales típicas
de la muestra o señales relevantes en el estudio, se denomina huella dactilar, en ella la
identidad de los compuestos químicos puede ser conocida o desconocida.6 El objetivo es
construir un patrón de reconocimiento específico que permita observar un cambio en las
variables cuando el objeto en estudio presenta por ejemplo modificaciones genéticas,2
diferente lugar de origen7 o exposición a un medicamento.8
Para el análisis de datos es evaluado todo el
perfil, este corresponde a un sistema
multivariable, dependiendo de la muestra algunos perfiles pueden ser asignados
visualmente a la categoría que corresponden pero al obtener una base de datos grande o
mezclas, ya no es posible. Lo anterior se puede observar en Figura 1, en A y B se muestran
las diferencias de perfiles para las especies de café Arábica y Robusta en extractos granos
de diferente presentación, para estos casos se logra observar la diferencia de patrones, lo
1
cual no se puede establecer en C, que corresponde a perfiles originarios de departamentos
de Colombia. Por esta razón es necesario implementar métodos que permitan clasificar
conjuntos similares.
Figura 1. Perfiles 1H-RMN para diferentes tipos de café. Comparación para las especies Arábica y Robusta en
grano verde (A) y tostado (B). Comparación para los departamentos de Santander y Cauca (C).
Con la finalidad de discriminar y clasificar muestras, se han desarrollado modelos
estadísticos para múltiples variables y categorías. Uno de los métodos multivariados más
utilizados en metabonómica es la PCA (Análisis de Componentes Principales, por sus
siglas en inglés). En este método a partir de la descomposición de la matriz de covarianza
se obtienen matrices de proyecciones, denominados puntuaciones (scores) los cuales se
relacionan con las observaciones y cargas (loadings) que se relacionan con las variables.
Este modelo se emplea para reducción de variables y presenta la ventaja de no ser
supervisado por lo cual se aplica para verificar la calidad de los datos.9
2
La PLS (Mínimos Cuadrados Parciales, por sus siglas en inglés), es también uno de los
métodos más empleados en metabonómica, ya que ofrece información de cómo las
variables y su categoría se encuentran correlacionadas,10 el método es aplicado para
cuantificación5 o para discriminación cuando las variables son categóricas.11
Se encuentran numerosas aplicaciones se encuentran en procesos biológicos12 y médicos13
pero también en modelos para detectar adulteraciones, ya que el control de calidad es uno
de los principales intereses en las industrias de alimentos. Se encuentran reportados
modelos para jugos de naranja detectando presencia de sucrosa y benzoato de sodio;14 en la
miel, identificando biomarcadores como ácido quinurénico en miel castaña, y para miel de
madroño α-isoforona y ácido 2,5-dihidroxifenilacético.15
La adulteración en el café radica en suplantar la especie Arábica con Robusta. Esto ocurre
debido a la diferencia de precios, ya que la especie Arábica es más costosa por sus
propiedades organolépticas.16 Adicionalmente, en Colombia el café exportado es de especie
Arábica por lo cual es necesario un método para asegurar que el café corresponde a este
tipo de especie y cumpla con ciertos criterios de calidad.
Por ello en este proyecto se emplean perfiles obtenidos por espectroscopía de 1H-RMN de
extractos de café y se implementan los métodos de PCA, PLSDA (Mínimos Cuadrados
Parciales con Análisis Discriminante, por sus siglas en ingles) y OPLSDA (Mínimos
Cuadrados Parciales Ortogonales con Análisis Discriminante, por sus siglas en inglés)
para la discriminación entre Arábica y Robusta. Además, empleando los métodos
nombrados, se realizó la discriminación por origen de los departamentos, Nariño, Cauca y
Santander.
Adicionalmente, se determinaron las variables que permiten discriminar las especies y
departamentos mencionados. Finalmente, a través de un pseudo espectro se representó la
correlación de las variables importantes para la discriminación de los departamentos de
Nariño, Cauca y Santander.
3
2. OBJETIVOS
2.1. Objetivo General
Implementar métodos multivariantes para análisis de perfiles metabonómicos obtenidos por
RMN.
2.2. Objetivos Específicos
Emplear técnicas para el preprocesamiento de grandes conjuntos de espectros de RMN con
el fin de permitir su clasificación.
Aplicar métodos estadísticos en conjuntos de espectros RMN, correspondientes a muestras
de café para atribuir a cada espectro su categoría.
Evaluar técnicas estadísticas para analizar conjuntos de espectros RMN de café
Colombiano.
4
3. MARCO TEÓRICO Y ANTECEDENTES
3.1. Metabonómica aplicada al café
Han sido numerosas las publicaciones aplicadas al café,17-18-19-20 sin embargo hasta la fecha
no se ha enfocado en la discriminación del café del mismo país o del mismo continente.
La discriminación de especies Arábica y Robusta se ha llevado a cabo en café tostado
empleando NIRS y aplicando filtros OSC (Señal de Corrección Ortogonal, por sus siglas en
inglés) para lograr una buena clasificación.16 A través de HRGC (Cromatografía de Gases
de Alta Resolución, por sus siglas en inglés) se han analizado ácidos grasos extraídos del
café con este mismo objetivo, clasificando por medio de los modelos estadísticos de clúster
y análisis discriminante, sin embargo esta técnica conlleva un mayor pretratamiento de la
muestra.21
Por otro lado, la denominación de origen en café verde se ha estudiado en IRMS (Relación
Isotópica con Espectrometría de Masas, por sus siglas en inglés) usando 45 muestras de
Suramérica, Centroamérica, África e Indonesia, el método estadístico aplicado es LDA
(Análisis Discriminante Lineal, por sus siglas en inglés) generando un error de 10.3% por
CV (Validación Cruzada, por sus siglas en inglés).22
Finalmente, se ha realizado recientemente por RMN la cuantificación de Arábica-Robusta
donde los perfiles fueron obtenidos a partir de extractos en solución acuosa y empleando
buffer, el método utilizado fue la OPLS.23 Por otro lado, la aplicación de la OPLSDA se ha
llevado a cabo para la discriminación entre Asia, América y África 24
3.2. Pretratamiento de datos
La extracción e interpretabilidad de la información son aspectos importantes en la
metabonómica, para ello se evalúan los diferentes métodos de tratar los datos y la
metodología escogida depende de la estructura del conjunto a analizar. Los métodos de
pretratamiento hacen hincapié en corregir aspectos que dificultan la interpretación.
5
El centrado, consiste en convertir los datos a fluctuaciones alrededor de cero, restando el
promedio a cada variable (Ecuación 1), por lo tanto, ajusta las diferencias entre los
metabolitos altamente concentrados y aquellos que no lo están, por medio del centrado se
observa sólo la variación relevante a lo largo del set de datos,25 lo cual se observa en la
Figura 2.
̅
∑
; ̅
Ecuación 1
Los métodos de escalado se enfocan en dividir cada variable por un factor, por lo cual se
van a observar las diferencias de concentraciones de los metabolitos respecto al factor de
escalado.
El auto-escalado (Ecuación 2) utiliza la desviación estándar como factor de escalado,
después del auto-escalado todos los metabolitos tienen desviación estándar de uno, por
tanto los datos son analizados en base a las correlaciones en lugar de las covarianzas.26
̅
;
√∑
̅
Ecuación 2
Figura 2. Comparación de espectro empleando pretratamiento de datos.
6
3.3. T2 de Hotelling
Las matrices de puntuaciones obtenidas en la PCA, PLSDA y OPLSDA generan una
distribución, por lo cual se aplica la elipse de Hotelling para un intervalo de confianza del
95%.27 Esta prueba multivariante consiste en asignar la probabilidad de que una
observación concreta es diferente de la media de la distribución del conjunto de
observaciones.28
3.4. Métodos no supervisados
3.4.1. Análisis de componentes principales
Esta técnica expresa la varianza de una serie de datos a través de los vectores propios, los
cuales son combinaciones lineales de las variables originales (Ecuación 3). El método
factoriza la matriz de variables X, en términos de puntuaciones (T), cargas (P) y una matriz
de error (E)
X= TPT + E = t1p1T + t2p2T…+ tnpnT + E
Ecuación 3
En la PCA se emplea la descomposición en valores propios de la matriz de covarianza,
dichos valores (λ) son organizados en orden decreciente con la finalidad de recobrar toda la
varianza de los datos (Ecuación 4).
λ =
Ecuación 4
(
)
La interpretación del modelo se realiza a través de las puntuaciones y cargas, las primeras
se obtienen por multiplicación del conjunto de datos originales por los dos primeros
vectores propios. En una gráfica de puntuaciones cada punto representa una observación.
7
Por otro lado, las cargas obtenidas son ortogonales e independientes y solo se toman los
primeros vectores para el análisis ya que en estos se ha recuperado toda la dispersión del
sistema. En una gráfica de cargas cada punto representa una diferente intensidad espectral,
adicionalmente la gráfica de este vector escalado permite la visualización de las variables
discriminantes (Figura 3).1
Figura 3. Ilustración del modelo PCA.
El análisis de componentes, es un método no supervisado y representa una herramienta
poderosa para observar el comportamiento de los datos, por lo cual se elige como un
análisis preliminar. Para discriminar y clasificar también se emplean métodos supervisados,
en ellos se toma un conjunto de datos para crear el modelo óptimo y otro conjunto para su
evaluación.
3.5. Métodos supervisados
3.5.1. Mínimos cuadrados parciales
Los mínimos cuadrados parciales es un método iterativo para relacionar dos matrices X e
Y, en este caso intensidades y un vector de escalares, respectivamente. El método fue
8
propuesto en 1975 por Herman Wold con su algoritmo NIPALS (Non-linear Iterative
Partial Least Squares), este corresponde a una extensión de la regresión lineal múltiple.
El modelo encuentra nuevas variables que son estimaciones de las variables latentes o sus
rotaciones10 y permite analizar datos que estén muy correlacionados, con ruido y numerosas
variables en X, según pruebas teóricas y empíricas se sugiere que la relación observacionesvariables debe ser 5 a 1 para la convergencia de los modelos.29
Por medio de la PLS, X e Y se descomponen simultáneamente en producto de otras dos
matrices: puntuaciones y cargas. Las puntuaciones son combinaciones lineales de las
variables originales con los coeficientes (weights), este último corresponde al primer vector
propio de la matriz de covarianza y permite observar la estructura de la relación X e Y.
3.5.2. Mínimos cuadrados parciales como método discriminante
Los objetivos del
análisis discriminante son encontrar funciones lineales que mejor
discriminen dos grupos y construir una regla de asignación para un objeto nuevo. A través
de la PLS se logra tal objetivo, ya que se puede entender como una extensión de LDA, este
punto lo demuestran Barker y colaboradores.30
El propósito del método es obtener funciones que maximicen la varianza entre los grupos
y minimicen la varianza dentro de los grupos
Esto se logra a través del criterio
de Fisher, con el cual se maximiza la diferencia entre estas dos varianzas (Ecuaciones 6-8).
Ecuación 6
Para dos clases, siendo ̅ , el promedio para cada clase
̅
̅
; ̅
̅
̅
Ecuación 7
Finalmente,
Ecuación 8
9
Para asignar a una observación su categoría se realiza mediante el cálculo de la distancia
de Mahalanobis, donde el resultado más cercano a los centroides de los grupos permite la
clasificación.
3.5.3. Mínimos cuadrados parciales ortogonales con análisis discriminante
La OPLS es una modificacion del algoritmo NIPALS, este método puede ser aplicado
como preprocesamiento, ya que remueve la variacion ortogonal en un set de datos. Su
aplicación integra a la PLS con la ventaja de analizar la variación ortogonal, en ella la
variacion de X es separada en dos elementos, los correlacionados a Y (bloque TpPp) y
aquellos que no estan correlacionados, ortogonales (bloque ToPo). El método al deflactar la
matriz ortogonalmente permite observar “el ruido estructural”.31
La OPLSDA ofrece una mejor visualización de los coeficientes y las cargas, al realizar el
filtro ortogonal, permite identificar las partes del espectro responsables de la variación y
correlación, las cargas también pueden ser asociadas con la varianza dentro de las clases.
Este método se convirtió en uno de los procedimientos quimiométricos más populares en
metabonómica principalmente por su desarrollo visual. Una de las herramientas que ofrece,
consiste en un pseudo espectro en escala de colores, en él los coeficientes de las OPLS se
asocian con un color para determinar la correlación de las variables discriminantes.32-33
En la Figura 4 se muestra la diferencia de algoritmos para los métodos PCA, PLS y OPLS.
Los términos P se refieren a las cargas, W a los coeficientes, T y C las puntuaciones,
mientras que E y F son matrices de error.
10
Figura 4. Algoritmos para los modelos PCA, PLS y OPLS.
3.6. Validación
3.6.1. Validación Cruzada K-FOLD
Con el propósito de evaluar el desempeño del modelo de predicción, se emplea la
validación cruzada K-fold. El procedimiento realiza una partición de los datos en el
conjunto de entrenamiento. Con un subconjunto se ajusta el modelo y con otro se prueba.
Los datos se dividen en K partes aproximadamente del mismo tamaño, si K=5 se obtiene la
11
partición ilustrada en la Figura 5. El modelo se realiza K veces y al final se combinan las
estimaciones para arrojar un error promedio. 34-26
1
2
3
4
5
Entrenamiento
Entrenamiento
Validación
Entrenamiento
Entrenamiento
Figura 5. Bloques para validación cruzada con K=5.
3.6.2. Validación cruzada- Dejando uno afuera
El método consiste en la validación cruzada K-fold para K=N, donde N es el número de
muestras. En el procedimiento un conjunto se utiliza como prueba y el resto participan en
el entrenamiento. El error es menor ya que el número de iteraciones es igual N, eso lo hace
costoso computacionalmente.
3.6.3. Parámetros indicadores de calidad
Para determinar la cantidad correcta de componentes en el modelo se pueden determinar
ciertos parámetros de calidad. Teniendo en cuenta la división del conjunto de
entrenamiento en mv= conjunto de validación y mc = conjunto de calibración, se calculan
parámetros como el MSECV (Error Cuadrático Medio de Validación Cruzada, por sus
siglas en inglés) (Ecuación 10) y MSEC (Error Cuadrático Medio de Calibración, por sus
siglas en inglés) (Ecuación 11). Los cuales se definen como:
∑
Ecuación 10
∑
Ecuación 11
12
Donde,
corresponde al valor de cada muestra y
calcula para el conjunto de validación, mientras el
a su prediccion. El
se
para la calibración.35
Por otra parte, el parámetro Q2 (Ecuación 12) representa una medida de calidad para la
predicción, está basado en la evaluación del error de la predicción y el valor conocido. Este
se define respecto al PRESS (Suma de la Predicción del Error, por sus siglas en inglés)
(Ecuación 13) y al TSS (Total de la Suma de los Cuadrados) (Ecuación 14) donde ̅ es el
promedio de los datos.
∑
∑
TSS = ∑
Ecuación 12
̅
(
)
Ecuación 13
̅
Ecuación 14
Finalmente, el R2 es una medida del ajuste del modelo en el conjunto de calibración
(Ecuación 15) y se define en términos del RSS (Suma Residual de los Cuadrados, por sus
siglas en inglés) (Ecuación 16).34
R2= 1RSS= ∑
Ecuación 15
(
)
Ecuación 16
3.6.4. Matriz de confusión
La matriz de confusión (Tabla 1) se calcula como medida de la calidad y permite analizar
más detalladamente los resultados de una clasificación. A partir de ella se permite calcular
parámetros como sensibilidad (Ecuación 17) y especificidad (Ecuación 18), el primero es
la proporción de las observaciones positivas que son clasificadas correctamente como
positivas, mientras
la segunda es la proporción de observaciones negativas que son
correctamente clasificadas como negativas. 35
13
Tabla 1. Matriz de confusión
Clase
Predicción
1
Verdadero Positivo
Falso Negativo
2
Falso Positivo
Verdadero Negativo
Ecuación 17
Ecuación 18
14
4. JUSTIFICACIÓN Y PLANTEAMIENTO DEL PROBLEMA
El café con más de 400 mil millones de tazas de consumo por año, lo hace una de las
bebidas comerciales socialmente importantes. A nivel de Colombia permite el
sostenimiento de más de 563.000 familias productoras de café. Se conocen cerca de 66
especies de café, las más económicamente importantes son Coffea arábica L. (café arábica)
y Coffea canephora P. (Café Robusta).
Las especies Arábica y Robusta se diferencian desde el punto de vista botánico, genético y
morfológico, y por consiguiente en términos de calidad, por ejemplo en el mercado la
especie Robusta se vende a un precio entre 20 a 25% más bajos que la Arábica, ya que a
nivel sensorial difieren en parámetros como olor y sabor.16-36
Con el propósito de proteger el café de Colombia, surge la creación del programa 100%
Café Colombiano,37 el cual es una alianza entre los propietarios de marcas de café de todo
el mundo y los productores de café de Colombia, la idea principal de este proyecto es
comercializar 100% café de Colombia a todos los consumidores alrededor del mundo. El
café comercializado con esta marca corresponde a especie Arábica y originario de
Colombia.38
En la búsqueda por determinar a qué especie corresponde el café, inicialmente se
diferenciaba por comparación de tamaño, color y forma de los granos, pero esta
metodología no permitía detectar contaminaciones una vez el café estaba tostado y molido,
por ello se implementó su análisis en las técnicas de NIRS,39 RAMAN40 y RMN.41-20
Actualmente Colombia no cuenta con una plataforma metabonómica para análisis de café,
la meta es construir un sistema que permita realizar estudios de discriminación,
clasificación, validación y variables importantes en el análisis. Por tanto, para aportar a la
construcción de este sistema, en este trabajo se han implementado y probado los modelos
PCA, PLSDA y OPLSDA para un conjunto pequeño de datos.
15
5. METODOLOGÍA Y PARTE EXPERIMENTAL
5.1.Protocolo de adquisición de espectros de café
5.1.1. Preparación de la muestra
Las muestras de café fueron suministradas por ALMACAFE S.A. Estas corresponden a
muestras de café Arábica Colombiano (29) y café Robusta (25), en presentación tostado
molido.
El protocolo de extracción de las muestras de café es el siguiente:
Se pesaron 0.2 g de café tostado molido y se disolvieron en 1000 µL de metanol no
deuterado, se empleó agitador vortex con máxima velocidad por 2 minutos. Posteriormente
se centrifugaron las muestras a 10k rpm por 10 minutos y 18 °C, del sobrenadante se
tomaron 450 µL y se llevaron a tubos de RMN a los cuales se les adicionó 90 µL de
MeOD (Metanol Deuterado) con TMS (Tetrametilsilano).
5.1.2. Espectroscopia RMN
Se tomaron 54 espectros en el RMN 400MHz Bruker Ultra Shield, operando a una
frecuencia de protón de 400.02 MHz con sonda directa BBO (Broad Band Probe) equipada
de 3 gradientes. Se realizó pre-saturación con la finalidad de suprimir la señal del solvente.
Para calibrar el espectrómetro se usaron estandares de referencia como MeOD para
determinar la temperatura y sucrosa en H2O/D2O para obtener la mejor resolución de las
señales. Tuning, matching, shimming y pre-saturación fueron realizados automáticamente
para cada muestra de café.
5.2.Preprocesamiento
Los espectros obtenidos son descargados desde mylims.univalle.edu.co a nuestra base de
datos, obteniendo matrices de tamaño [espectros totales x 80501]. Se eliminan las regiones
16
de TMS y solvente. Posteriormente, se lleva a cabo la reducción de variables en la matriz
de datos utilizando binning, en el análisis se tomaron 50 bins obteniendo una matriz final de
[espectros totales x1078]. El tamaño de la matriz usada en el análisis fue de [54 x 1078], la
Figura 6 ilustra los pasos llevados a cabo en el preprocesamiento.
Figura 6. Preprocesamiento de datos.
Un experimento fallido es aquel que posee problemas con la línea base o shim. Con la
finalidad de detectar estos espectros y outliers se aplica la PCA. Las puntuaciones
obtenidas se proyectan con la elipse de Hotelling para el 95% de confianza. Aquellos
espectros que no se encuentren en el área de tolerancia se sacan del análisis. En el Anexo 1
se muestra esto para 417 espectros los cuales se encontraban en la base de datos del grupo.
5.3. Metodología para el análisis de datos
Se evaluaron los métodos estadísticos PCA, PLSDA y OPLSDA usando 25 espectros de
Arábica y 25 de Robusta de presentación tostado. Los métodos multivariados mencionados
se implementaron también para 29 muestras de Colombia, 12 corresponden a Nariño, 6 a
Cauca y 11 a Santander. La elección del conjunto de entrenamiento se realizó tomando el
80% de los datos de manera aleatoria, el conjunto restante se empleó para la predicción.
El análisis fue llevado a cabo empleando el software R42 y los scripts fueron desarrollados
en el grupo de investigación. Los Anexos 2 y 3 se presentan los códigos empleados para los
métodos PCA y OPLSDA. También se hace uso de las librerías vegan, 43 caret,44
ChemoSpec,45 pls46 y MASS.47
17
6. RESULTADOS Y DISCUSIÓN
El café posee compuestos como ácidos clorogénicos, trigonelina, ácidos grasos, ácidos
orgánicos, cafeína, entre otros48-18-41-24-49-50. En la Figura 7 se observa el espectro
correspondiente a un extracto de café tostado en metanol señalando las regiones para los
compuestos principales.
Figura 7. Perfil 1H-RMN de extracto de café tostado molido en metanol
6.1.Discriminación por especie Arábica y Robusta
La implementación de los métodos PCA, PLSDA y OPLSDA para discriminación entre
Arábica y Robusta se realizó utilizando 25 espectros para cada especie. La diferencia de los
dos perfiles se observa en la Figura 8.
18
Figura 8. Comparación de perfiles de las especies Arábica y Robusta
Los espectros difieren principalmente en las regiones de los ácidos clorogénicos, ácidos
orgánicos y ácidos grasos. Los compuestos ubicados en el campo bajo del espectro como la
trigonelina no parecen diferenciar estas dos especies.
Con la finalidad de observar la calidad de los datos se usó la PCA. Las aplicaciones de los
métodos PLSDA y OPLSDA se realizaron para un conjunto de entrenamiento de 40
muestras.
Las puntuaciones de la PCA son proyectadas en base a sus vectores propios. Como se
observa en la Figura 9A estos recobraron gran parte de la variabilidad del sistema de datos,
19
el primer componente principal presenta un 34.71%, mientras el segundo el 29.37%. Según
esta proyección, los conjuntos se logran discriminar. Las puntuaciones de la especie
Robusta se ubican en el lado positivo de la gráfica, es decir que las variables de esta especie
pueden ser explicadas por un único componente.
En la Figura 9B se observa las puntuaciones de la PLSDA, debido a que en este método se
maximiza la covarianza respecto a la variable de clases (especie), permite una mejor
visualización de la discriminación de los datos. Por otra parte, las puntuaciones obtenidas
en la OPLSDA
se encuentran mejor ilustradas. Esto es consecuencia de que las
puntuaciones en este método corresponden al primer componente predictivo versus el
componente predictivo ortogonal. En el eje X se representa la variación entre los grupos,
mientras en el Y la variación dentro de los grupos. De lo anterior, se observa que el
conjunto de especie Arábica es más disperso que la Robusta y la presencia de dos outliers
que no se observaban en los métodos anteriores.
A
20
B
C
Figura 9. Puntuaciones obtenidas para la discriminación Arábica- Robusta en PCA(A), PLSDA (B) y
OPLSDA (C)
Las cargas contienen la información acerca de los parámetros estructurales de los datos y
permite identificar las variables más importantes para la discriminación. El escalamiento de
datos permite visualizar las correlaciones de estas variables. La Figura 10A ilustra las
cargas obtenidas por los tres métodos.
21
A
8
8
7
7
6
6
5
4
5
4
3
3
2
2
1
1
B
Figura 10. Comparaciones de las cargas (A) y coeficientes (B) para la discriminación Arábica-Robusta
22
La interpretación de las puntaciones, se realiza por medio de las cargas. Las cargas de la
PCA que se encuentran negativas, son las relacionadas con la especie Arábica. Las regiones
señaladas 1, 2, 4 y 5 permiten la discriminación de esta especie. Mientras que las regiones
3, 6, 7 y 8 corresponden a variables mixtas ya que aportan en la discriminación de ambas
clases. Finalmente las variables positivas aportan para la discriminación de la especie
Robusta. El signo del vector no es relevante, ya que el método proyecta una clase positiva y
otra negativa para discriminar.
Las cargas obtenidas por PLSDA muestran un comportamiento similar a la PCA. Una de
las diferencias consiste en la disminución de variables mixtas en la distribución 3.
Finalmente, en las cargas de la OPLSDA se observan que en su mayoría las variables están
correlacionadas negativamente, solo algunas discriminan positivamente. Esto es debido al
filtro ortogonal que se efectúa. Para estos dos últimos métodos, al igual que en la PCA, las
variables negativas se relacionan con la especie Arábica, mientras las positivas a la especie
Robusta. Las señales que discriminan la especie Robusta son pocas, se observa en común
por los tres métodos, que los compuestos con señales entre 0-1, 2 y 8-10 ppm son las que
más discriminan.
En la Figura 10B se muestra la diferencia entre los coeficientes obtenidos por los dos
métodos. Por medio de estos vectores se observa la relación estructural de los datos en
términos de correspondencia de X e Y. A través de la superposición de los vectores se
observa que el coeficiente de la OPLSDA es mayor en magnitud. La diferencia de ellos
radica en que el coeficiente de la PLSDA contiene ambos bloques (lo correlacionado y lo
no correlacionado), el cual se separa en la OPLSDA. Esta partición de bloques produce
cambios en signos de las variables tal como se muestra en la flecha. Como se observa tres
señales principales son responsables de la estructura del modelo.
6.1.1. Validación de los modelos para discriminación de especie
Para verificar el modelo se tomó un conjunto de 10 espectros, que estaba conformado por 6
muestras de Arábica y 4 de Robusta. Las muestras se lograron clasificar correctamente a su
23
categoría
por PLSDA y OPLSDA. Por tanto, se obtuvo 1 en especificidad y 1 en
sensibilidad en ambos métodos. Por otro lado, la validación de los modelos, se realizó para
12 componentes. Como se observa en la Tabla 2 los valores reportados para la validación
de los modelos PLSDA y OPLSDA fueron los mismos. Los valores de R2 y Q2 demuestran
un buen ajuste y predicción para los modelos.
Tabla 2. Validación de los modelos para discriminación Arábica- Robusta
Método
PLSDA
OPLSDA
R2
0.968
0.968
2
0.962
0.962
MSEC
0.097
0.097
MSECV
0.108
0.108
Q
6.2. Clasificación de café colombiano
En esta sección se presenta la discriminación para tres clases: Cauca, Nariño y Santander.
La diferencia de los perfiles para estos tres departamentos se ilustra en la Figura 11, donde
se observa que la señal de la cafeína (cuadro A) es la misma para las tres. Mientras que las
regiones C, E y F muestran mayor discrepancia.
24
Figura 11. Comparación de perfiles de Nariño, Santander y Cauca
El conjunto de datos para este análisis corresponde a 29 espectros de café tostado. Para los
métodos PLSDA y OPLSDA se emplearon 20 muestras para el entrenamiento y 9 para
el test.
En la Figura 12A se muestra las puntuaciones de la PCA, en ella se observa que los
departamentos de Santander y Nariño tienen una relación estructural similar, lo que
conlleva a un solapamiento de las elipses de distribución, con lo cual se llegaría a una
posible mal clasificación. En la región de Cauca todas observaciones se encuentran más
centradas en la región de confianza, mientras en la región de Nariño se encuentran más
dispersos. Los componentes de la PCA logran recobrar 47.8 y 15.3% de la variación de los
datos.
Las puntuaciones obtenidas para la PLSDA ilustradas en la Figura 12B, muestra la
superposición de las elipses, esto posiblemente se debe a la dificultad para clasificar más de
dos categorías, adicionalmente en el conjunto de entrenamiento se presenta un desbalance
25
ya que se encuentran menos muestras de Cauca. Las puntuaciones de la OPLSDA, Figura
12C muestran mejor la discriminación de las tres clases, como se dijo anteriormente la
OPLSDA ofrece un mejor análisis visual, más su predicción es la misma que la PLSDA.
A
B
26
C
Figura 12. Puntuaciones obtenidas para discriminación por tres departamentos de Colombia en PCA (A),
PLSDA (B) y OPLSDA (C)
En la Figura 13A se observa la comparación para las tres cargas obtenidas por los métodos.
En este caso se presenta la dificultad de atribuir las variables importantes a cada
departamento. Los departamentos de Nariño y Santander presentan puntuaciones positivas,
por lo tanto para esta discriminación se encuentran aportando la mayoría de las variables
que se encuentran situadas al lado positivo del vector. Las variables que se encuentran
enumeradas se podrían sugerir que se encuentran discriminando las regiones de Cauca y al
mismo tiempo Nariño.
En las cargas de la PLSDA se puede observar un poco la diferencia de distribuciones para
las variables que discriminan Nariño y Santander aportando más las regiones de 0-2 y 5-9
ppm. Las variables positivas aportarían a la discriminación de Cauca y Nariño. Finalmente,
las cargas de la OPLSDA son muy parecidas a las del método anterior, excepto que no se
encuentran aportando a la discriminación de Cauca y Nariño las variables 4,5,7, 9, 10 y 12
de la PLSDA.
En la Figura 13B se muestra la superposición de los coeficientes de la PLSDA y OPLSDA.
La relación ente los perfiles y departamentos se relacionan principalmente con cuatro
27
señales. La de mayor magnitud se observa para 2 ppm. El cambio de signo y aparición de
las señales con flechas se debe al filtro realizado en la OPLSDA.
A
12 11
14
11
10
12 11
13
10
9
8
7
7
10 9 8
6
5
4
5
6
7
8
9
6
4
28
5
4
3
1
2
2
3
3
2
1
1
B
Figura 13. Comparaciones de las cargas (A) y los coeficientes (B) para discriminación por tres departamentos
de Colombia.
6.2.1. Validación de los modelos para discriminación en departamentos de Colombia
Para comprobar la predicción de los modelos se emplearon 3 muestras de Cauca, 3 de
Nariño y 3 de Santander. En la Tabla 3 se muestran los resultados de la predicción, una
muestra mal clasificada corresponde a Nariño, como se observaba en las gráficas de las
puntuaciones de los métodos estas regiones se encuentran muy cercanas y por ello se
producen estos errores.
Tabla 3. Resultados test de predicción departamentos de Colombia por PLSDA y OPLSDA
Predicción
Cauca
Nariño
Santander
Cauca
3
0
0
Nariño
0
3
1
Santander
0
0
2
29
Para la validación de los modelos se realizó con 12 componentes. Los valores reportados en
la Tabla 4 son similares para los dos métodos, pero en el valor de Q2 resultó más bajo para
la OPLSDA. La manera de obtener un valor óptimo de Q2 y de los otros parámetros para
que se exprese la verdadera calidad del modelo, es realizar varias iteraciones, donde las
muestras también sean aleatorias. Debido a la muestra mal clasificada, la sensibilidad para
muestras de Nariño disminuyo su porcentaje, al igual que especificidad para las muestras de
Santander, como se aprecia en la Tabla 5.
Tabla 4. Validación de los modelos para discriminación Nariño, Cauca y Santander
Método
PLSDA
OPLSDA
R2
0.895
0.895
Q2
0.918
0.778
MSEC
0.194
0.084
MSECV
0.267
0.246
Tabla 5. Matriz de confusión obtenida por PLSDA y OPLDA
Cauca
Nariño
Santander
Especificidad
1
1
0.666
Sensibilidad
1
0.833
1
6.2.2. Variables discriminantes en el café colombiano
Para determinar la correlación de las variables en la discriminación, es decir los metabolitos
que aportan más que otros, se tomaron 5 espectros de Santander y 5 de Nariño, se calculó
la matriz de correlación como se observa en la Figura 14A, según el color verde se muestra
que las variables se encuentran levemente correlacionadas entre ellas, principalmente la
región correspondiente a ácidos grasos entre 800-1000, campo alto del espectro. Sin
embargo este análisis solo nos muestra la correlación entre ellas más no para la
30
discriminación, por eso se realizó el pseudo espectro de la correlación presentado en la
Figura 14B.
Empleando los coeficientes escalados de la OPLSDA, los cuales proporcionan información
de cómo se encuentran relacionados X e Y, se toma este vector para colorear el vector
propio ortogonal de la OPLSDA, es por esto que el método va de ser un análisis
multivariado a univariado. En este pseudo espectro se observa que todas las variables se
encuentran levemente correlacionadas en la discriminación.
De nuevo, la región de los
ácidos grasos aportan más en la discriminación por departamentos, mientras las variables a
campo bajo son poco discriminantes.
A
31
B
Figura 14.Matriz de correlación (A) y pseudo espectro de correlación (B) para discriminación de café en
departamentos de Colombia
32
7. CONCLUSIONES
En este trabajo se presentaron las implementaciones de los métodos PCA, PLSDA, y
OPLSDA para discriminar las especies Arábica y Robusta en café tostado. Los métodos
clasificaron correctamente las dos especies evaluadas. Adicionalmente se demostró que
estos modelos poseen el mismo poder de predicción.
La clasificación por tres categorías para datos altamente correlacionados como los
departamentos de Colombia, se llevó a cabo por los métodos de PLSDA y OPLSDA. En
este grupo los porcentajes de sensibilidad y especificidad fueron menores de la unidad, así
como disminuyo el parámetro Q2 en la OPLSDA. Para realmente obtener un modelo
óptimo se sugiere realizar varias iteraciones, empleando muestras aleatorias en
la
construcción del modelo y al final realizar un promedio del error.
Se realizaron análisis de correlaciones para los perfiles de los departamentos de Colombia.
Esto se realizó calculando la matriz de correlación y a través de los coeficientes de la
OPLSDA. La región de los ácidos grasos aporta más en la discriminación.
Las regiones asignadas a ácidos grasos y orgánicos son aquellas que más aportan en las
discriminaciones realizadas. Se espera realizar la asignación de los perfiles para establecer
las moléculas responsables de las variaciones.
33
8. REFERENCIAS
(1)
Lindon, J. C.; Nicholson, J. K.; Holmes, E. The handbook of metabonomics and
metabolomics; Elsevier: Amsterdam; Oxford, 2007.
(2)
Coen, M.; Holmes, E.; Lindon, J. C.; Nicholson, J. K. Chem Res Toxicol 2008, 21,
9–27.
(3)
Worley, B.; Powers, R. Current Metabolomics 2013, 1, 91–106.
(4)
Bruce, S. J.; Jonsson, P.; Antti, H.; Cloarec, O.; Trygg, J.; Marklund, S. L.; Moritz,
T. Anal. Biochem. 2008, 372, 237–249.
(5)
Ribeiro, J. S.; Ferreira, M. M. C.; Salva, T. J. G. Talanta 2011, 83, 1352–1358.
(6)
Defernez, M.; Colquhoun, I. J. Phytochemistry 2003, 62, 1009–1017.
(7)
Choi, M.-Y.; Choi, W.; Park, J. H.; Lim, J.; Kwon, S. W. Food Chem. 2010, 121,
1260–1268.
(8)
Cloarec, O.; Dumas, M.-E.; Craig, A.; Barton, R. H.; Trygg, J.; Hudson, J.; Blancher,
C.; Gauguier, D.; Lindon, J. C.; Holmes, E.; Nicholson, J. Anal. Chem. 2005, 77,
1282–1289.
(9)
Trygg, J.; Holmes, E.; Lundstedt, T. J. Proteome Res. 2007, 6, 469–479.
(10) Wold, S.; Sjöström, M.; Eriksson, L. J. Chemometr intell Lab. Sys. 2001, 58, 109–
130.
(11) Fonville, J. M.; Richards, S. E.; Barton, R. H.; Boulange, C. L.; Ebbels, T. M. D.;
Nicholson, J. K.; Holmes, E.; Dumas, M.-E. J. Chemometr. 2010, 24, 636–649.
(12) Richards, S. E.; Dumas, M.-E.; Fonville, J. M.; Ebbels, T. M. D.; Holmes, E.;
Nicholson, J. K. J. Chemometr intell Lab. Sys. 2010, 104, 121–131.
(13) Lindon, J. C.; Nicholson, J. K.; Holmes, E.; Everett, J. R. Concept Magnetic Res
2000, 12, 289–320.
(14) Vogels, J. T. W. E.; Terwel, L.; Tas, A. C.; van den Berg, F.; Dukel, F.; van der
Greef, J. J. Agric. Food Chem. 1996, 44, 175–180.
(15) Donarski, J. A.; Jones, S. A.; Harrison, M.; Driffield, M.; Charlton, A. J. Food Chem.
2010, 118, 987–994.
34
(16) Esteban-D ez, I.
onzález-Sáiz, J. M.; Pizarro, C. Anal. Chim. Acta. 2004, 514, 57–
67.
(17) Lindinger, C.; Labbe, D.; Pollien, P.; Rytz, A.; Juillerat, M. A.; Yeretzian, C.; Blank,
I. Anal. Chem. 2008, 80, 1574–1581.
(18) D’Amelio, N. Fontanive, L. Uggeri, F. Suggi-Liverani, F.; Navarini, L. Food
Biophys. 2009, 4, 321–330.
(19) Hofmann, T.; Schieberle, P. J. Agric. Food Chem. 2002, 50, 319–326.
(20) Anderson, K. A.; Smith, B. W. J. Agric. Food Chem. 2002, 50, 2068–2075.
(21) Rui Alves, M.; Casal, S.; Oliveira, M. B. P. P.; Ferreira, M. A. J Am Oil Chem Soc
2003, 80, 511–517.
(22) Weckerle, B.; Richling, E.; Heinrich, S.; Schreier, P. Anal. Bioanal. Chem. 2002,
374, 886–890.
(23) Cagliani, L. R.; Pellegrino, G.; Giugno, G.; Consonni, R. Talanta 2013, 106, 169–
173.
(24) Consonni, R.; Cagliani, L. R.; Cogliati, C. Talanta 2012, 88, 420–426.
(25) Van den Berg, R. A.; Hoefsloot, H. C.; Westerhuis, J. A.; Smilde, A. K.; van der
Werf, M. J. BMC genomics 2006, 7, 142.
(26) Miller, J. N. Statistics and chemometrics for analytical chemistry; 5th ed.;
Pearson/Prentice Hall: Harlow, England  New York, 2005.
(27) Worley, B.; Halouska, S.; Powers, R. Anal. Biochem. 2013, 433, 102–104.
(28) Hotelling, H. Ann. Math. Stat 1931, 2, 360–378.
(29) Nikulin, A. E.; Dolenko, B.; Bezabeh, T.; Somorjai, R. L. NMR Biomed 1998, 11,
209–216.
(30) Barker, M.; Rayens, W. J. Chemometr. 2003, 17, 166–173.
(31) Trygg, J.; Wold, S. Journal of Chemometrics 2002, 16, 119–128.
(32) Bylesjö, M.; Rantalainen, M.; Cloarec, O.; Nicholson, J. K.; Holmes, E.; Trygg, J. J.
Chemometr. 2006, 20, 341–351.
(33) Tapp, H. S.; Kemsley, E. K. TrAC Trends in Analytical Chemistry 2009, 28, 1322–
1327.
35
(34) Hastie, T. The elements of statistical learning: data mining, inference, and
prediction; Springer series in statistics; 2nd ed.; Springer: New York, NY, 2009.
(35) Westerhuis, J. A.; Hoefsloot, H. C. J.; Smit, S.; Vis, D. J.; Smilde, A. K.; Velzen, E.
J. J.; Duijnhoven, J. P. M.; Dorsten, F. A. Metabolomics 2008, 4, 81–89.
(36) Mart n, M. Pablos, F.
onzales, A. . Talanta 1998, 46, 1259–1264.
(37) Café de Colombia
http://www.cafedecolombia.com/particulares/en/el_cafe_de_colombia/marcas_100/.
(38) Café de Colombia
http://www.cafedecolombia.com/particulares/en/sobre_el_cafe/el_cafe/clasificacione
s_de_calidad/].
(39) Café de Colombia http://www.cafedecolombia.com/bb-fnces/index.php/comments/almacafe_eslabon_clave_para_asegurar_la_calidad_y_verifi
car_el_origen_del_c/.
(40) Keidel, A.; von Stetten, D.; Rodrigues, C. Máguas, C. Hildebrandt, P. J. Agric.
Food Chem. 2010, 58, 11187–11192.
(41) Wei, F.; Furihata, K.; Koda, M.; Hu, F.; Kato, R.; Miyakawa, T.; Tanokura, M. J.
Agric. Food Chem. 2012, 60, 10118–10125.
(42) R Core Team (2012) R: A language and environment for statistical computing. R
Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL
http://www.R-project.org/.
(43) Oksanen,, J. Blanchet, F. . Roeland Kindt Legendre, P. Minchin, P. R. O’Hara,
R. B.; Simpson, G. L.; M., P. S.; Stevens, H. H.; Wagner, H. vegan: Community
Ecology Package. R package version 2.0-7. http://CRAN.Rproject.org/package=vegan 2013.
(44) Kuhn., M.; Contributions from Jed Wing,; Weston, S.; Williams, A.; Keefer, C.;
Engelhardt, A.; Cooper, T. caret: Classification and Regression Training. R package
version 5.15-61. http://CRAN.R-project.org/package=caret 2013.
(45) Hanson, B. A. ChemoSpec: Exploratory Chemometrics for Spectroscopy. R
package version 1.51-2,
academic.depauw.edu/~hanson/ChemoSpec/ChemoSpec.html 2012.
36
(46) Mevik, B.-H.; Wehrens, R.; Liland, K. H. pls: Partial Least Squares and Principal
Component regression. R package version 2.3-0. http://CRAN.Rproject.org/package=pls 2011.
(47) Venables, W. N. Modern applied statistics with S; Statistics and computing; 4th ed.;
Springer: New York, 2002.
(48) Wei, F.; Furihata, K.; Hu, F.; Miyakawa, T.; Tanokura, M. J. Agric. Food Chem.
2011, 59, 9065–9073.
(49) Stadler, R. H.; Varga, N.; Milo, C.; Schilter, B.; Vera, F. A.; Welti, D. H. J. Agric.
Food Chem. 2002, 50, 1200–1206.
(50) Del Campo, G.; Berregi, I.; Caracena, R.; Zuriarrain, J. Talanta 2010, 81, 367–371.
37
9. ANEXOS
Anexo 1. PCA para todo el conjunto de datos
Anexo 2. Código empleado para la PCA
Dada una matriz M en este caso 5x5
1-Se determina el promedio
cmean<-colMeans(M)
2- A cada columna se le resta el valor anterior
c1<-(M[,1]-cmean[1])
c2<-(M[,2]-cmean[2])
c3<-(M[,3]-cmean[3])
38
c4<-(M[,4]-cmean[4])
c5<-(M[,5]-cmean[5])
3-Se calcula la matriz de covarianza
Mdif<-cbind(c1,c2,c3,c4,c5))
cov<-cov(Mdif)
4- Se calcula los valores y vectores propios
TransfValues<-eigen(cov)$values
TransfData<-eigen(cov)$vectors
5- Se calcula la varianza de los vectores
K= length(TransfValues)
Crit<-TransfValues[1:K]/sum(TransfValues)
pc1var<-100*Crit[1]
pc2var<-100*Crit[2]
6- Se escalan los datos
C1<-c1/sd(c1)
C2<-c2/sd(c2)
C3<-c3/sd(c3)
C4<-c4/sd(c4)
C5<-c5/sd(c5)
Z<-cbind(C1,C2,C3,C4,C5))
W <- cbind(TransfData[,1],TransfData[,2])
39
7- Se proyectan los datos
Y <-t(W)%*%Z
Scores<-Y
Loadings<-W
Anexo 3.Código empleado para la OPLSDA
X<-m
Y<-as.numeric(class)
nf = dim(m)[2]
T = c()
P = c()
C = c()
W = c()
Tortho = c()
Portho = c()
Wortho = c()
Cortho = c()
for (j in 1:nf) {
1-Se hallan los weights
w = (t(X) %*% Y) %*% solve(t(Y) %*% Y)
w1 = t(w) %*% w
40
w2 = abs(sqrt(w1))
w = w %*% solve(w2)
2-Loadings respecto a X
t = (X %*% w) %*% solve(t(w) %*% w)
t1 = t(t) %*% t
c = t(Y) %*% t %*% solve(t1)
c1 = t(c) %*% c
3-Loadings respecto a Y
u = Y %*% c %*% solve(c1)
u1 = t(u) %*% u
u2 = abs(sqrt(u1))
p = (t(X) %*% t) %*% solve(t1)
5-Filtro ortogonal
wortho = p – w
6- Calculo weights ortogonales
wortho1 = t(wortho) %*% wortho
wortho2 = abs(sqrt(abs(wortho1)))
wortho = wortho %*% solve(wortho2)
7-Score predictivo
tortho = X %*% wortho %*% solve(t(wortho) %*% wortho)
41
tortho1 = t(tortho) %*% tortho
8- Loading ortogonal
portho = t(X) %*% tortho %*% solve(tortho1)
cortho = t(Y) %*% tortho %*% solve(tortho1)
X = X - tortho %*% t(portho)
T = matrix(c(T, t))
P = matrix(c(P, p))
C = matrix(c(C, c))
W = matrix(c(W, w))
Tortho = matrix(c(Tortho, tortho))
Portho = matrix(c(Portho, portho))
Wortho = matrix(c(Wortho, wortho))
Cortho = matrix(c(Cortho, cortho))
}
T = matrix(T, ncol = nf)
T = scale(T, scale = FALSE, center = TRUE)
P = matrix(P, ncol = nf)
C = matrix(C, ncol = nf)
W = matrix(W, ncol = nf)
Tortho = matrix(Tortho, ncol = nf)
42
Portho = matrix(Portho, ncol = nf)
Cortho = matrix(Cortho, ncol = nf)
Wortho = matrix(Wortho, ncol = nf)
Xortho = Tortho %*% t(Portho)
max.pc1 = 1.3 * (max(abs(T[, nf])))
max.pc2 = 1.3 * (max(abs(Tortho[, nf])))
lim = c()
if (max.pc1 > max.pc2) {
lim = c(-max.pc1, max.pc1)
}
plot(T[, nf], Tortho[, 1], pch = 19)
43
Descargar