IMPLEMENTACIÓN DE ANÁLISIS MULTIVARIADO EN RESONANCIA MAGNÉTICA NUCLEAR PARA ESTUDIOS METABONÓMICOS JESSICA MEDINA UNIVERSIDAD DEL VALLE FACULTAD DE CIENCIAS NATURALES Y EXACTAS DEPARTAMENTO DE QUÍMICA PROGRAMA DE QUÍMICA Santiago de Cali, Junio de 2013 i IMPLEMENTACIÓN DE ANÁLISIS MULTIVARIADO EN RESONANCIA MAGNÉTICA NUCLEAR PARA ESTUDIOS METABONÓMICOS JESSICA MEDINA Proyecto de Trabajo de Grado presentado como requisito para optar al título de Química Director Julien Wist, Ph.D. Codirectora Victoria Andrea Arana Rengifo, M.Sc. UNIVERSIDAD DEL VALLE FACULTAD DE CIENCIAS NATURALES Y EXACTAS DEPARTAMENTO DE QUIMICA PROGRAMA DE QUÍMICA Santiago de Cali, Junio de 2013 ii UNIVERSIDAD DEL VALLE FACULTAD DE CIENCIAS NATURALES Y EXACTAS DEPARTAMENTO DE QUIMICA PROGRAMA DE QUÍMICA Jessica Medina IMPLEMENTACIÓN DE ANÁLISIS MULTIVARIADO EN RESONANCIA MAGNÉTICA NUCLEAR PARA ESTUDIOS METABONÓMICOS Palabras clave: Café, Metabonómica, Discriminación, Clasificación, Componentes Principales, Mínimos Cuadrados Parciales. iii A mi Madre y mi Padrino, gracias a ustedes por creer en mis sueños. iv AGRADECIMIENTOS Esto ha sido posible gracias al apoyo de las personas que han creído en mí y que me han dado la fortaleza para seguir adelante. Mi padrino Gesan Medina, quien decidió apoyar mis sueños y lo ha hecho con todo su corazón le agradezco infinitamente por depositar su confianza en mí y porque gracias a personas como él me siento en deuda con la vida. A mi mamá Nancy Medina, gracias a todo su esfuerzo y sus enseñanzas me han convertido hoy en una persona fuerte, muchas gracias por cuidar siempre de mí. Mi primo John Medina, por estar siempre atento y creer en mí. A Ana Victoria Charria gracias por todo su apoyo y a mi primito Emmanuel Medina quien espero algún día lea esto le sirva como impulso para hacer cosas grandes. A ustedes, mi familia les agradezco por estar siempre ahí y ayudarme a convertirme en lo que ahora soy, gracias a Dios por ponerlos a ustedes a mi lado. A mi director Julien Wist, gracias por apoyarme, por la confianza que ha depositado y por exigirme cada día más, gracias a eso he ido encontrando mi camino. Gracias por permitirme participar en este proyecto, por sus enseñanzas, por su tiempo y paciencia para cada explicación. A mis compañeras de DARMN, Victoria Arana por todo su apoyo para llevar a cabo este proyecto, por formar un gran equipo de trabajo, y a Karina Vélez por su compañía y apoyo, gracias a las dos por abrirme las puertas y convertirse en mis amigas, por las risas y las experiencias compartidas. A mis amigas, Nathaly Ortiz y Alejandra Fernández con quienes crecí durante esta etapa gracias por brindarme su amistad incondicional, y por todos los momentos que hemos pasado. A mis compañeros, Ivonne, Jazmín, Olga, Carlos, Jackson y Sara por hacer este camino tan agradable en su compañía. Doy gracias a Dios y a la vida, por rodearme de personas tan valiosas por las cuales vale la pena seguir luchando y soñando. v TABLA DE CONTENIDO RESUMEN xiii 1. INTRODUCCIÓN 1 2. OBJETIVOS 4 3. 2.1. Objetivo General 4 2.2. Objetivos Específicos 4 MARCO TEÓRICO Y ANTECEDENTES 5 3.1. Metabonómica aplicada al café 5 3.2. Pretratamiento de datos 5 3.3. T2 de Hotelling 7 3.4. Métodos no supervisados 7 3.4.1. Análisis de componentes principales 3.5. Métodos supervisados 7 8 3.5.1. Mínimos cuadrados parciales 8 3.5.2. Mínimos cuadrados parciales como método discriminante 9 3.5.3. Mínimos cuadrados parciales ortogonales con análisis discriminante 3.6. Validación 10 11 3.6.1. Validación Cruzada K-FOLD 11 3.6.2. Validación cruzada- Dejando uno afuera 12 3.6.3. Parámetros indicadores de calidad 12 3.6.4. Matriz de confusión 13 4. JUSTIFICACIÓN Y PLANTEAMIENTO DEL PROBLEMA 15 5. METODOLOGÍA Y PARTE EXPERIMENTAL 16 vi 5.1. 6. Protocolo de adquisición de espectros de café 16 5.1.1. Preparación de la muestra 16 5.1.2. Espectroscopia RMN 16 5.2. Preprocesamiento 16 5.3. Metodología para el análisis de datos 17 RESULTADOS Y DISCUSIÓN 6.1. 18 Discriminación por especie Arábica y Robusta 6.1.1. Validación de los modelos para discriminación de especie 6.2. Clasificación de café colombiano 18 23 24 6.2.1. Validación de los modelos para discriminación en departamentos de Colombia 29 6.2.2. Variables discriminantes en el café colombiano 30 7. CONCLUSIONES 33 8. REFERENCIAS 34 9. ANEXOS 38 Anexo 1. PCA para todo el conjunto de datos 38 Anexo 2. Código empleado para la PCA 38 Anexo 3.Código empleado para la OPLSDA 40 vii LISTA DE FIGURAS Figura 1. Perfiles 1H-RMN para diferentes tipos de café. Comparación para las especies Arábica y Robusta en grano verde (A) y tostado (B). Comparación para los departamentos de Santander y Cauca (C). 2 Figura 2. Comparación de espectro empleando pretratamiento de datos 6 Figura 3. Ilustración del modelo PCA 8 Figura 4. Algoritmos para los modelos PCA, PLS y OPLS 11 Figura 5. Bloques para validación cruzada con K=5 12 Figura 6. Preprocesamiento de datos. 17 Figura 7. Perfil 1H-RMN de extracto de café tostado molido en metanol 18 Figura 8. Comparación de perfiles de las especies Arábica y Robusta 19 Figura 9. Puntuaciones obtenidas para la discriminación Arábica- Robusta en PCA(A), PLSDA (B) y OPLSDA (C) 21 Figura 10. Comparaciones de las cargas (A) y coeficientes (B) para la discriminación Arábica-Robusta 22 Figura 11. Comparación de perfiles de Nariño, Santander y Cauca 25 Figura 12. Puntuaciones obtenidas para discriminación por tres departamentos de Colombia en PCA (A), PLSDA (B) y OPLSDA (C) 27 Figura 13. Comparaciones de las cargas (A) y los coeficientes (B) para discriminación por tres departamentos de Colombia. 29 Figura 14.Matriz de correlación (A) y pseudo espectro de correlación (B) para discriminación de café en departamentos de Colombia viii 32 LISTA DE TABLAS Tabla 1. Matriz de confusión 14 Tabla 2. Validación de los modelos para discriminación Arábica- Robusta 24 Tabla 3. Resultados test de predicción departamentos de Colombia por PLSDA y OPLSDA 29 Tabla 4. Validación de los modelos para discriminación Nariño, Cauca y Santander 30 Tabla 5. Matriz de confusión obtenida por PLSDA y OPLDA 30 ix LISTA DE ANEXOS Anexo 1. PCA para todo el conjunto de datos 38 Anexo 2. Código empleado para la PCA 38 Anexo 3.Código empleado para la OPLSDA 40 x LISTA DE SÍMBOLOS, ABREVIATURAS Y /O ACRÓNIMOS RMN Resonancia Magnética Nuclear MS Espectrometría de Masas, por sus siglas en inglés NIRS Espectroscopía de Infrarrojo Cercano, por sus siglas en inglés PCA Análisis de Componentes Principales, por sus siglas en inglés PLS Mínimos Cuadrados Parciales, por sus siglas en inglés PLSDA Mínimos Cuadrados Parciales con Análisis Discriminante, por sus siglas en inglés OPLSDA Mínimos Cuadrados Parciales Ortogonales con Análisis Discriminante, por sus siglas en inglés OSC Señal de Corrección Ortogonal, por sus siglas en inglés HRGC Cromatografía de Gases de Alta Resolución, por sus siglas en inglés IRMS Relación Isotópica con Espectrometría de Masas, por sus siglas en inglés LDA Análisis Discriminante Lineal, por sus siglas en inglés CV Validación Cruzada, por sus siglas en inglés NIPALS Non-Linear Iterative Partial Least Squares MSECV Error Cuadrático Medio de Validación xi Cruzada, por sus siglas en inglés MSEC Error Cuadrático Medio de Calibración, por sus siglas en inglés PRESS Suma de la Predicción del Error, por sus siglas en inglés TSS Total de la Suma de los Cuadrados, por sus siglas en inglés RSS Suma Residual de los Cuadrados, por sus siglas en inglés MeOD Metanol Deuterado TMS Tetrametilsilano BBO Broad Band Probe xii RESUMEN En este proyecto, se implementaron métodos multivariados para realizar estudios metabonómicos en muestras de café, para ello se tomaron espectros 1H-RMN de extractos de café tostado molido. Posteriormente, en el conjunto de datos se emplearon técnicas de preprocesamiento como binning, escalamiento y detección de outliers. Se implementaron los métodos multivariados PCA, PLSDA, OPLSDA para discriminar especies de café Robusta y Arábica, donde se demostró la igualdad de predicción de los métodos PLSDA y OPLSDA. Además empleando los métodos ya mencionados se realizó la discriminación por origen en tres departamentos de Colombia: Nariño, Cauca y Santander. Finalmente, se determinaron las variables importantes para dichas discriminaciones y su correlación para el caso de los departamentos xiii de Colombia. 1. INTRODUCCIÓN La metabonómica inicia a finales de 1990, cuya primera definición fue dada en 1999 por Jeremy Nicholson y sus colegas como “Una medida cuantitativa de respuesta metabólica dinámica multiparamétrica de los sistemas vivos ante estímulos patofisiológicos o modificación genética”.1 Esta definición es entendida como el estudio de los metabolitos en un sistema y sus interacciones. Dicha disciplina se encarga de cuantificar e identificar conjuntos de metabolitos, así como hacer seguimiento de algunos de ellos.2 Dado que los metabolitos son expresiones de procesos bioquímicos y que se cuenta con herramientas que permiten detectarlos, ellos proveen información acerca del estado y funcionamiento de un sistema. En un estudio metabonómico generalmente se requiere detectar la mayor cantidad de metabolitos por medio de una metodología altamente reproducible. Actualmente, las técnicas analíticas como RMN3 (Resonancia Magnética Nuclear), MS4 (Espectrometría de Masas, por sus siglas en inglés) y NIRS5 (Espectroscopia de Infrarrojo Cercano, por sus siglas en inglés) conforman las principales plataformas utilizadas. El espectro o cromatograma obtenido en determinadas condiciones, con las señales típicas de la muestra o señales relevantes en el estudio, se denomina huella dactilar, en ella la identidad de los compuestos químicos puede ser conocida o desconocida.6 El objetivo es construir un patrón de reconocimiento específico que permita observar un cambio en las variables cuando el objeto en estudio presenta por ejemplo modificaciones genéticas,2 diferente lugar de origen7 o exposición a un medicamento.8 Para el análisis de datos es evaluado todo el perfil, este corresponde a un sistema multivariable, dependiendo de la muestra algunos perfiles pueden ser asignados visualmente a la categoría que corresponden pero al obtener una base de datos grande o mezclas, ya no es posible. Lo anterior se puede observar en Figura 1, en A y B se muestran las diferencias de perfiles para las especies de café Arábica y Robusta en extractos granos de diferente presentación, para estos casos se logra observar la diferencia de patrones, lo 1 cual no se puede establecer en C, que corresponde a perfiles originarios de departamentos de Colombia. Por esta razón es necesario implementar métodos que permitan clasificar conjuntos similares. Figura 1. Perfiles 1H-RMN para diferentes tipos de café. Comparación para las especies Arábica y Robusta en grano verde (A) y tostado (B). Comparación para los departamentos de Santander y Cauca (C). Con la finalidad de discriminar y clasificar muestras, se han desarrollado modelos estadísticos para múltiples variables y categorías. Uno de los métodos multivariados más utilizados en metabonómica es la PCA (Análisis de Componentes Principales, por sus siglas en inglés). En este método a partir de la descomposición de la matriz de covarianza se obtienen matrices de proyecciones, denominados puntuaciones (scores) los cuales se relacionan con las observaciones y cargas (loadings) que se relacionan con las variables. Este modelo se emplea para reducción de variables y presenta la ventaja de no ser supervisado por lo cual se aplica para verificar la calidad de los datos.9 2 La PLS (Mínimos Cuadrados Parciales, por sus siglas en inglés), es también uno de los métodos más empleados en metabonómica, ya que ofrece información de cómo las variables y su categoría se encuentran correlacionadas,10 el método es aplicado para cuantificación5 o para discriminación cuando las variables son categóricas.11 Se encuentran numerosas aplicaciones se encuentran en procesos biológicos12 y médicos13 pero también en modelos para detectar adulteraciones, ya que el control de calidad es uno de los principales intereses en las industrias de alimentos. Se encuentran reportados modelos para jugos de naranja detectando presencia de sucrosa y benzoato de sodio;14 en la miel, identificando biomarcadores como ácido quinurénico en miel castaña, y para miel de madroño α-isoforona y ácido 2,5-dihidroxifenilacético.15 La adulteración en el café radica en suplantar la especie Arábica con Robusta. Esto ocurre debido a la diferencia de precios, ya que la especie Arábica es más costosa por sus propiedades organolépticas.16 Adicionalmente, en Colombia el café exportado es de especie Arábica por lo cual es necesario un método para asegurar que el café corresponde a este tipo de especie y cumpla con ciertos criterios de calidad. Por ello en este proyecto se emplean perfiles obtenidos por espectroscopía de 1H-RMN de extractos de café y se implementan los métodos de PCA, PLSDA (Mínimos Cuadrados Parciales con Análisis Discriminante, por sus siglas en ingles) y OPLSDA (Mínimos Cuadrados Parciales Ortogonales con Análisis Discriminante, por sus siglas en inglés) para la discriminación entre Arábica y Robusta. Además, empleando los métodos nombrados, se realizó la discriminación por origen de los departamentos, Nariño, Cauca y Santander. Adicionalmente, se determinaron las variables que permiten discriminar las especies y departamentos mencionados. Finalmente, a través de un pseudo espectro se representó la correlación de las variables importantes para la discriminación de los departamentos de Nariño, Cauca y Santander. 3 2. OBJETIVOS 2.1. Objetivo General Implementar métodos multivariantes para análisis de perfiles metabonómicos obtenidos por RMN. 2.2. Objetivos Específicos Emplear técnicas para el preprocesamiento de grandes conjuntos de espectros de RMN con el fin de permitir su clasificación. Aplicar métodos estadísticos en conjuntos de espectros RMN, correspondientes a muestras de café para atribuir a cada espectro su categoría. Evaluar técnicas estadísticas para analizar conjuntos de espectros RMN de café Colombiano. 4 3. MARCO TEÓRICO Y ANTECEDENTES 3.1. Metabonómica aplicada al café Han sido numerosas las publicaciones aplicadas al café,17-18-19-20 sin embargo hasta la fecha no se ha enfocado en la discriminación del café del mismo país o del mismo continente. La discriminación de especies Arábica y Robusta se ha llevado a cabo en café tostado empleando NIRS y aplicando filtros OSC (Señal de Corrección Ortogonal, por sus siglas en inglés) para lograr una buena clasificación.16 A través de HRGC (Cromatografía de Gases de Alta Resolución, por sus siglas en inglés) se han analizado ácidos grasos extraídos del café con este mismo objetivo, clasificando por medio de los modelos estadísticos de clúster y análisis discriminante, sin embargo esta técnica conlleva un mayor pretratamiento de la muestra.21 Por otro lado, la denominación de origen en café verde se ha estudiado en IRMS (Relación Isotópica con Espectrometría de Masas, por sus siglas en inglés) usando 45 muestras de Suramérica, Centroamérica, África e Indonesia, el método estadístico aplicado es LDA (Análisis Discriminante Lineal, por sus siglas en inglés) generando un error de 10.3% por CV (Validación Cruzada, por sus siglas en inglés).22 Finalmente, se ha realizado recientemente por RMN la cuantificación de Arábica-Robusta donde los perfiles fueron obtenidos a partir de extractos en solución acuosa y empleando buffer, el método utilizado fue la OPLS.23 Por otro lado, la aplicación de la OPLSDA se ha llevado a cabo para la discriminación entre Asia, América y África 24 3.2. Pretratamiento de datos La extracción e interpretabilidad de la información son aspectos importantes en la metabonómica, para ello se evalúan los diferentes métodos de tratar los datos y la metodología escogida depende de la estructura del conjunto a analizar. Los métodos de pretratamiento hacen hincapié en corregir aspectos que dificultan la interpretación. 5 El centrado, consiste en convertir los datos a fluctuaciones alrededor de cero, restando el promedio a cada variable (Ecuación 1), por lo tanto, ajusta las diferencias entre los metabolitos altamente concentrados y aquellos que no lo están, por medio del centrado se observa sólo la variación relevante a lo largo del set de datos,25 lo cual se observa en la Figura 2. ̅ ∑ ; ̅ Ecuación 1 Los métodos de escalado se enfocan en dividir cada variable por un factor, por lo cual se van a observar las diferencias de concentraciones de los metabolitos respecto al factor de escalado. El auto-escalado (Ecuación 2) utiliza la desviación estándar como factor de escalado, después del auto-escalado todos los metabolitos tienen desviación estándar de uno, por tanto los datos son analizados en base a las correlaciones en lugar de las covarianzas.26 ̅ ; √∑ ̅ Ecuación 2 Figura 2. Comparación de espectro empleando pretratamiento de datos. 6 3.3. T2 de Hotelling Las matrices de puntuaciones obtenidas en la PCA, PLSDA y OPLSDA generan una distribución, por lo cual se aplica la elipse de Hotelling para un intervalo de confianza del 95%.27 Esta prueba multivariante consiste en asignar la probabilidad de que una observación concreta es diferente de la media de la distribución del conjunto de observaciones.28 3.4. Métodos no supervisados 3.4.1. Análisis de componentes principales Esta técnica expresa la varianza de una serie de datos a través de los vectores propios, los cuales son combinaciones lineales de las variables originales (Ecuación 3). El método factoriza la matriz de variables X, en términos de puntuaciones (T), cargas (P) y una matriz de error (E) X= TPT + E = t1p1T + t2p2T…+ tnpnT + E Ecuación 3 En la PCA se emplea la descomposición en valores propios de la matriz de covarianza, dichos valores (λ) son organizados en orden decreciente con la finalidad de recobrar toda la varianza de los datos (Ecuación 4). λ = Ecuación 4 ( ) La interpretación del modelo se realiza a través de las puntuaciones y cargas, las primeras se obtienen por multiplicación del conjunto de datos originales por los dos primeros vectores propios. En una gráfica de puntuaciones cada punto representa una observación. 7 Por otro lado, las cargas obtenidas son ortogonales e independientes y solo se toman los primeros vectores para el análisis ya que en estos se ha recuperado toda la dispersión del sistema. En una gráfica de cargas cada punto representa una diferente intensidad espectral, adicionalmente la gráfica de este vector escalado permite la visualización de las variables discriminantes (Figura 3).1 Figura 3. Ilustración del modelo PCA. El análisis de componentes, es un método no supervisado y representa una herramienta poderosa para observar el comportamiento de los datos, por lo cual se elige como un análisis preliminar. Para discriminar y clasificar también se emplean métodos supervisados, en ellos se toma un conjunto de datos para crear el modelo óptimo y otro conjunto para su evaluación. 3.5. Métodos supervisados 3.5.1. Mínimos cuadrados parciales Los mínimos cuadrados parciales es un método iterativo para relacionar dos matrices X e Y, en este caso intensidades y un vector de escalares, respectivamente. El método fue 8 propuesto en 1975 por Herman Wold con su algoritmo NIPALS (Non-linear Iterative Partial Least Squares), este corresponde a una extensión de la regresión lineal múltiple. El modelo encuentra nuevas variables que son estimaciones de las variables latentes o sus rotaciones10 y permite analizar datos que estén muy correlacionados, con ruido y numerosas variables en X, según pruebas teóricas y empíricas se sugiere que la relación observacionesvariables debe ser 5 a 1 para la convergencia de los modelos.29 Por medio de la PLS, X e Y se descomponen simultáneamente en producto de otras dos matrices: puntuaciones y cargas. Las puntuaciones son combinaciones lineales de las variables originales con los coeficientes (weights), este último corresponde al primer vector propio de la matriz de covarianza y permite observar la estructura de la relación X e Y. 3.5.2. Mínimos cuadrados parciales como método discriminante Los objetivos del análisis discriminante son encontrar funciones lineales que mejor discriminen dos grupos y construir una regla de asignación para un objeto nuevo. A través de la PLS se logra tal objetivo, ya que se puede entender como una extensión de LDA, este punto lo demuestran Barker y colaboradores.30 El propósito del método es obtener funciones que maximicen la varianza entre los grupos y minimicen la varianza dentro de los grupos Esto se logra a través del criterio de Fisher, con el cual se maximiza la diferencia entre estas dos varianzas (Ecuaciones 6-8). Ecuación 6 Para dos clases, siendo ̅ , el promedio para cada clase ̅ ̅ ; ̅ ̅ ̅ Ecuación 7 Finalmente, Ecuación 8 9 Para asignar a una observación su categoría se realiza mediante el cálculo de la distancia de Mahalanobis, donde el resultado más cercano a los centroides de los grupos permite la clasificación. 3.5.3. Mínimos cuadrados parciales ortogonales con análisis discriminante La OPLS es una modificacion del algoritmo NIPALS, este método puede ser aplicado como preprocesamiento, ya que remueve la variacion ortogonal en un set de datos. Su aplicación integra a la PLS con la ventaja de analizar la variación ortogonal, en ella la variacion de X es separada en dos elementos, los correlacionados a Y (bloque TpPp) y aquellos que no estan correlacionados, ortogonales (bloque ToPo). El método al deflactar la matriz ortogonalmente permite observar “el ruido estructural”.31 La OPLSDA ofrece una mejor visualización de los coeficientes y las cargas, al realizar el filtro ortogonal, permite identificar las partes del espectro responsables de la variación y correlación, las cargas también pueden ser asociadas con la varianza dentro de las clases. Este método se convirtió en uno de los procedimientos quimiométricos más populares en metabonómica principalmente por su desarrollo visual. Una de las herramientas que ofrece, consiste en un pseudo espectro en escala de colores, en él los coeficientes de las OPLS se asocian con un color para determinar la correlación de las variables discriminantes.32-33 En la Figura 4 se muestra la diferencia de algoritmos para los métodos PCA, PLS y OPLS. Los términos P se refieren a las cargas, W a los coeficientes, T y C las puntuaciones, mientras que E y F son matrices de error. 10 Figura 4. Algoritmos para los modelos PCA, PLS y OPLS. 3.6. Validación 3.6.1. Validación Cruzada K-FOLD Con el propósito de evaluar el desempeño del modelo de predicción, se emplea la validación cruzada K-fold. El procedimiento realiza una partición de los datos en el conjunto de entrenamiento. Con un subconjunto se ajusta el modelo y con otro se prueba. Los datos se dividen en K partes aproximadamente del mismo tamaño, si K=5 se obtiene la 11 partición ilustrada en la Figura 5. El modelo se realiza K veces y al final se combinan las estimaciones para arrojar un error promedio. 34-26 1 2 3 4 5 Entrenamiento Entrenamiento Validación Entrenamiento Entrenamiento Figura 5. Bloques para validación cruzada con K=5. 3.6.2. Validación cruzada- Dejando uno afuera El método consiste en la validación cruzada K-fold para K=N, donde N es el número de muestras. En el procedimiento un conjunto se utiliza como prueba y el resto participan en el entrenamiento. El error es menor ya que el número de iteraciones es igual N, eso lo hace costoso computacionalmente. 3.6.3. Parámetros indicadores de calidad Para determinar la cantidad correcta de componentes en el modelo se pueden determinar ciertos parámetros de calidad. Teniendo en cuenta la división del conjunto de entrenamiento en mv= conjunto de validación y mc = conjunto de calibración, se calculan parámetros como el MSECV (Error Cuadrático Medio de Validación Cruzada, por sus siglas en inglés) (Ecuación 10) y MSEC (Error Cuadrático Medio de Calibración, por sus siglas en inglés) (Ecuación 11). Los cuales se definen como: ∑ Ecuación 10 ∑ Ecuación 11 12 Donde, corresponde al valor de cada muestra y calcula para el conjunto de validación, mientras el a su prediccion. El se para la calibración.35 Por otra parte, el parámetro Q2 (Ecuación 12) representa una medida de calidad para la predicción, está basado en la evaluación del error de la predicción y el valor conocido. Este se define respecto al PRESS (Suma de la Predicción del Error, por sus siglas en inglés) (Ecuación 13) y al TSS (Total de la Suma de los Cuadrados) (Ecuación 14) donde ̅ es el promedio de los datos. ∑ ∑ TSS = ∑ Ecuación 12 ̅ ( ) Ecuación 13 ̅ Ecuación 14 Finalmente, el R2 es una medida del ajuste del modelo en el conjunto de calibración (Ecuación 15) y se define en términos del RSS (Suma Residual de los Cuadrados, por sus siglas en inglés) (Ecuación 16).34 R2= 1RSS= ∑ Ecuación 15 ( ) Ecuación 16 3.6.4. Matriz de confusión La matriz de confusión (Tabla 1) se calcula como medida de la calidad y permite analizar más detalladamente los resultados de una clasificación. A partir de ella se permite calcular parámetros como sensibilidad (Ecuación 17) y especificidad (Ecuación 18), el primero es la proporción de las observaciones positivas que son clasificadas correctamente como positivas, mientras la segunda es la proporción de observaciones negativas que son correctamente clasificadas como negativas. 35 13 Tabla 1. Matriz de confusión Clase Predicción 1 Verdadero Positivo Falso Negativo 2 Falso Positivo Verdadero Negativo Ecuación 17 Ecuación 18 14 4. JUSTIFICACIÓN Y PLANTEAMIENTO DEL PROBLEMA El café con más de 400 mil millones de tazas de consumo por año, lo hace una de las bebidas comerciales socialmente importantes. A nivel de Colombia permite el sostenimiento de más de 563.000 familias productoras de café. Se conocen cerca de 66 especies de café, las más económicamente importantes son Coffea arábica L. (café arábica) y Coffea canephora P. (Café Robusta). Las especies Arábica y Robusta se diferencian desde el punto de vista botánico, genético y morfológico, y por consiguiente en términos de calidad, por ejemplo en el mercado la especie Robusta se vende a un precio entre 20 a 25% más bajos que la Arábica, ya que a nivel sensorial difieren en parámetros como olor y sabor.16-36 Con el propósito de proteger el café de Colombia, surge la creación del programa 100% Café Colombiano,37 el cual es una alianza entre los propietarios de marcas de café de todo el mundo y los productores de café de Colombia, la idea principal de este proyecto es comercializar 100% café de Colombia a todos los consumidores alrededor del mundo. El café comercializado con esta marca corresponde a especie Arábica y originario de Colombia.38 En la búsqueda por determinar a qué especie corresponde el café, inicialmente se diferenciaba por comparación de tamaño, color y forma de los granos, pero esta metodología no permitía detectar contaminaciones una vez el café estaba tostado y molido, por ello se implementó su análisis en las técnicas de NIRS,39 RAMAN40 y RMN.41-20 Actualmente Colombia no cuenta con una plataforma metabonómica para análisis de café, la meta es construir un sistema que permita realizar estudios de discriminación, clasificación, validación y variables importantes en el análisis. Por tanto, para aportar a la construcción de este sistema, en este trabajo se han implementado y probado los modelos PCA, PLSDA y OPLSDA para un conjunto pequeño de datos. 15 5. METODOLOGÍA Y PARTE EXPERIMENTAL 5.1.Protocolo de adquisición de espectros de café 5.1.1. Preparación de la muestra Las muestras de café fueron suministradas por ALMACAFE S.A. Estas corresponden a muestras de café Arábica Colombiano (29) y café Robusta (25), en presentación tostado molido. El protocolo de extracción de las muestras de café es el siguiente: Se pesaron 0.2 g de café tostado molido y se disolvieron en 1000 µL de metanol no deuterado, se empleó agitador vortex con máxima velocidad por 2 minutos. Posteriormente se centrifugaron las muestras a 10k rpm por 10 minutos y 18 °C, del sobrenadante se tomaron 450 µL y se llevaron a tubos de RMN a los cuales se les adicionó 90 µL de MeOD (Metanol Deuterado) con TMS (Tetrametilsilano). 5.1.2. Espectroscopia RMN Se tomaron 54 espectros en el RMN 400MHz Bruker Ultra Shield, operando a una frecuencia de protón de 400.02 MHz con sonda directa BBO (Broad Band Probe) equipada de 3 gradientes. Se realizó pre-saturación con la finalidad de suprimir la señal del solvente. Para calibrar el espectrómetro se usaron estandares de referencia como MeOD para determinar la temperatura y sucrosa en H2O/D2O para obtener la mejor resolución de las señales. Tuning, matching, shimming y pre-saturación fueron realizados automáticamente para cada muestra de café. 5.2.Preprocesamiento Los espectros obtenidos son descargados desde mylims.univalle.edu.co a nuestra base de datos, obteniendo matrices de tamaño [espectros totales x 80501]. Se eliminan las regiones 16 de TMS y solvente. Posteriormente, se lleva a cabo la reducción de variables en la matriz de datos utilizando binning, en el análisis se tomaron 50 bins obteniendo una matriz final de [espectros totales x1078]. El tamaño de la matriz usada en el análisis fue de [54 x 1078], la Figura 6 ilustra los pasos llevados a cabo en el preprocesamiento. Figura 6. Preprocesamiento de datos. Un experimento fallido es aquel que posee problemas con la línea base o shim. Con la finalidad de detectar estos espectros y outliers se aplica la PCA. Las puntuaciones obtenidas se proyectan con la elipse de Hotelling para el 95% de confianza. Aquellos espectros que no se encuentren en el área de tolerancia se sacan del análisis. En el Anexo 1 se muestra esto para 417 espectros los cuales se encontraban en la base de datos del grupo. 5.3. Metodología para el análisis de datos Se evaluaron los métodos estadísticos PCA, PLSDA y OPLSDA usando 25 espectros de Arábica y 25 de Robusta de presentación tostado. Los métodos multivariados mencionados se implementaron también para 29 muestras de Colombia, 12 corresponden a Nariño, 6 a Cauca y 11 a Santander. La elección del conjunto de entrenamiento se realizó tomando el 80% de los datos de manera aleatoria, el conjunto restante se empleó para la predicción. El análisis fue llevado a cabo empleando el software R42 y los scripts fueron desarrollados en el grupo de investigación. Los Anexos 2 y 3 se presentan los códigos empleados para los métodos PCA y OPLSDA. También se hace uso de las librerías vegan, 43 caret,44 ChemoSpec,45 pls46 y MASS.47 17 6. RESULTADOS Y DISCUSIÓN El café posee compuestos como ácidos clorogénicos, trigonelina, ácidos grasos, ácidos orgánicos, cafeína, entre otros48-18-41-24-49-50. En la Figura 7 se observa el espectro correspondiente a un extracto de café tostado en metanol señalando las regiones para los compuestos principales. Figura 7. Perfil 1H-RMN de extracto de café tostado molido en metanol 6.1.Discriminación por especie Arábica y Robusta La implementación de los métodos PCA, PLSDA y OPLSDA para discriminación entre Arábica y Robusta se realizó utilizando 25 espectros para cada especie. La diferencia de los dos perfiles se observa en la Figura 8. 18 Figura 8. Comparación de perfiles de las especies Arábica y Robusta Los espectros difieren principalmente en las regiones de los ácidos clorogénicos, ácidos orgánicos y ácidos grasos. Los compuestos ubicados en el campo bajo del espectro como la trigonelina no parecen diferenciar estas dos especies. Con la finalidad de observar la calidad de los datos se usó la PCA. Las aplicaciones de los métodos PLSDA y OPLSDA se realizaron para un conjunto de entrenamiento de 40 muestras. Las puntuaciones de la PCA son proyectadas en base a sus vectores propios. Como se observa en la Figura 9A estos recobraron gran parte de la variabilidad del sistema de datos, 19 el primer componente principal presenta un 34.71%, mientras el segundo el 29.37%. Según esta proyección, los conjuntos se logran discriminar. Las puntuaciones de la especie Robusta se ubican en el lado positivo de la gráfica, es decir que las variables de esta especie pueden ser explicadas por un único componente. En la Figura 9B se observa las puntuaciones de la PLSDA, debido a que en este método se maximiza la covarianza respecto a la variable de clases (especie), permite una mejor visualización de la discriminación de los datos. Por otra parte, las puntuaciones obtenidas en la OPLSDA se encuentran mejor ilustradas. Esto es consecuencia de que las puntuaciones en este método corresponden al primer componente predictivo versus el componente predictivo ortogonal. En el eje X se representa la variación entre los grupos, mientras en el Y la variación dentro de los grupos. De lo anterior, se observa que el conjunto de especie Arábica es más disperso que la Robusta y la presencia de dos outliers que no se observaban en los métodos anteriores. A 20 B C Figura 9. Puntuaciones obtenidas para la discriminación Arábica- Robusta en PCA(A), PLSDA (B) y OPLSDA (C) Las cargas contienen la información acerca de los parámetros estructurales de los datos y permite identificar las variables más importantes para la discriminación. El escalamiento de datos permite visualizar las correlaciones de estas variables. La Figura 10A ilustra las cargas obtenidas por los tres métodos. 21 A 8 8 7 7 6 6 5 4 5 4 3 3 2 2 1 1 B Figura 10. Comparaciones de las cargas (A) y coeficientes (B) para la discriminación Arábica-Robusta 22 La interpretación de las puntaciones, se realiza por medio de las cargas. Las cargas de la PCA que se encuentran negativas, son las relacionadas con la especie Arábica. Las regiones señaladas 1, 2, 4 y 5 permiten la discriminación de esta especie. Mientras que las regiones 3, 6, 7 y 8 corresponden a variables mixtas ya que aportan en la discriminación de ambas clases. Finalmente las variables positivas aportan para la discriminación de la especie Robusta. El signo del vector no es relevante, ya que el método proyecta una clase positiva y otra negativa para discriminar. Las cargas obtenidas por PLSDA muestran un comportamiento similar a la PCA. Una de las diferencias consiste en la disminución de variables mixtas en la distribución 3. Finalmente, en las cargas de la OPLSDA se observan que en su mayoría las variables están correlacionadas negativamente, solo algunas discriminan positivamente. Esto es debido al filtro ortogonal que se efectúa. Para estos dos últimos métodos, al igual que en la PCA, las variables negativas se relacionan con la especie Arábica, mientras las positivas a la especie Robusta. Las señales que discriminan la especie Robusta son pocas, se observa en común por los tres métodos, que los compuestos con señales entre 0-1, 2 y 8-10 ppm son las que más discriminan. En la Figura 10B se muestra la diferencia entre los coeficientes obtenidos por los dos métodos. Por medio de estos vectores se observa la relación estructural de los datos en términos de correspondencia de X e Y. A través de la superposición de los vectores se observa que el coeficiente de la OPLSDA es mayor en magnitud. La diferencia de ellos radica en que el coeficiente de la PLSDA contiene ambos bloques (lo correlacionado y lo no correlacionado), el cual se separa en la OPLSDA. Esta partición de bloques produce cambios en signos de las variables tal como se muestra en la flecha. Como se observa tres señales principales son responsables de la estructura del modelo. 6.1.1. Validación de los modelos para discriminación de especie Para verificar el modelo se tomó un conjunto de 10 espectros, que estaba conformado por 6 muestras de Arábica y 4 de Robusta. Las muestras se lograron clasificar correctamente a su 23 categoría por PLSDA y OPLSDA. Por tanto, se obtuvo 1 en especificidad y 1 en sensibilidad en ambos métodos. Por otro lado, la validación de los modelos, se realizó para 12 componentes. Como se observa en la Tabla 2 los valores reportados para la validación de los modelos PLSDA y OPLSDA fueron los mismos. Los valores de R2 y Q2 demuestran un buen ajuste y predicción para los modelos. Tabla 2. Validación de los modelos para discriminación Arábica- Robusta Método PLSDA OPLSDA R2 0.968 0.968 2 0.962 0.962 MSEC 0.097 0.097 MSECV 0.108 0.108 Q 6.2. Clasificación de café colombiano En esta sección se presenta la discriminación para tres clases: Cauca, Nariño y Santander. La diferencia de los perfiles para estos tres departamentos se ilustra en la Figura 11, donde se observa que la señal de la cafeína (cuadro A) es la misma para las tres. Mientras que las regiones C, E y F muestran mayor discrepancia. 24 Figura 11. Comparación de perfiles de Nariño, Santander y Cauca El conjunto de datos para este análisis corresponde a 29 espectros de café tostado. Para los métodos PLSDA y OPLSDA se emplearon 20 muestras para el entrenamiento y 9 para el test. En la Figura 12A se muestra las puntuaciones de la PCA, en ella se observa que los departamentos de Santander y Nariño tienen una relación estructural similar, lo que conlleva a un solapamiento de las elipses de distribución, con lo cual se llegaría a una posible mal clasificación. En la región de Cauca todas observaciones se encuentran más centradas en la región de confianza, mientras en la región de Nariño se encuentran más dispersos. Los componentes de la PCA logran recobrar 47.8 y 15.3% de la variación de los datos. Las puntuaciones obtenidas para la PLSDA ilustradas en la Figura 12B, muestra la superposición de las elipses, esto posiblemente se debe a la dificultad para clasificar más de dos categorías, adicionalmente en el conjunto de entrenamiento se presenta un desbalance 25 ya que se encuentran menos muestras de Cauca. Las puntuaciones de la OPLSDA, Figura 12C muestran mejor la discriminación de las tres clases, como se dijo anteriormente la OPLSDA ofrece un mejor análisis visual, más su predicción es la misma que la PLSDA. A B 26 C Figura 12. Puntuaciones obtenidas para discriminación por tres departamentos de Colombia en PCA (A), PLSDA (B) y OPLSDA (C) En la Figura 13A se observa la comparación para las tres cargas obtenidas por los métodos. En este caso se presenta la dificultad de atribuir las variables importantes a cada departamento. Los departamentos de Nariño y Santander presentan puntuaciones positivas, por lo tanto para esta discriminación se encuentran aportando la mayoría de las variables que se encuentran situadas al lado positivo del vector. Las variables que se encuentran enumeradas se podrían sugerir que se encuentran discriminando las regiones de Cauca y al mismo tiempo Nariño. En las cargas de la PLSDA se puede observar un poco la diferencia de distribuciones para las variables que discriminan Nariño y Santander aportando más las regiones de 0-2 y 5-9 ppm. Las variables positivas aportarían a la discriminación de Cauca y Nariño. Finalmente, las cargas de la OPLSDA son muy parecidas a las del método anterior, excepto que no se encuentran aportando a la discriminación de Cauca y Nariño las variables 4,5,7, 9, 10 y 12 de la PLSDA. En la Figura 13B se muestra la superposición de los coeficientes de la PLSDA y OPLSDA. La relación ente los perfiles y departamentos se relacionan principalmente con cuatro 27 señales. La de mayor magnitud se observa para 2 ppm. El cambio de signo y aparición de las señales con flechas se debe al filtro realizado en la OPLSDA. A 12 11 14 11 10 12 11 13 10 9 8 7 7 10 9 8 6 5 4 5 6 7 8 9 6 4 28 5 4 3 1 2 2 3 3 2 1 1 B Figura 13. Comparaciones de las cargas (A) y los coeficientes (B) para discriminación por tres departamentos de Colombia. 6.2.1. Validación de los modelos para discriminación en departamentos de Colombia Para comprobar la predicción de los modelos se emplearon 3 muestras de Cauca, 3 de Nariño y 3 de Santander. En la Tabla 3 se muestran los resultados de la predicción, una muestra mal clasificada corresponde a Nariño, como se observaba en las gráficas de las puntuaciones de los métodos estas regiones se encuentran muy cercanas y por ello se producen estos errores. Tabla 3. Resultados test de predicción departamentos de Colombia por PLSDA y OPLSDA Predicción Cauca Nariño Santander Cauca 3 0 0 Nariño 0 3 1 Santander 0 0 2 29 Para la validación de los modelos se realizó con 12 componentes. Los valores reportados en la Tabla 4 son similares para los dos métodos, pero en el valor de Q2 resultó más bajo para la OPLSDA. La manera de obtener un valor óptimo de Q2 y de los otros parámetros para que se exprese la verdadera calidad del modelo, es realizar varias iteraciones, donde las muestras también sean aleatorias. Debido a la muestra mal clasificada, la sensibilidad para muestras de Nariño disminuyo su porcentaje, al igual que especificidad para las muestras de Santander, como se aprecia en la Tabla 5. Tabla 4. Validación de los modelos para discriminación Nariño, Cauca y Santander Método PLSDA OPLSDA R2 0.895 0.895 Q2 0.918 0.778 MSEC 0.194 0.084 MSECV 0.267 0.246 Tabla 5. Matriz de confusión obtenida por PLSDA y OPLDA Cauca Nariño Santander Especificidad 1 1 0.666 Sensibilidad 1 0.833 1 6.2.2. Variables discriminantes en el café colombiano Para determinar la correlación de las variables en la discriminación, es decir los metabolitos que aportan más que otros, se tomaron 5 espectros de Santander y 5 de Nariño, se calculó la matriz de correlación como se observa en la Figura 14A, según el color verde se muestra que las variables se encuentran levemente correlacionadas entre ellas, principalmente la región correspondiente a ácidos grasos entre 800-1000, campo alto del espectro. Sin embargo este análisis solo nos muestra la correlación entre ellas más no para la 30 discriminación, por eso se realizó el pseudo espectro de la correlación presentado en la Figura 14B. Empleando los coeficientes escalados de la OPLSDA, los cuales proporcionan información de cómo se encuentran relacionados X e Y, se toma este vector para colorear el vector propio ortogonal de la OPLSDA, es por esto que el método va de ser un análisis multivariado a univariado. En este pseudo espectro se observa que todas las variables se encuentran levemente correlacionadas en la discriminación. De nuevo, la región de los ácidos grasos aportan más en la discriminación por departamentos, mientras las variables a campo bajo son poco discriminantes. A 31 B Figura 14.Matriz de correlación (A) y pseudo espectro de correlación (B) para discriminación de café en departamentos de Colombia 32 7. CONCLUSIONES En este trabajo se presentaron las implementaciones de los métodos PCA, PLSDA, y OPLSDA para discriminar las especies Arábica y Robusta en café tostado. Los métodos clasificaron correctamente las dos especies evaluadas. Adicionalmente se demostró que estos modelos poseen el mismo poder de predicción. La clasificación por tres categorías para datos altamente correlacionados como los departamentos de Colombia, se llevó a cabo por los métodos de PLSDA y OPLSDA. En este grupo los porcentajes de sensibilidad y especificidad fueron menores de la unidad, así como disminuyo el parámetro Q2 en la OPLSDA. Para realmente obtener un modelo óptimo se sugiere realizar varias iteraciones, empleando muestras aleatorias en la construcción del modelo y al final realizar un promedio del error. Se realizaron análisis de correlaciones para los perfiles de los departamentos de Colombia. Esto se realizó calculando la matriz de correlación y a través de los coeficientes de la OPLSDA. La región de los ácidos grasos aporta más en la discriminación. Las regiones asignadas a ácidos grasos y orgánicos son aquellas que más aportan en las discriminaciones realizadas. Se espera realizar la asignación de los perfiles para establecer las moléculas responsables de las variaciones. 33 8. REFERENCIAS (1) Lindon, J. C.; Nicholson, J. K.; Holmes, E. The handbook of metabonomics and metabolomics; Elsevier: Amsterdam; Oxford, 2007. (2) Coen, M.; Holmes, E.; Lindon, J. C.; Nicholson, J. K. Chem Res Toxicol 2008, 21, 9–27. (3) Worley, B.; Powers, R. Current Metabolomics 2013, 1, 91–106. (4) Bruce, S. J.; Jonsson, P.; Antti, H.; Cloarec, O.; Trygg, J.; Marklund, S. L.; Moritz, T. Anal. Biochem. 2008, 372, 237–249. (5) Ribeiro, J. S.; Ferreira, M. M. C.; Salva, T. J. G. Talanta 2011, 83, 1352–1358. (6) Defernez, M.; Colquhoun, I. J. Phytochemistry 2003, 62, 1009–1017. (7) Choi, M.-Y.; Choi, W.; Park, J. H.; Lim, J.; Kwon, S. W. Food Chem. 2010, 121, 1260–1268. (8) Cloarec, O.; Dumas, M.-E.; Craig, A.; Barton, R. H.; Trygg, J.; Hudson, J.; Blancher, C.; Gauguier, D.; Lindon, J. C.; Holmes, E.; Nicholson, J. Anal. Chem. 2005, 77, 1282–1289. (9) Trygg, J.; Holmes, E.; Lundstedt, T. J. Proteome Res. 2007, 6, 469–479. (10) Wold, S.; Sjöström, M.; Eriksson, L. J. Chemometr intell Lab. Sys. 2001, 58, 109– 130. (11) Fonville, J. M.; Richards, S. E.; Barton, R. H.; Boulange, C. L.; Ebbels, T. M. D.; Nicholson, J. K.; Holmes, E.; Dumas, M.-E. J. Chemometr. 2010, 24, 636–649. (12) Richards, S. E.; Dumas, M.-E.; Fonville, J. M.; Ebbels, T. M. D.; Holmes, E.; Nicholson, J. K. J. Chemometr intell Lab. Sys. 2010, 104, 121–131. (13) Lindon, J. C.; Nicholson, J. K.; Holmes, E.; Everett, J. R. Concept Magnetic Res 2000, 12, 289–320. (14) Vogels, J. T. W. E.; Terwel, L.; Tas, A. C.; van den Berg, F.; Dukel, F.; van der Greef, J. J. Agric. Food Chem. 1996, 44, 175–180. (15) Donarski, J. A.; Jones, S. A.; Harrison, M.; Driffield, M.; Charlton, A. J. Food Chem. 2010, 118, 987–994. 34 (16) Esteban-D ez, I. onzález-Sáiz, J. M.; Pizarro, C. Anal. Chim. Acta. 2004, 514, 57– 67. (17) Lindinger, C.; Labbe, D.; Pollien, P.; Rytz, A.; Juillerat, M. A.; Yeretzian, C.; Blank, I. Anal. Chem. 2008, 80, 1574–1581. (18) D’Amelio, N. Fontanive, L. Uggeri, F. Suggi-Liverani, F.; Navarini, L. Food Biophys. 2009, 4, 321–330. (19) Hofmann, T.; Schieberle, P. J. Agric. Food Chem. 2002, 50, 319–326. (20) Anderson, K. A.; Smith, B. W. J. Agric. Food Chem. 2002, 50, 2068–2075. (21) Rui Alves, M.; Casal, S.; Oliveira, M. B. P. P.; Ferreira, M. A. J Am Oil Chem Soc 2003, 80, 511–517. (22) Weckerle, B.; Richling, E.; Heinrich, S.; Schreier, P. Anal. Bioanal. Chem. 2002, 374, 886–890. (23) Cagliani, L. R.; Pellegrino, G.; Giugno, G.; Consonni, R. Talanta 2013, 106, 169– 173. (24) Consonni, R.; Cagliani, L. R.; Cogliati, C. Talanta 2012, 88, 420–426. (25) Van den Berg, R. A.; Hoefsloot, H. C.; Westerhuis, J. A.; Smilde, A. K.; van der Werf, M. J. BMC genomics 2006, 7, 142. (26) Miller, J. N. Statistics and chemometrics for analytical chemistry; 5th ed.; Pearson/Prentice Hall: Harlow, England New York, 2005. (27) Worley, B.; Halouska, S.; Powers, R. Anal. Biochem. 2013, 433, 102–104. (28) Hotelling, H. Ann. Math. Stat 1931, 2, 360–378. (29) Nikulin, A. E.; Dolenko, B.; Bezabeh, T.; Somorjai, R. L. NMR Biomed 1998, 11, 209–216. (30) Barker, M.; Rayens, W. J. Chemometr. 2003, 17, 166–173. (31) Trygg, J.; Wold, S. Journal of Chemometrics 2002, 16, 119–128. (32) Bylesjö, M.; Rantalainen, M.; Cloarec, O.; Nicholson, J. K.; Holmes, E.; Trygg, J. J. Chemometr. 2006, 20, 341–351. (33) Tapp, H. S.; Kemsley, E. K. TrAC Trends in Analytical Chemistry 2009, 28, 1322– 1327. 35 (34) Hastie, T. The elements of statistical learning: data mining, inference, and prediction; Springer series in statistics; 2nd ed.; Springer: New York, NY, 2009. (35) Westerhuis, J. A.; Hoefsloot, H. C. J.; Smit, S.; Vis, D. J.; Smilde, A. K.; Velzen, E. J. J.; Duijnhoven, J. P. M.; Dorsten, F. A. Metabolomics 2008, 4, 81–89. (36) Mart n, M. Pablos, F. onzales, A. . Talanta 1998, 46, 1259–1264. (37) Café de Colombia http://www.cafedecolombia.com/particulares/en/el_cafe_de_colombia/marcas_100/. (38) Café de Colombia http://www.cafedecolombia.com/particulares/en/sobre_el_cafe/el_cafe/clasificacione s_de_calidad/]. (39) Café de Colombia http://www.cafedecolombia.com/bb-fnces/index.php/comments/almacafe_eslabon_clave_para_asegurar_la_calidad_y_verifi car_el_origen_del_c/. (40) Keidel, A.; von Stetten, D.; Rodrigues, C. Máguas, C. Hildebrandt, P. J. Agric. Food Chem. 2010, 58, 11187–11192. (41) Wei, F.; Furihata, K.; Koda, M.; Hu, F.; Kato, R.; Miyakawa, T.; Tanokura, M. J. Agric. Food Chem. 2012, 60, 10118–10125. (42) R Core Team (2012) R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org/. (43) Oksanen,, J. Blanchet, F. . Roeland Kindt Legendre, P. Minchin, P. R. O’Hara, R. B.; Simpson, G. L.; M., P. S.; Stevens, H. H.; Wagner, H. vegan: Community Ecology Package. R package version 2.0-7. http://CRAN.Rproject.org/package=vegan 2013. (44) Kuhn., M.; Contributions from Jed Wing,; Weston, S.; Williams, A.; Keefer, C.; Engelhardt, A.; Cooper, T. caret: Classification and Regression Training. R package version 5.15-61. http://CRAN.R-project.org/package=caret 2013. (45) Hanson, B. A. ChemoSpec: Exploratory Chemometrics for Spectroscopy. R package version 1.51-2, academic.depauw.edu/~hanson/ChemoSpec/ChemoSpec.html 2012. 36 (46) Mevik, B.-H.; Wehrens, R.; Liland, K. H. pls: Partial Least Squares and Principal Component regression. R package version 2.3-0. http://CRAN.Rproject.org/package=pls 2011. (47) Venables, W. N. Modern applied statistics with S; Statistics and computing; 4th ed.; Springer: New York, 2002. (48) Wei, F.; Furihata, K.; Hu, F.; Miyakawa, T.; Tanokura, M. J. Agric. Food Chem. 2011, 59, 9065–9073. (49) Stadler, R. H.; Varga, N.; Milo, C.; Schilter, B.; Vera, F. A.; Welti, D. H. J. Agric. Food Chem. 2002, 50, 1200–1206. (50) Del Campo, G.; Berregi, I.; Caracena, R.; Zuriarrain, J. Talanta 2010, 81, 367–371. 37 9. ANEXOS Anexo 1. PCA para todo el conjunto de datos Anexo 2. Código empleado para la PCA Dada una matriz M en este caso 5x5 1-Se determina el promedio cmean<-colMeans(M) 2- A cada columna se le resta el valor anterior c1<-(M[,1]-cmean[1]) c2<-(M[,2]-cmean[2]) c3<-(M[,3]-cmean[3]) 38 c4<-(M[,4]-cmean[4]) c5<-(M[,5]-cmean[5]) 3-Se calcula la matriz de covarianza Mdif<-cbind(c1,c2,c3,c4,c5)) cov<-cov(Mdif) 4- Se calcula los valores y vectores propios TransfValues<-eigen(cov)$values TransfData<-eigen(cov)$vectors 5- Se calcula la varianza de los vectores K= length(TransfValues) Crit<-TransfValues[1:K]/sum(TransfValues) pc1var<-100*Crit[1] pc2var<-100*Crit[2] 6- Se escalan los datos C1<-c1/sd(c1) C2<-c2/sd(c2) C3<-c3/sd(c3) C4<-c4/sd(c4) C5<-c5/sd(c5) Z<-cbind(C1,C2,C3,C4,C5)) W <- cbind(TransfData[,1],TransfData[,2]) 39 7- Se proyectan los datos Y <-t(W)%*%Z Scores<-Y Loadings<-W Anexo 3.Código empleado para la OPLSDA X<-m Y<-as.numeric(class) nf = dim(m)[2] T = c() P = c() C = c() W = c() Tortho = c() Portho = c() Wortho = c() Cortho = c() for (j in 1:nf) { 1-Se hallan los weights w = (t(X) %*% Y) %*% solve(t(Y) %*% Y) w1 = t(w) %*% w 40 w2 = abs(sqrt(w1)) w = w %*% solve(w2) 2-Loadings respecto a X t = (X %*% w) %*% solve(t(w) %*% w) t1 = t(t) %*% t c = t(Y) %*% t %*% solve(t1) c1 = t(c) %*% c 3-Loadings respecto a Y u = Y %*% c %*% solve(c1) u1 = t(u) %*% u u2 = abs(sqrt(u1)) p = (t(X) %*% t) %*% solve(t1) 5-Filtro ortogonal wortho = p – w 6- Calculo weights ortogonales wortho1 = t(wortho) %*% wortho wortho2 = abs(sqrt(abs(wortho1))) wortho = wortho %*% solve(wortho2) 7-Score predictivo tortho = X %*% wortho %*% solve(t(wortho) %*% wortho) 41 tortho1 = t(tortho) %*% tortho 8- Loading ortogonal portho = t(X) %*% tortho %*% solve(tortho1) cortho = t(Y) %*% tortho %*% solve(tortho1) X = X - tortho %*% t(portho) T = matrix(c(T, t)) P = matrix(c(P, p)) C = matrix(c(C, c)) W = matrix(c(W, w)) Tortho = matrix(c(Tortho, tortho)) Portho = matrix(c(Portho, portho)) Wortho = matrix(c(Wortho, wortho)) Cortho = matrix(c(Cortho, cortho)) } T = matrix(T, ncol = nf) T = scale(T, scale = FALSE, center = TRUE) P = matrix(P, ncol = nf) C = matrix(C, ncol = nf) W = matrix(W, ncol = nf) Tortho = matrix(Tortho, ncol = nf) 42 Portho = matrix(Portho, ncol = nf) Cortho = matrix(Cortho, ncol = nf) Wortho = matrix(Wortho, ncol = nf) Xortho = Tortho %*% t(Portho) max.pc1 = 1.3 * (max(abs(T[, nf]))) max.pc2 = 1.3 * (max(abs(Tortho[, nf]))) lim = c() if (max.pc1 > max.pc2) { lim = c(-max.pc1, max.pc1) } plot(T[, nf], Tortho[, 1], pch = 19) 43