INSTITUTO POLITÉCNICO NACIONAL UNIDAD PROFESIONAL INTERDISCIPLINARIA DE INGENIERÍA Y CIENCIAS SOCIALES Y ADMINISTRATIVAS “LA MINERÍA DE DATOS COMO SOPORTE A LA TOMA DE DECISIONES ESTRATÉGICAS DE LAS ORGANIZACIONES” T QUE E S PARA OBTENER INGENIERO P IVONNE LESLIE I EL TÍTULO EN R E S THERESA MÉXICO, D.F. E S DE: INFORMÁTICA N T ESPINOSA GUTIÉRREZ A N: ALBA ROSAS 2010 ÍNDICE Resumen I introducción II Capítulo I. Introducción 1.1 Antecedentes ..…………… 1 1.2 Motivación ..…………… 3 1.3 Planteamiento del Problema ..…………… 6 1.4 Objetivo ..…………… 7 2.1 Introducción ..…………… 8 2.2 Descripción de la Metodología CIADEC ..…………… 11 2.3 Estadística e Inteligencia Artificial ..…………… 12 2.4 Los Sistemas Híbridos ..…………… 14 2.5 El Proceso KDD (Knowledge Discovery in DataBase) ..…………… 15 2.6 Reconocimiento Estadístico de Patrones ..…………… 15 2.7 Minería de Datos ..…………… 18 ..…………… 19 2.7.1.1 Weka ..…………… 19 2.7.1.2 Clementine ..…………… 19 2.7.1.3 CIADEC ..…………… 19 2.7.1.4 CVIZ ..…………… 19 2.8 Sistemas de Clasificación Basados en Reglas ..…………… 19 2.9 La Lógica Difusa y el Razonamiento Difuso ..…………… 23 2.10 Sistemas de Clasificación Basados en Reglas Difusas ..…………… 27 ..…………… 28 ..…………… 28 ..…………… 32 2.11.1 Aprendizaje Supervisado ..…………… 32 2.11.2 Aprendizaje No Supervisado ..…………… 32 ..…………… 34 ..…………… 34 3.1.1.1 Enfoques del Reconocimiento de Patrones ..…………… 35 3.1.1.1.1 Enfoque Estadístico ..…………… 36 Capítulo II. Marco de Referencia 2.7.1 Sistemas de Minería de Datos 2.10.1 Sistemas Basados en Reglas Difusas (SBRD) 2.10.2 Sistemas de Clasificación Basada en Reglas 2.11 Aprendizaje Automático Difusas Capítulo III. Marco Teórico 3.1 Conceptos Básicos 3.1.1 Reconocimiento de Patrones 3.1.1.1.2 Enfoque Sintáctico Estructural ..…………… 37 3.1.1.1.3 Enfoque Lógico – Combinatorio ..…………… 38 3.1.1.2 Tipos de problemas del Reconocimiento de Patrones ..…………… 38 3.1.1.3 Etapas del proceso de Reconocimiento de Patrones ..…………… 39 ..…………… 43 3.1.2.1 Componentes de la Minería de Datos ..…………… 45 3.1.2.2 Criterios para aplicar la Minería de Datos ..…………… 45 3.1.2.3 Técnicas de Minería de Datos más Usados en la Toma de Decisiones 3.1.2.3.1 Tablas de Decisión ..…………… 3.1.2 Minería de Datos 46 ..…………… 46 3.1.2.3.2 Arboles de Decisión ..…………… 47 3.1.2.3.3 Reglas de Asociación ..…………… 48 3.1.2.3.4 Representación Basada en Instancias ..…………… 48 3.1.2.3.5 Clústers ..…………… 48 3.1.2.3.6 Técnicas Basadas en la Estadística ..…………… 49 ..…………… 49 ..…………… 49 3.1.3.1.1 Tipos de Sistemas de Soporte a Decisiones ..…………… 50 3.1.3.1.2 Características de los Sistemas de Soporte a la Toma de Decisiones 3.1.3.1.3 Componentes Funcionales que Integran un DSS ..…………… 3.1.3 Métodos de la Toma de Decisiones en los Sistemas 3.1.3.1 Sistemas de Soporte a las Decisiones 51 ..…………… 52 ..…………… 53 ..…………… 56 3.2.1 Caracterización a partir de Variables Categóricas ..…………… 56 3.2.2 Sistemas de Caracterización ..…………… 57 3.3 El Boxplot ..…………… 58 3.4 El Aprendizaje Automático ..…………… 62 3.1.3.2 Proceso de Decisión 3.2 Tecnología CIADEC Usada en Minería de Datos 3.4.1 Clasificación Aprovechando el Conocimiento Declarativo de los Expertos 3.4.2 Representación del Conocimiento del Experto e Interpretación ..…………… ..…………… 64 3.4.3 Metodología de Clasificación Basada en Reglas ..…………… 65 3.5 Proceso Knowledge Discovery in DataBase (KDD) ..…………… 66 3.6 Conceptos Básicos de Lógica Difusa ..…………… 69 3.6.1 Lógica Difusa ..…………… 70 3.6.2 Razonamiento Difuso ..…………… 71 3.6.3 Las Etiquetas Lingüísticas, la Visualización e Interpretación de Resultados en Sistema Híbridos 3.6.4 Etiquetas Lingüísticas ..…………… ..…………… 76 3.6.5 Aplicación ..…………… 78 64 73 Capítulo IV. Modelo de la Tecnología CIADEC 4.1 Introducción ..…………… 84 4.2 Propuesta del Modelo ..…………… 84 ..…………… 101 ..…………… 101 5.1.1.1 Diseño de Experimentos ..…………… 101 5.1.1.2 Factor de Bloque ..…………… 103 5.1.1.3 Metodología CIADEC ..…………… 103 5.1.1.3.1 Criterios de Agregación ..…………… 104 5.1.1.3.2 Método K-Folds Cross-Validation ..…………… 105 ..…………… 105 ..…………… 106 Capítulo V. Resultados y Discusión 5.1 Caso de Estudio. Del Dominio del Ámbito Laboral 5.1.1 Conceptos Básicos 5.1.1.4 Metodología KDSM 5.2 Aproximación al Dominio del Ámbito Laboral 5.2.1 Descripción de los Datos del Ámbito Laboral 5.3 Aplicación de la Metodología de KDSM al Dominio del Ámbito Laboral 5.3.1 Caracterización de la Estructura de los Municipios para el Establecimiento de las Condiciones Iniciales 5.4 Proceso de Caracterización Usando la Metodología CIADEC 110 ..…………… ..…………… 112 113 ..…………… 115 5.4.1 Identificación de las Características Relevantes de los Cursos ..…………… 123 5.4.2 Eficiencia del Sistema ..…………… 125 6.1 Conclusiones ..…………… 161 6.2 Trabajo Futuro ..…………… 162 Conclusiones ..…………… 164 Anexo. Manual de usuario del sistema CIADEC 2.0 ..…………… 166 Bibliografía ..…………… 209 Capitulo VI. Conclusiones y Trabajo Futuro RESUMEN Uno de los problemas principales de las técnicas de clustering es que la validación de resultados es un problema sin resolverse, ya que no existe un criterio objetivo para determinar la calidad de las clases de una clasificación. Es fácil evaluar un conjunto de clases en términos de criterios de exactitud siempre que exista una partición de referencia de los datos y si la comparación es posible. Pero desafortunadamente, en la mayoría de las situaciones donde se requiere hacer clustering (técnicas que intentan determinar si existen grupos) no existe y esta aproximación no es útil. Solamente la utilidad de una clasificación puede usarse para decidir si es correcta o no. Evaluar la utilidad de una clasificación dada requiere de un mecanismo que permita comprender el significado de las clases identificadas para finalmente decidir si son útiles o no. Este proceso, conocido comúnmente como Interpretación de las clases resultantes, generalmente lo realiza el analista informático, en una forma no sistemática, usando sus conocimientos y experiencia para poner de manifiesto las principales diferencias entre clases, y posteriormente, en estrecha colaboración con el experto en la materia, analiza las clases, estudia su significado para darles una interpretación. Este proceso llega a dificultarse cuando el número de clases aumenta y el número de variables utilizado para describir los datos también aumenta. Por tal motivo, se aplica el modelo propuesto, CIADEC (Caracterización e Interpretación Automática de Descripciones Conceptuales), al análisis de medidas seriadas muy cortas y repetidas con factor de bloque, presentes en un dominio poco estructurado (DPE) del dominio del Ámbito Laboral para obtener conocimiento de la evolución de un programa de capacitación (BECATE), así como de su efectividad a través del análisis de la información relacionada con: la colocación de la gente capacitada, características de los municipios donde se dio la capacitación y las necesidades del sector productivo; lo anterior en el Estado de Chihuahua en un total de 17 Municipios. Palabras clave: Minería de Datos (Data Mining), aprendizaje supervisado, aprendizaje no supervisado, caracterización, interpretación, Tecnología CIADEC, Estadística, Inteligencia Artificial, Sistemas Híbridos, Métodos y técnicas de soporte a la toma de decisiones. INTRODUCCION La construcción de una plataforma integrada de soporte al análisis inteligente de dominios poco estructurados, incluyendo todo tipo de herramientas, desde las más básicas de análisis descriptivo hasta las más sofisticadas como la clasificación basada en reglas y herramientas de apoyo a la interpretación de resultados, relacionadas con la Minería de Datos y el proceso Knowledge Discovery in Databases (KDD) es el objetivo de la presente Tesis. Para el desarrollo de esta aplicación sobre el modelo de caracterización e interpretación de descripciones conceptuales en dominios poco estructurados (CIADEC) se deben tener en cuenta los conocimientos de los conceptos básicos sobre caracterización, de la herramienta estadística denominada boxplot para observar la relación entre variables y las clases y, en especial su utilidad para representar las diferencias entre grupos, del aprendizaje supervisado que permite que a partir de una clasificación de referencia se obtengan un conjunto de reglas para decidir la clase a la que pertenece cada elemento en el Universo del discurso, del proceso Knowledge Discovery in Data Base (KDD) en el cual este modelo tiene su marco natural de referencia y conceptos básicos sobre Lógica Difusa, que permite establecer el modelo de etiquetas lingüísticas útil para la visualización de resultados. La propuesta del modelo aporta un Sistema de Caracterización de clases, basado en predicados de lógica de primer orden ( CP1 ), que permiten máxima potencia y flexibilidad para detectar variables cuantitativas caracterizadoras en algunas clases, permitiendo un procedimiento de generación automático de reglas, que formarán parte de la base de conocimiento de un sistema orientado a la predicción o diagnóstico. Además, la automatización de este sistema de caracterización ofrecerá un conjunto de herramientas de apoyo a la interpretación como: la construcción de un sistema de reglas, visualización de las funciones de pertenencia de una variable Xk a las distintas clases C, evaluación de individuos nuevos de acuerdo a las reglas generadas y validación de la calidad de la predicción teniendo como base un conjunto de nuevos objetos. En esta parte se aplica el modelo propuesto al análisis de medidas seriadas muy cortas y repetidas con factor de bloque, presentes en un dominio poco estructurado (DPE) del dominio del Ámbito Laboral para obtener conocimiento de la evolución de un programa de capacitación (BECATE), así como de su efectividad a través del análisis de la información relacionada con: la colocación de la gente capacitada, características de los municipios donde se dio la capacitación y las necesidades del sector productivo. CAPÍTULO I INTRODUCCIÓN En este trabajo de tesis se presenta una aplicación de la Tecnología CIADEC [1] (Caracterización e Interpretación Automática de Descripciones Conceptuales) y el modelo teóricoconceptual, que incluye una nueva forma de extraer conocimiento útil de los así llamados dominios poco formalizados o estructurados. Este modelo permite identificar las características relevantes de las clases resultantes obtenidas de una partición de referencia, lo cual conlleva a la generación automática de las descripciones e interpretaciones conceptuales de estas clases; lo anterior, basado en una combinación de diferentes herramientas y técnicas de Estadística (boxplot múltiple [162], análisis de datos), Inteligencia Artificial (aprendizaje automático, sistemas basados en conocimientos) y Lógica Difusa (modelos y razonamiento aproximado). 1.1 ANTECEDENTES La comprensión de la naturaleza de los métodos que utilizamos los seres humanos para clasificar datos o conocimientos, es un problema de gran interés teórico y práctico para todas las ciencias cognitivas, ya que la acción de clasificar es una de las etapas iniciales de los procesos de adquisición de conocimiento en cualquier campo científico [2]. Teóricamente, la comprensión del concepto ―clasificar‖ contribuye a entender mejor lo que implica el ―aprendizaje‖; de hecho, es difícil concebir una forma de aprendizaje sin haber pasado antes por una forma previa de clasificación [3]. Por otro lado, en la práctica, el desarrollo de sistemas automáticos de clasificación es, hoy por hoy, una necesidad imperiosa de la sociedad actual ya que en muchos procesos la cantidad de datos que se genera es tan grande, que resulta muy difícil manipularlos y transmitirlos sin el auxilio de esta clase de sistemas. La clasificación automática se desarrolla normalmente en dos grandes enfoques [4]: a) A partir de una clasificación de referencia de un universo de discurso, definir reglas para decidir la clase a la que pertenece cada elemento del discurso (aprendizaje supervisado); y b) Dado un universo de discurso, construir una clasificación adecuada del mismo (aprendizaje no supervisado). Diversas disciplinas del conocimiento humano han contribuido para la creación, diseño y desarrollo de reconocedores y clasificadores automáticos de patrones, dentro de ambos enfoques. De relevancia para este trabajo de tesis, son las contribuciones de la Estadística, la Inteligencia Artificial y la Lógica Difusa. En el campo de la estadística, personajes como Galton [57], Pearson [58], Mahalanobis [59] y Fisher [60] han sido pioneros en la aplicación de métodos estadísticos en el reconocimiento y clasificación de patrones, y actualmente se aplican diversas técnicas desarrolladas por ellos y sus seguidores, como son: boxplot múltiple, análisis de regresión, análisis de componentes principales y análisis discriminante, entre otras. Más recientemente, se han desarrollado algunas técnicas estadísticas, siendo notable la presencia de clustering [61], dentro del aprendizaje no supervisado. En lo que respecta al aprendizaje supervisado, son dignos de mención algoritmos como el bayesiano [85], el euclidiano [86], el k-NN (los k vecinos más cercanos) [99-103], los árboles de decisión [104,105], y otros algoritmos cuyo fundamento queda en disciplinas diferentes de la estadística, como las máquinas de soporte vectorial [106], las redes neuronales [67,92,93] y las memorias asociativas [94-98]. Desde su creación a mediados de los 50 del siglo pasado, los científicos pioneros de la inteligencia artificial como Von Neumann [64] y Minsky [65], además de una pléyade de científicos afines a sus ideas, han incidido mediante sus propuestas científicas en las áreas de reconocimiento y clasificación de patrones [72]; así, a través del tiempo se han incorporado: el aprendizaje automático [5-8], los sistemas expertos [9-11,66], la Inteligencia Artificial evolutiva (algoritmos genéticos) [68,69], la inteligencia artificial Macro-distribuida (sistemas multi-agentes) [70,71] y el descubrimiento del conocimiento en base de datos (KDD) [33]. La Lógica Difusa, por su parte, como una extensión de la lógica multi-valuada de Lukasiewicz [144] que a su vez se derivó de la lógica booleana, ha permitido considerar desde una perspectiva más amplia a los problemas relacionados con el modelado del razonamiento. Formalizada por Zadeh en 1965, la Lógica Difusa refleja las imprecisiones de los datos generados en el mudo real [117-128]. Numerosos equipos de investigación científica actualmente trabajan en el diseño de sistemas donde se aplican de manera directa los conceptos y resultados de la lógica y el razonamiento difusos, siendo relevante su uso en áreas como control [129,130] y sistemas de clasificación basados en reglas difusas [131-142]. 1.2 MOTIVACIÓN Es un hecho indiscutible que la mayoría de los sistemas expertos de la primera generación como MYCIN [5], INTERNIST [6], [7], PLANT/DS [8] y algunos otros, son en la práctica, sistemas clasificadores. Esta clase de sistemas utilizan un conjunto de reglas implementadas como árboles de decisiones para determinar la clase a la que pertenece un individuo de un cierto dominio de estudio [9]. En el enfoque clásico a este problema, el experto humano es el responsable de decidir cuáles son las variables ―relevantes‖ para la formulación de las reglas de clasificación. Cuando se procede de esta forma, el diseñador del sistema requiere información que el experto no está preparado para proporcionar debido, fundamentalmente, a la falta de familiaridad con los términos que se utilizan en el sistema informático. Esto provoca graves problemas de comunicación al tratarse de personas que tienen formaciones diferentes, por lo que la extracción de conocimiento se hace difícil de superar y consume mucho tiempo. Por lo tanto, la clasificación de ejemplos se presenta como una herramienta alternativa posible para la extracción del conocimiento de las descripciones que los expertos podrán dar a sus dominios. Esta es la razón de que hayan surgido diversas metodologías que permiten el análisis de la información con miras a crear agrupaciones de observaciones para su posterior caracterización e interpretación [10]. Un enfoque diferente es el de la Inteligencia Artificial ya que, se ha decidido por el uso de técnicas de aprendizaje inductivo para la automatización de procesos. De esta manera, a partir de una colección de individuos de un dominio propuestos por el experto o extraídos directamente de dicho dominio y, de estas técnicas, se puede descubrir el conocimiento oculto en los datos y en consecuencia conocer la estructura semántica del dominio, útil en la construcción de bases de conocimiento, disminuyendo en este sentido su costo. Este mecanismo parece más viable ya que se ha observado que los expertos tienen más facilidad para dar ejemplos de instancias de su dominio que para expresar los conceptos o reglas que les permiten identificarlas [11]. En el caso del dominio donde la estructura semántica esté claramente definida y exista una manera de discernir entre las diferentes categorías que lo componen, esta metodología es clara y provechosa a la hora de construir bases de conocimiento para sistemas basados en conocimiento, disminuyendo la interacción experto-diseñador del sistema. Todos los problemas de adquisición de conocimiento mencionados se agravan si el dominio sobre el que se está tratando es un Dominio poco Estructurado (ILL-Structured Domains, ISD). Estos dominios se caracterizan por [11], [12]: No existir consenso entre los expertos para la definición de todos los conceptos y objetos que los componen y las relaciones entre éstos. Complejidad del área de conocimiento en concreto, ya sea por la falta de una metodología de investigación aceptada por todos los expertos o por un continuo cambio en el conocimiento o en su extensión. Las variables que describen a los individuos pueden ser cuantitativos o cualitativos. Los expertos suelen disponer de grandes cantidades de conocimiento implícito, además de manejar diversos grados de especificidad, lo que hace a este conocimiento parcial y no homogéneo. De esta forma la alternativa que parece más prometedora para resolver estas limitaciones es liberar al experto de este trabajo, mediante el desarrollo de técnicas que a partir de la evidencia empírica en forma de ejemplos, identifiquen las variables más relevantes y formulen reglas que expresen las regularidades existentes en los datos. En las últimas décadas, el crecimiento explosivo de los avances científicos y tecnológicos ha generado sistemas complejos que han rebasado nuestra capacidad para analizarlos e interpretarlos, creando la necesidad de una nueva generación de métodos, técnicas y herramientas con la capacidad para asistir inteligente y automáticamente a los seres humanos en el análisis de estas bases de datos para extraer conocimiento útil que represente los dominios del mundo real. Descubrir la estructura semántica o extraer conocimiento de dominios reales y complejos (dominios poco estructurados) no es tarea fácil y se requiere el combinar técnicas y herramientas de diversos campos para construir Sistema Híbridos que permitan encontrar e interpretar patrones especiales (o conceptos) en las bases de datos; y así, extraer conocimiento útil que represente estos dominios, con mejor desempeño que las técnicas tradicionales o los enfoques clásicos de los sistemas basados en conocimiento [13]. Así, dada una partición (clasificación de referencia) de un conjunto grande de individuos, es necesario introducir herramientas para asistir al usuario en las tareas de interpretación, con objeto de establecer el significado de las clases resultantes. Frecuentemente, no es suficiente descubrir la construcción automática de clases, sino poder entender por qué se detectaron estas clases. Algunos paquetes estadísticos orientados al análisis multivariante y de propósito general como SPAD (Système Portable pour L'Analyse des Donees Textuelle) y SPSS (Statistical Package for Social Sciences) [14], incluyen varias herramientas orientadas a la interpretación de una clasificación dada, como la posibilidad de calcular la contribución de cierta variable a la formación de una clase. Sin embargo, en la etapa final, la interpretación misma deberá hacerla el usuario en una forma no-sistemática, usando su propia experiencia y la tarea llega a dificultarse cuando el número de clases resultantes aumenta, así como también cuando el número de variables también aumenta para describir los datos. Por otro lado, no se tiene información sobre un criterio objetivo para determinar la validación de clases, considerándola por lo tanto, como el grado de interpretabilidad o utilidad de éstas. Por lo anterior, el interés de este trabajo de tesis es presentar una aplicación de la tecnología CIADEC, la cual combina herramientas y técnicas de Estadística, Inteligencia Artificial y Lógica Difusa en forma cooperativa, de forma que, a partir de las variables cuantitativas de los datos que definen a los individuos pertenecientes a cierto dominio, sea posible identificar cuáles son las situaciones características (clases resultantes) que se pueden encontrar en él, analizarlas, estudiar su significado y, en consecuencia, conocer la estructura semántica del dominio al cual pertenecen dichos individuos. Una vez identificadas e interpretadas estas situaciones típicas, el conocimiento generado pueden ser usadas posteriormente como herramienta de apoyo al proceso de administración o toma de decisiones. Incluso se ha llegado a decir que la validación de una clasificación (problema abierto) consiste, precisamente, en probar que las clases tienen sentido o utilidad [15]. En esta dirección, esta aplicación sobre un dominio laboral pretende facilitar la generación automática de descripciones e interpretaciones conceptuales en este dominio real y complejo. El caso de estudio es una aplicación de la metodología al estudio de un dominio laboral. A partir de una base de datos y una partición de referencia de los mismos, se genera un sistema de reglas difusas usando las variables cuantitativas recomendadas por el experto. Este sistema permitirá, para un nuevo individuo i (día), predecir la clase C (situación típica del dominio) que le corresponde y generar de forma automática las caracterizaciones e interpretaciones de las descripciones conceptuales correspondientes a esa clase. 1.3 PLANTEAMIENTO DEL PROBLEMA A partir de una matriz de datos X y una partición de referencia P se obtiene un conjunto de individuos con una clase asignada de acuerdo con el proceso de clasificación dado. Se plantea aplicar la metodología CIADEC para identificar en forma eficiente las características relevantes de las diferentes clases obtenidas de tal forma que proporcionen un Sistema de Caracterización de clases para obtener descripciones conceptuales directamente comprensibles al usuario-experto. Uno de los problemas principales de las técnicas de clustering es que la validación de resultados es un problema sin resolverse, ya que no existe un criterio objetivo para determinar la calidad de las clases de una clasificación. Es fácil evaluar un conjunto de clases en términos de criterios de exactitud siempre que exista una partición de referencia de los datos y si la comparación es posible [21]. Pero desafortunadamente, en la mayoría de las situaciones donde se requiere hacer clustering (técnicas que intentan determinar si existen grupos) no existe y esta aproximación no es útil. Solamente la utilidad de una clasificación puede usarse para decidir si es correcta o no [22]. Evaluar la utilidad de una clasificación dada requiere de un mecanismo que permita comprender el significado de las clases identificadas para finalmente decidir si son útiles o no. Este proceso, conocido comúnmente como Interpretación de las clases resultantes, comúnmente lo realiza el analista informático, en una forma no sistemática, usando sus conocimientos y experiencia para poner de manifiesto las principales diferencias entre clases, y posteriormente, en estrecha colaboración con el experto en la materia, analiza las clases, estudia su significado para darles una interpretación. Este proceso llega a dificultarse cuando el número de clases aumenta y el número de variables utilizado para describir los datos también aumenta. Es en esta línea donde se propone la aplicación de esta metodología híbrida que represente una nueva forma de extraer conocimiento útil directamente comprensible al usuario- experto usando una combinación de diferentes herramientas y técnicas de Estadística (boxplot múltiple, análisis de datos), Inteligencia Artificial (aprendizaje automático, sistemas basados en conocimientos) y Lógica Difusa (modelos y razonamiento aproximado) para soportar la toma de decisiones en estos dominios. 1.4 OBJETIVO Aplicar la metodología para identificar las características relevantes de las clases resultantes, obtenidas de una partición de referencia, la cual a partir del sistema de caracterización se genera de forma automática las descripciones conceptuales de estas clases con variables numéricas y categóricas, y la cual permita conocer la estructura semántica del dominio poco estructurado en estudio, de bajo costo y útil en tareas de predicción o diagnóstico. Obtener, además, contribuciones a la validación de clases, en relación a su representación formal y su calidad, considerando esta última como el grado de interpretabilidad o utilidad de las clases formadas. CAPÍTULO II MARCO DE REFERENCIA 2.1 Introducción La presente propuesta de tesis que se presenta se ubica dentro del contexto del desarrollo de los Sistemas Híbridos para la extracción de conocimiento. La línea de investigación inicia en 1995 [11] con el objetivo principal de estudiar los dominios poco estructurados. La primera propuesta constituye la tesina [25] y después la tesis doctoral de Gibert [11] que cristalizó en la formulación de la metodología de clasificación basada en reglas y una primera versión del sistema informático que la implementa, denominado Klass [26] y [27] y que se ha utilizado en diversas aplicaciones [17], [23], [24], [28], [29], [30] y [31] todas estas contribuciones constituyen un Proyecto Marco. El objetivo de este Proyecto Marco es construir una plataforma integrada de soporte al análisis inteligente de dominios poco estructurados, incluyendo todo tipo de herramientas, desde las más básicas de análisis descriptivo hasta las más sofisticadas como la clasificación basada en reglas y herramientas de apoyo a la interpretación de resultados, relacionadas con la minería de datos y el proceso Knowledge Discovery in Databases (KDD) [32], [33], [34] y [35]. Considerando las características especiales de este tipo de dominios, se han desarrollado métodos mixtos de análisis que combinan técnicas estadísticas con técnicas de Inteligencia Artificial para resolver los problemas que se plantean en este contexto [36] y [37]. Todo el software que se ha desarrollado en el seno del Proyecto Marco ha integrado lo que podemos llamar herramienta master, que actualmente es el joc.Klass+, y que aglutina herramientas de muy distinta naturaleza ofreciendo la interfaz necesaria en cada momento del análisis [27]. Esta herramienta informática ha venido evolucionando de forma continua desde su origen en la medida en que se ha avanzado en la investigación y experimentación de la línea de investigación antes mencionada. Evolución del Proyecto Marco KLASS v0. Tesina de Ingeniería en informática de Karina Gibert. ―Klass. Estudi d’un sistema d’ajuda al tractament estadístic de grans de dades‖. Clasifica matrices de datos heterogéneas usando una distancia mixta definida especialmente para ello [25], [38]. KLASS v1. Tesis doctoral en informática de Karina Gibert. ―L’us de la información simbólica en l’automatizació del tractament estadístic de dominis poc estructurats‖. Es una ampliación de KLASS v0. Incorpora la clasificación basada en reglas. Es una herramienta informática, orientada a la clasificación automática de dominios poco estructurados, implementada en LISP y lenguaje C. Ha sido desarrollada en el departamento de Investigación de Operaciones de la Universidad Politécnica de Cataluña e implementa la metodología de clasificación basada en reglas, la que representa una estrategia mixta de clasificación automática que usa una combinación de métodos basados en el conocimiento (Inteligencia Artificial) y clasificación ascendente jerárquica (tradicionalmente de la Estadística) [11], [26] y [39]. Xcn.KLASS. PFC de Ingeniería Informática de Xavier Castillejo. Incorpora a KLASS v1 una interfaz de ventanas independientes, implementada en C, que comunica con el núcleo LISP. Existe una versión PC de la interfaz que facilita el uso de KLASS (sobre SUN) desde PC’s a usuarios que desconocen LISP y UNIX [40]. jj.KLASS. PFC de la Diplomatura de Estadística de Juan José Márquez y Juan Carlos Martín. Incorpora a la versión KLASS v1 nuevas opciones para el tratamiento de datos faltantes, la posibilidad de trabajar con objetos ponderados e implementa un test no paramétrico de comparación de clasificaciones [41] y el cual se aplicó al análisis de disfunciones de tiroides [30] y [42]. xt.KLASS. PFC de Ingeniería en Informática de Xavier Tubau. Incorpora a la versión xcn.KLASS cuatro métricas mixtas más y el módulo nuevo de comparación de clasificaciones [32] de jj.KLASS [43]. También se diseñó un experimento para estudiar el comportamiento de las distintas métricas, así como el análisis estadístico de los resultados. KLASS+. PFC de Ingeniería Técnica en Informática de Sistemas de Silvia Bayona. Fusión definitiva de las versiones xt.KLASS y jj.KLASS. Además incorpora un módulo nuevo de análisis descriptivo y de ayuda a la interpretación de datos [17], [44] y [45] y de clases resultantes con el propósito de reorientar KLASS, haciéndola más general [21]. Sobre esta versión, el proyecto de la Diplomatura Estadística de Begoña Gómez [46] consistió en el desarrollo de herramientas de muestreo y de clasificación basada en bootstrap, las cuales aún están por integrarse. PFC de Diplomatura de Estadística de Miguel Ángel Nieto. Compilación de técnicas de minería de datos y de descubrimiento de conocimiento [47]. Joc.KLASS+. PFC de Ingeniería en Informática de Universidad Autónoma de Barcelona (UAB) de Joseph Oliveras. Incorpora a la versión sbh.KLASS+ tres métricas mixtas más [37] y [48], la métrica generalizada de Minkowski propuesta por Ichino y Yaguchi [49]. COLUMBUS. Tesis doctoral del programa de Inteligencia Artificial de la UPC de Jorge Rodas. Diseño de la metodología para el descubrimiento de conocimiento en medidas seriadas muy cortas y repetidas con factor de bloque (KDSM). Construcción de un primer satélite de joc.KLASS+, denominado COLUMBUS que implementa la metodología KDSM [50]. CIADEC. Tesis doctoral en el programa de doctoral en computación del Centro de Investigación en Computación (CIC) del IPN, de Fernando Vázquez. Desarrollo de la metodología para la caracterización e interpretación automática de descripciones conceptuales en dominios poco estructurados con variables numéricas (AUGERISD). Construcción en Java de un satélite de joc.KLASS+ denominado CIADEC que implementa la metodología AUGERISD. Actualmente existe ya un prototipo de CIADEC que se encuentra en fase de experimentación y pruebas. [51], [52], [53], [54], [55], [56] y [57]. Java.KLASS. Proyecto que consiste en traducir al lenguaje de programación Java el núcleo LISP de la versión más reciente de KLASS, se integrarán todos los módulos y satélites (COLUMBUS y CIADEC) en Java con una interfaz general con total transparencia para el usuario. En la Figura 2.1 se aprecia el panorama general de la evolución del Proyecto Marco. Clasificación de datos mixtos KLASS v0 (1991) Interfase independiente de ventanas Clasificación basada en reglas KLASS v1 Comparación de clasificaciones Clasificación ponderada (1994) Tratamiento de Missings Nueva métrica mixta Ralambondrainy xcn.KLASS (1996) xt.KLASS (1999) jj.KLASS (1997) Comparación de clasificaciones Descriptiva de datos Descriptiva de clases Clasificación ponderada KDSM COLUMBUS (2002) sbh.KLASS (+) (2001) CIADEC (2008) (2008) joc.KLASS(+)-JAVA Figura 2.1. Cronología del Proyecto Marco 2.2 DESCRIPCIÓN DE LA METODOLOGÍA CIADEC Partiendo de los trabajos previos sobre la interpretación a partir de variables cualitativas [11], en donde se analizó la caracterización de clases a partir de conceptos fundamentales como: conjunto de valores propios (caracterizador, parcialmente caracterizador, no propio y genérico), variable caracterizadora (v.c.), variable ε-caracterizadora, sistema caracterizador; además, en [51] se demostró que el boxplot múltiple es una herramienta ágil y potente con variables numéricas para identificar elementos útiles, considerándolo como la base de esta propuesta metodológica para la detección de las variables caracterizadoras en variables cuantitativas que se proponen en CIADEC. La aproximación a lo que sería un proceso automático de interpretación de clases tiene su origen en la idea del boxplot múltiple. Así, la metodología aunque inspirada en esta herramienta gráfica estadística ha sido automatizada usando algoritmos no gráficos, calculando los valores mínimo y máximo de cada clase, procediendo a una ordenación ascendente del total de estos valores a las distintas clases. Los extremos de los intervalos de longitud variable a generar serán los valores contiguos dos a dos. Con ello se construye la tabla de contingencia entre los intervalos y las clases, lo que dará el número de observaciones que hay en cada clase para cada intervalo. A partir de esta tabla se obtienen las distribuciones condicionadas a cada intervalo y que resulta en el porcentaje de elementos de cierto intervalo en cada clase. Así, podemos asociar a un objeto o individuo cualquiera su grado de pertenencia a cada clase. Esta idea da lugar a un gráfico de grados de pertenencia difusos para cada clase y cada variable. A partir de aquí es fácil conectar la metodología con un modelo de creación de etiquetas lingüísticas que generen automáticamente las interpretaciones de las descripciones conceptuales de las clases. 2.3 ESTADÍSTICA E INTELIGENCIA ARTIFICIAL El término Estadística se deriva del latín Status, que se refiere a política y situación social, al Estado, empieza como una ciencia de recolección de datos económicos y demográficos. En su evolución y aún hoy en día se considera una ciencia relacionada con la recolección y el análisis de datos, para extraer información y presentarla en forma comprensible y sintética [58]. A fines del siglo XVIII surge un periodo científico fértil en el campo de la Estadística. En este tiempo F. Galton [59] presentó sus primeros trabajos sobre Análisis de Regresión, y K. Pearson [60] presentó, entre otros trabajos, en 1901, una versión preliminar del Análisis de Componentes Principales. Su principal discípulo, R. A. Fisher [61], cuyos trabajos son considerados la base de la Estadística moderna, junto con P. Ch. Mahalanobis [62] en 1936, presentaron los primeros trabajos acerca del Análisis Discriminante en el cual existe una variable respuesta, que indica la clase de todo objeto y encuentra la mejor combinación lineal de todas las variables para distinguir la clase. Así, desde hace mucho tiempo se utiliza la formación y distinción entre diferentes clases de objetos (clustering), tomando actualidad cuando las computadoras llegan a ser más poderosas. En 1963, R.R. Sokal y P.H. Sneath [63] presentaron The Numerical Taxonomy la cual puede ser considerada como la primera formulación moderna de clustering. La Inteligencia Artificial es una disciplina formal que surge a mediados de los años 50’s. Al inicio estuvo bajo el paradigma de Von Newmman [64] y técnicas de puntuación secuencial y su característica a través de su génesis histórica en la búsqueda para construir máquinas que ―piensen‖. En 1961, M. Minsky [65] divide la Inteligencia Artificial en cinco tópicos: búsqueda, reconocimiento de patrones, aprendizaje, planeación e inducción. La mayoría de los trabajos serios sobre Inteligencia Artificial de acuerdo con este esquema estuvieron relacionados con búsqueda heurística. Uno de los primeros éxitos en la aplicación a la solución de problemas orientados al diagnóstico fue MYCIN [66] en 1976 (diagnóstico de infecciones), y otras técnicas como: sistemas expertos, representación del conocimiento, aprendizaje automático, razonamiento, procesamiento de lenguaje natural, etc. Sin embargo, las representaciones simbólicas mostraron serias limitaciones cuando hicieron frente a problemas reales y complejos, principalmente porque la mayoría de los problemas en Inteligencia Artificial son NP- completos. En los años 70’s aparece el paradigma del paralelismo (arquitectura de computadoras en paralelo), algunas veces llamado Inteligencia Artificial micro-distribuida y denominada por algunos autores, por su metáfora implícita como: redes neuronales artificiales (ANN) [67]. Entre el paradigma del paralelismo y del simbolismo, aparecieron la Inteligencia Artificial evolutiva [68] y [69] y la Inteligencia Artificial macro-distribuida [70] y [71]. La primera se caracteriza por los algoritmos genéticos y la segunda por los sistemas multi-agentes y otras técnicas. De los campos de aplicación de estas disciplinas se puede establecer que los objetivos de la Inteligencia Artificial como de la Estadística son: la primera desarrollar programas que “aprendan” y enriquezcan el conocimiento propio y el del usuario y de la segunda, presentar de forma sintética y comprensible la colección y análisis de todo tipo de información [72]. 2.4 LOS SISTEMAS HÍBRIDOS Es claro que actualmente, las nuevas tecnologías aumentan significativamente nuestra capacidad de producir, coleccionar y almacenar datos. Enormes cantidades de datos están disponibles para ser analizados y extraer conocimiento en corto tiempo. Obtener conocimiento de conjuntos de datos grandes o pequeños y además, poco estructurados es una tarea muy difícil. La combinación de técnicas de análisis de datos (ej. clustering), aprendizaje inductivo (ej. sistemas basados en conocimiento), administración de base de datos y representación gráfica multidimensional, deberán producir beneficios en esta dirección y a corto plazo. Existen diversas herramientas informáticas que tratan algunas de las situaciones mencionadas como por ejemplo: Clementine [73], Intelligent Manager [74], SPAD [14], SPSS [75], [76] y WEKA [77] entre otras son algunas de las más famosas hoy en día, las cuales presentan principalmente una combinación de técnicas existentes, permitiendo comparación de resultados y la selección del mejor método en cada caso. Sin embargo, en situaciones reales, es común trabajar con dominios complejos [27], tales como trastornos mentales [42], esponjas marinas [11], disfunciones tiroidales [30], pruebas psicofisiológicas [31] y muchas más, donde las bases de datos tienen tanto variables cualitativas como cuantitativas; y el experto tiene algún conocimiento a priori (en general parcial) de la estructura del dominio –el cual es difícil tomarse en cuenta por métodos de clustering– y difícil de incluir en una base de conocimiento. Durante la década pasada, en una gran variedad de dominios de aplicación, los investigadores en aprendizaje automático, teoría del aprendizaje computacional, reconocimiento de patrones y la estadística han hecho un esfuerzo por establecer un puente de comunicación entre investigadores de la Inteligencia Artificial y la Estadística, Douglas H. Ficher [78] y Bill Gale [79] – entre otros– han establecido una línea de investigación conformada por ambas ciencias, creando la Society for Artificial Intelligence and Statistics (Asociación para la Inteligencia Artificial y la Estadística) que tiene como objetivo impulsar la investigación para poder combinar técnicas de estas disciplinas en la creación de Sistemas Híbridos (sistemas que son combinación de enfoques de técnicas y/o métodos de diversas disciplinas como la Inteligencia Artificial, la Estadística y la Lógica principalmente) que mejoren las funciones y desempeño de los sistemas actuales en las diversas áreas tanto de la Inteligencia Artificial como la Estadística y algunas otras que estén soportadas por estas disciplinas, dando lugar a una tercera opción que es el trabajo interdisciplinario [80]. ―Nos parece que hay un potencial de desarrollo enorme en la intersección de la Inteligencia Artificial, la Ciencia de la Computación y la Estadística‖ [81]. “Cheeseman y Oldfor” 2.5 EL PROCESO DATABASES) KDD (KNOWLEDGE DISCOVERY IN Se estima que la cantidad de información en el mundo se dobla cada 20 meses [35]; esto significa que científicos, gobierno y sistemas de información corporativos están siendo inundados por una gran cantidad de datos que son generados y almacenados rutinariamente, los cuales aumentan las bases de datos. Estos volúmenes de datos rebasan los métodos manuales tradicionales de análisis de datos como hojas de cálculo y cuestionarios ad-hoc, los cuales pueden crear reportes informativos de datos, pero no pueden analizar los contenidos de estos reportes para obtener conocimiento importante. De ahí que existe una necesidad significativa para una nueva generación de técnicas y herramientas con la capacidad de asistir inteligente y automáticamente a las personas en el análisis de la gran cantidad de datos para obtener conocimiento útil. Estas técnicas y herramientas son temas de un campo emergente el de descubrimiento del conocimiento en base de datos (KDD) [33], el cual se describirá en el marco teórico. 2.6 RECONOCIMIENTO ESTADÍSTICO DE PATRONES El objetivo fundamental del reconocimiento de patrones es clasificar perfiles de comportamiento de los objetos. Entre los diferentes contextos en los cuales el reconocimiento de patrones ha sido formulado, el enfoque estadístico ha sido estudiado y usado en la práctica y el cual se utilizara como fundamento en el desarrollo del modelo propuesto y se explicará en el marco teórico. La literatura sobre el reconocimiento de patrones es vasta y dispersa encontrándose en numerosas revistas de diferentes disciplinas (ej. estadística aplicada, aprendizaje automático, redes neuronales y procesamiento de señales e imágenes). Un rápido vistazo de la tabla de contenidos de todos los temas de la IEEE, Transactions on Pattern Analysis and Machine Intelligence, desde su primera publicación en enero de 1979, revela que aproximadamente 350 artículos tratan sobre el reconocimiento de patrones. Aproximadamente 300 de estos artículos cubren el enfoque estadístico y pueden ser categorizados en los subtemas siguientes: problema de dimensionalidad (15), reducción de la dimensionalidad (50), diseño de clasificadores (175), combinación de clasificadores (10), estimación de error (25) y clasificación no supervisada (59). Además los excelentes libros de Duda y Hart [88], Fukunaga [99], Devijver y Kittler [100], Devroye, Gyorfi y Lugosi [87], Bishop [101], Ripley [102], Schuhfried [103] y McLachlan [104], Nagy [105] y Kanal [106] en 1974 entre otros investigadores han contribuido notablemente al estado del arte de este tema. La Tabla 2.1 resume los clasificadores más comúnmente usados. Muchos de ellos representan, en realidad, una familia completa de clasificadores y permiten al usuario modificar diferentes parámetros asociados y funciones de criterios. Todos (o casi todos) los clasificadores son aceptables en el sentido de que existen algunos problemas de clasificación para los cuales son la mejor opción. Método Árbol de decisión Discriminante lineal de Encuentra Propiedad un conjunto de umbrales para una secuencia de iterativo; características dependiente. necesidad de poda; rápida prueba. Clasificador lineal que usa optimización MSE. Parzen Regla de los k-vecinos próximos Clasificador logístico entrenamiento sensitivo: Simple y rápido; similar a Bayes para las distribuciones Gaussianas con matrices Fisher Clasificador Comentarios Procedimiento de entrenamiento de covarianzas idénticas. La regla de Bayes para la densidad de Parzen estima con Óptima asintóticamente; dependiente de la escala; prueba rápida. desempeño al núcleo optimizado. Asigna patrones a la clase mayoritaria entre los k vecinos próximos usando un Óptima asintóticamente; dependiente de la escala; prueba lenta. valor optimizado para k. Regla de probabilidad máxima Clasificador lineal; procedimiento para probabilidades a posteriori iterativo; óptimo para una familia de logísticas (sigmoidales). diversas distribuciones (Gaussianas); tipos de datos mixtos. Clasificador de Bayes Asigna patrones a la clase que Pertenece a los clasificadores sencillos tiene (lineales probabilidad a posteriori estimada máxima. o cuadrática) para distribuciones Gaussianas; sensitivo a la densidad de estimación de errores. Método del Asigna patrones a la clase más En vez de normalización de invariantes, cercana del subespacio. es Subespacio usado el sub-espacio de las invariantes; dependiente de la escala (métrica). Clasificador cercano Asigna patrones a la clase más Sin necesidad de entrenamiento; prueba cercana media. rápida medio dependiente de la escala (métrica) Clasificador Maximiza el margen entre las Dependiente de la escala; iterativo; lento vector de clases seleccionando un número entrenamiento; no lineal e insensitivo. soporte mínimo de vectores. Recuperar patrones completos a Metodología Memorias partir de patrones de entrada que computacional, un grado mínimo de asociativas pueden estar alterados con ruido heurística y factible de implementarse en aditivo, sustractivo o combinado. hardware. Tabla 2.1. Métodos de clasificación. de bajo costo 2.7 MINERIA DE DATOS La Minería de Datos es un conjunto de técnicas agrupadas con el fin de crear mecanismos adecuados de dirección, entre ellas puede citarse la estadística, el reconocimiento de patrones, la clasificación y la predicción [47]. Para descubrir patrones de relaciones útiles en un conjunto de datos se empezaron a utilizar métodos que fueron denominados de diferente forma. El término Data Mining, en inglés, no era, al principio, del agrado de muchos estadísticos, porque sus investigaciones estaban dirigidas a procesar y reprocesar suficientemente los datos, hasta que confirmasen o refutasen las hipótesis planteadas. Desde este ángulo, la Minería de Datos aplica una dinámica que se mueve en sentido contrario al método científico tradicional. Con frecuencia, el investigador formula una hipótesis; luego, diseña un experimento para captar los datos necesarios y realizar los experimentos que confirmen o refuten la hipótesis planteada. Este es un proceso, que realizado de forma rigurosa, debe generar nuevos conocimientos. En la Minería de Datos, por el contrario, se captan y procesan los datos con la esperanza de que de ellos surja una hipótesis apropiada. Se desea que los datos nos describan o indiquen el porqué presentan determinada configuración y comportamiento. Como afirma Eduardo Morales: ―La más inocente mirada a los datos puede inspirar una hipótesis. Recuérdese que los humanos tienen un gran poder para generalizar e identificar patrones. Luego entonces, validar una hipótesis inspirada por los datos en los datos mismos, será numéricamente significativa, pero experimentalmente inválida [154].‖ Las técnicas de Minería de Datos no pueden utilizarse para confirmar o rechazar hipótesis, porque puede conducir a errores fatales. Su función se trata de explorar datos, darles sentido, convertir un volumen de datos, que poco o nada aportan a la descripción, en información para interpretar un fenómeno, para adoptar decisiones de acuerdo con las necesidades. 2.7.1 Sistemas de Minería de Datos 2.7.1.1 WEKA Visualiza únicamente la clase de pertenencia y gráficos de los comportamientos. Después de haber sometido una base de datos a este sistema, se visualiza únicamente la clase a la que pertenece cada uno de los individuos contenidos en la base de datos. Con la ayuda de una gráfica, se pueden observar las agrupaciones o clases encontradas por el sistema, cada una de las cuales se diferencia ya que se muestran en distinto color. 2.7.1.2 CLEMENTINE Visualiza reglas de pertenencia a las clases. Al analizar una base de datos clasificada, este sistema visualiza una serie de reglas de pertenencia a las clases, para que el usuario de acuerdo con su criterio clasifique nuevos individuos. 2.7.1.3 CIADEC Visualiza la clase de pertenencia, reglas y gráficos. Al analizar una base de datos clasificada, este sistema visualiza: sistemas reglas, gráficos de pertenencia a las clases e interpretación de resultados. Al analizar un nuevo individuo, el sistema proporciona la clase a la que pertenece para que con el sistema de gráficos interprete los resultados, observando el grado de pertenencia a las clases. 2.7.1.4 CVIZ Una herramienta de visualización diseñada para el análisis de datos de alta dimensión en grandes y complejos conjuntos de datos. Otorga al analista de datos una herramienta única para ver todo el conjunto de puntos de datos a través de las dimensiones más interesantes en un corto período [155]. 2.8 SISTEMAS DE CLASIFICACIÓN BASADOS EN REGLAS Hoy los métodos de clasificación automática son utilizados en todas sus variedades para conocer la estructura de grandes bases de datos, lo cual incide en los objetivos básicos de los procesos emergentes de Minería de Datos que tan de moda ha puesto la Sociedad de la Información y las Nuevas Tecnologías. Clustering. Es un término usado para denotar la función de un gran número de técnicas que intentan determinar si existen grupos o clusters en un conjunto de datos y, en el caso que así sea, determinarlos. A pesar de las diferencias en cuanto a las aplicaciones, los tipos de datos y las técnicas utilizadas, existen cinco pasos básicos [107] que caracterizan todo análisis de clúster [108]: 1. Selección de la muestra sobre la que se hará la clasificación. 2. Definición del conjunto de variables con los que se describirán las entidades de la muestra. 3. Cálculo de las disimilitudes o distancias entre las entidades con base en dichas variables. 4. Selección de un algoritmo de clustering y detección de grupos. 5. Validación de los resultados proporcionados por el algoritmo. Un aspecto importante a puntualizar es que, de todas las clasificaciones posibles que se pueden hacer con un conjunto de objetos, no existe la buena clasificación sino que, dependiendo de los objetivos del estudio o uso que se quieran hacer, se escoge una u otra. La recomendación general es que se elija la que resulte útil en cada contexto. Existen diferentes familias de métodos en la elección de una distancia [11]: Métodos de particiones. Se busca la participación óptima del conjunto que se estudia en un número prefijado de clases k. Hay dos tipos: - Métodos de particiones directas: Las clases que se forman serán disjuntas, y pueden ser aglomeradas o divisivas. - Métodos de participaciones en clase solapadas: Las clases que forman serán disjuntas, y pueden ser aglomeradas o divisivas. Métodos de clasificación jerárquica. Se busca el árbol que refleja la estructura jerárquica de los datos. Según el nivel por que se corte el árbol se obtendrá una partición más o menos precisa del conjunto objeto de estudio. Una ventaja respecto al anterior método es que no hace falta determinar el número de clases que se quiere obtener al final. Otros Métodos. Métodos de clasificación piramidal, métodos de árboles aditivos y de clases latentes. El principal problema para desarrollar métodos de clasificación automática es que el concepto de clúster no es fácil de definir. Algunos enfoques para definir un clúster pueden basarse por sus propiedades como: máxima cohesión interna y máximo aislamiento externo, propiedades propuestas por [109] y [110]. Además, las clases pueden presentar formas y magnitudes muy diferentes y se puede entender la dificultad de que exista una definición general de clusters que los incluya a todos. El problema de fondo es que el investigador puede no conocer la estructura de los datos a priori y existe el peligro de interpretar la existencia de diferentes clusters cuando estos no existen realmente. En [111] se plantea hasta qué punto las clases obtenidas en un proceso de clasificación refleja clases reales presentes en los datos, o si por el contrario, las clases obtenidas son el simple resultado de aplicar un algoritmo a los datos, es decir, una partición de una realidad continua. También, se afirma que la experiencia prueba que, aunque se esté en este último caso, la tipología obtenida puede ser igualmente útil, ya que aunque no se pueda hablar de clases realmente diferenciadas entre ellas, la partición obtenida suele facilitar la comprensión y estructura de los datos y por tanto su operatividad. En este caso se habla de clases instrumentales en vez de clases reales. Algoritmo genérico de clasificación ascendente jerárquica. Una clasificación jerárquica es una secuencia de clasificaciones en la que los clusters más grandes se forman a través de la fusión consecutiva de clusters más pequeños. Existen muchos algoritmos de clasificación ascendente jerárquica cada uno con sus propias variantes y que conducen a diferentes clasificaciones. Sin embargo, si se quisiera presentar un algoritmo genérico para los métodos de clasificación ascendente jerárquica, este podría ser el que se plantea en clustering jerárquico de aprendizaje de ejemplos [112]. Uno de los algoritmos que se enmarca en este esquema de clasificación es el conocido como de los vecinos recíprocos encadenados que se describe a continuación. Vecinos recíprocos. El algoritmo de los vecinos recíprocos utiliza un concepto propio para determinar cuáles son los individuos que se agregan: Son vecinos recíprocos los individuos i , e i' si i es el objeto más próximo a i' en la muestra, i' es a su vez el más próximo a i . De este modo, en la clasificación por vecinos recíprocos, siempre se agregarán parejas de vecinos recíprocos. La principal propiedad de este método es que el resultado no depende del orden como se procesan los datos (ni del orden como se producen las agregaciones) porque se está trabajando con un criterio global sobre todos los datos. La Figura 2.2 ilustra como en este algoritmo se produce un encadenamiento de objetos que va del objeto más cercano al siguiente más cercano de éste hasta que se forme un lazo. El lazo es precisamente la expresión gráfica de las parejas de vecinos recíprocos. Cuando se halla uno, se produce una agregación con la consecuente creación de una nueva clase. Es frecuente representar en forma de árbol la secuencia de agregaciones de un proceso así. Estos árboles reciben el nombre de dendogramas. En estos contextos identificar cuáles son las parejas de elementos más próximos (o de vecinos recíprocos en este último caso) en cada iteración requiere la definición de una métrica sobre el espacio de las variables que permita calcular la distancia entre dos individuos. 1 2 3 … Figura 2.2. El proceso de los vecinos recíprocos encadenados 2.9 LA LÓGICA DIFUSA Y EL RAZONAMENTO DIFUSO Una de las disciplinas matemáticas con mayor número de seguidores actualmente es la llamada lógica difusa o borrosa, que es la lógica que utiliza expresiones que no son ni totalmente ciertas ni completamente falsas, es decir, es la lógica aplicada a conceptos que pueden tomar un valor cualquiera de veracidad dentro de un conjunto de valores que oscilan entre dos extremos, la verdad absoluta y la falsedad total. Conviene recalcar que lo que es difuso, borroso, impreciso o vago no es la lógica en sí, sino el objeto que estudia: expresa la falta de definición del concepto al que se aplica. La Lógica difusa permite tratar información imprecisa, como estatura media o temperatura baja, en términos de conjuntos borrosos que se combinan en reglas para definir acciones: si la temperatura es alta entonces enfriar mucho. De esta manera, los sistemas de control basados en lógica difusa combinan variables de entrada, definidas en términos de conjuntos difusos, por medio de grupos de reglas que producen uno o varios valores de salida. La lógica difusa fue investigada, por primera vez, a mediados de los años sesenta en la Universidad de Berkeley (California) por el ingeniero Lofty A.Zadeh cuando se dio cuenta de lo que él llamo principio de incompatibilidad: ‖Conforme la complejidad de un sistema aumenta, nuestra capacidad para ser precisos y construir instrucciones sobre su comportamiento disminuye hasta el umbral más allá del cual, la precisión y el significado son características excluyentes‖. Introdujo entonces el concepto de conjunto difuso (Fuzzy Set) bajo el que reside la idea de que los elementos sobre los que se construye el pensamiento humano no son números sino etiquetas lingüísticas. La lógica difusa permite representar el conocimiento común, que es mayoritariamente del tipo lingüístico cualitativo y no necesariamente cualitativo, en un lenguaje matemático a través de la teoría de conjuntos difusos y funciones características asociadas a ellos. Permite trabajar a la vez con datos numéricos y términos lingüísticos; los términos lingüísticos son inherentemente menos precisos que los datos numéricos pero en muchas ocasiones aportan una información más útil para el razonamiento humano. El aspecto central de los sistemas basados en la teoría de la lógica difusa es que, a diferencia de los que se basan en la lógica clásica, tienen la capacidad de reproducir aceptablemente los modos usuales del razonamiento, considerando que la certeza de una proposición es una cuestión de grado. Mas formalmente se puede decir que si la lógica es la ciencia de los principios formales y normativos del razonamiento, la lógica difusa o borrosa se refiere a los principios formales del razonamiento aproximado, considerando el razonamiento preciso (lógica clásica) como caso limite. Así pues, las características más atractivas de la lógica difusa son su flexibilidad, su tolerancia con la imprecisión, su capacidad para modelar problemas no-lineales, y su base en el lenguaje natural. Aunque la lógica difusa es conocida con este nombre desde que Zadeh la bautizo así en 1965, la idea que se esconde tras ella y sus orígenes se remontan hasta 2.500 años atrás [46]. Los filósofos griegos, Aristóteles entre ellos, consideraban que existían ciertos grados de veracidad y falsedad y Platón ya trabajo con grados de pertenencia. El termino borroso aplicado a la lógica y a la teoría de conjuntos y sistemas procede de la expresión fuzzy sets (conjuntos borrosos) acuñada por Lofti A. Zadeh, brillante ingeniero eléctrico iraní nacionalizado en Estados Unidos, profesor en las más prestigiosas universidades norteamericanas y doctor honoris causa de varias instituciones académicas. Sus tesis entroncan, como podemos observar, con la obra de pensadores de distintas disciplinas que tenían una visión similar de los problemas alejada de la lógica tradicional. La paradoja del conjunto de Bertrand Russell, el principio de incertidumbre de la física cuántica de W. Heisenberg, la teoría de los conjuntos vagos de Max Black, sin olvidar la fundamental aportación del polaco Jan Lukasiewick, creador de la lógica multivaluada, influyeron para que Zadeh publicase su famoso ensayo ―Fuzzy Sets‖ en ―Informations and Control‖ en 1965 y más tarde ―Fuzzy algorithm‖ en la misma revista en 1968. Mientras que Russell y Black utilizaron el termino vagueness (vaguedad, vago) para referirse a la nueva lógica o para calificar a los conjuntos en la teorización sobre los mismos, Zadeh prefirió el término fuzzy (borroso, difuso) para denominar a sus conjuntos y a la lógica en la que se apoya su análisis. Aunque en un principio la lógica encontró una fuerte resistencia entre la comunidad científica, algunos investigadores se convirtieron en seguidores de las teorías de Zadeh y mientras él siguió ampliando y asentando los fundamentos de la teoría de conjuntos difusos estos investigadores exploran estas nuevas teorías durante la década posterior a su nacimiento. Además de las contribuciones del propio Zadeh, otros autores como Bellman, Lakoff, Goguen, Kohout, Smith, Sugeno, Chang, Dunn, Bezdek, Negoita, Mizumoto, Tanaka, Kandel, Zimmermann, etc… hicieron aportaciones al desarrollo de las bases de esta teoría. Durante esta primera década, gran parte de estructuras lógicas y matemáticas son generalizadas en términos de lógica difusa: relaciones lógicas, funciones, grupos, operaciones, operadores, algoritmos, etc. A principios de la década de los setenta, se establecen varios grupos de investigación en lógica difusa en algunas pequeñas universidades japonesas; los profesores Terano y Shibata en Tokio y los profesores Tanaka y Asai en Osaka, y pese a encontrar también un ambiente hostil en estos primeros años de investigación, hacen grandes contribuciones tanto al desarrollo de la teoría de la lógica difusa como al estudio de sus aplicaciones. Un hito importante en el desarrollo de la lógica difusa fue establecido por Assilian y Mamdami en 1974 en el Reino Unido al desarrollar el primer controlador difuso diseñado para una máquina de vapor, pero la primera implantación real de un controlador de este tipo fue realizada en 1980 por F.L. Smidth & Co. en una planta cementera en Dinamarca. En 1983 Fuji aplica la lógica difusa para el control de inyección química en plantas depuradoras de agua por primera vez en Japón y en 1987 Hitachi pone en marcha un controlador fuzzy para el control del tren-metro de Sendai, y la empresa Omron desarrolla los primeros controladores difusos comerciales. Paralelamente al desarrollo de las aplicaciones de la lógica difusa, investigadores teóricos siguen, en la década de los ochenta, el camino iniciado por Mamdani. Asi, Tagaki y Sugeno desarrollan la primera aproximación para construir reglas fuzzy a partir de datos de entrenamiento, y aunque en un principio no tiene mucha repercusión, mas tarde será el punto de partida para investigar la identificación de modelos fuzzy. Otro de los factores que contribuye a seguir con la investigación en este campo es el creciente interés en las redes neuronales y su similitud con los sistemas fuzzy; la tendencia es buscar vías de relación entre las dos técnicas y los resultados son los llamados neuro-fuzzy systems, sistemas fuzzy que usan métodos de aprendizaje basados en redes neuronales para identificar y optimizar sus parámetros. B. Kosho es conocido por su contribución a los sistemas neuro-fuzzy y con sus publicaciones introdujo en la lógica difusa a muchos lectores interesados en las redes neuronales. En la década de los noventa, además de las redes neuronales y los sistemas fuzzy, hacen su aparición los algoritmos genéticos. Estas tres técnicas computacionales, que pueden combinarse de múltiples maneras y se pueden considerar complementarias, son herramientas de trabajo muy potentes en el campo de los sistemas de control en la última década. En realidad, la intención original del profesor Zadeh era crear un formalismo para manipular de forma más eficiente la imprecisión y la vaguedad del razonamiento humano expresado lingüísticamente, sin embargo causo cierta sorpresa que el éxito de la lógica borrosa llegase en el campo del control automático de procesos. Esto se debió básicamente al boom que la lógica borrosa causo en Japón, iniciado en 1987 y que alcanzo su máximo apogeo a principios de los noventa. Este boom fue el resultado de una estrecha colaboración entre el gobierno, las universidades y las industrias japonesas, estableciéndose dos proyectos nacionales a gran escala llevados a cabo por el Ministerio de Industria y Comercio (MITI) y la Agencia de Ciencia y Tecnología (STA) en consorcio con el LIFE, Laboratory for International Fuzzy Research, y en los que se involucran más de 50 compañías durante seis años. Desde entonces, han sido infinidad los productos lanzados al mercado que usan tecnología borrosa, muchos de ellos utilizando la etiqueta fuzzy como símbolo de calidad y prestaciones avanzadas. El control difuso ha sido aplicado con éxito en muy diversas ramas tecnológicas, por ejemplo la metalurgia, robots para la fabricación, controles de maniobras de aviones, sensores de imagen y sonido (sistema de estabilización de la imagen en cámaras fotográfica y de video Sony, Sanyo y Cannon), lavadoras (Panasonic y Bosch) que son capaces de autorregular la cantidad de jabón que requiere un lavado dependiendo del grado de suciedad de la ropa, aire acondicionado (Mitsubishi) en el que el sistema fuzzy evita las oscilaciones entre el exceso y el defecto de temperatura), rice-cooker capaces de elaborar diversas variedades de arroz regulando la cantidad de agua y la temperatura en cada caso para que el grano quede cocido y suelto. Estas son algunas de las muchísimas aplicaciones de la lógica difusa, que ya están funcionando en el campo de los llamados sistemas expertos [173]. Una gran variedad de ciencias aplican métodos de Inteligencia Artificial principalmente para modelar el razonamiento del experto. Para diseño de tales sistemas inteligentes, la importancia de la Lógica Difusa ha ganado gran aceptación. Publicaciones recientes han demostrado también que los Sistemas Híbridos en Inteligencia Artificial han conseguido buenos resultados, combinando Lógica Difusa e Inteligencia Artificial para el diagnóstico médico en la prevención de enfermedades, redes neuronales para el reconocimiento de patrones, sistemas de inferencia difusos para incorporar conocimiento humano, realizar inferencia y tomar decisiones, entre otras acciones. Es importante considerar que los problemas complejos del mundo real requieren sistemas inteligentes que combinen conocimiento, técnicas y metodologías de diferentes fuentes. Estos sistemas inteligentes deberán poseer experiencia como la del humano dentro de un dominio especifico, adaptándose y aprendiendo a hacer lo mejor en ambientes dinámicos y explicando cómo tomar decisiones o acciones. De cara a los problemas de cálculo, es más ventajoso usar diferentes técnicas de cálculo sinérgicas que exclusivas, obteniendo como resultado la construcción de Sistemas Híbridos Inteligentes. Los conceptos básicos a utilizar en este trabajo por ser parte fundamental se describirán en el marco teórico. 2.10 SISTEMAS DE CLASIFICACIÓN BASADOS EN REGLAS DIFUSAS Hoy en día, las aplicaciones más importantes de la teoría de de los conjuntos difusos desarrollada por Zadeh en 1965 son los Sistemas Basados en Reglas Difusas (SBRD). Esta clase de sistemas constituye una extensión de los sistemas clásicos basados en reglas, debido a que tratan con reglas difusas en vez de reglas lógicas clásicas. Gracias a esto, han sido aplicados exitosamente a una amplia gama de problemas de diferentes áreas que presentan diferentes formas de incertidumbre y vaguedad. 2.10.1 Sistemas Basados en Reglas Difusas (SBRD) Un Sistema Basado en Reglas Difusas (SBRD) presenta dos componentes principales: 1) el sistema de inferencia, que ejecuta el proceso de inferencia difuso necesario para obtener una salida del cual ha sido especificada una entrada, y 2) la Base de Reglas Difusa (BRD) que representa el conocimiento que se tiene acerca del problema a resolver, formando un conjunto de reglas [131]. En el diseño de un sistema inteligente de esta clase se deberán de realizar dos tareas principales para una aplicación concreta: i) seleccionar los operadores difusos involucrados en el sistema de inferencia, esto es, definir la forma en la cual el proceso de inferencia difusa se realizará, y ii) obtener una adecuada BRD acerca del problema a resolver. La exactitud de los SBRD para resolver un problema específico depende, directamente de ambas componentes [132]. La primera tarea ha de ser ampliamente analizada en la literatura especializada, y se ha de realizar una gran cantidad de estudios teóricos y comparativos para tratar con el problema de seleccionar los mejores posibles operadores difusos en el sistema de inferencia. En relación a la segunda tarea del diseño, parece ser más fácil la decisión porque la composición de la BRD depende directamente del problema a resolver. Debido a la complejidad de la derivación de la BRD, se han propuesto una gran cantidad de técnicas automáticas para tal efecto. Los Sistemas Basados en Reglas Difusas (SBRD) combinan la precisión de la predicción con un alto nivel de interpretabilidad, lo cual los hace muy adecuados para el diseño de Sistemas de Clasificación en problemas reales [125], [130]. 2.10.2 Sistemas de Clasificación Basada en Reglas Difusas En un Sistema de Clasificación Basada en Reglas Difusas (SCBRD), se distinguen dos componentes: 1) La Base de Conocimiento (BC), la cual es específica para un problema dado de clasificación, y 2) un Modelo de Razonamiento Difuso (MRD). El diseño de un SCBRD implica encontrar ambas componentes, y este proceso se lleva a cabo a través de un proceso de aprendizaje supervisado, que inicia con un conjunto de individuos clasificados correctamente (conjunto de entrenamiento) y cuyo objetivo es diseñar un Sistema de Clasificación, asignando etiquetas de clase a nuevos objetos con un mínimo de error. Finalmente, se calcula el desempeño del sistema sobre los datos de prueba para obtener una estimación acerca del error de predicción del SCBRD. El proceso se ilustra en la Figura 2.3. Figura 2.3. Diseño de un SCBRD (Aprendizaje / Clasificación) Base de Conocimiento. La Base de Conocimiento (BC) está compuesta de la BR (Base de Reglas) y la BD (Base de Datos). En la literatura especializada, se han usado diferentes tipos de reglas y su diferencia consiste en la composición del consecuente: una clase [133], [134] y un grado de certeza asociado a la clasificación de esa clase [135], y el grado de certeza asociado a la clasificación de cada una de las clases posibles [136]. Un SCBRD está compuesto de una BR del siguiente tipo de reglas: Rk : Si x1 k A 1 Λ……. Λ x n k A n entonces Y Cj con r k Donde: x1,……...,xn son las variables seleccionadas para el problema de clasificación. k k A 1,………,A n son etiquetas lingüísticas usadas para discretizar los dominios de las variables cuantitativas o cualitativas. Y es la clase Cj {C1,…C ξ} a la que pertenece el objeto. k y, r es el grado de certeza de la clasificación en la clase C j para un objeto que pertenece al subespacio difuso definido por el antecedente de la regla. Base de Datos. La Base de Datos (BD) contiene la definición de los conjuntos difusos asociados a los términos lingüísticos usados en la BR. Esta transformación es común para todas las reglas en la BR para mantener la naturaleza lingüística de los SCBRD. Método de Razonamiento Difuso. En [137] se define un Método de Razonamiento Difuso (MRD) como un procesamiento de inferencia, que deriva conclusiones a partir de un conjunto de reglas difusas y un objeto. El uso de un método de razonamiento que combine la información de las reglas disparadas por el objeto a ser clasificado, puede mejorar la capacidad de generalización del Sistema de Clasificación. Un modelo de razonamiento general lo podemos describir en la siguiente forma [138]: En la clasificación de un objeto Et = (xt1,…., xtk), la base de reglas R = {R1,….,RL} está dividido en ξ subconjuntos de acuerdo con la clase indicada por su consecuente, R = R C1 U RC2 U….U RCξ. Y siguiendo el esquema siguiente: 1. Grado de Compatibilidad. El grado de compatibilidad del antecedente con el objeto se calcula para todas las reglas en la BR, aplicando una t-norma [120], [127], sobre el grado de pertenencia de los valores del individuo (eti) a los correspondientes subconjuntos difusos. k k Rk(Et) = T(µA 1(et1),…, µA n(etn)), k = 1,…,L 2. Grado de Asociación. El grado de asociación del objeto Et con las ξ clases se calcula de acuerdo a cada regla en la BR. k b i = h(Rk(Et), rk), k = 1,…, | RCi |, i = 1,…, ξ 3. Función de Ponderación. Los valores obtenidos son ponderados por medio de un función g. una expresión que promueve los valores altos y penaliza los pequeños parece ser la selección más adecuada para esta función. k k B i = g(b i), k = 1,…, | RCi |, i= 1,…, ξ 4. Grado de Validez de la clasificación para todas las clases. Para calcular este valor, se usa un operador de agregación que combine, para cada clase, el grado de asociación positivo calculado en el paso anterior. k k Yi = f(B i, k = 1,… | RCi |, i = 1,…, ξ y B i > 0) i = 1,…, ξ con ƒ un operador de agregación El operador ƒ regresa un valor entre el mínimo y el máximo. Si se selecciona ƒ como operador máximo se tiene el Modelo de Razonamiento Difuso Clásico. 5. Clasificación. Se aplica una función de decisión F a los grados de clasificación del individuo. Esta función regresa la etiqueta de clase que corresponde al valor máximo. Cl = F(Y1,…Yξ) tal que Yl = maxj=1,…, ξ Yj Así, en los Sistemas de Clasificación Basada en Reglas Difusas (SCBRD), el Método Clásico de Razonamiento Difuso (MCRD), grado máximo de asociación, clasifica un nuevo objeto del dominio con el consecuente de la regla con el grado más alto de asociación [133], [139], [134], [135], [140], [136]. Usando este método de inferencia, se pierde información proporcionada por las otras reglas difusas con diferentes etiquetas lingüísticas que representan también el valor en la variable patrón (clase), aunque probablemente con menor grado. Por otro lado, es bien conocido que en otros SBRD como los controladores lógicos difusos el mejor desempeño se obtiene cuando se usan métodos de defuzificación que operan sobre subconjuntos difusos obtenidos en las reglas difusas satisfechas (aquéllas cuyos datos de entrada satisfacen sus antecedentes), tomando en consideración todas ellas para obtener el valor de la salida vía el método de defuzificación [141], [142]. 2.11 APRENDIZAJE AUTOMATICO El aprendizaje automático usualmente se refiere a cambios en un sistema que realiza tareas usando Inteligencia Artificial. Dichas tareas involucran reconocimiento, diagnostico, planeación, control, etc. En términos más generales se puede afirmar que el aprendizaje automático se basa en la idea de hacer mejor el aprendizaje futuro, basado en las experiencias del pasado [174]. Los principales métodos para el aprendizaje están tipificados en diferentes ramas de las inteligencia computacional, pero la gran mayoría se encuentran bajo modelos probabilísticos, estadísticos y algebraicos. Dentro de los más representativos están las Redes Neuronales Artificiales, Descubrimiento de Conocimiento en Bases de Datos (KDD), Árboles de Decisión, Redes Bayesianas. Algoritmos Genéticos, Modelos Ocultos de Markov, Programación Lógica Inductiva, Clustering, Máquinas de Vector de Soporte, etc. [175] Es posible realizar una clasificación de las maneras de aprendizaje según como sea el proceso Supervisado y no Supervisado. 2.11.1 Aprendizaje Supervisado El aprendizaje Supervisado es aquel en el cual se utilizan ejemplos de entrenamiento para ―Supervisar‖ la manera como se adquiere el conocimiento, de tal forma que el sistema se debe ajustar perfectamente al (los) patrón(es) que se utilizaron como entrenadores. Ocurre cuando se le proporciona a la red tanto la entrada como la salida correcta, y la red ajusta sus pesos tratando de minimizar el error de su salida calculada. Este tipo de entrenamiento se aplica por ejemplo, en el reconocimiento de patrones [156]. 2.11.2 Aprendizaje No Supervisado Se presenta cuando a la red se le proporcionan únicamente los estímulos, y la red ajusta sus interconexiones basándose únicamente en sus estímulos y la salida de la propia red. Las leyes de aprendizaje determinan como la red ajustará sus pesos utilizando una función de error o algún otro criterio. La ley de aprendizaje adecuada se determina en base a la naturaleza del problema que se intenta resolver [156]. El aprendizaje no supervisado está relacionado con el agrupamiento según patrones de similitud entre los datos. Los datos no están clasificados (no etiquetados) y el sistema se encarga de organizarlos dividiéndolos en grupos [176]. A MODO DE CONCLUSION A partir de las ideas antes expuestas en el Marco de Referencia, se elaboró una primera hipótesis en el sentido de que la hibridación produce realmente buenos resultados en aplicaciones reales de muy diversa índole y segunda, abordar el problema de descubrimiento de conocimiento en dominios poco estructurados, caracterización e interpretación automática de descripciones conceptuales, nos sitúa en la intersección de los objetivos de los sistemas de KDD por un lado en la línea de Fayyad, y por otro, de los de la Inteligencia Artificial y la Estadística, en la línea de las directrices marcadas por Oldford y Cheeseman [81] ubicando esta propuesta de tema de tesis en un marcado carácter interdisciplinario. CAPÍTULO III MARCO TEÓRICO Para el desarrollo de esta aplicación sobre el modelo de caracterización e interpretación de descripciones conceptuales en dominios poco estructurados (CIADEC) se deberán tener en cuenta los conocimientos de los conceptos básicos sobre caracterización, de la herramienta estadística denominada boxplot para observar la relación entre variables y las clases y, en especial su utilidad para representar las diferencias entre grupos, del aprendizaje supervisado que permite que a partir de una clasificación de referencia se obtengan un conjunto de reglas para decidir la clase a la que pertenece cada elemento en el Universo del discurso, del proceso Knowledge Discovery in Data Base (KDD) en el cual este modelo tiene su marco natural de referencia y conceptos básicos sobre Lógica Difusa, que permite establecer el modelo de etiquetas lingüísticas útil para la visualización de resultados. 3.1 CONCEPTOS BÁSICOS 3.1.1 Reconocimiento de Patrones Objeto: es un concepto con el cual se representan los elementos sujetos a estudio. Pueden ser concretos o abstractos. Patrón: es sinónimo de objeto. En ocasiones se le llama así a los objetos ya clasificados. Rasgo: propiedad, factor, característica, etc., que se toma en cuenta para estudiar los objetos. Existen dos tipos: Esenciales: no pueden ser eliminados de la descripción de los objetos sin confundirlos. Accidentales: pueden ser ignorados en una descripción y los objetos no se confunden. Clase: es un conjunto de objetos. La agrupación en clases se puede hacer de dos formas distintas: Por pertenencias duras: Un objeto pertenece o no a una clase. Por pertenencias difusas: Los objetos pertenecen parcialmente a una clase. Existen clases con intersecciones no vacías. Reconocimiento: proceso de clasificación de un objeto en una o más clases. Filtración: consiste en quitar información o datos indeseados de entrada. Dependiendo del uso, el algoritmo o método de filtrado cambia. Reconocimiento de patrones: es la rama del conocimiento, de carácter multidisciplinario, cuyo objeto de estudio son los procesos de identificación, caracterización, clasificación y reconstrucción sobre conjuntos de objetos o fenómenos, así como el desarrollo de teorías, tecnologías y metodologías relacionadas con dichos procesos. Es decir, es la ciencia que se ocupa de los procesos sobre ingeniería, computación y matemáticas relacionados con objetos físicos y/o abstractos, con el propósito de extraer información que permita establecer propiedades de o entre conjuntos de dichos objetos. 3.1.1.1 Enfoques del Reconocimiento de Patrones Se entiende por problemas de Reconocimiento de Patrones a todos aquellos relacionados con la clasificación de objetos y fenómenos y con la determinación de los factores que inciden en los mismos. El Reconocimiento de Patrones es una disciplina que aborda principalmente cuatro familias de problemas, a saber [157, 158]: 1. Selección de rasgos o características. 2. Clasificación con aprendizaje (supervisado) y donde el diagnóstico y pronóstico pueden modelarse como una clasificación supervisada. 3. Clasificación sin aprendizaje (no supervisado). 4. Clasificación con aprendizaje parcial (parcialmente supervisado). A continuación se describirán brevemente los enfoques más populares en esta disciplina. 3.1.1.1.1 Enfoque Estadístico Históricamente, una de las primeras herramientas empleadas en la solución de problemas de Reconocimiento de Patrones es la Estadística; utiliza el Análisis Discriminante, la Teoría Bayesiana de la Decisión, la Teoría de la Probabilidad y el Análisis de Agrupamientos (Cúmulos, cluster). El enfoque estadístico es la más simple y consiste en representar cada patrón mediante un vector de números resultantes del muestreo y cuantificación de las señales externas, y cada clase por uno o varios patrones prototipo. Un patrón no es más que un punto del espacio de representación de los patrones, que es un espacio de dimensionalidad determinada por el número de variables consideradas [14]. El estudio del conjunto apropiado de variables, la variabilidad de los patrones de una clase, las medidas de semejanza entre patrones, así como la relación entre patrones y clases constituye el Reconocimiento Estadístico de Patrones cuyas principales características son: Se basa en descripciones de objetos en términos de mediciones, es decir, variables numéricas. A dichas variables se le presuponen propiedades tales como las de estar definidas sobre un espacio métrico o normado, e incluso en ocasiones se asume un tipo particular de métrica. Es muy frecuente el uso de probabilidades, en particular cuando se considera la presencia de elementos de incertidumbre o subjetividad; pero también en estos casos es frecuente el asumir un determinado comportamiento de dichas probabilidades y con ello aparece la suposición de ajustarse a distribuciones normales. Este enfoque ha sido aplicado en muchos problemas concretos, en particular los relacionados con imágenes y señales; sin embargo, su uso se ha extendido indebidamente, a zonas para las cuales no fueron concebidas, en problemas donde las hipótesis que se presuponen no se cumplen [41, 46, 47]. 3.1.1.1.2 Enfoque Sintáctico Estructural Otro de los enfoques importantes del Reconocimiento de Patrones es el que parte de la Teoría de los Lenguajes Formales. Su origen está relacionado con el reconocimiento de imágenes y señales. Su idea central consiste en suponer que estos objetos, una señal electrocardiográfica por ejemplo, se puede descomponer (físicamente) en elementos primarios, atómicos, (en pedazos de la misma) como si fueran las letras de un cierto alfabeto; y a partir de estas letras, teniendo en cuenta la señal completa, encontrar las reglas gramaticales que permitan formar la señal (como si se armara un rompecabezas). En otras palabras, el propósito es encontrar la gramática cuyo lenguaje estaría formado sólo por señales que estarían muy estrechamente vinculadas unas con las otras y aquellas señales que no tuviesen que ver con las primeras, responderían a gramáticas diferentes, por lo que pertenecerían a otro lenguaje. Algunas de las características de este enfoque, denominado Reconocimiento Sintáctico Estructural de Patrones [83], son las siguientes [157]: Se basa en las descripciones de los objetos en términos de sus partes constitutivas. Se apoya en la Teoría de los Lenguajes Formales, la Teoría de Autómatas, las Funciones Recursivas y la Teoría de Grafos. Se asume que la estructura de los objetos a ser reconocidos es cuantificable. En forma muy general, se puede decir que en este enfoque se asocia a cada conjunto de objetos una gramática que genera sólo elementos de dicho conjunto, y el problema consiste en averiguar cuál de las gramáticas genera como palabra la correspondiente al objeto que se desea clasificar; o también que a cada conjunto de objetos se le asocia un grafo que describe las relaciones entre las propiedades estructurales de un objeto representante del conjunto de objetos. Aquí se compararían los grafos asociados a cada representante de las clases con el objeto que se quiere clasificar. Esta manera de abordar un problema de Reconocimiento de Patrones es especialmente productiva cuando los objetos de estudio son objetos físicos, es decir, imágenes o señales. Ejemplos de estas aplicaciones son trabajos en identificación de impresiones digitales [84, 89], entre muchos otros. 3.1.1.1.3 Enfoque Lógico – Combinatorio La Lógica Matemática, la Teoría de Testores, la Teoría Clásica de Conjuntos, la Teoría de los Subconjuntos Difusos, la Teoría Combinatoria, la Matemática Discreta en general, constituyen el basamento teórico-matemático en el que se desarrolla el denominado Enfoque LógicoCombinatorio en Reconocimiento de Patrones. Las ideas centrales de este enfoque consisten en suponer que los objetos se describen por medio de una combinación de rasgos numéricos y no numéricos, y los distintos valores pueden ser procesados por funciones numéricas [158, 160, 161]. Este enfoque se basa en la idea de que la modelación del problema debe ser lo más cercana posible a la realidad del mismo, sin hacer suposiciones que no estén fundamentadas. Uno de los aspectos esenciales del enfoque es que las características utilizadas para describir a los objetos de estudio deben ser tratadas adecuadamente [157, 162]. El enfoque lógico combinatorio es más que un conjunto de técnicas, es una filosofía, una manera de enfrentar los problemas de Reconocimiento de Patrones a partir de una determinada metodología de la modelación matemática, es decir, como deben ser modelados y resueltos los problemas reales. Además, aborda problemas de selección de variables (determinación de síndromes de enfermedades, determinación de la relevancia de síntomas, signos de enfermedades, o del estado de una red de computadoras, etc.) y de clasificación supervisada (con aprendizaje: diagnóstico y pronóstico médicos; pronóstico de fenómenos naturales o sociales; pronóstico de perspectividad de recursos minerales, etc.) a partir del enfoque lógico combinatorio en los llamados dominios poco estructurados. 3.1.1.2 Tipos de Problemas del Reconocimiento de Patrones Selección de variables: consiste en seleccionar cuál es el tipo de características o rasgos más adecuados para describir los objetos. Se deben localizar los rasgos que inciden en el problema de manera determinante. Clasificación supervisada: también es conocida como clasificación con aprendizaje, en este tipo de problemas ya se encuentran definidas las clases, y éstas cuentan con algunos objetos previamente clasificados. Clasificación parcialmente supervisada: también conocida como de aprendizaje parcial, en éstos problemas existe una muestra de objetos sólo en algunas de las clases definidas. Clasificación no supervisada: también conocida como clasificación sin aprendizaje, en éstos problemas no existe ninguna clasificación previa de objetos y en algunas ocasiones ni siquiera se han definido las clases. 3.1.1.3 Etapas del Proceso de Reconocimiento de Patrones La Metodología para el proceso de modelación matemática de problemas de Reconocimiento de Patrones [157] consta de siete etapas, como se muestra en el esquema de la figura 3.1 [159], y son: 1. Formulación del problema inicial A (cuya solución es R). 2. Recolección de información. 3. Formalización lógica-matemática del problema A en A’. Selección del modo de solución del problema A’. 4. Solución del problema matemático (R’). 5. Interpretación y validación de los resultados respecto al problema A. 6. Pruebas de campo. Figura 3.1. Esquema global de la modelación matemática Las etapas anteriores contienen un conjunto de acciones, que según la experiencia práctica, resultan fundamentales en el proceso y las cuales se describen a continuación: 1. Formulación del problema inicial A. En esta etapa, el especialista tiene una mayor participación porque es quien expresa en su lenguaje el problema a resolver, determinando: A. El objetivo de la investigación. B. Los objetos de la investigación. C. Las propiedades que caracterizan a los objetos. D. Las características de dichas propiedades. E. Las relaciones entre los objetos y sus propiedades. F. Las hipótesis en que se fundamenta el trabajo a realizar. G. Las fuentes de información. H. Qué información es relevante, si esto se conoce. I. Cómo se recolecta la información. J. Cómo se interpreta y manipula la información. K. Cómo se requiere que se presenten los resultados. L. La identificación de ruidos y distorsiones de la información. M. La valoración de los errores en la información en su entrada, procesamiento y salida. Es obvio que en esta etapa, el papel principal lo desempeña el especialista del área de aplicación. Sin embargo, nada tendría sentido si el papel de los modeladores (matemáticos, ingenieros, informáticos entre otros) es pasivo, de contemplación anodina. Se trata por el contrario de cuestionar, de entender la esencia del fenómeno a explicar, si bien en el lenguaje del especialista del área, pero con la intención de alcanzar un verdadero diálogo, en el que las ideas esenciales subyacentes al problema que investigamos se vean con precisión [158, 161, 163]. 2. La Recolección de datos. La recolección de datos se refiere al uso de una gran diversidad de técnicas y herramientas que pueden ser utilizadas por el modelador para recabar información útil en el problema que se pretende resolver, dicha información se puede obtener a través de las entrevistas, la encuesta, el cuestionario, la observación, el diagrama de flujo y el diccionario de datos. Todos estos instrumentos se aplicarán en un momento en particular, con la finalidad de buscar información que será útil a una investigación en común. Los analistas modeladores utilizan una variedad de métodos a fin de recopilar los datos sobre una situación existente, como entrevistas, cuestionarios, inspección de registros (revisión en el sitio) y observación. Cada uno tiene ventajas y desventajas. Generalmente, se utilizan dos o tres para complementar el trabajo de cada una y ayudar a asegurar una investigación completa [41, 46]. 3. Formalización del problema A. Esta etapa es posible que mentalmente se lleve a cabo a medida que el especialista formula el problema. Es compleja porque se requiere ―traducir‖ del lenguaje del especialista al lenguaje formal de la Matemática, de tal manera que de la etapa anterior queden reflejados: objetivos, objetos, propiedades y su escala de medición, características, relaciones entre objetos y entre propiedades, el concepto de clase de objetos, propiedades de las mismas, los conceptos de analogía, la evaluación de los errores, entre otros. En esta etapa se realizan: A. La selección del espacio de representación de los objetos de investigación; B. La determinación de las funciones que modelarán los criterios de comparación de valores de cada variable, así como entre las descripciones de los objetos. C. El análisis desde el punto de vista formal de los requisitos de la solución que el especialista impone a los resultados, D. La interpretación que el especialista da a los datos. Estos son aspectos que contribuyen en la búsqueda de la solución y en la selección de algoritmos óptimos para el problema en cuestión, y determinan en gran medida la forma en que serán elaborados los datos iniciales a partir de su organización en lo que se denomina Matriz de Aprendizaje (MA) o también Tabla de Objeto-Propiedad (TOP) [41, 46, 47]. 4. Selección del modo de solución del problema (solución del problema matemático A’). El proceso de formalización muchas veces restringe fuertemente el área de búsqueda de las técnicas de solución. En esta etapa un papel decisivo lo desempeña el análisis de la TOP. En esta etapa se puede reducir la cantidad de información requerida al mismo tiempo que se aumenta su calidad. Se decide el enfoque o combinación de ellos para la solución del problema A’, determinando la familia de algoritmos a la que pertenece. La etapa se concluye con la elección del modo de solución que se debe aplicar; y si es el caso, el esquema de procesamiento de la información [41, 46, 47]. 5. Solución del problema expresado en términos matemáticos (se obtiene R’). Tomando como base los datos formalizados y el tipo de algoritmo a utilizar, se elabora el sistema computarizado (si lo amerita el caso) y se obtiene la solución R’ del problema A’. Se analiza la concordancia del resultado alcanzado R’ con los objetivos formalizados del problema matemático A’, teniendo como herramienta fundamental la formalización de los criterios para la evaluación de resultados de la segunda etapa [41, 46, 47]. 6. Análisis e Interpretación de los resultados respecto al problema (de R’ a R luego hacia A). Los resultados de A’ (R’) se interpretan expresándolos en un lenguaje o en otro, en forma similar a lo que se hizo en su contraparte en la segunda etapa. Después de la correspondencia del resultado R’ con el problema A’ en la etapa anterior, se hace necesario el análisis entre el resultado R y el problema A. Las acciones resolutivas obtenidas son variadas y dependen de los resultados de dicho análisis [41, 46, 47]. El especialista del área de aplicación también es el máximo responsable de esta etapa y debe ser ejecutada en conjunto con los elementos del equipo multidisciplinario. 7. Pruebas de campo. Es una fase de validación científica que debe cumplir con las condiciones, requisitos y normas establecidas del problema planteado por el especialista. Estas pruebas son un ideal para evaluar los resultados lógicos obtenidos con los resultados de la realidad [41, 46, 47]. Así, la aplicación de la metodología siempre nos llevará de manera secuencial a la solución definitiva. En ocasiones habrá que regresarse a etapas anteriores para reconsiderar algunas de las decisiones tomadas, a confirmarlas a veces, otras a modificarlas. Cabe mencionar que este proceso, que puede parecerle a algunos engorroso, aburrido, innecesario, ha dado frutos antes de llegar a clasificar, antes de procesar los datos [41, 46, 47]. 3.1.2 Minería de Datos La tecnología informática constituye la infraestructura fundamental de las grandes organizaciones y permite, hoy en día, registrar múltiples detalles de la vida de las empresas. Las bases de datos posibilitan almacenar cada transacción, así como otros muchos elementos que reflejan la interacción de la organización con otras organizaciones, clientes, o internamente, entre sus divisiones y empleados, etcétera. Es imprescindible convertir los grandes volúmenes de datos existentes en experiencia, conocimiento y sabiduría, para que sea útil a la toma de decisiones, especialmente en las grandes organizaciones y proyectos científicos. La búsqueda de información relevante siempre es útil a la administración empresarial: el control de la producción, el análisis de los mercados, el diseño en ingeniería y la exploración científica, porque pueden ofrecer las respuestas más apropiadas a las necesidades de información. Varias preguntas se relacionan frecuentemente con los datos, la información y el conocimiento. Su respuesta, demanda la participación de varios especialistas. La Minería de Datos es un conjunto de técnicas agrupadas con el fin de crear mecanismos adecuados de dirección, entre ellas puede citarse la estadística, el reconocimiento de patrones, la clasificación y la predicción [47]. Para descubrir patrones de relaciones útiles en un conjunto de datos se empezaron a utilizar métodos que fueron denominados de diferente forma. El término Data Mining, en inglés, no era, al principio, del agrado de muchos estadísticos, porque sus investigaciones estaban dirigidas a procesar y reprocesar suficientemente los datos, hasta que confirmasen o refutasen las hipótesis planteadas. Desde este ángulo, la Minería de Datos aplica una dinámica que se mueve en sentido contrario al método científico tradicional. Con frecuencia, el investigador formula una hipótesis; luego, diseña un experimento para captar los datos necesarios y realizar los experimentos que confirmen o refuten la hipótesis planteada. Este es un proceso, que realizado de forma rigurosa, debe generar nuevos conocimientos. En la Minería de Datos, por el contrario, se captan y procesan los datos con la esperanza de que de ellos surja una hipótesis apropiada. Se desea que los datos nos describan o indiquen el porqué presentan determinada configuración y comportamiento. Como afirma Eduardo Morales: ―La más inocente mirada a los datos puede inspirar una hipótesis. Recuérdese que los humanos tienen un gran poder para generalizar e identificar patrones. Luego entonces, validar una hipótesis inspirada por los datos en los datos mismos, será numéricamente significativa, pero experimentalmente inválida [154].‖ Las técnicas de Minería de Datos no pueden utilizarse para confirmar o rechazar hipótesis, porque puede conducir a errores fatales. Su función se trata de explorar datos, darles sentido, convertir un volumen de datos, que poco o nada aportan a la descripción, en información para interpretar un fenómeno, para adoptar decisiones de acuerdo con las necesidades. 3.1.2.1 Componentes de la Minería de Datos Las componentes básicas de los métodos de la Minería de Datos son: 1. Lenguaje de representación del modelo: comprende las suposiciones y restricciones utilizadas en la representación empleada. 2. Evaluación del modelo: incluye el uso de técnicas de validación cruzada para la predictividad y aplicación de principios como el de máxima verosimilitud o el de descripción mínima para evaluar la calidad descriptiva del modelo. 3. Método de búsqueda: puede dividirse en búsqueda de parámetros y del modelo, determinan los criterios que se siguen para encontrar los modelos. Algunas de las técnicas más comunes usadas en la Minería de Datos son: Árboles de decisión y reglas de clasificación. Métodos de clasificación y regresiones no-lineales. Métodos basados en ejemplos prototípicos. Modelos gráficos de dependencias probabilísticas. Modelos relacionales. 3.1.2.2 Criterios para aplicar la Minería de Datos Factibilidad económica - organizativa: existe potencialmente un impacto significativo, no se conocen métodos alternativos, se dispone de personal calificado, no existen problemas de legalidad o violación de la información. Factibilidad técnica: se dispone de suficientes datos, los datos contienen rasgos relevantes, existe poco ruido en los datos y se domina la aplicación de los métodos. 3.1.2.3 Técnicas de Minería de Datos más usadas en la Toma de Decisiones 3.2.1.3.1 Tablas de Decisión Las tablas de decisión son herramientas que se utilizan en la etapa de análisis de sistemas para efectuar una representación gráfica simplificada de los procesos lógicos que hayan sido relevados durante la investigación detallada, a efectos de analizar si se adecuan o no a los requerimientos del sistema. En la etapa de diseño de sistemas para representar gráficamente procesos lógicos creados para satisfacer las necesidades del sistema bajo estudio y aisladamente, es decir, en tareas que no tengan que ver con el estudio de sistemas, para la representación simplificada de procedimientos específicos que sirvan de apoyo para una interpretación correcta del mismo y su posterior ejecución (procedimientos legales, laborales, aplicación de normas técnicas, etc.) . Las Tablas de Decisión están compuestas por cuatro secciones: Identificación de condiciones Identificación de acciones Reglas de decisión Valores de condiciones Valores de acciones a) Identificación de condiciones: se detalla una condición por renglón. Se llaman condiciones a situaciones variables que pueden ocurrir (por ejemplo tipo de cliente, monto de ventas, antigüedad, etc.). b) Identificación de acciones: se describen todos los pasos que se deben realizar. Se llaman acciones a los distintos comportamientos que se asumirán en función de los valores que tomen las condiciones y se escriben en el orden en que deben ser ejecutadas (por ejemplo calcular descuento, calcular retención, pedir materiales, etc.). c) Valores de condiciones: se indican valores de las condiciones indicadas en la primera sección, dependiendo del tipo de tabla de decisión (de entrada limitada o extendida) que se construya para representar el proceso. d) Valores de acciones: se indican valores de las acciones descritas en la segunda sección, dependiendo del tipo de tabla de decisión (de entrada limitada o extendida) que se confeccione. Una vez confeccionada la tabla, quedarán determinadas las reglas de decisión, es decir, las proposiciones que se leerán verticalmente, partiendo desde la sección Valores de Condiciones y descendiendo por la sección Valores de Acciones. Se las enuncia así: ―SI...(condición1, condición2, etc.)... ENTONCES ... (acción1, acción2, etc.)…‖. Las tablas de decisión permiten agrupar todas las combinaciones de condiciones y todas las posibilidades lógicas en un conjunto que sea fácil de entender y analizar, creando además la posibilidad de controlar que no se haya omitido ninguna alternativa y que se hayan cubierto todas las posibilidades. 3.2.1.3.2 Árboles de Decisión Son estructuras que representan conjuntos de decisiones [164]. Está técnica se encuentra dentro de una metodología de aprendizaje supervisado, donde su principal ventaja es la facilidad de interpretación de la decisión adoptada. Su representación es en forma de árbol en donde cada nodo es una decisión, los cuales a su vez generan reglas para la clasificación de un conjunto de datos [165]. Los árboles de decisión explican el comportamiento respecto a una determinada tarea de decisión, reduciendo el número de variables independientes y permitiendo la clasificación de nuevos casos siempre y cuando no existan modificaciones sustanciales en las condiciones bajo las cuales se generan los ejemplos que sirvieron para su construcción. 3.2.1.3.3 Reglas de Asociación Establecen asociaciones en base a los perfiles de los clientes sobre los cuales se realiza la MD. Las reglas de Asociación están siempre definidas sobre atributos binarios [166]. 3.2.1.3.4 Representación basada en instancias [167] A diferencia de aquellos métodos de aprendizaje que construyen una descripción general, y explícita de la función objetivo a partir de los datos de entrenamiento, estos métodos simplemente guardan dichos datos. La generalización sobre estos ejemplos se pospone hasta que una nueva instancia debe ser clasificada. Cada vez que una nueva instancia es encontrada, se calcula su relación con los ejemplos previamente guardados con el propósito de asignar un valor de la función objetivo para la nueva instancia. El aprendizaje basado en instancias incluye el vecino más cercano y métodos de regresión pesados localmente que asumen que las instancias pueden ser representadas como puntos en el espacio euclideo. Los métodos de aprendizaje basados en instancias son denominados ―perezosos‖ pues dilatan el procesamiento hasta que una nueva instancia deba ser clasificada. Una ventaja de este retraso es que no se estima la función objetivo una vez para todo el espacio de instancias, sino que se hace en forma local y diferente para cada nueva instancia a clasificar. 3.2.1.3.5 Clústers Agrupan datos dentro de un número de clases preestablecidas o no, partiendo de criterios de distancia o similitud, de manera que las clases sean similares entre sí y distintas con las otras clases. Este método debido a su naturaleza flexible se puede combinar fácilmente con otro tipo de técnica de Minería de Datos, dando como resultado un sistema híbrido. Clustering y el vecino más cercano. Es una técnica que clasifica cada registro en un conjunto de datos basado en una combinación de las clases de k registro/s más similar/es a él en un conjunto de datos históricos. Algunas veces se llama la técnica del vecino k-más cercano [166]. 3.2.1.3.6 Técnicas basadas en la Estadística [168, 169] Ciertamente, la Minería de Datos bebe de la Estadística, de la que toma las siguientes técnicas: Análisis de varianza: mediante el cual se evalúa la existencia de diferencias significativas entre las medias de una o más variables continúas en poblaciones distintas. Regresión: define la relación entre una o más variables y un conjunto de variables predictoras de las primeras. Prueba chi-cuadrado: por medio de la cual se realiza el contraste la hipótesis de dependencia entre variables. Análisis de agrupamiento o clustering: permite la clasificación de una población de individuos caracterizados por múltiples atributos (binarios, cualitativos o cuantitativos) en un número determinado de grupos, con base en las semejanzas o diferencias de los individuos. Análisis discriminante: permite la clasificación de individuos en grupos que previamente se han establecido, permite encontrar la regla de clasificación de los elementos de estos grupos, y por tanto una mejor identificación de cuáles son las variables que definan la pertenencia al grupo. Series de tiempo: permite el estudio de la evolución de una variable a través del tiempo para poder realizar predicciones, a partir de ese conocimiento y bajo el supuesto de que no van a producirse cambios estructurales. 3.1.3 Métodos de la Toma de Decisiones en los Sistemas 3.1.3.1 Sistemas de Soporte a las Decisiones El Sistema de Soporte a las Decisiones (DSS), es un bloque de toma de decisiones sustentado en Base de Datos para que quienes toman las decisiones puedan usar para apoyar el proceso de decidir. En un sentido amplio, se define a este sistema, como un conjunto de programas y herramientas que permiten obtener de manera oportuna la información que se requiere mediante el proceso de la toma de decisiones que se desarrolla en un ambiente de incertidumbre. Ayudan a la toma de decisiones de los administradores al combinar datos, modelos analíticos sofisticados y software amigable en un solo sistema poderoso que puede dar soporte a la toma de decisiones semiestructuradas o no estructuradas. El DSS está bajo el control del usuario desde la concepción inicial a la implantación final y uso diario. El DSS tiene como finalidad apoyar a la toma de decisiones mediante la generación y evaluación sistemática de diferentes alternativas o escenarios de decisión, todo esté utilizando modelos y herramientas computacionales. Un DSS no soluciona problemas, ya que solo apoya el proceso de la toma de decisiones. La responsabilidad de tomar una decisión, de optarla y de realizarla es de los administradores, no del DSS. Dado que su objetivo es mejorar la efectividad de las decisiones y no la eficiencia con la que esas decisiones son tomadas [170]. 3.1.3.1.1 Tipos de Sistemas de Soporte a Decisiones Sistemas de información gerencial (MIS, Management Information Systems): también llamados Sistemas de Información Administrativa (AIS) dan soporte a un espectro más amplio de tareas organizacionales, encontrándose a medio camino entre un DSS tradicional y una aplicación CRM/ERP implantada en la misma compañía. Sistemas de información ejecutiva (EIS, Executive Information System): son el tipo de DSS que más se suele emplear en Business Intelligence, ya que proveen a los gerentes de un acceso sencillo a información interna y externa de su compañía, y que es relevante para sus factores clave de éxito. Sistemas expertos basados en Inteligencia Artificial (SSEE): también llamados sistemas basados en conocimiento, utilizan redes neuronales para simular el conocimiento de un experto y utilizarlo de forma efectiva para resolver un problema concreto. Sistemas de apoyo a decisiones de grupo (GDSS, Group Decision Support Systems): es "un sistema basado en computadoras que apoya a grupos de personas que tienen una tarea (u objetivo) común, y que sirve como interfaz con un entorno compartido". El supuesto en que se basa el GDSS es que si se mejoran las comunicaciones se pueden mejorar las decisiones. 3.1.3.1.2 Características de los Sistemas de Soporte a la Toma de Decisiones Interactividad: sistema computacional con la posibilidad de interactuar en forma amigable y con respuestas a tiempo real con el encargado de tomar decisiones. Tipo de decisiones: apoya el proceso de toma de decisiones estructuradas y no estructuradas. Frecuencia de Uso: tiene una utilización frecuente por parte de la administración media y alta para el desempeño de su función. Variedad de Usuarios: puede emplearse por usuarios de diferentes áreas funcionales como ventas, producción, administración, finanzas y recursos humanos. Flexibilidad: permite acoplarse a una variedad determinada de estilos administrativos: Autocráticos, Participativos, etc. Desarrollo: permite que el usuario desarrollo de manera directa modelos de decisión sin la participación operativa de profesionales en informática. Interacción Ambiental: permite la posibilidad de interactuar con información externa como parte de los modelos de decisión. Comunicación Inter-Organizacional: facilita la comunicación de información relevante de los niveles altos a los niveles operativos y viceversa, a través de gráficas. Acceso a base de Datos: tiene la capacidad de accesar información de las bases de datos corporativos. Simplicidad: simple y fácil de aprender y utilizar por el usuario final. 3.1.3.1.3 Componentes Funcionales que integran un DSS. Una de las características que poseen un DSS es la facilidad que un usuario, sin tener conocimientos amplios sobre sistemas computacionales, pueda desarrollar sus propios modelos de decisión. Estos modelos son construidos con ayuda de herramientas, que en términos generales se clasifican en herramientas de hardware y software. Las primeras están constituidas por todos los elementos del hardware, incluyendo microcomputadoras, monitores de alta resolución, impresoras, etc. Las segundas son aquellas que permiten al usuario generar sus propias aplicaciones, manipular su información particular y, en general, interactuar con el DSS. Una parte fundamental de los DSS es la facilidad para explorar la información a través de gráficas de alta calidad y reportes que se diseñan y obtienen en intervalos cortos de tiempo, así como la disponibilidad de lenguajes de muy alto nivel para facilitar la consulta de información que contiene la Base de Datos. La mayoría de los DSS permiten a los usuarios desarrollar sus propios modelos de decisión. Esto implica la posibilidad de manejar entrada, procesamiento, almacenamiento, y salida de información. En este sentido el usuario diseña sus propios formatos de entrada y salida, así como la estructura de almacenamiento de información y las funciones de procesamiento, de tal forma que el sistema puede evolucionar de manera permanente, a través de los cambios que periódicamente se van integrando a la aplicación. Esta forma de desarrollo denominada prototipo, es diferente al proceso tradicional de desarrollo de un sistema transaccional típico. En este último, el usuario tiene que definir de antemano todos los requerimientos de sus sistemas de aplicación durante las fases de análisis antes de iniciar la fase de diseño. Otra característica que se deriva de estos Sistemas de desarrollo es el concepto de aplicaciones desechables; es decir, modelos de decisión que fueron desarrollados en un tiempo muy corto, para apoyar una decisión particular. Una vez tomada la decisión no repetitiva, el modelo que se desarrolló carece de valor y desecha, o bien, se almacena para usarse con modificaciones en una decisión posterior. Los DSS permiten contestar preguntas específicas basadas en la combinación de dos elementos [171]: 1. Una base de datos que recopila distintas capas de información geo-referenciada (SIG). Para manejar estas bases de datos se utilizan programas específicos de computación que trabajan con capas superpuestas de imágenes satelitales, cartografía de recursos naturales, catastro, resultados de investigaciones, información proveniente de encuestas e informantes calificados, etc. 2. Uno o más modelos de simulación que integran distintas capas de información, realizan cálculos y brindan resultados de acuerdo a las necesidades de los usuarios. Estos modelos pueden variar en su complejidad, pero son los que permiten aprovechar la base de datos y relacionar la información existente. Planificación Modelos SSD SIG Ejecución Monitoreo Figura 3.2. Esquema del funcionamiento del Sistema de Soporte de Decisiones 3.1.3.2 Proceso de Decisión Es el proceso durante el cual la persona debe escoger entre dos o más alternativas. La toma de decisiones en una organización se circunscribe a una serie de personas que están apoyando el mismo proyecto. Debemos empezar por hacer una selección de decisiones, y esta selección es una de las tareas de gran trascendencia. Las condiciones en las que se toman las decisiones pueden clasificarse en términos generales como certidumbre, riesgo e incertidumbre. Certidumbre. Es la condición en que los individuos son plenamente informados sobre un problema, las soluciones alternativas son obvias, y son claros los posibles resultados de cada decisión. En condiciones de certidumbre, la gente puede al menos prever (si no es que controlar) los hechos y sus resultados. Esta condición significa el debido conocimiento y clara definición tanto del problema como de las soluciones alternativas. Una vez que un individuo identifica soluciones alternativas y sus resultados esperados, la toma de la decisión es relativamente fácil. El responsable de tomar la decisión sencillamente elige la solución con el mejor resultado potencial. Un problema puede tener muchas posibles soluciones, y calcular los resultados esperados de todas ellas puede ser extremadamente lento y costoso. La toma de decisiones en condiciones de incertidumbre es la excepción para la mayoría de los administradores y otros profesionales. Sin embargo, los administradores de primera línea toman decisiones diariamente en condiciones de certidumbre, o casi. Riesgo. Es la condición en la que los individuos pueden definir un problema, especificar la probabilidad de ciertos hechos, identificar soluciones alternativas y enunciar la probabilidad de que cada solución dé los resultados deseados. El riesgo suele significar que el problema y las soluciones alternativas ocupan algún punto intermedio entre los extremos representados por la plena información y definición y el carácter inusual y ambiguo. La probabilidad es el porcentaje de veces en las que ocurriría un resultado específico si un individuo tomara muchas veces una misma decisión. Probabilidad objetiva. La posibilidad de que ocurra un resultado específico con base en hechos consumados y números concretos se conoce como probabilidad objetiva. En ocasiones, un individuo puede determinar el resultado probable de una decisión examinando expedientes anteriores. Por ejemplo, aunque las compañías de seguros de vida no pueden determinar el año en que morirá cada tenedor de pólizas, pueden calcular las probabilidades objetivas se basan en la expectativa de que los índices de mortalidad prevalecientes en el pasado se repitan en el futuro. Probabilidad subjetiva. A la apreciación basada en juicios y opiniones personales de que ocurra un resultado específico se conoce como probabilidad subjetiva. Tales juicios varían de un individuo a otro, dependiendo de su intuición, experiencia previa en situaciones similares, conocimientos y rasgos personales (como preferencia por la asunción o por la elusión de riesgos). Incertidumbre. Es la condición en que un individuo no dispone de la información necesaria para asignar probabilidades a los resultados de las soluciones alternativas. De hecho, quizá el individuo esté imposibilitado incluso para definir el problema, y mucho más para identificar soluciones alternativas y posibles resultados. La incertidumbre suele indicar que el problema y las soluciones alternativas son tanto ambiguos como extremadamente inusuales. Las condiciones de certidumbre, riesgo e incertidumbre aparecen en la línea diagonal que va del extremo inferior izquierdo al extremo superior derecho (Figura 3.3). Tipos de Problemas Inusuales Conocidos y Claramente Definidos Incertidumbre Decisiones Decisiones Riesgo Decisiones Condiciones en las que se toman decisiones Certidumbre Soluciones Alternativas Experimental es y Figura 3.3. Condiciones de certidumbre 3.2 TECNOLOGIA CIADEC USADA EN LA MINERIA DE DATOS El punto de partida son los trabajos previos [10], donde se analizó la caracterización e interpretación de clases a partir de variables cualitativas, usando conceptos fundamentales como: variable caracterizadora (v.c.), variable parcialmente-caracterizadora y Sistema caracterizador (mínimo, completo). 3.2.1 Caracterización a partir de Variables Categóricas Se define el conjunto de valores propios de la variable por k c como: el conjunto de valores de X k para la clase C , representado X k que toman algunos elementos de C y ningún otro elemento fuera de C los toma, esto es, son valores exclusivos de C . Estos valores propios, cuando ocurren, identifican una clase con toda seguridad, por lo que son llamados valores caracterizadores de la clase C [10]. Una variable caracterizadora k c : i C, xik X k es caracterizadora de una clase dada C si k c i C, xik k c Para los dominios poco estructurados (dpe) en general es difícil encontrar variables caracterizadoras para las clases de una partición P. Para los propósitos es interesante considerar las variables X k que son parcialmente caracterizadoras de una clase C . Estas variables se definen como X k tales que: k c . Esto es, si tiene al menos un valor propio de la clase C , aunque puede compartir alguno con otra clase. Así, de los conceptos básicos en la construcción de este modelo híbrido es el de la representación para identificar lo que se define como variable caracterizadora de la clase C , concepto que descansa a su vez en el de valor propio de la clase C . Así, se definen los siguientes conceptos [25]: Un valor csk Dk de la variable X k es propio de la clase C , si cumple: ( i C : xik csk ) ( i C : xik csk ) Estos valores, cuando ocurren, identifican una clase con toda seguridad, por lo que, se les llamara valores caracterizadores de C y se denotan por Una variable Vck P si tiene al menos un k C , aunque puede compartir alguno con otras clases; se llamara Vc al conjunto de valores parcialmente caracterizadores de tiene , siendo C la clase y k la variable. X k es parcialmente caracterizadora de la clase C valor propio de la clase Una variable k sc C: {csk : csk es valor propio de X x para la clase C } X k es totalmente caracterizadora de la clase C P , si todos los valores que X k en la clase C son propios de C . En este caso, se denota por estos valores, los cuales caracterizan totalmente a la clase k c c kj : c kj Vck el conjunto de C: C , c kj C k c Vck 3.2.2 Sistema de Caracterización Para la caracterización de una partición es necesario describir los que es un Sistema de Caracterización. Una partición puede ser caracterizada por lo que se conoce como Sistema de Caracterización ( S ): S = {( C , X k , k c ): C P k c } El Sistema de Caracterización es mínimo y completo (Hipótesis de mundo cerrado) si: Si S contiene únicamente una tripleta para cada clase C Sistema Mínimo y Completo. P , se llama Algunas veces el sistema de caracterización S No es Completo: C P : (C ' , X x , k c ) S C C' 3.3 EL BOXPLOT Un boxplot múltiple es una herramienta de la estadística descriptiva inventada por Jhon Turkey [162] cuya representación gráfica [77], muestra la relación entre una variable numérica y algunos grupos/clases. Así tenemos algunos conceptos básicos relacionados con el boxplot, a decir: Estadísticos: son valores representativos que proporcionan información sobre la serie en cuanto a su posición en la escala de medición, agrupamiento en torno a un valor, distribución de los datos y concentración en una región entre otros. Los estadísticos proveen información sobre una muestra. Cuando se trabaja con toda la información (población) se le denomina parámetro. Cuartiles: son valores que dividen a la distribución en cuatro partes iguales en cuanto a la cantidad de datos. Así, tenemos que el primer cuartil (Q1), es el valor por debajo del cual ocurre el 25% de las observaciones y el tercer cuartil (Q 3) es aquel por debajo del cual ocurre el 75% de las observaciones. Siguiendo en esta línea, el segundo cuartil (Q 2) coincide con la mediana de la distribución. Dispersión: indica la variabilidad del conjunto de datos: cómo se distribuyen los datos de estudio. Una dispersión grande indica un conjunto de datos heterogéneos e implica poca utilidad de una medida de tendencia central únicamente para describir la distribución. Simetría: indica la forma del conjunto de datos, lo cual implica observar donde se concentra la información. Para el estudio de la forma de una distribución, también se usan los términos sesgo o asimetría. Una distribución puede ser: a) Simétrica: en este tipo de distribuciones la media, la moda y la mediana coinciden y los datos se distribuyen de igual forma a ambos lados de estas medidas. En el contexto, hay igual número de opiniones por encima que por debajo de la mediana. b) Asimétrica positiva o sesgada a la derecha: los datos tienden a concentrarse hacia la parte inferior de la distribución y se extienden más hacia la derecha. La media suele ser mayor que la mediana en estos casos. En el contexto, las opiniones se concentran en un puntaje menor y las de mayor puntaje están más dispersas. c) Asimétrica negativa o sesgada a la izquierda: los datos tienden a concentrarse hacia la parte superior de la distribución y se extienden más hacia la izquierda. La media suele ser menor que la mediana en estos casos. En el contexto, las opiniones se concentran en un puntaje mayor y las de menor puntaje están más dispersas. d) Medida de tendencia central: estadístico que procura aportar información sobre la localización central de la distribución de datos. Son: la media aritmética, la moda, la mediana, la media geométrica y la media armónica, y se emplean de acuerdo al objetivo del estudio y al tipo de dato que se tenga. Y las medidas descriptivas que identifican las partes de un boxplot: 1. Valor máximo: es el valor extremo superior de la distribución de datos. Los valores por encima de encima de este límite se consideran también atípicos. 2. Tercer cuartil: es aquel por debajo del cual ocurre el 75% de las observaciones o datos. 3. Mediana: coincide con el segundo cuartil. Divide a la distribución horizontal en dos partes iguales y se representa por un segmento horizontal. De este modo, 50% de las observaciones están por debajo de la mediana y 50% está por encima. 4. Primer Cuartil: es el valor por debajo del cual ocurre el 25% de las observaciones o datos. 5. Valor Mínimo: es el valor extremo inferior de la distribución de datos. Por debajo de este valor se encuentran los valores atípicos. 6. Valores Atípicos: son valores que están apartados del cuerpo principal de la distribución de datos. Pueden representar efectos de causas extrañas, opiniones extremas o en el caso de la tabulación manual, errores de medición o registro. Se colocan en la gráfica con asteriscos (*) o puntos (.) según se alejan menos o más del conjunto de datos. Se utiliza un superíndice numérico para indicar el número de veces que aparece ese dato como atípico. 7. Media Aritmética: es lo que tradicionalmente se conoce como promedio. Originalmente no forma parte del boxplot, sin embargo, se considera su inclusión para dar una idea del puntaje general de los datos estudiados. Para cada grupo, se visualiza el intervalo de valores que toma la variable y las observaciones atípicas (outliers) se marcan con "*". Para cada clase, se despliega una caja de Q1 (primer cuartil) a Q3 (tercer cuartil) que representa el 50% de los valores de esa clase, a partir de ésta se marcan los ―bigotes‖ con sus extremos el mínimo y el máximo que representan cada uno el 25% de los valores de esa clase y la mediana se marca con una línea horizontal. Es muy fácil observar si el boxplot múltiple de cierta clase no intersecta con el de las demás; en un caso así, la variable es totalmente caracterizadora. A veces, sólo es una parte del boxplot la que no interseca; en este caso se trata de una variable parcialmente caracterizadora. Para identificar estas variables, se estudian los valores propios que toma una variable en una clase Xk C , en relación a las otras y se ve si son de la clase o no; para ello hay que analizar cómo son las interacciones entre clases. Ejemplo. En la figura 3.4 se muestra el boxplot múltiple de la variable T.C. (total de personas colocadas), variable del dominio del ámbito laboral, la cual nos indica el total de personas colocadas en alguna institución una vez terminado el curso impartido. Como se puede observar el la figura 3.4 cada clase tiene asociada un boxplot, estos boxplot al proyectarlos sobre el eje vertical la mayoría se intersecan, lo cual significa que comparte valores propios con otras clases definiendo a la variable parcialmente caracterizadora para algunas clases. Figura 3.4. Boxplot de la variable total de personas colocadas T.C. Por su facilidad de construcción e interpretación, permite también comparar a la vez varios grupos de datos sin perder información ni saturarse de ella. Esto ha sido particularmente importante a la hora de escoger esta representación para mostrar información. En cuanto a la interpretación del boxplot se deberán tener las siguientes consideraciones a la hora de interpretarlo: 1) Mientras más larga la caja y los bigotes, más dispersa es la distribución de datos. 2) La distancia entre las cinco medidas descritas en el boxplot (sin incluir la media aritmética) puede variar, sin embargo, recuerde que la cantidad de elementos entre una y otra es aproximadamente la misma. Entre el límite inferior y Q 1 hay igual cantidad de opiniones que de Q1 a la mediana, de ésta a Q3 y de Q3 al límite superior. Se considera aproximado porque pudiera haber valores atípicos, en cuyo caso la cantidad de elementos se ve levemente modificada. 3) La línea que representa la mediana indica la simetría. Si está relativamente en el centro de la caja la distribución es simétrica. Si por el contrario se acerca al primer o tercer cuartil, la distribución pudiera ser sesgada a la derecha (asimétrica positiva) o sesgada a la izquierda (asimétrica negativa) respectivamente. Esto suele suceder cuando las observaciones o datos tienden a concentrase más hacia un punto de la escala. 4) La mediana puede inclusive coincidir con los cuartiles o con los límites de los bigotes. Esto sucede cuando se concentran muchos datos en un mismo punto, por ejemplo, cuando muchos estudiantes opinan igual en determinada pregunta. Pudiera ser este un caso particular de una distribución sesgada o el caso de una distribución muy homogénea. 5) Las opiniones emitidas como No aplica (N/A) cuando en realidad sí aplica o las opiniones nulas (cuando el estudiante no opina en una pregunta), no son tomadas en cuenta para elaborar el boxplot de esa pregunta. Por esta razón encontrará que en ocasiones no hay igual número de opiniones para todas las preguntas. 6) Se debe estar atento al número de estudiantes que opina en cada pregunta. Lo que pareciera ser dispersión en los resultados, en ocasiones podría deberse a un tamaño de muestra muy pequeño: pocos estudiantes opinaron. Debe ser cauteloso a la hora de interpretar. En estos casos se sugiere remitirse al reporte numérico. 7) En términos comparativos, procure identificar aquellas preguntas cuyos boxplot parecen diferir del resto. Pudiera con esto encontrar fortalezas o debilidades en su actuación según la opinión de los estudiantes. 3.4 APRENDIZAJE AUTOMÁTICO Dado un patrón, su reconocimiento/clasificación puede consistir de una de las siguientes dos tareas [82]: (i) clasificación supervisada (ej., análisis discrimínante) en la cual el patrón de entrada se identifica como un miembro de una clase predefinida, (ii) clasificación no supervisada (ej., clustering) en la cual el patrón se le asigna una clase desconocida hasta ese momento. Aquí el problema de reconocimiento se está considerando como una tarea de clasificación o categorización, donde las clases están definidas por el diseñador del sistema (en clasificación supervisada). A pesar de los pocos más de cincuenta años de investigación y desarrollo en este campo, el problema general de reconocimiento de patrones con una orientación, ubicación y escalamiento no se ha resuelto, esto es, no se ha conseguido un diseño de un reconocedor de patrones automático de propósito general. El diseño de un sistema de reconocimiento de patrones incluye los siguientes tres aspectos: e) Adquisición de datos y preprocesamiento. f) Representación de datos. g) Toma de decisiones. El dominio del problema sugiere la selección de los sensores, la técnica de preprocesamiento, el esquema de representación y el modelo de toma de decisiones. Generalmente un problema de reconocimiento bien definido y suficientemente delimitado (pocas variaciones intra-clases y muchas variaciones inter-clases) conducen a una representación compacta de patrones y a una estrategia simple de toma de decisiones. Por lo que, ningún enfoque por sencillo que sea, será el mejor ya que se han de utilizar diferentes técnicas y métodos. En consecuencia, la combinación de éstos es una práctica de uso común en el diseño de sistemas híbridos de reconocimiento de patrones [83]. Los mejores cinco enfoques conocidas son: i) patrones de referencia [84] y [85], ii) clasificación estadística [86] y [87] y [79], iii) igualación sintáctica o estructural [88], [83], [89] y [90], iv) redes neuronales [91] y [92], v) memorias asociativas [93], [94], [95], [96] y [97]. La Tabla 3.1 muestra una breve descripción y comparación de estos enfoques. Aproximación Representación Patrones de referencia Muestras, píxeles curvas Estadística Características Función de reconocimiento Correlación, medida de distancia Función Criterio típico Error de clasificación Error de clasificación discriminante Sintáctica o estructural Primitivas Redes neuronales Memorias asociativas Muestras, píxeles, características Muestras, píxeles, características Reglas, gramática Error de aceptación Función de la red Error cuadrático medio Recuperación de patrones Razón señal puesta Tabla 3.1. Enfoques de reconocimiento de patrones 3.4.1 Clasificación Aprovechando el Conocimiento Declarativo de los Expertos Los métodos clásicos de clasificación automática aplicada a dominios poco estructurados [10], muchas veces presentan resultados que no se pueden interpretar. En muchas ocasiones el experto tiene suficiente conocimiento para organizar parte del dominio en entidades que tengan sentido. Sin embargo, los métodos estadísticos clásicos prácticamente ignoran esta información. La herramienta Klass+ [24] implementa la metodología de clasificación basada en reglas cuya idea fundamental es recoger este conocimiento en forma de reglas que subdividan el espacio de clasificación en entornos coherentes y respetar esta primera estructuración sugerida directamente por el experto. Con esto se pretende cubrir dos objetivos: i) incorporación a la clasificación de información antes ignorada (como relaciones entre variables ó restricciones), recogida de los objetos de la clasificación que se pretende obtener y ii) garantizar la interpretabilidad de la clasificación obtenida [25]. 3.4.2 Representación Interpretación del Conocimiento del Experto e Introducir un nivel semántico en el proceso de clasificación ha de permitir una interpretación más clara de las clases finales. Incluir relaciones entre variables, condiciones de pertenencia a una clase o restricciones de incompatibilidad de grupos de objetos en un único formalismo conduce a buscar un modelo de representación muy genérico con suficiente potencia para tratar todo esto. Esta es la razón por la que el conocimiento adicional que proporciona el experto se representa a través de reglas lógicas de primer orden. La estructura de las reglas que contempla el método a usar es sencilla desde el punto de vista sintáctico y muy potente. Una regla está compuesta de una parte derecha que indica el nombre de alguna clase C y una parte izquierda con la condición A que ha de satisfacer un objeto i para formar parte de dicha clase C . En resumen diremos que un objeto i es seleccionado por una regla del tipo: r (A C) Si A se evalúa como cierto para el objeto i . En general, los objetos pueden satisfacer una, ninguna o más de una regla. Aquéllos que no cumplan ninguna regla no son motivo de preocupación, ya que se ha dicho que el experto proporciona sólo un conocimiento parcial sobre el dominio. 3.4.3 Metodología de Clasificación Basada en Reglas Una vez construida la Base de Reglas (BR), con ayuda del experto, se puede evaluar qué objetos satisfacen cada una de las reglas. Algunos no satisfacen ninguna. El conjunto de objetos que están en esta situación forma parte de lo que se denota como clase residual y se integra a la jerarquía global en la última etapa del proceso de clasificación con reglas. El resultado de evaluar las reglas sobre los individuos es una partición de la muestra en k clases más la clase residual, donde k es el número de partes derechas distintas en las reglas. Con la finalidad de respetar la estructura de la clasificación jerárquica hace falta que las clases inducidas por las reglas se constituyan en forma de árbol. En primer lugar se realiza una clasificación local de cada una de las clases inducidas por las reglas. Esto genera los primeros nodos internos del árbol final. Por último, los centros de dichas clases se clasifican junto a los elementos de la clase para integrar todos los elementos en un único árbol ascendente jerárquico que es el que dará lugar a la clasificación final. Sobre las ventajas de trabajar con este tipo de metodología, véase [38], [41] y [26]. 3.5 PROCESO KNOWLEDGE DISCOVERY IN DATA BASE (KDD) En [177], se define a KDD como ―el proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y comprensibles a partir de datos‖. En esta definición se resumen cuales son las propiedades deseables del conocimiento extraído: Válido: hace referencia a que los patrones deben seguir siendo precisos para datos nuevos (con un cierto grado de certidumbre). Novedoso: que aporte algo desconocido tanto para el sistema y preferiblemente para el usuario. Potencialmente útil: la información debe conducir a acciones que reporten algún tipo de beneficio al usuario. Comprensible: la extracción de patrones no comprensibles dificulta o imposibilita su interpretación, revisión, validación y uso en la toma de decisiones. Como se deduce de la anterior definición, el proceso Knowledge Discovery in Data Base (KDD) es un proceso complejo que incluye no sólo la obtención de los modelos o patrones (el objetivo de la minería de datos), sino también la evaluación y posible interpretación de los mismos. El proceso KDD es un proceso iterativo e interactivo. Es iterativo ya que la salida de alguna de las fases puede hacer volver a pasos anteriores y porque a menudo son necesarias varias iteraciones para extraer conocimiento de alta calidad. Es interactivo porque el usuario, o más generalmente un experto en el dominio del problema, debe ayudar en la preparación de los datos, validación del conocimiento extraído, etc. El objetivo fundamental del KDD es encontrar conocimiento útil, válido, relevante y nuevo sobre un fenómeno o actividad mediante algoritmos eficientes, dadas las crecientes órdenes de magnitud en los datos. Al mismo tiempo hay un profundo interés por presentar los resultados de manera visual o al menos de manera que su interpretación sea muy clara. Otro aspecto es que la interacción humano-máquina deberá ser flexible, dinámica y colaboradora [178]. El resultado de la exploración deberá ser interesante y su calidad no debe ser afectada por mayores volúmenes de datos o por ruido en los datos. En este sentido, los algoritmos de descubrimiento de información deben ser altamente robustos. Las metas del KDD son: Procesar automáticamente grandes cantidades de datos crudos. Identificar los patrones más significativos y relevantes. Presentarlos como conocimiento apropiado para satisfacer las metas del usuario. Relación con otras disciplinas: KDD nace como interfaz y se nutre de diferentes disciplinas: Sistemas de información / bases de datos: tecnologías de bases de datos y bodegas de datos, maneras eficientes de almacenar, accesar y manipular datos. Estadística, aprendizaje automático / IA (redes neuronales, lógica difusa, algoritmos genéticos, razonamiento probabilístico): desarrollo de técnicas para extraer conocimiento a partir de datos. Reconocimiento de patrones: desarrollo de herramientas de clasificación. Visualización de datos: interfaz entre humanos y datos, y entre humanos y patrones. Computación paralela / distribuida: cómputo de alto desempeño, mejora de desempeño de algoritmos debido a su complejidad y a la cantidad de datos. Interfaces de lenguaje natural a bases de datos. En [81] se da un punto de vista práctico del proceso de KDD enfatizando la naturaleza interactiva e iterativa de este proceso, incluye varios pasos con decisiones que tienen que tomarse por el usuario. La Figura 3.5 muestra un diagrama del proceso KDD. A continuación se resume cada una de las etapas: 1. La comprensión del dominio de aplicación, el conocimiento a priori relevante, y las metas del usuario final. 2. La creación de un conjunto de datos destino. Seleccionar un conjunto de datos, o seleccionar un subconjunto de variables o muestra de datos, sobre los cuales se realizará el descubrimiento. 3. La preparación y pre-procesamiento de datos. Operaciones básicas, si fuera necesarias, como la eliminación de ruido, datos atípicos (outliers) o perdidos, recabar la información necesaria para modelar el ruido, decidir sobre estrategias para manejar datos pedidos. 4. La reducción y proyección de datos. Encontrar características útiles para representar los datos depende de las metas del proceso. Usar reducción de la dimensionalidad o métodos de transformación para reducir el número de variables bajo consideración o para encontrar representaciones invariantes para los datos. 5. Seleccionar la tarea de Minería de Datos. Decidiendo si la meta del proceso KDD es clasificación, regresión, clustering o alguna otra. 6. Seleccionar el o los algoritmo(s) de Minería de Datos. Seleccionar los métodos que se emplearán en la investigación para identificar patrones en los datos. Esto incluye decir qué modelos y parámetros son los apropiados y escoger un método de Minería de Datos compatible con el criterio del proceso de KDD. 7. La Minería de Datos. La investigación de patrones en una representación formal o un conjunto de representaciones como: reglas de clasificación o árboles, regresión, clustering y así sucesivamente. El usuario puede apoyar el método de Minería de Datos realizando correctamente los pasos previos. 8. La interpretación de los resultados obtenidos, posible retorno a cualquiera de los pasos previos del 1-7 para iteraciones posteriores. 9. La consolidación del conocimiento descubierto. Incorporación de este conocimiento en el desempeño del sistema, o simplemente documentarlo y reportarlo a las partes interesadas. El proceso de KDD puede incluir iteraciones significativas y contener ciclos entre cualesquiera dos pasos; así en cada etapa el ―minero informático‖ puede volver a la etapa que el requiera para continuar su trabajo. La etapa donde se descubre la información es la denominada Minería de Datos. Figura 3.5. Diagrama del proceso KDD 3.6 CONCEPTOS BASICOS DE LOGICA DIFUSA Una gran variedad de ciencias aplican métodos de Inteligencia Artificial (IA) principalmente para modelar el razonamiento del experto. Para el diseño de tales sistemas inteligentes, la importancia de la lógica difusa ha ganando gran aceptación [129]. Publicaciones recientes han mostrado también que los sistemas híbridos en IA han conseguido buenos resultados, combinando lógica difusa e Inteligencia Artificial para la diagnosis médica en la prevención de enfermedades, redes neuronales para el reconocimiento de patrones, sistemas de inferencia difusos para incorporar conocimiento humano, realizar inferencia y tomar decisiones, etc. Es importante considerar que los problemas complejos del mundo real requieren sistemas inteligentes que combinen conocimiento, técnicas y metodologías de diferentes fuentes. Estos sistemas inteligentes deberán poseer experiencia como la del humano dentro de un dominio específico, adaptándose y aprendiendo a hacer lo mejor en ambientes dinámicos y explicando cómo toman decisiones o acciones. De frente a los problemas de cálculo, es más ventajoso usar diferentes técnicas de cálculo sinérgicas que exclusivas, obteniendo como resultado la construcción de sistemas híbridos inteligentes. 3.6.1 Lógica Difusa La lógica como base para el razonamiento puede distinguirse por sus tres componentes principales (independientes del contexto): valores de verdad, vocabulario (operadores) y razonamiento (tautologías, silogismos). En la lógica de Boole, los valores de verdad son 0 (falso) ó 1 (verdadero) y por medio de estos valores de verdad, se define el vocabulario vía las tablas de verdad. Una distinción entre la verdad material y la lógica [112] se hace en las llamadas lógicas extendidas: La Lógica modal [113] distingue entre verdad necesaria y posible, y la lógica temporal [114] entre enunciados que fueron verdaderos en el pasado y aquéllos que serán verdaderos en el futuro. La lógica epistémica [115] trata del conocimiento y las creencias, la lógica deóntica [101] con lo que debe hacerse y que permite ser verdadero. La lógica modal, en particular, podría ser una buena base para aplicar diferentes medidas de la lógica de la incertidumbre. Otra extensión de la lógica de Boole es el cálculo de predicados, el cual es un conjunto lógico teórico que usa cuantificadores y predicados para los operadores de la lógica de Boole. La Lógica Difusa [116] hace una extensión del conjunto teórico de la lógica multivaluada en la cual los valores de verdad son variables lingüísticas (términos de verdad de variables lingüísticas). Lo mismo que en la lógica clásica, los operadores se definen en la lógica difusa a través de tablas de verdad, usando el Principio de Extensión para obtener las definiciones de estos operadores [117]. Hasta ahora, la teoría de la posibilidad ha empezado a ser usada para definir operadores en Lógica Difusa, aunque hay otros operadores que también han sido investigados [118] y que podrían usarse. Además, se puede considerar conectivos mixtos como funciones para calcular el grado de potencia conjunta vía las t-normas en problemas de clasificación [119]. Un punto importante es la relación y diferencia entre los conceptos de probabilidad y posibilidad; con este último concepto se tiene una estrecha relación con el grado de pertenencia a un conjunto difuso [120]. El concepto de posibilidad juega un importante papel particularmente en la representación del significado, en la gestión o manejo de la incertidumbre en sistemas de clasificación, sistemas inteligentes y en algunas otras aplicaciones [121]. 3.6.2 Razonamiento Difuso En realidad, cuando las personas hablan acerca de un sistema del mundo real, lo hacen en tres etapas [122]: Seleccionan un conjunto de variables que podría ser entendido como un conjunto de entidades bien diferenciadas. Tales variables pueden estar directamente vinculados a la experiencia sensorial y entonces expresada en una manera informal o pueden estar determinadas por medio de procedimientos de mediciones más precisas. Establecen las relaciones entre las variables, ligando sus estados particulares. Esto en realidad se hace dando reglas como Si (hecho A) entonces (hecho B), donde cada hecho describe un estado o un valor preciso de alguna variable particular. Finalmente, hay una tercera etapa donde los conjuntos de reglas se organizan para construir una teoría o un modelo que describe el sistema del mundo real bajo estudio. El sistema está bien comprendido cuando su teoría no conduce a conclusiones contradictorias o a enunciados experimentalmente falsos acerca del sistema. En este contexto el término inferencia se aplica a cualquier algoritmo que se use para derivar consecuencias de hechos conocidos dentro del modelo. La inferencia en un amplio sentido puede aparecer en diferentes formas dependiendo del contexto considerado, desde la manipulación simbólica en una base de datos lógica hasta la evaluación de una función numérica o vectorial. En el caso anterior, las reglas aparecen bajo la forma: Si Y f ( x), x X , con los hechos conocidos como X x0 ó X X x entonces A , siendo A un subconjunto de X . En Dubois y Prade [122] leemos: ―las reglas Si……entonces……. son una herramienta clave para expresar piezas de conocimiento en lógica difusa‖. Sin embargo, cuando las variables consideradas vienen de conceptos graduales como altura, temperatura, cantidad y algunas otras, las descripciones de sus estados están algunas veces dadas también por enunciados graduales e implícitamente vagos. Ejemplos de estos enunciados son la temperatura es alta, el color es azul, entre otros. Más aún, en este caso el conocimiento acerca del sistema puede presentarse en forma de enunciados condicionales ligando estos estados vagos de las variables, tales como ―Si la temperatura es baja, entonces el color es verde‖ [119]. Cuando los estados vagos de las variables están representados por conjuntos difusos del Universo del discurso donde las variables toman sus posibles valores, el problema surge naturalmente de cómo determinar los hechos y las reglas que se han de combinar para derivar nuevos hechos. Esta es la esencia de la inferencia difusa. A estos hechos vagos en el contexto de los conjuntos difusos se les denominan enunciados difusos ó proposiciones difusas, y las reglas relacionadas con estos hechos como reglas difusas ó enunciados condicionales difusos [123]. Lo que es evidente desde el punto de vista de la lógica es que la inferencia lógica tiene lugar a nivel semántico. A diferencia de los procedimientos de la lógica clásica, que derivan conclusiones por manipulación simbólica, en la Lógica Difusa los enunciados difusos están siempre relacionados a los conjuntos difusos que los representan, y el proceso de inferencia total se realiza por manipulación numérica de sus funciones de pertenencia. En esta forma los hechos inferidos se constituyen a partir de sus funciones de pertenencia, y no en forma inversa [124]. En los diferentes significados que puede tener un enunciado difuso, hay una característica común que todas las reglas comparten: es decir, su capacidad para ser aplicadas a situaciones no lejanas de aquellas para las cuales han sido originalmente concebidas. La inferencia difusa tiene la ventaja de su versatilidad para derivar consecuencias cuando los hechos conocidos no coinciden exactamente con cualquiera de los antecedentes de las reglas que describen el conocimiento acerca del sistema. Tales procesos de inferencia son referidos en la literatura como razonamiento aproximado, y están obviamente más cercanos a la forma humana de pensar que a los procedimientos clásicos de inferencia. Este aspecto de la Lógica Difusa es relevante e importante para la Inteligencia Artificial [125] y [126]. La idea original de realizar inferencia difusa por medio de relaciones difusas compuestas (reglas de composición difusa) fue introducida por Zadeh [127]. Esta aproximación naturalmente conduce a un patrón de inferencia que se extiende al modus ponens y que puede ser fácilmente generalizado a situaciones más complejas donde se consideren varias variables (principio de proyección-combinatoria). En este contexto nos preguntamos: ¿cómo deberá interpretarse una regla difusa dada Si X es A entonces Y es B en términos de una relación difusa sobre el producto cartesiano de los universos de discurso X x Y ?. Las dos respuestas más aceptables a esta pregunta se encuentran en la literatura y vienen de dos trabajos pioneros, uno de Zadeh y el otro de Mamdani. El enfoque de Zadeh toma R( x, y) I ( A( x), B( y)) donde I significa una función de implicación multivaluada, mientras la aproximación de Mamdani toma a con R( x, y) A( x) B( y), definido como el mínimo (min) o más generalmente cualquier función multivaluada. Esta segunda forma de realizar inferencia es la más usual en el campo del control difuso. La selección entre aproximaciones basadas en implicación y en conjunciones depende sobre el significado deseado de la regla y la forma condicional de combinar hechos inferidos de las diferentes reglas [128] y [129]. La interpretación de procesos de inferencia difusa como procesos de razonamiento aproximado permite comparar qué tan lejanos son los hechos conocidos de los antecedentes y hechos inferidos de los consecuentes. 3.6.3 Las Etiquetas Lingüísticas, la Visualización e Interpretación de Resultados en Sistemas Híbridos Debido a la gran importancia que tiene la etapa de interpretación y evaluación del conocimiento obtenido en bases de datos del proceso KDD, es necesaria la aplicación de disciplinas, herramientas, métodos, etc., que sean soporte para el desarrollo de interfaces para el usuario en esta etapa del proceso KDD. Las etiquetas lingüísticas son un medio atractivo de la Lógica Difusa para visualizar resultados para su interpretación por los usuarios que presentan los sistemas de Minería de Datos con el objetivo de apoyar a la toma de decisiones. La Lógica Difusa ha cobrado una gran importancia por la variedad de sus aplicaciones, las cuales van desde el control de complejos procesos industriales, hasta el diseño de dispositivos artificiales de deducción automática, pasando por la construcción de artefactos electrónicos de uso doméstico y de entretenimiento. La expedición de patentes industriales de mecanismos basados en la lógica difusa tiene un crecimiento sumamente rápido en todas las naciones industrializadas. La importancia que representa la visualización de resultados para su interpretación en los sistemas de Minería de Datos, debe de ser tomada en cuenta por los desarrolladores de este tipo de sistemas, ya que no todos los sistemas poseen una adecuada forma o una interfaz adecuada, que visualice clara y sencillamente los resultados. Muchos de los desarrolladores de este tipo de sistemas, están más preocupados en encontrar conocimiento en bases de datos que en visualizarlo; es por ello que se necesitan métodos que lo visualicen de tal forma que exista una semántica estrictamente cimentada entre el conocimiento obtenido por el sistema y el usuario. Existen muchos sistemas poderosos en este ramo, pero son pocos los sistemas que visualizan con un método adecuado para la interpretación de resultados. En la Tabla 3.2 se muestra la forma de visualizar resultados por parte de los sistemas híbridos que se han mencionado. Es de gran importancia haber entendido las descripciones mencionadas anteriormente acerca de estos sistemas, ya que la siguiente descripción está estrechamente relacionada. La búsqueda de nuevas técnicas para la visualización de resultados, puede hacer que la potencialidad de los sistemas de Minería de Datos crezca a medida que estos sistemas se apeguen a la realidad, describiendo fenómenos como el ser humano tiene la capacidad de describir si el clima es caliente, frió, templado, etc. Sistema ¿Qué visualiza? Únicamente Weka (Supervisado y no supervisado) Clementine (Supervisado) clase la de pertenencia gráficos de y los comportamientos. Reglas Descripción Después de haber sometido una BD a este sistema, se visualiza únicamente la clase a la que pertenece cada uno de los individuos contenidos en la BD. Con la ayuda de una grafica, se pueden observar las agrupaciones o clases encontradas por el sistema, cada una de las cuales se diferencia ya que se muestran en distinto color. de Al analizar una BD clasificada, este sistema visualiza una pertenencia a las serie de reglas de pertenencia a las clases, para que el clases. usuario de acuerdo a su criterio clasifique nuevos individuos. Al analizar una BD clasificada, este sistema visualiza una XpertRule Gráficos Miner (Supervisado) y serie de gráficos y un diagrama de árbol que indican la árboles pertenencia a las clases, para que el usuario de acuerdo a su criterio clasifique nuevos individuos. Después de haber sometido una BD a este sistema, se visualiza en pantalla una gráfica multidimencional donde se Cluesome pueden observar las agrupaciones o clases encontradas por (No Gráficos el sistema, cada una de las clases se diferencia ya que se supervisado) muestran en distinto color, y se muestra a que clase pertenece cada una de las observaciones en la misma gráfica. Se visualiza en pantalla una gráfica donde se pueden observar las agrupaciones o clases encontradas por el sistema, cada una de las clases se diferencia ya que se Ginko (No supervisado) muestran en distinto color, y se muestra a que clase Gráficos pertenece cada observación. La posición de dicha gráfica, se puede manipular con el objetivo de tener flexibilidad en la observación. _______________________________________ Al analizar una BD clasificada, este sistema visualiza: CIADEC (Supervisado) La clase de pertenencia, reglas y gráficos. sistemas reglas, gráficos de pertenencia a las clases e interpretación de resultados. Al analizar un nuevo individuo, el sistema proporciona la clase a la que pertenece para que con el sistema de gráficos interprete los resultados, observando el grado de pertenencia a las clases. Tabla 3.2. Métodos de visualización de resultados En los siguientes puntos se hará énfasis al marco teórico que comprende la solución de problemas con el uso de etiquetas lingüísticas. 3.6.4 Etiquetas Lingüísticas En el tratamiento de la precisión frente a la complejidad dominante de los sistemas, es natural el uso de las llamadas variables lingüísticas, esto es, variables cuyos valores no son números sino palabras o expresiones en lenguaje natural o artificial. Una de las herramientas básicas para la Lógica Difusa es el concepto de variable lingüística que en 1973 fue llamada variable de orden superior más que variable difusa y definida como en [128, Pág. 75] como: Definición. Una variable lingüística se caracteriza por una quíntupla: ( x,T ( x),U , G, A), En la cual términos de x es el nombre de la variable; T (x) (o simplemente T ) denota el conjunto de x , esto es, el conjunto de los nombres de los valores lingüísticos de x , y cada valor es una variable difusa denotada genéricamente por X la cual se extiende sobre un universo de discurso U , que se asocia con la variable de base u ; G es una regla sintáctica (la cual comúnmente tiene la forma de una gramática) para generar el nombre, X, de valores de x; y A es una regla semántica que asocia a cada X su significado, A(X ) , es un subconjunto difuso de U. Una X particular, esto es, un nombre generado por G, se llama un término. Deberá notarse que la variable base u puede ser un vector. Las etiquetas lingüísticas son el centro de las técnicas de modelado difuso que ejemplifican la idea de variable lingüística. Desde su raíz, una variable lingüística es el nombre de un conjunto difuso. Si se tiene un conjunto difuso llamado ''largo'', éste es una simple variable lingüística, al igual que otro conjunto llamado ―corto‖, a cada conjunto difuso se le atribuye una etiqueta, el conjunto difuso está constituido por un rango de valores del Universo del discurso U. Una variable lingüística encapsula las propiedades de aproximación o conceptos de imprecisión en un sistema. Esto reduce la aparente complejidad de describir lo que debe concordar con su semántica. En el campo de la semántica difusa cuantitativa al significado de un término " x " se le representa como un conjunto difuso M(x) del universo de discusión. Desde este punto de vista, uno de los problemas básicos en semántica es que se desea calcular el significado de un término compuesto. La idea básica sugerida por Zadeh [144] es que una etiqueta lingüística tal como ''muy'', ''más o menos'', ''ligeramente'', etc. puede considerarse como un operador que actúa sobre un conjunto difuso asociado al significado de su operando. Por ejemplo, en el caso de un término compuesto ''muy alto'', el operador ''muy'' actúa en el conjunto difuso asociado al significado del operando ''alto''. Una representación aproximada para una etiqueta lingüística se puede lograr en términos de combinaciones o composiciones de las operaciones básicas. En [144] considera que las etiquetas lingüísticas pueden clasificarse en dos categorías que se definen como sigue: Tipo I: las que pueden representarse como operadores que actúan en un conjunto difuso: ''muy'', ''más o menos'', ''mucho'', ''ligeramente'', ''altamente'', ''bastante'', etc. Tipo II: las que requieren una descripción de cómo actúan en los componentes del conjunto difuso (operando): ''esencialmente'', ''técnicamente'', ''estrictamente'', ''prácticamente'', ''virtualmente'', etc. Su caracterización envuelve una descripción de forma que afectan a los componentes del operando y por lo tanto es más compleja que las del tipo I. En general, la definición de una etiqueta de este tipo debe formularse como un algoritmo difuso que envuelve etiquetas tipo I. En otras palabras, las etiquetas lingüísticas pueden ser caracterizadas cómo operadores más que construcciones complicadas sobre las operaciones primitivas de conjuntos difusos. En la actualidad la mayoría de las decisiones procede de problemas relacionados con el transcurso del tiempo (TS), el análisis económico y financiero son campos donde se relacionan generalmente con las decisiones del humano soportados por software desarrollado con técnicas de la estadística y de Minería de Datos. En un futuro la importancia de estos ―sistemas inteligentes‖ estarán relacionados con la posibilidad de operarlos con información lingüística, razonando y respondiendo cuestiones prometedoras en el campo de la investigación. La Teoría de la Percepción Computacional (Computational Theory of Perceptions, CTP) [145, Pág. 105-119] y 146, Pág. 233-64] puede servir básicamente para el avance de estos sistemas. La lógica difusa constituye el cuerpo de la CTP haciendo poderosas las herramientas para el modelado y procesamiento de información lingüística de dominios cuantitativos. La metodología para el uso de palabras propone el uso de métodos de razonamiento basados en modelos difusos. El éxito de la Lógica Difusa en aplicaciones de control y sistemas para el reconocimiento de patrones hace posible el uso de descripciones lingüísticas para áreas que regularmente están basadas con variables numéricas. En [144] llama la atención cuando se basa en la aplicación de la Lógica Difusa para el apoyo a las decisiones en áreas económicas, financieras, ciencias terrenales, etc. con el role central de la percepción humana. La percepciones son basadas en preposiciones como: ―el precio del gas es muy alto‖, ―es muy improbable que suba el peso‖, etc. Es normal el uso este tipo de proposiciones en las decisiones de las personas. Los términos bajo, muy improbable, alto, más o menos, etcétera, normalmente están constituidos por una graduación difusa de información [147, Pág. 111-127]. 3.6.5 Aplicación Los sistemas para el descubrimiento de conocimiento con respecto a su visualización de resultados, siempre están sostenidos sobre conjuntos difusos, lo que hace posible la aplicación de etiquetas lingüísticas para visualizar resultados. En esta aplicación, se plantea el uso de etiquetas lingüísticas como medio de visualización de resultados. En esta parte se mostrará un ejemplo matemático de aplicación de etiquetas lingüísticas basadas en modelos difusos. Sea el universo X = {0, 1, 2, 3,…, 25}, un conjunto de personas colocadas, medidas en número de personas y E= {Muy Bajo, Bajo, Mediano, Alto, Muy Alto} un conjunto de etiquetas lingüísticas que hacen referencia a modelos difusos del universo X . Aplicar el conjunto E al universo X . Solución: Generando los modelos difusos para aplicar etiquetas lingüísticas que hagan referencia al universo X. Sea x X. Para hacer una distribución de las etiquetas lingüísticas, se toma el camino más sencillo que es dividir los elementos x restantes de X entre los elementos restantes de E , dando un rango de 5 elementos del universo X para cada una de las cinco etiquetas restantes del conjunto E. Para poder modelar la solución a un sentido que se asemeje a la realidad, se necesita hacer una operación que indique el nivel de pertenencia de los valores fronterizos de los conjuntos difusos, es decir, la quinta persona, no le pertenece en un 100% a la etiqueta ―Muy Bajo‖, ya que ésta casi pertenece a las velocidades fronterizas de la siguiente etiqueta, es por ello que se necesita saber que rango de valores de personas colocadas pertenecen a una etiqueta al 100% y cuál es el valor de pertenencia de las restantes. En las siguientes formulaciones de los conjuntos difusos para las etiquetas lingüísticas restantes, se representan los niveles de pertenencia de las personas colocadas a las respectivas etiquetas. 1.- MUY BAJO Para esta etiqueta, se genera el siguiente modelo difuso. Gráfica 3.1. Etiqueta Muy Bajo En la Gráfica 3.1 se puede observar los niveles de pertenencia de cada valor de personas ocupadas con respecto a la etiqueta ―Muy Bajo‖. 2.- BAJO Para esta etiqueta, se genera el siguiente modelo difuso. Gráfica 3.2. Etiqueta Bajo En la Gráfica 3.2 se puede observar los niveles de pertenencia de cada valor de personas ocupadas con respecto a la etiqueta ―Bajo‖. 3.- MEDIANO Para esta etiqueta, se genera el siguiente modelo difuso. Gráfica 3.3. Etiqueta Mediano En la Gráfica 3.3 se puede observar los niveles de pertenencia de cada valor de personas ocupadas con respecto a la etiqueta ―Mediano‖. 4.- ALTO Para esta etiqueta, se genera el siguiente modelo difuso. Gráfica 3.4. Etiqueta Alto En la Gráfica 3.4 se puede observar los niveles de pertenencia de cada valor de personas ocupadas con respecto a la etiqueta ―Alto‖. 5.- MUY ALTO Para esta etiqueta, se genera el siguiente modelo difuso. Gráfica 3.5. Etiqueta Muy Alto En la Gráfica 3.5 se puede observar los niveles de pertenencia de cada valor de personas ocupadas con respecto a la etiqueta ―Muy Alto‖. Ésta es la forma de cómo implementar etiquetas lingüísticas sobre un universo, en este caso, se construyeron modelos difusos para poder implementar las etiquetas lingüísticas, quedando el universo dividido en conjuntos difusos, esta división se puede observar en la Gráfica 3.6, que muestra los niveles de pertenencia de cada una de las personas colocadas del universo hacia las etiquetas lingüísticas. Una mejor visualización de resultados hace que la interpretación de éste sea correcta y se tenga un mejor apoyo en la toma de decisiones. El uso de etiquetas lingüísticas para la representación de resultados en cualquier dominio, hacen generar proposiciones que forman el núcleo de nuestras relaciones con ''la forma de las cosas en el mundo'' e incorporar conceptos que hacen lograr que los sistemas sean potentes y se aproximen más a la realidad. MB B M A MA Muy Bajo = MB, Bajo = B, Mediano = M, Alto = A, Muy Alto = MA Grafica 3.6 Comportamiento de las etiqueta lingüísticas sobre X CAPÍTULO IV MODELO DE LA TECNOLOGÍA CIADEC 4.1 INTRODUCCIÓN El punto de partida nos sitúa de pleno en el empleo de técnicas de clasificación automática que particionan los datos del dominio de estudio en un conjunto de clases realizando una clasificación utilizando el método de clasificación basada en reglas propuesto por [10, 25], donde se introduce el conocimiento adicional, parcial y no homogéneo que posee el experto del dominio a través de un conjunto de reglas ( CP1 ) para que actúe como un sesgo semántico durante el proceso de clasificación, mejorando la comprensión de las clases obtenidas. 4.2 PROPUESTA DEL MODELO La propuesta del modelo aporta un Sistema de Caracterización de clases, basado en predicados de lógica de primer orden ( CP1 ), que permiten máxima potencia y flexibilidad para detectar variables cuantitativas caracterizadoras en algunas clases, permitiendo un procedimiento de generación automático de reglas, que formarán parte de la base de conocimiento de un sistema orientado a la predicción o diagnóstico. Además, la automatización de este sistema de caracterización ofrecerá un conjunto de herramientas de apoyo a la interpretación como: la construcción de un sistema de reglas, visualización de las funciones de pertenencia de una variable X k a las distintas clases C , evaluación de individuos nuevos de acuerdo a las reglas generadas y validación de la calidad de la predicción teniendo como base un conjunto de nuevos objetos. Los pasos que conforma el modelo son los siguientes: 1. Descripción estadística de las variables En esta primera etapa, se utilizan algunas técnicas descriptivas clásicas que permiten identificar el comportamiento y naturaleza de los datos en la matriz X . Esta etapa sirve para obtener información preliminar acerca de la variabilidad de las mediciones y para representar los boxplots múltiples, que permiten observar la relación entre las variables y las clases y, en especial es útil para representar las diferencias entre grupos. 2. Uso del boxplot múltiple como herramienta gráfica, para la detección de variables caracterizadoras. El modelo propuesto está inspirado en el boxplot múltiple, el cual es una herramienta que permite visualizar y comparar la distribución de una variable a través de todas las clases. Con la representación de las variables, es posible identificar lo que se denominan variables caracterizadoras de la clase una clase C, concepto que descansa a su vez en el de valor propio de C. Así, se definen los siguientes conceptos: K Un valor cS DK de la variable X k es propio de la clase C , si cumple: ( i C : xik csk ) ( i C : xik csk ) Estos valores, cuando ocurren, identifican una clase con toda seguridad, por lo que, se les denominara valores caracterizadores de C k sc y se denotan , siendo C la clase y k la variable. Una variable X k es parcialmente caracterizadora de la clase C valor propio de la clase Vck tiene si tiene al menos un C , aunque puede compartir alguno con otras clases; se llamara VCk al conjunto de valores parcialmente caracterizadora de Una variable P C: {csk : csk es valor de X k para la clase C } X k es totalmente caracterizadora de la clase C P , si todos los valores que X k en la clase C son propios de C . En este caso, se denota por estos valores, los cuales caracterizan totalmente a la clase k c c kj : c kj Vck C: C C , c kj Vck k C el conjunto de Es muy fácil observar si el boxplot de cierta clase no interseca con el de las demás; en un caso así, la variable es totalmente caracterizadora. A veces, sólo es una parte del boxplot la que no interseca; en ese caso se trata de una variable parcialmente caracterizadora. Para identificar estas variables, se estudiaran los valores propios que toma una variable en una clase Xk C , en relación a las otras y poder ver si son de la clase o no; para ello hay que analizar cómo son las interacciones entre clases. 3. Estudio de interacciones entre clases En este proceso, es de interés considerar las variables, en su estado natural, evitando cualquier transformación arbitraria sobre su naturaleza, que pudieran alterar el sentido de la interacción. Esta etapa consiste en identificar todas las intersecciones que se dan entre los valores de las variables y las distintas clases, determinando en qué puntos del rango de las variables están cambiando estas intersecciones; así se pueden identificar las distintas combinaciones de clases donde se puede dar un mismo valor de cierta variable, y como consecuencia hacer emerger los valores propios (caracterizadores) de una clase; éstos identificarán variables total o parcialmente caracterizadoras. Sin embargo, en la práctica no se puede basar un proceso automático en la interpretación de una representación gráfica, por lo que en los siguientes apartados se propone una alternativa equivalente, pero automatizable. 4. Sistema de intervalos o ventanas de longitud variable Estas intersecciones entre las distintas clases se pueden encontrar de forma exacta con un costo computacional mínimo, solamente calculando los valores mínimos y máximos por variable y clase y ordenándolos en forma conveniente, representando este paso la aportación fundamental de este trabajo de tesis. Así, a partir de esta ordenación, se define una discretización de la variable X k en un conjunto de intervalos de longitud variable, sobre los que se podrá identificar los valores propios de dicha variable en todas las clases. Formalizando estos conceptos se tiene que, si de la variable X k en la clase C mCk xik y M Ck min i C max i mck y M Ck son los mínimos y los máximos P , observados de la descriptiva o del boxplot múltiple, donde C xik . Ahora se procede a ordenarlos en forma ascendente, este proceso consiste en: Definir M k como el conjunto de todos los mínimos y máximos correspondientes a la variable X k , en todas las clases de P, esto es: MK siendo la card Ordenando M K MK mck1 ,, mck , M ck1 ,, M ck 2 de menor a mayor valor, se construye un conjunto Z ZK K de forma que: zik ; i 1 : 2 tal que : i) z1κ k ii) zi min M k min M k \ z kj ; j i , i Dado que ZK zik 2,,2 es un conjunto ordenado, sus elementos tienen la siguiente propiedad: Zk z kj z kj 1 z kj ; 1 j 2 A este conjunto se le denominara puntos de corte. A partir de este conjunto ordenado, se construye el sistema de intervalos de longitud variable I k en la siguiente forma: Ik I sk : 1 s 2 1 donde: i) I1k z1k , z 2k ii) I sk z sk , z sk 1 , s 2:2 1 De ahí se define una nueva variable categórica I D k k 1 I , , I k 2 k cuyo conjunto de valores es k 1 para cada variable , la variable I identifica todas las intersecciones entre clases que se define X k , este sistema de intervalos de longitud variable está asociado a cada Xk . variable Así, si se tiene 2 k card( D ) = 2 puntos de corte diferentes se generan a lo más 2 -1, recordando que -1 intervalos y la es el número de clases de la partición de referencia que se quiere caracterizar. Además, siendo D k el dominio de X k , D k representa una categorización del mismo, pero no es arbitraria en absoluto, y además se calcula de forma inmediata. Por último, hay que observar que para construir I k ya no hace falta realizar el boxplot múltiple, aunque éste sigue siendo una excelente representación de lo que se está haciendo. 5. Construcción de la tabla de contingencia de clases vs intervalos En esta etapa se realiza la construcción de la tabla de contingencia para cada variable X k , como una matriz de números A , en la cual los renglones están representados por los intervalos I k encontrados en la etapa anterior y las columnas, por las clases de la partición de referencia; así, una cierta casilla de la matriz P A , indica el número de elementos del dominio k I , cuyos valores de X k se encuentran en el intervalo representado por I s . En general, para un cierto valor de la variable X k se tienen elementos en distintas clases. De esta forma se define la tabla de contingencia como: A I k P (nsc (s 1 : 2 donde de n sc es la card i C I sk xik , es decir, 1), (C P)), n sc es el número de elementos de C cuyo valor X k está en I sk , teniendo la matriz A dimensión constante 2 depende de 1, porque ésta sólo . k Se usará I para caracterizar las clases de P , para ello se buscara si I k tiene algún valor propio o parcialmente caracterizador en alguna clase. Intuitivamente, los valores propios son valores exclusivos de la clase C y gráficamente son muy fáciles de identificar en un boxplot múltiple, quedando la misma información reflejada en la tabla A. k La característica de un valor propio o parcialmente caracterizador de I en la clase la tabla de contingencia I sk C sobre A es tal que cumple: es valor propio o parcialmente caracterizador de la clase nsc C C si: 0y C, nsc 0 Si además s s, n s c 0 entonces I sk es un valor totalmente caracterizador de C. Como en lo habitual se encuentran pocos valores totalmente caracterizadores, en sentido estricto, lo común, son los valores propios o parcialmente caracterizadores. Es decir, valores que determinan parte de una clase, la cual tiene que cuantificarse para poder determinar el poder de caracterización de dichos valores. 1 Se define , 0 ,1 como el grado de caracterización de una clase valor. Ya en [10] aparece la idea de 1 C, para un caracterización y se maneja en todos los trabajos posteriores a nivel de variable. Ello conduce a situaciones en apariencia complejas como el hecho de que 1 X k sea 1 1 caracterizadora de C y también 1 2 caracterizadora de C con 2. En realidad esto sucede porque lo que determina el poder de caracterización no es la variable en sí, sino los valores que toma y su distribución a través de las clases. Así, de ahora en adelante, se trasladara a nivel de valores este análisis. Así se define, dada una variable Un valor 1 1 % de Xk : caracterizador de C es aquel valor propio de C que sólo identifica C. Existe aún una tercera situación, que corresponde al patrón llamado valor caracterizador no propio, el cual satisface la siguiente propiedad: I sk n sc C es un valor no propio de la clase 0 s si cumple: s ns c 0 Para analizar los valores concretos de previo que pasará por la tabla de contingencia I en la partición k P será necesario un análisis P , entre otras cosas. 6. Construcción de la tabla de distribuciones condicionada a los intervalos. Es fácil construir ahora la tabla de distribuciones condicionada a los intervalos, como una matriz de números B , en la cual los renglones están representados por los intervalos I k encontrados anteriormente y las columnas, por las clases de la partición P de referencia, de modo que las casillas representen una estimación de la probabilidad de que un elemento intervalo x ik de un cierto I sk , pertenezca a una clase específica C . Así, se puede representar la tabla de distribuciones condicionada como una matriz de la forma B Ik P , cuyos valores toman la forma: B ( psc (s 1 : 2 siendo I sk la cardinalidad de P (card( P )), p sc la frecuencia relativa de los individuos de valor xk que se encuentran en la clase C P y cuyo valor esta dado por: p sc = nsc nI donde nI k s 1), (c 1 : )) k s , n sc es el número de individuos que pertenecen al intervalo I sk y a la clase C , y c 1 n sc es el número total de objetos que se encuentran en el mismo intervalo I sk . De acuerdo a la construcción de la tabla de distribuciones condicionada B , se le puede caracterizar por las siguientes propiedades: k Para los valores de la variable I (renglones) en cada uno de los intervalos tienen probabilidades p sc I sk se en el sentido frecuentista de que un elemento de I de valor x ik le sea asignada la clase C , cumpliendo con: i. ii. p sc i 1 [0, 1] psci 1 En la tabla de frecuencias condicionadas B , los valores caracterizadores, de la clase C son todavía más fáciles de identificar, porque se detectan observando una solo casilla de la clase y pueden ser parcialmente caracterizadores o totalmente caracterizadores dependiendo de si existe o no la interacción entre clases. Así, tenemos que: Un valor I sk de la clase =1 ó I sk I sk es un valor propio o parcialmente caracterizador si su p sc = 1 frecuencia es Un valor C de la clase ps c = 0, s C es un valor totalmente caracterizador si su frecuencia p sc s p sc es un valor caracterizador no propio si (0, 1) Visto como se identifican los valores caracterizadores, ahora se cuantificara al grado de caracterización tal y como ya se definió. El valor I sk de la variable X k será 1 caracterizador de n sc = (1- C si ) nc El grado de caracterización en este contexto, se interpreta como la parte proporcional (porcentaje) de individuos de C, cuyos valores de la variable XK se encuentran en el intervalo I sk . 7. Generación del sistema de reglas ( X k , P) Así, para cada valor propio (total o parcial) de la clase C , se puede extraer una regla que identifica la clase con el mínimo de información, de la forma: Xk donde X k es la k-ésima variable, k c es k c C el conjunto de valores propios de la clase C. Ahora bien, si un valor es caracterizador no propio entonces, cuando se da ese valor, la clase de asignación puede ser una u otra con distintos grados de certeza. de ahí que, la regla Xk I sk C deje de ser segura. Se puede definir p sc como el grado de certeza de esa regla, entendiendo que p sc (frecuencia relativa sobre la muestra) constituye una buena estimación puntual de la probabilidad, I sk , pertenezca realmente a la clase C . de que un individuo i que toma valores en ese intervalo Así, si I sk es un caracterizador no propio de x ik donde p sc I sk C , se puede generar una regla de la forma: p sc i C se define en forma equivalente como una probabilidad condicional P (C I k I sk ) en la siguiente forma: p sc = P (C I k I sk ) De hecho, correcta I sk C p sc está a partir del valor = card{i tal que x ik I sk i C } / nI k s indicando con qué probabilidad el elemento i pertenece a la clase x k , considerando que existen otros individuos que toman valores en y se dispersan en las demás clases. El esquema en la Tabla 4.1 establece la relación entre el conjunto antecedente k I sk donde se encuentra el valor de la variable I , la forma de la regla de asociación y el valor de su probabilidad de asignación p sc a la clase C. REGLA CONJUNTO ANTECEDENTE I x ik I sk x ik I sk C p k s PROBABILIDAD I C k s = C propio parcialmente propio totalmente caracterizador caracterizador p sc =1 total caracterizador C sc no propio p sc ( 0, 1) Tabla 4.1. Relación entre reglas de asociación y valores propios De ahí se observa que los valores propios siempre generan reglas seguras, pero el poder de caracterización depende del cardinal del conjunto antecedente. Si éste coincide con toda la clase entonces hay una caracterización completa de la misma. De otra forma, es parcial, como se observa en la Tabla 4.1, ésta tiene una casilla vacía. Esta casilla identifica un cuarto caso que corresponde a un cuarto patrón, se trata de la situación más general denominada valor genérico y que permitirá generar caracterizadores parciales y no seguros, representando este el caso más débil de todos. Así, se define: Un valor i) ii) iii) p sc I sk de la variable I k es un valor genérico de la clase C si: (0, 1) y s tal que ps c c tal que psc 0, s s, 0, c c. y Estos valores se pueden interpretar como el subconjunto de individuos i de la clase comparten su valor I sk C tanto con las demás clases, existiendo a su vez en la misma clase que C algunos otros elementos que pertenezcan a otros intervalos. A partir de los conceptos anteriores, se puede realizar la siguiente identificación, en relación a los valores caracterizadores: Si I sk es el valor de la variable I p sc k (un intervalo de X k ), y (0, 1] es su frecuencia condicionada para la clase para cada elemento de la Tabla Si donde: entonces se genera B reglas de la forma: I sk para el elemento i x ik C p C i sc x ik es el valor de la k-ésima variable para i-ésimo elemento, I sk es el intervalo al que pertenece dicho valor y C es la clase caracterizada a partir de I sk con probabilidad p sc . Esta definición es general y cubre como casos particulares las reglas resultantes de los valores propios de C , que incluye los valores a p sc = 1, que corresponden a las reglas seguras. Así, para cada tabla de distribución condicionada a intervalos siguiente sistema de reglas asociado a ( I sk X k , P ) = { rl : xik l X k para identificar cierta partición P . psc i C con p sc { 1,, (2 1) }, s 0, p sc B, {1,, (2 Este sistema ha de permitir identificar las distintas clases a partir de Fijando una sola clase que representan a C C B se puede derivar el 1)}} Xk . que se quiere caracterizar, las probabilidades de todas reglas como parte derecha pueden verse como una distribución de posibilidades k [122] y [143] que asigna a cada valor de la variable I su grado de pertenencia a la clase C y que se representa como un gráfico (ver figura 4.1) con cada una de las funciones horizontales. Cabe mencionar, que el área bajo estas funciones ya no es 1, puesto que se componen de probabilidades que provienen de distintas distribuciones condicionadas (las de C | I Isk , s ). Así se define la función: def C k ( xik ) Para cada elemento de la partición P (columnas de las matrices A y B ) que son las distintas clases, se tiene una distribución de posibilidad del valor de I sk psc , xik C K , que indica el grado de compatibilidad X k con la asignación a C . En esta distribución se tiene un número finito de niveles de posibilidad de C, distinguiendo valores entre lo ―imposible‖ (codificado por 0) y lo ―completamente posible‖ (codificado por 1). A partir de lo anterior, se tiene que para toda es posible que cierto valor de xik I sk , C k ( X k ) representa hasta qué punto X k implique la pertenencia a C . una restricción flexible de los valores de la variable La función C K representa X k con las siguientes convenciones: c k ( X ik ) 0 , significa que la pertenencia a la clase C c k ( X ok ) 0 , significa que la pertenencia a la clase C es imposible; es posible a distintos grados (ejemplos: débil, fuerte, muy fuerte etc.) tanto más intenso cuanto más se acerque a 1, que representa la pertenencia segura. Finalmente, se obtiene un sistema global que contiene reglas difusas o posibilistas, a partir del cual, para cierto valor de la variable X k se da con mayor o menor grado de pertenencia a cada clase de cierta partición de referencia P. A partir de aquí, se verá como la representación gráfica de este sistema permite generar interpretaciones automáticas de las clases. 8. Validación del Sistema Global de Reglas En el modelo propuesto, los boxplot múltiples se han usado como un elemento básico gráfico para la determinación de los valores característicos, considerándolo como la base del sistema de intervalo de longitud variable generado para cada variable Xk . Esto permite identificar cual es la estructura natural que subyace en la base de datos del dominio de estudio variable por variable. Esto, ha permitido desarrollar un método rápido para construir un sistema de reglas difusas asociadas a cada variable tabla de distribuciones condicionadas a intervalos B X k , el cual queda reflejado en la P | Ik . Un primer propósito, fue reducir la ambigüedad inherente al sistema de reglas (Xk , considerando el criterio de grado más grande de asociación (con el consecuente de la regla con la probabilidad máxima, PM), el cual conduce a un sistema reducido (Xk , ) mucho más pequeño en número de reglas, sin ambigüedad pero conservando incertidumbre. Como una aplicación práctica, la evaluación del sistema de reglas consiste en considerar un conjunto de elementos de prueba partición de referencias , tomando cada valor clase C P . Así, considerando la variable X k y una participación de referencia P xik para toda i en el conjunto de prueba y los evaluándolo en el sistema de (Xk , reglas reducido P0 y evaluarlos en el correspondiente sistema de reglas de la , en cada caso, para cada valor y la probabilidad correspondiente C se localizan los intervalos I sk la psc . Es decir, si existe una regla: r : xik La clase xik I sk Psc C, se asigna al individuo i con un grado de pertenencia p sc considerando únicamente la variable K . El resto de las variables se evalúan de igual forma. Este proceso continua hasta agotar todas las variables de todos los individuos en el conjunto de prueba P0 . El siguiente paso fue considerar otros criterios de agregación de información como: criterio de votación (Vot), suma máxima de probabilidades (Sum) que permitieran un mejor desempeño en la clasificación de nuevos individuos; así, acuerdo al criterio de agregación de información elegido, la combinación de todas las variables por individuo del conjunto de entrenamiento P0, se determina el número de individuos mal clasificados y se calcula el error de predicción del sistema de reglas como un parámetro de validación del propio sistema de reglas generado. 9. Interpretación de clases La interpretación de las clases resultantes es siempre de gran importancia para usar los conocimientos generados como herramientas de apoyo a la posterior toma de decisiones. Uno de los problemas principales de las técnicas de clustering es que la validación de la clasificación es un problema sin resolverse, ya que no existe un criterio objetivo para determinar la calidad de las clases de una clasificación. Es fácil evaluar un conjunto de clases en términos de criterios de exactitud siempre que exista una partición de referencia de los datos y si la comparación es posible. Pero desafortunadamente, en la mayoría de las situaciones donde se requiere hacer clustering no existe y esta aproximación no es útil. Solamente la utilidad de una clasificación puede usarse para decidir si es correcta o no [21]. Evaluar la utilidad de una clasificación dada requiere de un mecanismo que permita comprender el significado de las clases identificadas para finalmente decidir si son útiles o no. Este proceso, conocido comúnmente como Interpretación de las clases resultantes, habitualmente lo realiza el analista informático, en una forma no sistemática, usando sus conocimientos y experiencia para poner de manifiesto las principales diferencias entre clases, y posteriormente, en estrecha colaboración con el experto en la materia, analizar las clases, estudiar su significado y darles interpretación, este proceso llega a dificultarse cuando el número de clases aumenta y el número de variables utilizadas para describir los datos también aumenta. Así se puede decir que la validación de una clasificación, se puede considerar como el grado de interpretabilidad o utilidad de éstas, sin ningún otro criterio que el de un especialista que observa y analiza las clases resultantes de una clasificación. Teniendo, como base la tabla de distribuciones condicionadas a los intervalos se puede asociar a un individuo cualquiera i su grado de pertenencia a cada clase. Esto da lugar a un gráfico de grados de pertenencia difusos para cada clase y para cada variable como se muestra en la Figura 4.1. En el gráfico el eje horizontal es común y representa el rango de clase se representa el grado de pertenencia de los valores de X k según las reglas. La forma escalonada de dichas funciones de pertenencia se debe a la categorización de dado un valor de X k ; para cada X k en I k . Así, X k se visualiza fácilmente su relación con las otras clases. Se observa que a partir de esta representación gráfica, el paradigma difuso [52] constituye un excelente soporte al proceso de interpretación. I sk y partes derechas diferentes (clases) en distintos grados de pertenencia. Por otro lado, una clase C Esto es, porque el sistema (X k , contendrá reglas con el mismo antecedente se reconoce por muchas reglas, lo que trae consigo problemas de imprecisión e incertidumbre en el modelo de razonamiento asociado a la caracterización de la clase. Esto es claramente visible en la representación gráfica de la figura 4.1 y evidencia que se presenta una situación compleja que por sus características se presta a su contextualización en el paradigma de los conjuntos difusos [120, 121], su extensión la Lógica Difusa y la teoría de la posibilidad; los que constituyen un excelente soporte para representar y manejar piezas de información que contienen tanto la imprecisión como la incertidumbre, como es el caso en la determinación de la clase objeto i C de un . A partir de aquí, se debe soportar el proceso con un método de creación de etiquetas lingüísticas que genere descripciones conceptuales de las clases del estilo: Si la variable X k toma valores muy altos entonces ese objeto i se asocia a C03 , donde, el grado de pertenencia de una variable específica determinado precisamente por un gráfico de asignado la clase C C03 X k al concepto ―Muy Altos‖ vendría como el de la Figura 4.2. Así, una vez que se ha a un nuevo individuo, podemos analizar los gráficos de distribución variable por variable para obtener conocimiento útil y comprensible en la interpretación conceptual de la clase identificada y su relación con otras clases. Figura 4.2. Diagrama de grados de pertenencia a las clases de la variable T.C. CAPÍTULO V RESULTADOS Y DISCUSIÓN En este capítulo se presentará la aplicación de la Tecnología CIADEC al dominio real y complejo como es: el dominio del ámbito laboral en el Subprograma de Becas a la Capacitación para el Trabajo (BECATE) del Programa de Apoyo al Empleo, del Servicio Estatal de Empleo de la coordinación de la Secretaría del Trabajo y Previsión Social (Ejecutivo Federal) y Gobierno del Estado de Chihuahua, México. 5.1 CASO DE ESTUDIO. DEL DOMINIO DEL ÁMBITO LABORAL En esta parte se aplica el modelo propuesto al análisis de medidas seriadas muy cortas y repetidas con factor de bloque, presentes en un dominio poco estructurado (DPE) del dominio del Ámbito Laboral para obtener conocimiento de la evolución de un programa de capacitación (BECATE), así como de su efectividad a través del análisis de la información relacionada con: la colocación de la gente capacitada, características de los municipios donde se dio la capacitación y las necesidades del sector productivo. Los resultados obtenidos en este caso de estudio son una aplicación del modelo ―Caracterización e Interpretación Automática de Descripciones Conceptuales‖ (CIADEC) [51] y la metodología para el ―Descubrimiento de Conocimiento en Medidas Seriadas Cortas y Repetidas‖ (KDSM) [31] que permitieron conocer el efecto que cada curso impartido aporta al municipio donde actúa el BECATE y se pueda incidir en el funcionamiento del programa mismo de manera más oportuna y eficaz. Por lo que en esta parte se da a conocer la propuesta de solución (haciendo uso del sistema CIADEC) y los resultados obtenidos. 5.1.1 Conceptos Básicos 5.1.1.1 Diseño de experimentos El objetivo del diseño de experimentos es estudiar cómo realizar comparaciones, lo más homogéneas posibles, para aumentar la probabilidad de detectar cambios o identificar variables relevantes sobre cierto fenómeno de interés [150]. Comprobar si un evento mejora un proceso requiere comparar los resultados antes y después de la ocurrencia del mismo. Cuando existe una variabilidad alta entre los resultados—o, en otros términos, un gran error experimental—sólo se detectaran como relevantes, aquellos eventos que produzcan cambios muy grandes con relación al error experimental. El objetivo de un experimento es estudiar el efecto que sobre una variable de interés tienen un conjunto de otras variables, factores o eventos. En cualquier experimento en que se investiga el efecto de un evento, existen a priori un gran número de variables que pueden influir sobre los resultados y presentan lo que se conoce como confusión de los efectos. Conceptualmente existen tres caminos para eliminar el efecto de una variable: Mantenerla fijo durante toda la realización del experimento. Reorganizar la estructura del experimento de manera que las comparaciones de interés se efectúen para valores fijos de esa variable, lo que supone eliminar estadísticamente su efecto y, Evitar su influencia aleatorizando su aparición en eventos. De acuerdo al diseño del experimento se han trazado tres tareas principales que son: La caracterización de la estructura de los individuos sobre la primera toma de medidas, es decir, el establecimiento de las condiciones iniciales; El análisis del efecto de cada evento aislado eliminando el factor de bloque; y; La identificación de las características relevantes de los eventos, la descripción de su estructura y su interpretación. Dadas las tareas del experimento, se reorganiza la estructura de datos del caso de estudio, de forma que se elimine el factor de bloque que ejerce el individuo sobre los eventos y poder estudiar sólo el comportamiento de los mismos [150, 151]. 5.1.1.2 Factor de bloque Se denomina factor de bloque [150] al factor (objeto o variable) que tiene un efecto sobre la respuesta, que aunque no es directamente de interés, se debe considerar en el experimento para obtener comparaciones homogéneas en los grupos de observaciones donde dicho factor se mantiene constante. Así se tienen: i) curvas del índice de contratación a lo largo de tres meses tras la impartición de un curso, ii) el municipio en donde se impartió el curso no es directamente de interés, pero influye en la representación y hay que tenerlo en cuenta porque determina bloques de curvas—las de un mismo municipio—con influencia. Para evitar la influencia del factor de bloque que conforma el individuo sobre las medidas seriadas, se determinó realizar la diferencia entre las medidas seriadas del evento actual y las medidas seriadas del evento anterior (o viceversa). Así, se puede medir el efecto per se de un evento dado sobre la variable de interés, independientemente de las características del individuo. Estos datos, sólo toman en cuenta el incremento o decremento de la variable Y debido a la ocurrencia del evento, comparando lo sucedido antes y después de la ocurrencia del mismo. 5.1.1.3 Metodología CIADEC El sistema CIADEC implementa el modelo ―Caracterización e Interpretación Automática de Descripciones Conceptuales en Dominios poco Estructurados usando variables cuantitativas‖, que es un sistema híbrido (Inteligencia Artificial, la Estadística y Lógica Difusa) que surge de la necesidad de automatizar la caracterización e interpretación de clases en dominios poco estructurados [51-53] previamente particionados. Mediante la automatización de la metodología formal, denominada ―Generación Automática de Reglas Difusas en Dominios poco Estructurados con variables cuantitativas [51]‖, se pretende reducir el tiempo para la caracterización e interpretación de descripciones conceptuales usando variables cuantitativas, dando agilidad tanto a las actividades asociadas al análisis de datos como a la obtención de información relevante que posteriormente sea útil en la gestión y toma de decisiones en esa clase de dominios. Además, la automatización de esta metodología ofrece un conjunto de funcionalidades que permiten: Construir un sistema de reglas. Visualizar funciones de pertenencia de una variable XK a las distintas clases. Caracterizar las diferentes situaciones que se presentan en una clasificación previa validada por el experto. Evaluar un conjunto de objetos nuevos de acuerdo a las reglas generadas. Interpretar las distintas situaciones que un individuo tiene respecto a las variables relevantes que lo definen. Validar la calidad de las clases resultantes respecto a su utilidad. En resumen, CIADEC permite determinar qué variables caracterizan, estadísticamente hablando, a las clases. Es fundamental la contribución de CIADEC, ya que mejora la actuación del experto, ahorrando su tiempo de análisis, pues sólo trabaja variables relevantes y caracterizadoras [52, 53]. 5.1.1.3.1 Criterios de Agregación Uno de los factores que inciden directamente en la asignación de clases es el criterio de agregación que se toma al hacer el análisis multivariable. A continuación se describen brevemente los tres criterios de los que se puede hacer uso en el sistema CIADEC, para comprender el modo en que estos llevan a cabo el proceso de análisis de las variables y de esta manera obtener mejores resultados. Los tres criterios a los que se hará mención, tienen como entrada el conjunto de entrenamiento T0, la partición de referencia, el conjunto de prueba P0 y su partición correspondiente. Criterio de Probabilidades Máximas (PM). Para cada individuo i del conjunto de prueba, se lee el valor xik de la variable xk, se ubica en el intervalo correspondiente, , de la tabla de distribuciones y se observa cual valor de cada intervalo es el mayor para que este sea asignado a la clase C1, a la clase C2 ó a la clase C3. Criterio de Votación (Vot). Para cada individuo i del conjunto de prueba, se lee el valor xik de la variable xk , se ubica en el intervalo correspondiente, , de la tabla de distribuciones y se inicializa un contador por variable para llevar el récord de cuántas variables con probabilidades distintas de cero se le asignan a C1, cuántas a C2 y cuántas a C3, para después observar el número máximo de votos y al individuo i, y se le pueda asignar la clase correspondiente. Criterio de Suma Máxima (Sum). Para cada individuo i del conjunto de prueba, se lee el valor xik de la variable xk, se ubica en el intervalo correspondiente, , de la tabla de distribuciones y se inicializa un sumador por variable para llevar la suma de las probabilidades de las variables que se les asignan la C1, la C2 y la C3, para después observar la suma máxima y al individuo i, y de esta forma se le pueda asignar la clase correspondiente a esa suma máxima. 5.1.1.3.2 Método k-folds cross-validation Abreviado como CV, este método evita la superposición o solapamiento de los conjuntos de prueba. Consta de los pasos: 1. Los datos se dividen en k conjuntos de igual tamaño (por lo general en un muestro aleatorio). 2. Cada conjunto es usado para la realización de pruebas y el resto para el entrenamiento. Las estimaciones se promedian y el resultado es un promedio del error de estimación. 5.1.1.4 Metodología KDSM La utilización de la informática para monitorizar un proceso, por ejemplo, el seguimiento a un paciente que está sometido a una terapia; ofrece una gran cantidad de información tanto del proceso como de los actores (individuos y los eventos que intervienen sobre los individuos) en el proceso. Con frecuencia se encuentra que muchos datos, que provienen de monitorizar un proceso, son resultado de medidas seriadas en el tiempo de duración de dicho proceso. Además, éste proceso suele repetirse tantas veces sea necesario para lograr el objetivo esperado. Aparentemente, estas dos características de las medidas seriadas y repetidas en el tiempo, no ofrecen mucho problema para ser analizadas con técnicas clásicas de series de tiempo. Sin embargo, ¿qué sucede cuando la cantidad de medidas es sumamente pequeña?. Por otra parte, en situaciones así, se cuenta con una gran cantidad de información adicional sobre los actores del proceso y el proceso mismo, que no son medidas seriadas, pero que sí guardan una estrecha relación con lo que sucede en el proceso. Además, frecuentemente los actores conforman un factor de bloque sobre las medidas seriadas; entonces, ¿cómo aprovechar esta información adicional?, ¿cómo se trabajaría dicha información, en relación a las medidas seriadas y repetidas, si ésta no se conforma de medidas sino de características de los actores en el proceso?. Para dar respuesta a estas interrogantes se estableció la metodología KDSM [31] para el descubrimiento de conocimiento en dominios donde se presentan medidas seriadas muy cortas y repetidas con factor de bloque (conformado por los individuos) y donde se cuenta con información adicional de los actores en el proceso como lo son sus variables características. La metodología KDSM cumple a grandes rasgos con tres tareas principales: La caracterización de la estructura de los individuos sobre la primera toma de medidas, es decir, el establecimiento de las condiciones iniciales; El análisis del efecto de cada evento aislado eliminando el factor de bloque; y; La identificación de las características relevantes de los eventos, la descripción de su estructura y su interpretación. 5.2 APROXIMACION AL DOMINIO DEL AMBITO LABORAL El Servicio Estatal de Empleo (SEE), en un esfuerzo conjunto de la Secretaria del Trabajo y Previsión Social y los Gobiernos de los Estados; lleva a cabo programas de sentido social que tienen por objetivo promover el diseño y aplicación de políticas orientadas a la generación de empleo. Para lograr este objetivo, se implementó el Subprograma de Becas a la Capacitación para el Trabajo (BECATE) del Programa de Apoyo al Empleo del estado de Chihuahua. Sin embargo, el SEE desconoce el efecto que cada curso de entrenamiento impartido en los diversos municipios del Estado de Chihuahua tiene directamente en el índice de empleo. El SEE pretende establecer un rol dinámico de participación en el BECATE para seguir las tendencias globales de los mercados laborales con mayor efectividad y de forma oportuna. Es así que, la utilización del sistema CIADEC se aplicó para obtener conocimiento de la evolución de dicho programa y que este permita establecer con la ayuda de reglas, en que Municipios del Estado es más conveniente aplicar cada curso para que de esta manera más personas resulten beneficiadas. El análisis incluye todas las características de los Municipios, medidas seriadas muy cortas y repetidas del Índice de Contratación de las personas desempleadas y todas las características de los cursos. Se trata de información de cada tipo de curso de la rama de Manufactura Textil (Confección, 3 diferentes) para cada uno de los 17 municipios utilizados en este estudio, donde sus características influyen sobre las medidas del índice de empleo. Por todo lo anterior es necesario conocer datos de relevancia del Estado que nos permitan conocer la situación de la población, siendo estos los siguientes [172]: el Estado de Chihuahua 2 cuenta con una superficie de 247,938 km , lo cual lo convierte en el más extenso del país; está dividido en 67 Municipios y su población total es de 3,387,722. De acuerdo a la Subsecretaría de Empleo y Productividad Laboral (STPS, Noviembre de 2009) la distribución económica de la población en el Estado de Chihuahua es la siguiente: hay un total de 843,649 personas menores de 14 años (hombres y mujeres) y 2,544,073 mayores de14 años, esta última se subdivide a su vez en población económicamente activa (1,413,899) y población económicamente inactiva (1,130,174). De la población económicamente activa se derivan 1,311,939 personas ocupadas, es decir, con un trabajo fijo de los cuales 939,852 son asalariados, 292,438 personas son trabajadores por cuenta propia, 52,306 son empleados y 27,343 personas se encuentran en la categoría de sin pago y otros (divisiones creadas por la STPS). Por otra parte un total de 101,960 de la población económicamente activa están desocupados. Los 17 Municipios del Estado de Chihuahua que se estudiarán para conocer la mejor opción en cuanto a la distribución para la impartición de los cursos de manera que de esta asignación, los resultados generen una mayor cantidad de personas ocupadas, son: Meoqui, Ocampo, Camargo, Rosario, Delicias, Guadalupe y Calvo, Aquiles Serdán, Valle de Zaragoza, Parral, Madera, Santa Isabel, Ojinaga, Cuauhtémoc, San Francisco del Oro, Balleza, Jiménez y Allende. Por otra parte, el desarrollo industrial en el Estado de Chihuahua está basado en agrupamientos industriales, los cuales generan más de 300,000 empleos, en 406 plantas establecidas en el Estado, las cuales son: Electrónica y Telecomunicaciones, Automotriz y Autopartes, Confección, Agroindustria y Alimentos, Forestal y Muebles y Materiales para Construcción y Minería. Existen cuatro nuevas áreas de oportunidad dentro del desarrollo tecnológico industrial que está adquiriéndola la entidad donde la mano de obra es más calificada y estas son: Aeroespacial, Electrodomésticos, Tecnologías de Información y Biotecnología. BECATE ofrece cursos de capacitación de corta duración (de 1 a 3 meses) en coordinación con los sectores productivo y educativo en diversas especialidades, para personas que se encuentran desempleadas y que no están estudiando en ningún nivel educativo. El objetivo es proveer conocimientos actualizados a los participantes para poder ser puestos en práctica de manera inmediata mediante el apoyo de material de práctica, un instructor y una beca mensual correspondiente al salario mínimo como incentivo para lograr su permanencia en el curso. El programa de becas tiene diferentes modalidades de capacitación siendo estas las siguientes: Capacitación Mixta. Que consiste en la realización de cursos a petición expresa y en coordinación con el sector empresarial, para satisfacer requerimientos específicos de personal calificado. Capacitación Mixta en las Micro y Pequeñas Empresas. Esta capacitación está orientada a capacitar y generar experiencia laboral a población joven buscadora de empleo, aprovechando la infraestructura productiva de las Micro y Pequeñas empresas. Capacitación Escolarizada. Consiste en impartir conocimientos teóricos y prácticos en las especialidades demandadas por los sectores productivos de la región en planteles educativos y de enseñanza. Capacitación de Autoempleo. Su propósito es promover alternativas de ocupación para personas desempleadas de zonas urbanas y rurales, para que adquieran conocimientos, habilidades y destrezas que les permitan iniciar una actividad por cuenta propia. Proyecto de modernización de la educación técnica y la capacitación. Busca cubrir los requerimientos de calificación de los trabajadores para mejorar los niveles de productividad y competitividad de las empresas, así como ampliar las posibilidades de incorporación, desarrollo y permanencia de las personas en el empleo. Iniciativas locales de empleo. Opera con productores de escasos recursos agrupados en torno a un proyecto productivo que ya tengan desarrollado, y tiene como objetivo mejorar los conocimientos y habilidades de los integrantes del grupo para ejecutar el proyecto. Con el fin de que BECATE responda a las expectativas de las tres entidades gubernamentales (Gobierno Federal, Estados y Municipios) en México, se debe monitorizar de forma adecuada los progresos obtenidos tras la impartición de cada curso. El análisis de esta información, compuesta por: las características de los Municipios (matriz X), de la cantidad de colocados (medidas seriadas, matriz Y) en un periodo fijo de tiempo (3 meses), en seis ocasiones (una cada 15 días) y, las características de los cursos (matriz Z) no es trivial; pues se cuenta con conjuntos de medidas por cada uno de los tipos de curso existentes en el Estado de Chihuahua (3 especialidades de cursos aproximadamente). Donde cada uno de los municipios actúa como un factor de bloque sobre las medidas seriadas y las características de los cursos. Es decir, por cada municipio existe un paquete de medidas seriadas y otro de características de los cursos que se impartieron en él. Para efectos de esta tesis, se tiene que por cada uno de los 17 municipios existen conjuntos de medidas relativas a la variable de interés (que en este caso de estudio corresponde al índice de contratación) para cada una de las 3 especialidades de cursos de la rama de Manufactura Textil (Confección), además de las características tanto de los municipios como de los cursos. Cabe mencionar que el BECATE está presente en los 31 Estados y el Distrito Federal, por lo que se aplica en 2427 Municipios con un total de 180 especialidades en diferentes ramas (Actividades Agropecuarias, Industria Manufacturera, Industria Extractiva y Electricidad, Construcción, Comercio, Transportes y Comunicaciones, Otros Servicios, Gobierno y Organismos Internacionales y otros no especificados). Lo anterior, invita a cualquier analista de datos a utilizar alguna técnica especial o metodología que le permita distinguir la información verdaderamente importante para lograr el objetivo principal que consiste en medir la efectividad de BECATE. Como análisis piloto de BECATE se eligió trabajar con la información del Estado de Chihuahua, analizando un curso de la rama textil ya que es uno de los más solicitados y del cual el Departamento del Servicio Estatal de Empleo (SEE) desea obtener mayor conocimiento sobre su comportamiento para poder incidir en su funcionamiento de manera más oportuna y eficaz. 5.2.1 Descripción de los datos del ámbito laboral El conjunto de matrices de datos contiene información sobre las variables características de 17 municipios del Estado de Chihuahua en México (matriz X), medidas seriadas relativas a la cantidad de personas colocadas (ocupadas) en un puesto de trabajo (matriz Y) y la variables características de los cursos de capacitación (matriz Z). Descripción de las variables en la matriz X (Tabla 5.1): Var. Etiqueta Descripción Tipo 1 ni Número de identificación de cada Municipio Numérico 2 municipio Territorio que pertenece al Estado Cadena 3 p.total Población total del Municipio Numérico 4 hombres Total de hombres que habitan en el Municipio Numérico 5 mujeres Total de mujeres que habitan en el Municipio Numérico 6 p12+ Total de población a partir de 12 años Numérico 7 pea Población económicamente activa Numérico 8 pea.ocupada Población económicamente ocupada Numérico 9 pea.desocupada Población económicamente desocupada Numérico 10 alfabetas.masculinos Alfabetas masculinos (mayores de 15 años) Numérico 11 alfabetas.femeninas Alfabetas femeninas (mayores de 15 años) Numérico 12 analfabetas.masculinos Analfabetas masculinos (mayores de 15 años) Numérico 13 analfabetas.femeninas Analfabetas femeninos (mayores de 15 años) Numérico 14 ue.sector.manufactura Establecimientos manufactureros en el Mpio. Numérico 15 ue.sector.comercio Establecimientos comerciales en el Mpio. Numérico 16 ue.sector.servicios Establecimientos de servicios en el Mpio. Numérico 17 ue.sector.minero Establecimientos mineros en el Mpio. Numérico 18 total.de.escuelas Total de escuelas en el Municipio Numérico 19 tot.de.viviendas.hab Total de viviendas habitadas Numérico 20 ocu.en.viviendas.part Ocupantes en viviendas particulares Numérico 21 prom.de.ocu.por.vivienda Promedio de ocupantes por vivienda Numérico 22 t.de.red.carretera (km) Total Km de red carretera en el Mpio. Numérico 23 2 ext.territorial (km ) 2 Area en Km que comprende el Mpio. Numérico 24 tmax Temperatura media máxima (°C) Numérico 25 tmin Temperatura media mínima (°C) Numérico 26 tmed Temperatura media anual (°C) Numérico 27 precip.med.anual (ml) Precipitación pluvial media anual (ml) Numérico Descripción de las variables en la matriz Y (Tabla 5.2): Var. Etiqueta Descripción Etiqueta del curso Tipo 1 ec Numérico 2 ic1 3 ic2 4 ic3 5 ic4 3ra Medida seriada correspondiente al no. de personas colocadas Numérico 6 ic5 4ta Medida seriada correspondiente al no. de personas colocadas Numérico 7 ic6 5ta Medida seriada correspondiente al no. de personas colocadas Numérico Medida seriada basal correspondiente al no. de personas colocadas 1er Medida seriada correspondiente al no. de personas colocadas 2da Medida seriada correspondiente al no. de personas colocadas Numérico Numérico Numérico Descripción de las variables en la matriz Z (Tabla 5.3): Var. Etiqueta Descripción Tipo 1 ec Etiqueta del curso Cadena 2 no.aut Número de autorización de cada curso Numérico 3 c.por.rama.econ Especificación del ramo económico de cada curso Cadena 4 especialidad Actividad específica en que se desarrolla el curso Cadena 5 centro.de.capacitación Lugar en donde se imparte el curso Cadena 6 localidad Poblado en donde se desarrollan los cursos Cadena 7 municipio Territorio que pertenece al Estado Cadena 8 u.op Oficina coordinadora de los cursos Numérico 9 progr. 10 t.i. Total de personas inscritas en cada curso Numérico 11 i.h Hombres inscritos Numérico 12 i.m Mujeres inscritas Numérico 13 t.e Total de personas egresadas en cada curso Numérico 14 e.h Hombres egresados Numérico Personas programadas presupuestalmente en cada curso Numérico 15 e.m Mujeres egresadas Numérico 16 t.c Total de personas colocadas Numérico 17 c.h Hombres colocados Numérico 18 c.m Mujeres colocadas Numérico 19 f.inicio Fecha en que inicia el curso Cadena 20 f.termino Fecha en que termina el curso Cadena 21 duración Tiempo de duración de cada curso Cadena 22 horario Turno en que se lleva a cabo cada curso Cadena 23 inversión Cantidad monetaria invertida en los cursos Numérico 24 modalidad Modo de impartición del curso Cadena En resumen, para efectos de esta tesis, se hará uso de la matriz Z (Tabla 5.3), que está conformada por un total de 115 registros previamente clasificados por el experto (aprendizaje supervisado). Dicha matriz será caracterizada e interpretada por CIADEC, para lo que se utilizará el método de ten-folds cross-validation para generar dos conjuntos, uno de entrenamiento y uno de prueba, con 105 y 10 registros respectivamente, alternando estos datos 12 veces de manera que todos los registros sean evaluados en la forma necesaria por el sistema. Es decir, la primera división contempla como conjunto de prueba a los 10 primeros registros (del registro 1 al 10) y como conjunto de entrenamiento a los 105 restantes (del registro 11 al 115); para la segunda división, los 10 registros de prueba se tomaran a partir del registro 11 al 20 y el conjunto de entrenamiento estará conformado por los 10 anteriores registros de prueba, es decir, del 1 al 10, más los registros restantes, esto es del registro 21 al 115 y así sucesivamente hasta completar las 12 iteraciones. 5.3 APLICACIÓN DE LA METODOLOGIA DE KDSM AL DOMINIO DEL AMBITO LABORAL Para el análisis de los datos del Estado de Chihuahua, se aplicó la metodología KDSM lográndose sus tres tareas principales: La caracterización de la estructura conformada por los municipios sobre el primer índice de contratación, es decir, el establecimiento de las condiciones iniciales; El análisis del efecto de cada curso aislado eliminando el factor de bloque que conforman los municipios; y La identificación de las características relevantes de los cursos, la descripción de su estructura y su interpretación. 5.3.1 Caracterización de la estructura de los Municipios para el establecimiento de las condiciones iniciales Al realizar los pasos de la metodología KDSM (apartado 5.1.1.4), se obtuvo como resultado una base de conocimiento conformada por reglas que describen la estructura de los municipios en relación al primer Índice de Contratación (IC). A continuación en la Figura 5.1, se puede observar el árbol jerárquico obtenido al realizar la clasificación de la matriz de basales Y0. Es decir la clasificación de las primeras medidas seriadas del IC. La Figura 5.1 le sugirió al experto que el corte más conveniente era en 3 clases: Clase C1 Municipios de Meoqui, Ocampo, Camargo, Rosario, Delicias, Guadalupe y Calvo, Aquiles Serdán, Valle de Zaragoza y Parral. Clase C2 Municipios de Madera, Santa Isabel y Ojinaga. Clase C3 Municipios Allende. de Cuahtémoc, San Francisco del Oro, Balleza, Jiménez y Figura 5.1. Estructura de los Municipios Para iniciar la interpretación de dichas clases se analizó la Figura 5.2 donde se puede visualizar la caracterización del patrón de curva típico de cada clase (curva media de cada clase); además de la tendencia general de las clases y la variabilidad entre ellas. Figura 5.2. Medidas del IC en 3 clases Se puede observar que la clase C1 (compuesta por nueve municipios) presenta variables que le distinguen especialmente porque se encuentran dentro de rangos donde los límites mínimos y máximos son los más pequeños y mayores de las tres clases. De la misma manera, se puede ver que la contratación más elevada se realiza en la primera y segunda mediciones (línea continua). En la clase C2 (conformada por tres municipios) se presentan valores que en general se sitúan más cerca del punto medio de los rangos citados anteriormente. Además, se puede ver que la contratación se realiza de forma más equilibrada distribuyendo su grosor entre la segunda y la cuarta mediciones (línea de puntos). Finalmente en la clase C3 (compuesta por cinco municipios) se tienen variables con valores dispersos en rangos menores a la clase C1. De igual forma, se puede observar que el comportamiento muestra que en la primera y segunda mediciones se colocan en promedio de 2 a 3 personas pero se aprecia que en la quinta medición hay un incremento considerable (línea discontinua). 5.4 PROCESO DE CARACTERIZACION USANDO LA METODOLOGIA CIADEC En lo habitual cuando los individuos (en este caso municipios) de un dominio complejo y real son descritos por variables cuantitativas, no es común encontrar aquellas que caractericen a las distintas clases de una partición dada (o de referencia); por lo que para su análisis se debe relajar este concepto al de variables parcialmente caracterizadoras [51], esto es, variables que son compartidas por otras clases y que en un sistema de reglas, se representan con un grado de pertenencia difuso a cada una de las clases de la partición de referencia, es decir, reglas difusas (en el sentido de certeza a una clase). Esto plantea un problema serio en la determinación de las variables caracterizadores y en consecuencia en la caracterización y calidad de las clases resultantes de una clasificación de referencia, considerando la calidad de una clasificación, desde un punto de vista subjetivo como la utilidad o significado que las clases resultantes puedan tener para el experto, ya que no existe un criterio objetivo que determine esta calidad. Como una aproximación al proceso de caracterización y en consecuencia a la obtención de una clasificación ―útil‖ o de ―calidad‖ para los propósitos del estudio se propone realizar los siguientes pasos: 1. Una estadística descriptiva que proporcione información preliminar sobre la variabilidad de las mediciones, descripción grafica de los boxplot para identificar las variables caracterizadores y algunos otros parámetros útiles si los hubiera. 2. La inclusión del conocimiento a priori del experto para obtener las restricciones semánticas (reglas) sobre las clases resultantes de la partición que faciliten el significado de las clases. 3. La aplicación de CIADEC para la obtención del sistema de reglas que proporcionen las características relevantes de éstas para después continuar con el siguiente punto. 4. Determinar la calidad de las clases en términos del ―significado‖ o ―utilidad‖ de éstas. 5. Con estas clases a la vista y el análisis del experto, decidir si la estructura descubierta es útil, de no ser así se repetiría el proceso; considerando otra clasificación donde se puede o no incluir nuevas restricciones semánticas, nuevo conocimiento del experto o bien combinando variables en forma de reglas difusas que permitan obtener una nueva estructura de forma que ésta tenga significado para el objetivo del estudio. Si la clasificación es útil entonces se efectúa el paso siguiente. 6. Proceso de interpretación de resultados y la estructura descubierta en los datos que puede usarse como nuevo conocimiento para la toma de decisiones. La Figura 5.3 muestra este proceso de caracterización de la matriz de basales Y0 a partir de la matriz X (Tabla 5.1). 1 Estadística Descriptiva 2 Clustering Con o Sin Reglas 3 Descripciones Conceptuales de las Clases 5 Utilidad de las Clases 4 Medida ? Calidad de las Clases 6 Interpretaciones 7 2ª Tarea De KDSM Figura 5.3. Diagrama del proceso de caracterización Después de haber realizado la estadística descriptiva sobre las medidas del IC para determinar la variabilidad de éstas se realizó la prueba de Kruskal-Wallis, que es un método no parametrito para probar si un grupo de datos proviene de la misma población, y el boxplot [51, 53] sobre todas las variables de la matriz X, para identificar aquéllos relevantes y caracterizadores, estadísticamente hablando no se obtuvo ninguna información al respecto. Dada la situación anterior, fue necesario acudir con el experto quien determinó que las variables PROGR (Personas programadas presupuestalmente en cada curso), T.I (Total de personas inscritas en cada curso), I.H (Hombres inscritos), I.M (Mujeres inscritas), T.E (Total de personas egresadas de cada curso), E.H (Hombres egresados), E.M (Mujeres egresadas), T.C (Total de personas colocadas), C.H (Hombres colocados), y C.M (Mujeres colocadas), todas ellas pertenecientes a la Matriz Z (variables características de los cursos de capacitación), son importantes para determinar un indicador para la Secretaría de Trabajo y Previsión Social, en los 17 Estados antes mencionados y distribuidos en tres clases. Estas variables son importantes debido a que la impartición de los cursos y su contenido están sumamente relacionados con la población y el territorio que ésta ocupa. En la Figura 5.4 se pueden apreciar los boxplots de las variables de interés para lograr el objetivo del experto. Figura 5.4. Boxplots de variables características de los cursos de capacitación A partir de estas variables se aplicó CIADEC para obtener el sistema de reglas que permitiera la caracterización de cada una de las clases. Así mismo se crearon las etiquetas lingüísticas (descripciones conceptuales de las clases resultantes): Muy Bajo (MB), Bajo (B), Mediano (M), Alto (A) y Muy Alto (MA), para describir el grado de pertenecía de los cursos a las clases anteriormente establecidas (Municipios), este procedimiento fue descrito en el Capítulo 3 apartado 3.6.5. En consecuencia, dado que la mayoría de los intervalos presenta diferentes grados de pertenencia a diferentes clases, esto genera un número de reglas con diferentes consecuentes dentro del mismo intervalo. Por ejemplo, si la variable NO_AUT toma el valor de 392, este se localiza en el intervalo y satisface tres reglas en el sistema global de reglas con diferentes grados de pertenencia. En este caso, el grado de pertenencia a la clase C1 es 0.64, a la clase C2 es 0.17 y a la clase C3 es 0.19; por lo tanto, hay tres reglas para asignar clases, de acuerdo al nivel de NO_AUT. En notación de cálculo de predicados de primer orden, se expresa de la siguiente forma: XiNO_AUT Є (392]→ 0.64 → I Є C1 XiNO_AUT Є (392]→ 0.17 → I Є C2 XiNO_AUT Є (392]→ 0.19 → I Є C3 Lo anterior presenta una situación ambigua y la decisión de asignación de clase puede llevar a errores. Como primera aproximación al proceso de toma de decisiones, se considera K necesario reducir el conjunto de reglas de cada intervalo I a solo una regla, siguiendo el criterio del modo clásico de razonamiento aproximado para sistemas de clasificación difusa, respecto a seleccionar la regla que presente probabilidad máxima en cada intervalo. Esta elección permitirá reducir la ambigüedad del sistema de reglas resultante, a lo que se le designa el nombre de Sistema de Reducido de Reglas. A continuación se muestran los Conjuntos de Reglas Reducidas resultantes para cada variable seleccionada como de relevante por el experto obtenidas por el sistema CIADEC, después de caracterizar la matriz Z (características de los cursos). Conjunto de Reglas Reducidas obtenidas para la variable PROGR: xiPROGR Є I1→ 1.00 → C1 xiPROGR Є I2→ 0.81 → C2 xiPROGR Є I3→ 0.53 → C1 xiPROGR Є I4→ 0.33 → C1 xiPROGR Є I5→ 0.67 → C3 Conjunto de Reglas Reducidas obtenidas para la variable T.I: xiT.I. Є I1→ 1.00 → C1 xiT.I. Є I2→ 0.80 → C1 xiT.I. Є I3→ 0.57 → C1 xiT.I. Є I4→ 0.50 → C3 xiT.I. Є I5→ 0.50 → C1 Conjunto de Reglas Reducidas obtenidas para la variable I.H: xiI.H. Є I1→ 0.52 → C1 xiI.H. Є I2→ 0.52 → C1 xiI.H. Є I3→ 0.70 → C1 xiI.H. Є I4→ 0.86 → C1 xiI.H. Є I5→ 1.00 → C3 Conjunto de Reglas Reducidas obtenidas para la variable I.M: xiI.M. Є I1→ 1.00 → C1 xiI.M..Є I2→ 0.80 → C1 xiI.M. Є I3→ 0.42→ C1 xiI.M Є I4→ 0.53 → C1 xiI.M. Є I5→ 0.67 → C1 Conjunto de Reglas Reducidas obtenidas para la variable T.E: xiT.E. Є I1→ 1.00 → C1 xiT.E. Є I2→ 0.83 → C1 xiT.E. Є I3→ 0.59 → C1 xiT.E. Є I4→ 0.33 → C1 xiT.E. Є I5→ 0.50 → C1 Conjunto de Reglas Reducidas obtenidas para la variable E.H: xiE.H. Є I1→ 0.54 → C1 xiE.H. Є I2→ 0.54 → C1 xiE.H. Є I3→ 0.54 → C1 xiE.H. Є I4→ 0.84 → C1 xiE.H. Є I5→ 0.75 → C3 Conjunto de Reglas Reducidas obtenidas para la variable E.M: xiE.M. Є I1→ 1.00 → C1 xiE.M. Є I2→ 0.60 → C1 xiE.M. Є I3→ 0.50 → C1 xiE.M. Є I4→ 0.58 → C1 xiE.M. Є I5→ 0.50 → C1 Conjunto de Reglas Reducidas obtenidas para la variable T.C: xiT.C. Є I1→ 1.00 → C1 xiT.C. Є I2→ 0.33 → C1 xiT.C. Є I3→ 0.70 → C1 xiT.C. Є I4→ 0.77 → C2 xiT.C. Є I5→ 0.50 → C1 Conjunto de Reglas Reducidas obtenidas para la variable C.H: xiC.H. Є I1→ 0.56 → C1 xiC.H. Є I2→ 0.56 → C1 xiC.H. Є I3→ 0.56 → C1 xiC.H. Є I4→ 0.69 → C1 xiC.H. Є I5→ 0.63 → C3 Conjunto de Reglas Reducidas obtenidas para la variable C.M: xiC.M. Є I1→ 0.80 → C1 xiC.M. Є I2→ 0.80 → C1 xiC.M. Є I3→ 0.69 → C1 xiC.M. Є I4→ 0.83 → C1 xiC.M. Є I5→ 0.50 → C1 Una vez obtenidas las reglas se ponen a consideración del experto para que él valore la representación que forman en la estructura. 5.4.1 Identificación de las características relevantes de los cursos Como se especifico anteriormente, se hizo uso del sistema CIADEC para localizar las variables de la matriz Z “Características de los cursos”, obteniendo las reglas ya citadas. Una vez identificadas dichas variables relevantes de la proyección de la matriz de características de los cursos en las clases obtenidas con la ClBR (Clasificación Basada en Reglas) de las diferencias—que determinan en algún sentido el comportamiento de los municipios—el experto procedió a dar significado a los mismos. Se encontró que la clase C1 se compone de 74 cursos de los cuales 45 de ellos corresponden a la modalidad mixta capacitando aproximadamente a 588 personas, en donde la inversión económica osciló entre $16,100 pesos hasta $68,800 pesos por curso. Se logró un porcentaje de egresados del 76% (447 personas) y una contratación para un puesto de trabajo del 70% de participantes aproximadamente (412 personas). Por último, se tienen 29 cursos de modalidad de autoempleo capacitando aproximadamente a 584 personas, en donde la inversión económica oscila entre $45,900 pesos y $92,000 pesos por curso, logrando que el total de egresados fuera de un 96% (563 personas) y que se ocupara aproximadamente el 68% de participantes (395 personas). La tendencia de esta clase, refleja un repunte tardío hacia la medición de la diferencia del Índice de Contratación, que indica la evolución de dicho índice eliminando el efecto que el municipio ejerce en el curso. Siendo la mayoría de los cursos de capacitación mixta, los participantes al egresar requieren de más tiempo para encontrar un puesto de trabajo o bien, establecer su propio negocio. Se observa que la Clase C2, se compone de 14 cursos, todos ellos corresponden a la modalidad de autoempleo capacitando aproximadamente a 272 personas, en donde la inversión económica osciló entre $45,850 pesos hasta $111,000 pesos por curso. La mayoría de los cursos iniciaron al 100% de su capacidad (20 personas) logrando que al término del curso, aproximadamente un 93% de los participantes egresaran (253 personas) y que un 71% (192 personas) de estos se ocupara. La tendencia de ésta clase, refleja que el IC está directamente relacionado con la modalidad de los cursos, ya que todos ellos son de capacitación de autoempleo, por lo que la mayoría de los participantes al egresar ya cuentan con un puesto de trabajo en las empresas que participan en el proceso de capacitación. La Clase C3, se compone de 27 cursos de los cuales 16 corresponden a la modalidad de autoempleo capacitando aproximadamente a 311 personas, en donde la inversión económica osciló entre $45,850 pesos hasta $91,700 pesos por curso. La mayoría de los cursos iniciaron al 100% de su capacidad (20 personas) logrando que al término del curso, aproximadamente un 90% de los participantes egresaran (282 personas) y que un 80% (250 personas) de estos se ocupara ya sea trabajando por cuenta propia o bien, uniéndose en microempresas. Por otra parte, se tienen 11 cursos de modalidad mixta capacitando aproximadamente a 230 personas, en donde la inversión económica oscila entre $32,300 pesos y $67,800 pesos por curso; donde se logró un porcentaje de egresados superior al 93% de los participantes (215 personas), además de la contratación para un puesto de trabajo del 94% de participantes aproximadamente (217 personas). La tendencia de esta clase refleja que el IC se encuentra estrechamente ligada a la modalidad de los cursos, siendo estos en mayor cantidad de capacitación de autoempleo, por lo que gran parte de los participantes al egresar ya cuentan con un puesto de trabajo en las empresas que participan en el proceso de capacitación. Para finalizar, se aprecia claramente que entre las clases se presenta una tendencia muy diferente marcada por la modalidad, donde cada curso tiene su efecto particular invitando a analizar aquellas variables que influyen en el comportamiento encontrado y que esta información pueda ser la pauta para que la Secretaria de trabajo y Previsión Social (STPS) realice la planificación futura del BECATE. 5.4.2 Eficiencia del sistema En este apartado se incluirán las principales pantallas que genera la Tecnología CIADEC con el fin de mostrar el proceso que se llevo a cabo para obtener los resultados mencionados, explicando cada una de ellas para permitir una mejor comprensión. Es importante mencionar que se incluye un anexo en la presente tesis, en el que se describe de forma amplia el funcionamiento del sistema. Figura 5.5 Después de crear un nuevo directorio para que ahí se alojen los resultados (en este caso CursosPM), se procede a elegir el archivo de entrenamiento (T0_1.dat), Figura 5.5, el cual se analiza y proyecta la siguiente pantalla (Figura 5.6). Figura 5.6 En esta pantalla se pueden observar las características del archivo que fue analizado; como se mencionó en el apartado 5.2.1, la matriz Z, ―variables características de los cursos de capacitación‖, se proceso una matriz de 24 columnas y 106 filas (105 registros y 1 fila para el nombre de la variable), además de que los registros que conforman el archivo están previamente clasificados. Posteriormente, se procede eligieron las variables con las que se trabajaría, y como se puede observar en la Figura 5.7, CIADEC nos permite seleccionar todas aunque consecuentemente nos sugiera una selección de variables que nos permita obtener mejores resultados (Figura 5.8). Figura 5.7 Figura 5.8 Una vez que se seleccionaron las variables, a continuación se generaron los Intervalos, Tablas y Reglas de cada una de las variables, las cuales se guardan en la carpeta que está siendo usada (CursosPM). Acto seguido, en el menú entrenamiento se elije la opción de llamar a P0, que será el archivo de prueba para ese conjunto de entrenamiento (P0_1), Figura 5.9, compuesto por 10 registros y una fila que indica el nombre de las variables; los registros de este archivo no cuentan con una clasificación, de manera que sea el sistema, con el conocimiento adquirido al procesar el conjunto de entrenamiento, quien asigne la mejor clase. Figura 5.9 En las pantallas anteriores se maneja el Criterio de Agregación de Probabilidades Máximas, y se hace lo mismo con los otros dos Criterios, el de Votación y el de Sumas Máximas. La valoración e interpretación de dicho archivo de prueba, está compuesta de cuatros pestañas que nos indican las características del archivo, la clasificación de los registros (por el método con que se esté trabajando) y la generación de la interpretación de dicha clasificación. Figura 5.10 En la Figura 5.10 se puede observar que la primera pestaña ―Apertura‖, analiza el archivo de prueba mostrando sus características. En la Figura 5.11, se muestra la pestaña de ―Analizar‖, que da la pauta para continuar con el proceso de valoración e interpretación. Figura 5.11 A continuación, la Figura 5.12, hace referencia a la pestaña ―Clasificación‖, que nos indica con que archivo de entrenamiento y de prueba se está trabajando y donde se permite seleccionar el Criterio de Agregación para generar los resultados (en este caso Criterio de Máxima Probabilidad). En esta pantalla se puede ver que CIADEC ha asignado una clase a los archivos de prueba. Figura 5.12 Para efectos de este apartado, se incluyen las pantallas generadas con los dos Criterios de Agregación restantes, el de Votación y el de Suma Máxima (Figura 5.13 y 5.14 respectivamente), en las que se muestra que la clasificación obtenida por los tres Criterios de Agregación en este archivo de prueba es la misma. De igual manera es importante reiterar que no siempre será así, ya que cada método cuenta un proceso propio. Figura 5.13 Figura 5.14 Por último, en la Figura 5.15 (a) y Figura 5.15 (b), se puede observar la pestaña de ―Interpretación‖, que precisamente genera un archivo en donde se interpreta la clasificación que realizó CIADEC al archivo de prueba. Figura 5.15 (a) Figura 5.15 (b) El proceso anterior se realiza con todos los archivos de entrenamiento y prueba, como ya se había mencionado, de manera que los 115 registros que conforman la matriz Z ―variables características de los cursos de capacitación‖ sean evaluados por la Tecnología CIADEC (método k-folds cross-validation, apartado 5.1.1.3.2), de igual forma con los tres Criterios de Agregación citados en el apartado 5.1.1.3.1. A continuación se muestran las etiquetas lingüísticas para cada variable, tal y como fueron expuestas en el Capítulo 3 en el apartado 3.6.5. Etiquetas lingüísticas para la variable PROGR. 1.- MUY BAJO Modelo difuso. Gráfica 5.1. Etiqueta Muy Bajo para la variable PROGR 2.- BAJO Modelo difuso. Gráfica 5.2. Etiqueta Bajo para la variable PROGR 3.- MEDIANO Modelo difuso. Gráfica 5.3. Etiqueta Mediano para la variable PROGR 4.- ALTO Modelo difuso. Gráfica 5.4. Etiqueta Alto para la variable PROGR 5.- MUY ALTO Modelo difuso. Gráfica 5.5. Etiqueta Muy Alto para la variable PROGR Etiquetas lingüísticas para la variable T.I. 1.- MUY BAJO Modelo difuso. Gráfica 5.6. Etiqueta Muy Bajo para la variable T.I. 2.- BAJO Modelo difuso. Gráfica 5.7. Etiqueta Bajo para la variable T.I. 3.- MEDIANO Modelo difuso. Gráfica 5.8. Etiqueta Mediano para la variable T.I. 4.- ALTO Modelo difuso. Gráfica 5.9. Etiqueta Alto para la variable T.I. 5.- MUY ALTO Modelo difuso. Gráfica 5.10. Etiqueta Muy Alto para la variable T.I. Etiquetas lingüísticas para la variable I.H. 1.- MUY BAJO Modelo difuso. Gráfica 5.11. Etiqueta Muy Bajo para la variable I.H. 2.- BAJO Modelo difuso. Gráfica 5.12. Etiqueta Bajo para la variable I.H. 3.- MEDIANO Modelo difuso. Gráfica 5.13. Etiqueta Mediano para la variable I.H. 4.- ALTO Modelo difuso. Gráfica 5.14. Etiqueta Alto para la variable I.H. 5.- MUY ALTO Modelo difuso. Gráfica 5.15. Etiqueta Muy Alto para la variable I.H. Etiquetas lingüísticas para la variable I.M. 1.- MUY BAJO Modelo difuso. Gráfica 5.16. Etiqueta Muy Bajo para la variable I.M. 2.- BAJO Modelo difuso. Gráfica 5.17. Etiqueta Bajo para la variable I.M. 3.- MEDIANO Modelo difuso. Gráfica 5.18. Etiqueta Mediano para la variable I.M. 4.- ALTO Modelo difuso. Gráfica 5.19. Etiqueta Alto para la variable I.M. 5.- MUY ALTO Modelo difuso. Gráfica 5.20. Etiqueta Muy Alto para la variable I.M. Etiquetas lingüísticas para la variable T.E. 1.- MUY BAJO Modelo difuso. Gráfica 5.21. Etiqueta Muy Bajo para la variable T.E. 2.- BAJO Modelo difuso. Gráfica 5.22. Etiqueta Bajo para la variable T.E. 3.- MEDIANO Modelo difuso. Gráfica 5.23. Etiqueta Mediano para la variable T.E. 4.- ALTO Modelo difuso. Gráfica 5.24. Etiqueta Alto para la variable T.E. 5.- MUY ALTO Modelo difuso. Gráfica 5.25. Etiqueta Muy Alto para la variable T.E. Etiquetas lingüísticas para la variable E.H. 1.- MUY BAJO Modelo difuso. Gráfica 5.26. Etiqueta Muy Bajo para la variable E.H. 2.- BAJO Modelo difuso. Gráfica 5.27. Etiqueta Bajo para la variable E.H. 3.- MEDIANO Modelo difuso. Gráfica 5.28. Etiqueta Mediano para la variable E.H. 4.- ALTO Modelo difuso. Gráfica 5.29. Etiqueta Alto para la variable E.H. 5.- MUY ALTO Modelo difuso. Gráfica 5.30. Etiqueta Muy Alto para la variable E.H. Etiquetas lingüísticas para la variable E.M. 1.- MUY BAJO Modelo difuso. Gráfica 5.31. Etiqueta Muy Bajo para la variable E.M. 2.- BAJO Modelo difuso. Gráfica 5.32. Etiqueta Bajo para la variable E.M. 3.- MEDIANO Modelo difuso. Gráfica 5.33. Etiqueta Mediano para la variable E.M. 4.- ALTO Modelo difuso. Gráfica 5.34. Etiqueta Alto para la variable E.M. 5.- MUY ALTO Modelo difuso. Gráfica 5.35. Etiqueta Muy Alto para la variable E.M. Etiquetas lingüísticas para la variable C.H. 1.- MUY BAJO Modelo difuso. Gráfica 5.36. Etiqueta Muy Bajo para la variable C.H. 2.- BAJO Modelo difuso. Gráfica 5.37. Etiqueta Bajo para la variable C.H. 3.- MEDIANO Modelo difuso. Gráfica 5.38. Etiqueta Mediano para la variable C.H. 4.- ALTO Modelo difuso. Gráfica 5.39. Etiqueta Alto para la variable C.H. 5.- MUY ALTO Modelo difuso. Gráfica 5.40. Etiqueta Muy Alto para la variable C.H. Etiquetas lingüísticas para la variable C.M. 1.- MUY BAJO Modelo difuso. Gráfica 5.41. Etiqueta Muy Bajo para la variable C.M. 2.- BAJO Modelo difuso. Gráfica 5.42. Etiqueta Bajo para la variable C.M. 3.- MEDIANO Modelo difuso. Gráfica 5.43. Etiqueta Mediano para la variable C.M. 4.- ALTO Modelo difuso. Gráfica 5.44. Etiqueta Alto para la variable C.M. 5.- MUY ALTO Modelo difuso. Gráfica 5.45. Etiqueta Muy Alto para la variable C.M. Una vez que la matriz Z, características de los cursos, ha sido caracterizada e interpretada por CIADEC, se procede a medir la eficiencia de los resultados generados por el experto contra los resultados concebidos por el sistema, por lo que a continuación se presenta una tabla comparativa (Tabla 5.4) que permitirá observar de manera clara dicha comparación. Tabla de Validación de Resultados (Tabla 5.4). i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 CLASE 1 1 1 1 1 1 1 1 1 1 1 3 3 3 2 1 1 1 1 1 PM 1 1 1 1 1 1 1 1 1 1 1 1 3 3 1 1 1 1 1 1 VOT 1 1 1 1 1 1 1 1 1 1 1 3 3 1 1 1 1 1 1 1 SUM 1 1 1 1 1 1 1 1 1 1 1 3 1 1 1 1 1 1 1 1 i 21 22 23 24 25 26 27 28 29 30 CLASE 1 1 1 1 1 1 1 3 1 1 PM 1 1 1 1 1 1 1 1 1 1 VOT 1 1 1 1 1 1 1 1 1 1 SUM 1 1 1 1 1 1 1 1 1 1 Es importante mencionar que los datos que contempla la tabla de validación (Tabla 5.5.) de resultados fueron seleccionados aleatoriamente del total de 115 registros que contiene la matriz Z. Tabla de Errores de Predicción (Tabla 5.5). CLASIF. P. MÁXIMA VOTACIÓN SUMA MÁXIMA CLASE 90% 90% 87% Con los datos anteriores se puede observar, que la Tecnología CIADEC con ayuda de la Asignación por Criterios de Probabilidad Máxima y por el Criterio de Votación presenta una eficiencia del 90%, es decir, los resultados arrojados por CIADEC son confiables y serán de gran ayuda al experto al momento de llevar a cabo la toma de decisiones con respecto a los cursos impartidos por cada municipio que conforman la Clase C1. Por otra parte, puede verse también, que la Asignación por Criterio de Suma Máxima presenta un ligero decremento de porcentaje, 87%, lo que indica que la clasificación generada por este tipo de Criterio será solo un poco menor en el grado de confiabilidad con respecto a los Criterios anteriormente mencionados. CAPÍTULO VI CONCLUSIONES Y TRABAJO FUTURO 6.1 Conclusiones En este trabajo se hizo uso de la metodología KDSM para el análisis de medidas seriadas muy cortas y repetidas y, de la metodología de CIADEC enfocada al proceso de caracterización y en consecuencia a la obtención de una clasificación ―útil‖ o de ―calidad‖, que permitiera obtener la estructura semántica de forma que, ésta tuviera significado para el objetivo de este estudio; los datos fueron tomados de un conjunto de municipios, donde éstos actúan formado bloques con dichas medidas. La metodología CIADEC fue diseñada para descubrir nuevo conocimiento en dominios donde se presentan este tipo de datos; obteniendo a la fecha resultados muy satisfactorios en una primera aplicación al ámbito medioambiental [153]. Los trabajos de mejora de esta metodología continúan y su aplicación se ha extendido a otro ámbito: la capacitación laboral; donde también se obtuvieron resultados satisfactorios e importantes. Se puede concluir, en cuanto a la metodología se refiere, que ésta integra técnicas habituales de Estadística, Inteligencia Artificial y Lógica Difusa para dar una posible solución al problema cuando no se encuentran variables relevantes o caracterizadores y medidas seriadas como complemento de la metodología KDSM para caracterizar la matriz de basales Y0 en función de la matriz de datos X. Por otra parte, el uso de reglas difusas como combinación de variables permitió la obtención de una clasificación ―útil‖ para el experto en función del objetivo de estudio. En cuanto a la aplicación de las metodologías antes mencionadas al ámbito laboral, se debe recordar que una de las funciones de la Secretaria de Trabajo y Previsión Social (STPS) a través de los Servicios Estatales de Empleo (SEE) es dar seguimiento a los resultados obtenidos con el BECATE, midiendo su eficiencia mediante una relación costo/beneficio; es decir, la inversión económica con respecto a la gente ya capacitada y que se ha incorporado al sector laboral. En un esfuerzo por mejorar esta labor se ejecutó un programa piloto para valorar la conveniencia de utilizar la metodología antes mencionada (CIADEC) como herramienta auxiliar para el análisis de 3 diferentes tipos de cursos en 17 Municipios del Estado de Chihuahua, México. El programa piloto consistió del análisis de una sola rama de estudio (Manufactura Textil) impartida en el conjunto de 17 municipios del Estado y de los resultados obtenidos descritos en el apartado 5.4.1 se obtuvieron las conclusiones que se detallan a continuación. En la distribución de las unidades económicas del sector Manufactura (cantidad de empresas) en las clases C1, C2 y C3, la inversión económica y la modalidad se aprecia que: la inversión económica por parte del gobierno es menor cuando la modalidad del curso es capacitación mixta debido a la participación directa de las empresas. Es así, que basándose en este hecho la STPS puede optimizar el BECATE de forma que se aproveche al máximo el nicho de oportunidad que para el gobierno, sector empresarial y trabajadores desempleados representa la coordinación gobierno-empresa en la capacitación. Por otra parte, conociendo la distribución de las empresas, la modalidad del curso y las características de los municipios (Boxplots de la Figura 5.4) la STPS podrá realizar la planeación de la capacitación decidiendo entre las diferentes modalidades de los cursos, sus contenidos y Municipio en que se impartirá; de forma que respondan a las necesidades económicas de los estos, así como las necesidades del sector empresarial y se maximice la relación costo/beneficio. Finalmente, en base al total de inscritos (Figura 5.4(b)), total de egresados (Figura 5.4(e)) y total de contratados (Figura 5.4(h)), la STPS podrá actuar ante una situación en la cual el mercado ya no contrate la cantidad suficiente de egresados y en la que se pierda el equilibrio de la relación costo/beneficio. 6.2 Trabajo futuro Este trabajo representa una primera etapa de la aplicación de la metodología CIADEC en el dominio laboral de una organización, en el cual varias tareas se han identificado para ser desarrolladas. Formalizar un mecanismo para mejorar el proceso de adquisición con calidad de clases en términos de la utilidad. Definir el mecanismo de obtención de reglas cuando ninguno de los atributos caracteriza completamente a las clases y además no existe ninguno estadísticamente relevante. Establecer un sistema de caracterización para descripciones conceptúales de las clases a partir de una partición de referencia así como un modelo de generación automática de interpretación de las mismas. CONCLUSIONES El uso de la metodología KDSM para el análisis de medidas seriadas muy cortas y repetidas y, de la metodología de CIADEC enfocada al proceso de caracterización, permitieron la obtención de una clasificación de calidad, que permitiera obtener una estructura semántica para un caso especifico, que para efectos de esta tesis fue el ámbito laboral del Subprograma BECATE, de forma que, ésta tuviera significado para el objetivo de este estudio. La metodología CIADEC, combinación de técnicas habituales de Estadística, Inteligencia Artificial y Lógica Difusa, ofrece una posible solución al problema cuando no se encuentran variables relevantes o caracterizadores y medidas seriadas como complemento de la metodología KDSM para caracterizar una matriz de basales Y0 en función de una matriz de datos X. El uso de reglas difusas como combinación de variables permitió la obtención de una clasificación ―útil‖ para el experto en función del objetivo de estudio. En cuanto a la aplicación de las metodologías antes mencionadas al ámbito laboral, se debe recordar que una de las funciones de la Secretaria de Trabajo y Previsión Social (STPS) a través de los Servicios Estatales de Empleo (SEE) es dar seguimiento a los resultados obtenidos con el BECATE, midiendo su eficiencia mediante una relación costo/beneficio; es decir, la inversión económica con respecto a la gente ya capacitada y que se ha incorporado al sector laboral. En un esfuerzo por mejorar esta labor se ejecutó un programa piloto para valorar la conveniencia de utilizar la metodología antes mencionada (CIADEC) como herramienta auxiliar para el análisis de 3 diferentes tipos de cursos en 17 Municipios del Estado de Chihuahua, México. El programa piloto consistió del análisis de una sola rama de estudio (Manufactura Textil) impartida en el conjunto de 17 municipios del Estado; los resultados obtenidos se describieron en el Capítulo 6. En resumen, las conclusiones de la aplicación de la metodología CIADEC al ámbito de la capacitación laboral son las siguientes: Como soporte a la toma de decisiones en una organización. Retroalimenta con conocimiento del BECATE a la STPS para que ésta actúe en consecuencia. Como auxiliar a la optimización y planeación. Fundamenta las decisiones en cuanto a que tipo de curso sería mejor implementar en cada Municipio y demás características de los mismos que le permitirán mejorar de forma continua y permanente el funcionamiento del BECATE. Como proveedor de nuevo conocimiento. Otorga conocimiento proveniente de la monitorización a los cursos que permitirá que la STPS actúe ante un desequilibrio en la relación costo/beneficio. ANEXO ANEXO MANUAL DE USUARIO DEL SISTEMA CIADEC 2.0 Introducción El Sistema CIADEC (Características e Interpretación Automática de Descripciones Conceptuales en Dominios poco Estructurado usando Variables Numéricas), está diseñado para generar reglas difusas a partir de variables numéricas; tal sistema permite caracterizar las diversas clases de una clasificación previamente establecida, en dominios poco estructurados asignando etiquetas lingüísticas. A partir de ello, se pueden establecer criterios de decisión en tiempo real, de acuerdo con los hombres y mujeres inscritos en cada curso del dominio que se esté considerando, por ejemplo, los componentes de un programa de capacitación orientado al Ámbito Laboral, de manera más sencilla y eficiente de forma tal que no sólo puede ser realizado por un experto sino por un usuario en general. Requerimientos Los requerimientos de software y hardware para la instalación del sistema CIADEC son: Hardware: Disco duro 40 GB Procesador PENTIUM IV a 500 Mhz 256 Mb de Memoria RAM Software: JAVA JCreator LE WinEdt Instalación A continuación se muestran los pasos para la instalación del sistema CIADEC: 1. Principalmente se ejecuta el programa JCreator LE. 2. En la opción Abrir… despliega una ventana la cual nos da la opción Buscar dentro de la cual se seleccionará la unidad C:\, posteriormente se seleccionará la carpeta de nombre CIADEC, finalmente se selecciona el archivo llamado Grafico de extensión .java y se da un clic al botón Aceptar. 3. Una vez que se abre el código del programa CIADEC se presiona el botón de Compilar archivo. 4. Finalizada la compilación se muestra el mensaje: Proceso completo y se procede a presionar el botón de Ejecutar archivo. 5. A continuación se despliega una pantalla de fondo negro la cual manda llamar a las clases del programa y en pocos segundos despliega la pantalla principal del sistema CIADEC y a partir de ese momento se puede trabajar con el sistema. Características Generales del Sistema CIADEC Barra de Menús Figura 1 1. Menú Directorio (Activado al inicio del Sistema) Figura 2 Manipula el directorio de trabajo, y cuenta con los submenús siguientes: Nuevo. Crea un nuevo directorio de resultados, es decir crea una carpeta vacía en la que se almacenarán los archivos que genera el sistema, para lo cual es necesario introducir la dirección en donde se desea posicionar la carpeta y el nombre del directorio. Figura 3 En este apartado es necesario especificar que existen dos posibles maneras para poder crear esta carpeta: 1. El usuario introduce una dirección y nombre al directorio de resultados (carpeta donde se almacenarán los archivos generados por el sistema), es decir, la ruta específica donde quiere que se guarden los archivos resultantes. 2. No se asigna ninguna dirección para posicionar la carpeta pero si se asigna un nombre. La carpeta se creará por default con el nombre asignado, en la dirección donde se encuentra el ejecutable del programa CIADEC. Al no asignar ninguna dirección, ni nombre a la carpeta donde se almacenarán los archivos generados por el sistema, éste enviara un mensaje de error indicando que no se ha asignado ya sea una ruta o un nombre a la carpeta que servirá para almacenar los archivos generados por el sistema. Por lo anterior, es necesario crear o abrir una carpeta para poder trabajar con el sistema. Después de asignar una ruta para la carpeta, el sistema habilita el submenú Cambiar… que se explicará posteriormente. Abrir. Abre un directorio de resultados ya creados. Despliega una ventana llamada Abrir Directorio (Figura 4) en la cual se introducirá la dirección en donde se encuentra posicionada la carpeta y el nombre del directorio que se desea abrir. Figura 4 Al igual que con el submenú Nuevo Directorio, se puede asignar la ruta especifica o únicamente el nombre de la carpeta que desee abrir. El sistema enviará mensajes de Advertencia o de Error según sea el caso; serán de Advertencia cuando la carpeta que desea abrir ya existe por lo que el sistema le preguntará si desea trabajar con ella, y también, cuando la carpeta que indique que abra no exista, para lo que el sistema se lo hará saber preguntando si desea crear una nueva carpeta. Se emitirá un mensaje de Error cuando no escriba ningún nombre de carpeta, es decir, que no escriba nada en el cuadro de dialogo de Abrir Directorio. Después de asignar Abrir una carpeta especifica, el sistema habilitará el submenú Cambiar… que se explica a continuación. NOTA: una vez que se ubique en un directorio, los submenús Nuevo… y Abrir… permanecerán desactivados, ya que esta actualmente trabajando con el sistema CIADEC, para elegir otro directorio para trabajar puede hacer uso del submenú Cambiar. Cambiar (desactivado al inicio del sistema, pero activado después de ejecutar alguna de las operaciones de Crear Directorio y Abrir Directorio). Despliega una ventana llamada Cambiar Directorio, como se muestra en la siguiente imagen (Figura 5), en la cual se tendrá que introducir la dirección y el nombre del directorio con el que se desea trabajar para almacenar los archivos generados por el sistema, por default aparece el nombre del directorio actual con que se esta trabajando. Figura 5 De la misma forma es posible asignar una ruta completa o únicamente el nombre de la carpeta a la que desee cambiar, esto depende de donde este ubicada. El sistema emitirá mensajes de Advertencia o de Error según sea el caso; serán de Advertencia cuando la carpeta a la que desea cambiar ya existe, por lo que el sistema le preguntará si desea trabajar con ella, y también, cuando la carpeta a cambiar no exista, para lo que el sistema se lo hará saber preguntando si desea crear una nueva carpeta con ese nombre. Se emitirá un mensaje de Error cuando no escriba ningún nombre de carpeta a la que desee cambiar, es decir, que no escriba nada en el cuadro de dialogo de Cambiar Directorio. A pesar de que no se haya creado la carpeta a la cual se deseaba cambiar, se podrá continuar trabajando con los siguientes menús dado que se almacenarán los archivos generados por el sistema en la dirección actual en la que se encuentre, pero si en algún momento desea cambiar el directorio de resultados lo podrá hacer dado que continua activado el submenú Cambiar… , pero en este caso no contendrá el nombre y la dirección que se le asignaron por última vez, es decir, la posición y el nombre de la carpeta que no se deseó crear sólo contendrá el nombre y la dirección del directorio actual. 2. Menú Entrenamiento (Activado al inicio del Sistema) Figura 6 Escoge el archivo de entrada y cuenta con los siguientes submenús: Llamar T0. Llama al archivo de trabajo, es decir llama al archivo de entrenamiento. El submenú Llamar a T0 muestra la pantalla con el nombre de Llamada del Archivo de Entrenamiento, y esta contiene: Dirección de archivos. Es la dirección donde se encuentran los archivos de entrenamiento, dentro del cual por default aparecerá el nombre de la carpeta Datos la cual se encuentra Dentro de la Carpeta del sistema CIADEC en la unidad C:\. Figura 7 El usuario pueda asignar la dirección que el desee para elegir los archivos de entrenamiento. Al presionar el Botón Extraer, se mostraran mensajes de Advertencia cuando no exista el directorio especificado por lo que se pide se compruebe su nombre; cuando este sea correcto, en ese momento se cargarán todos los archivos especificados. Especificación de extensión. Cuenta con dos opciones: No, por default se extraerán todos los archivos de entrenamiento con la extensión *.dat que se encuentran dentro de la carpeta con la que se trabajará; con la opción Sí se tiene que especificar la extensión del archivo de entrenamiento con *.extensión. Si se elige esta última, se pueden presentar cinco posibles casos (se menciona cada uno con su respectivo mensaje de Advertencia): 1. Que opte por la extensión .doc, la cual no existe, ya que no existirán archivos dentro de la dirección mencionada con esta extensión. El mensaje hará referencia a que existe el directorio pero no contiene ningún archivo especificado. 2. Cuando no se especifique ninguna extensión de archivo, es decir, se deje el espacio en blanco. El mensaje indicara que existe un error en la extensión. 3. Cuando se escribe la extensión sin iniciar con ―.‖. El mensaje será el mismo que en el punto anterior. 4. Cuando se escriba únicamente un punto (.). El mensaje dirá que se cargaran todos los archivos especificados, es decir, todos los archivos que están contenidos dentro de la carpeta especificada en Dirección de Archivos. 5. Cuando se escriba en forma correcta la extensión, es decir, .dat, o lo que sería su equivalente al seleccionar la opción No. Figura 8 Elegir archivo. Al momento en que se abre la pantalla Llamada del Archivo de Prueba la opción de Elegir archivo aparece desactivada, debido a que inicialmente se tiene que asignar una Dirección de archivos y una Especificación de extensión, una vez realizados los pasos anteriores, al presionar el botón Extraer, se activará la opción Elegir Archivo. Figura 9 En esta opción se muestran los archivos de prueba (con la extensión que se especifico o la que aparece por default en caso de no especificarla) que se encuentran dentro de la carpeta indicada, se tendrá que seleccionar uno para trabajar con él. Al presionar el botón Analizar… activa el botón Aceptar, al igual que el menú Variables y despliega una ventana llamada Características, la cual se explicará a continuación. Características Despliega las características del archivo que se esta analizando dentro de los que se encuentran: Propiedades del archivo: muestra el nombre del archivo que esta analizando y su extensión. Compatible con CIADEC: en este caso se tendrán dos opciones; verdadero (TRUE) o falso (FALSE), y por lo tanto, en caso de no ser compatible no se podrá trabajar con el archivo. Tamaño: despliega el tamaño en bytes del archivo que se esta analizando. No. Columnas: despliega el número de columnas que contiene el archivo que se esta analizando. No. Filas: despliega el número de filas que contiene el archivo que se esta analizando. C.N.: despliega cuantas columnas numéricas existen dentro de este archivo que se esta analizando. C.N.N.: despliega cuantas columnas no numéricas existen dentro del archivo que se esta analizando. Con Nombre de Variables: informa si tienen nombre las variables del archivo que se esta analizando, por lo tanto, se tendrán dos opciones; verdadero (TRUE) o falso (FALSE), en ambos casos se podrá trabajar con el archivo. Con clasificación: informa si las variables tienen clasificación, por lo tanto, se tendrán dos opciones; verdadero (TRUE) o falso (FALSE), en caso de no tener clasificación no se podrá trabajar con el archivo. Número de individuos: despliega el número de individuos con los que cuenta el archivo que se esta analizando. Figura 10 Al visualizar las características de un archivo específico se presentan las siguientes situaciones: 1. Se trabaja con un archivo de extensión *.dat el cual es compatible con CIADEC, las variables tienen nombre, pero no cuenta con una clasificación. En este caso, lo más importante es que no cuenta con una clasificación y como consecuencia no se podrá trabajar con el archivo ya que no generará Intervalos, Tablas, Reglas ni Gráficos. Por lo tanto, se deberá trabajar con otro archivo o en caso contrario hacerle los cambios necesarios (asignarle una clasificación). 2. Se utiliza un archivo *.dat el cual es compatible con CIADEC, las variables no tienen nombre y no cuenta con una clasificación. La situación que se presenta es similar a la anterior solo que en este caso las variables no tienen nombre lo que no afecta ya que el sistema las nombrara como: sin nombre 0, sin nombre 1, sin nombre 2, etc. (NONAME 0, NONAME 1, NONAME 2, ETC). Ya que el archivo no tiene clasificación se hace la misma recomendación que en el punto anterior. Para los dos casos anteriores, en el momento en que se presione el botón Analizar… y se despliegue la ventana de Características, a su vez se activa el botón Aceptar, por lo tanto, una vez que se muestran las características se puede cerrar esa ventana o dejarla abierta, y al presionar el botón Aceptar para poder trabajar con el menú Variables, el cual se explicará más adelante. 3. Se selecciona un archivo con extensión *.dat el cual es compatible con CIADEC, las variables no tienen nombre y cuenta con una clasificación. En este caso lo más importante es que cuenta con una clasificación y como consecuencia se podrá trabajar con el archivo y generar Intervalos, Tablas, Reglas y Gráficos ya que, como se menciono anteriormente, a pesar de que las variables no cuenten con un nombre el sistema las nombrara como: sin nombre 0, sin nombre 1, sin nombre 2, etc. (NONAME 0, NONAME 1, NONAME 2, ETC). Es recomendable que las variables cuenten con nombre aunque realmente no afecte el funcionamiento del sistema pero sería mejor para la identificación de las variables. En el momento en que se presione el botón Analizar… aparecerá la ventana de Características y a su vez se activará el botón Aceptar, por lo tanto, una vez que se mostraron las características se puede cerrar esa ventana o dejarla abierta, y al presionar el botón Aceptar se puede trabajar con el menú Variables, Intervalos, Tablas, Reglas y Gráficos, los cuales se explicarán más adelante. 4. Se trabaja con un archivo de extensión *.dat el cual no es compatible con CIADEC, las variables tienen nombre y cuenta con una clasificación. Como no es compatible con CIADEC no se podrá trabajar con el archivo ya que no se activaran los menús Variables, Intervalos, Tablas, Reglas ni Gráficos. 5. Se trabaja con un archivo de extensión *.dat el cual no es compatible con CIADEC, las variables no tienen nombre y cuenta con una clasificación. Como el archivo no es compatible con el sistema CIADEC no se activarán los submenús Variables, Intervalos, Tablas ni Gráficos. Como ya se explicaba el que las variables no cuenten con un nombre no afecta en nada al funcionamiento del sistema, ya que este las nombra como: sin nombre 0, sin nombre 1, sin nombre 2, etc. (NONAME 0, NONAME 1, NONAME 2, ETC). 6. Se trabaja con un archivo de extensión *.dat el cual no es compatible con CIADEC, las variables tienen nombre y no cuenta con una clasificación. 7. Se trabaja con un archivo de extensión *.dat el cual no es compatible con CIADEC, las variables no tienen nombre y no cuenta con una clasificación. La incompatibilidad del archivo impide que se active el botón Validar y por lo tanto el submenú Validación. Para los cuatro casos anteriores, en el momento en que sea presionado el botón Analizar… aparecerá la ventana de Características y no se activará el botón Aceptar, por lo tanto, una vez que se mostraron las características es recomendable cerrar esa ventana e intentar trabajar con otro archivo o en su defecto corregir los errores con los que cuenta el archivo (aparecen en la ventana de características), al igual que realizar los cambios necesarios para que el archivo sea compatible con CIADEC. 8. Se trabaja con el archivo con el extensión *.dat el cual es compatible con CIADEC, las variables tienen nombre y cuenta con una clasificación. En este caso lo más importante es que es compatible con CIADEC, y como consecuencia se podrá trabajar con él sin necesidad de hacerle ninguna modificación o corrección. Al presionar el botón Validar se puede trabajar con el submenú Validación, el cual se explicará posteriormente. Una vez que se cerró la ventana de Características, y se presiona el botón Validar aparece la pantalla Validación de Reglas. En caso de no presionar el botón Validar será necesario ir al menú Entrenamiento y presionar el submenú Validación el cual se explicará a continuación. 3. Menú Variables Permite la selección de las variables, al igual que mostrará las variables aceptadas y rechazadas después de realizar una selección y cuenta con los siguientes submenús: Figura 11 Seleccionar. Permite seleccionar las variables con las que se desea trabajar. Como se muestra en la siguiente imagen (Figura 12), se tienen los siguientes atributos: * Seleccionando variables… El submenú Seleccionar muestra la pantalla con el nombre de Seleccionando variables…, y esta contiene: Figura 12 No. de variables: muestra el número de variables con las que cuenta el archivo con el que se esta trabajando. Seleccionar variables: consiste en seleccionar una variable para trabajar con ella, dando un click en la flecha que aparece delante de Seleccionar variables que muestra la palabra Variables. Una vez que se dio un click sobre la flecha se desplegarán las variables que contiene el archivo con el que se esta trabajando para posteriormente seleccionar con las que se desee trabajar. Al seleccionar la variable o variables deseadas estas se mostrarán en el cuadro de texto en blanco, ubicado en la parte derecha de la pantalla. Botón Aceptar: la variable seleccionada se muestra en el recuadro blanco que aparece del lado derecho de la pantalla Seleccionando variables, desde el momento en que se presiona el botón Aceptar se activa el botón Siguiente >>, pero se desactiva el botón Todas y mostrará en Seleccionar variable, la variable anterior, es decir la variable que se encuentra arriba de la última variable que se selecciono y se acepto. Además de que se activa el submenú Selección que se encuentra dentro del menú Variables. Una vez que se presiona el botón Aceptar y pasa del lado derecho en el recuadro blanco la variable que se selecciono, automáticamente dicha variable se elimina de la opción de Seleccionar variable para evitar la redundancia. El proceso de selección de variables se repetirá de la misma manera para la cantidad de variables que se necesiten. Botón Quitar: si una variable, que se muestra en el recuadro blanco Seleccionando variables, es seleccionada, se eliminará de ese recuadro y regresará a la parte de Seleccionar variable. En caso de que sólo existiera una variable y se quitara del recuadró, es decir que el recuadro blanco no contará con ninguna variable se desactivará el submenú Selección que se encuentra dentro del menú Variables. Botón Limpiar: ayuda a que todas las variables que se muestran en el recuadro blanco (Seleccionando variables), se eliminen y regresen a la parte de Seleccionar variable, y como consecuencia una vez que el recuadro blanco no cuente con ninguna variable se desactiva el submenú Selección que se encuentra dentro del menú Variables. Si no se cuenta con ninguna variable seleccionada se desactiva el botón Siguiente >> y se activa el botón Aceptar. Como se mencionó anteriormente las variables regresan al recuadro de Seleccionar Variables para que puedan volver a usarse. Botón Todas: todas las variables que se muestran en el recuadro de Seleccionar variable pasarán al recuadro ―Seleccionando variables”, por lo que una vez hecho lo anterior se eliminarán del cuadro de Seleccionar variable y se activa el submenú Selección que se encuentra dentro del menú Variables. Acto seguido se desactivan los botones Aceptar y Todas. Ya seleccionadas las variables con las que se necesite trabajar, el usuario tendrá que presionar el botón Siguiente >>, con lo cual se activa el menú Intervalos y por lo tanto, se mostrará la pantalla de Selección de Variables Numéricas la cual se explicará a continuación. Selección (se encuentran desactivado al inicio del sistema). * Selección de variables numéricas Esta pantalla se mostrará principalmente al presionar el botón Siguiente >>; sin embargo, si el usuario se encuentra trabajando en algún menú o submenú posterior al de Variables y requiere ver esta pantalla, puede hacerlo dirigiéndose al menú Variables Selección para que despliegue la pantalla de Selección de Variables Numéricas (Figura 13). Cabe mencionar que el submenú Seleccionar se activa desde el momento que se selecciono una o más variables y se presiono el botón Aceptar, o en su defecto el botón Todas. Figura 13 En esta pantalla se muestra: No Numéricas (recuadro ubicado del lado izquierdo de la pantalla): muestra las variables que se seleccionaron anteriormente y no son numéricas. Numéricas (recuadro ubicado del lado derecho de la pantalla): muestra las variables numéricas que se seleccionaron anteriormente. Variables seleccionadas: indican la cantidad de variables aceptadas (seleccionadas). Variables no aceptadas: indican la cantidad de variables no aceptadas (no seleccionadas). 4. Menú Intervalos Calcula los intervalos [k]P, es decir los mínimos y máximos de cada variable seleccionada. Estos intervalos se pueden almacenar en un archivo con el mismo formato de entrada, y con una columna por cada variable donde se pondrá la lista de intervalos ordenada de menor a mayor. Este menú cuenta el siguiente submenú (Figura 14): Figura 14 Generar. El submenú despliega la siguiente pantalla que se explica a continuación: Figura 15 Dirección de los resultados: despliega la dirección y el nombre del directorio de resultados, es decir la ubicación y el nombre del directorio dentro del cual se almacenarán los archivos generados por el sistema. Si no se asigna ningún Directorio de resultados cuando se empieza a trabajar con el sistema mostrará el mensaje ¡Indique el directorio!, por lo que tendrá que elegir alguno para poder generar los intervalos. ¿Desea generar archivos de intervalos?: esta pregunta dará dos opciones: Aceptar: en caso de presionar este botón generará un archivo en formato LaTex (*.tex) por cada una de las variables seleccionadas, los cuales contendrán los intervalos de cada una de ellas y los almacenará en el directorio de resultados. Cada archivo contendrá el nombre de la variable seleccionada, seguida de –iks más la extensión .tex. Por ejemplo: jh-iks.tex Se activa el menú Tablas y despliega una ventana llamada Mensaje de Advertencia, en el que se indica que ―Se generaron los Intervalos exitosamente” (Figura 16). Figura 16 Al presionar el botón Aceptar se cerrará la ventana de Mensaje de Advertencia; de esta manera quedaran generados los archivos en formato LaTex (con extensión –iks.tex) que son los intervalos de las variables seleccionadas anteriormente, dentro del directorio de resultados. Para poder Abrir los archivos con extensión –iks.tex de formato LaTex, se requiere del programa WinEdt, el cual contendrá los intervalos de cada una de las variables seleccionadas. Omitir: si la pregunta ¿Desea generar archivos de intervalos? es contestada con Omitir, el sistema generara los intervalos de cada una de las variables seleccionadas, pero no se almacenará en el directorio de resultados. Se activa el menú Tablas y despliega una ventana llamada Mensaje de Advertencia, que indica que ―Se generaron los Intervalos exitosamente” (de igual manera que en la opción anterior). Al presionar el botón Aceptar se cerrará la ventana del Mensaje de Advertencia, el cual significa que aunque no genere los archivos dentro del directorio de resultados para que el usuario pueda apreciarlos a través del programa WinEdt, los generara en memoria para poder continuar trabajando con el sistema CIADEC. 5. Menú Tablas Con este menú se calcularán las matrices de probabilidad por clase y por intervalo y los datos se podrán almacenar en un Archivo. El menú Tablas cuenta con el siguiente submenú (Figura 17): Figura 17 Generar Tablas. Crea un archivo por cada variable seleccionada. La primera línea del archivo tendrá los intervalos de menor a mayor, y las siguientes líneas contendrán las probabilidades en cada intervalo, con una línea por cada clase. Este submenú desplegara la pantalla Generación de Matrices (Figura 18), que consta de los siguientes elementos: Figura 18 Dirección de los resultados: despliega la dirección y el nombre del directorio de resultados, es decir la ubicación y el nombre del directorio dentro del cual se almacenarán los archivos generados por el sistema. ¿Desea generar las Tablas de Frecuencias para las variables seleccionadas?: esta pregunta dará dos opciones que son: Aceptar: en caso de presionar este botón generara un archivo en formato LaTex (*.tex) por cada una de las variables seleccionadas, los cuales contendrán las matrices de probabilidad por clase y por intervalo de cada una de ellas y los almacenará en el directorio de resultados. Cada archivo contendrá el nombre de la variable seleccionada seguida de -dci, más la extensión .tex. Por ejemplo: jhdci.tex. Despliega una ventana llamada Mensaje de Advertencia, en el que se indica que ―Se generaron las Tablas exitosamente” (Figura 19). Figura 19 Al presionar el botón Aceptar se cerrará la ventana de Mensaje de Advertencia, quedara la pantalla de Generación de Matrices y se activan los menús de Reglas y Gráficos, al igual que el submenú Llamar P0 que se encuentra dentro del menú Entrenamiento (Figura 20). Figura 20 Por lo tanto, al presionar el botón Aceptar se generaran los archivos de formato LaTex con extensión .dci que son las Matrices de las variables seleccionadas anteriormente, dentro del directorio de resultados indicado. Para poder abrir los archivos con formato LaTex (con extensión .dci) que se generaron, se requiere del programa WinEdt. Omitir: si la pregunta ¿Desea generar las Tablas de Frecuencia para la variables seleccionadas? es contestada con Omitir, el sistema generara las matrices de probabilidad por clase y por intervalo de cada una de las variables seleccionadas, pero no se almacenará en el directorio de resultados. Al presionar el botón Aceptar se despliega una ventana con un Mensaje de Advertencia, en el cual se indica que ―Se generaron las Tablas exitosamente” (como en la opción anterior). Acto seguido, se cerrará la ventana del Mensaje de Advertencia, y se activan el menú Reglas y Gráficos, al igual que el submenú Llamar P0 que se encuentra dentro del menú Entrenamiento (Figura 20). 6. Menú Reglas Permite generar las reglas de probabilidad, por lo tanto, los datos se podrán almacenar en archivos. Este menú cuenta con el siguiente submenú (Figura 21). Figura 21 Generar. Este submenú genera las reglas de probabilidad en formato LaTex, es decir dos archivos por cada variable seleccionada; despliega la pantalla Generación de Reglas (Figura 22), que contiene los siguientes atributos: Figura 22 Dirección de los resultados: despliega la dirección y el nombre del directorio de resultados, es decir la ubicación y el nombre del directorio dentro del cual se almacenarán los archivos generados por el sistema. ¿Desea generar las Reglas para la variables seleccionadas?: esta pregunta dará dos opciones las cuales son: Aceptar: generara dos archivos en formato LaTex por cada una de las variables seleccionadas. El primero tendrá como distintivo el nombre de la variable seguido de -scr.tex y mostrará las reglas de probabilidad diferente de cero para cada clase. Por ejemplo: jh-scr.tex. El segundo tendrá como distintivo el nombre de la variable seguido de -srr.tex y mostrará por cada clase sólo la regla de probabilidad máxima. Por ejemplo: jh-srr.tex. Si la pregunta ¿Desea generar las Reglas para las variables seleccionadas? es contestada con Aceptar, es decir se presiona el botón Aceptar, se despliega una ventana de Mensaje de Advertencia, el cual indicara que ―Se generaron las Reglas exitosamente” (Figura 23). Figura 23 Por lo tanto, los archivos de formato LaTex con extensión .scr y .srr que son las Matrices de las variables seleccionadas anteriormente ya se han generado, dentro del directorio de resultados. Para poder abrir estos archivos (con formato LaTex y extensión .scr y .srr) se requiere, como ya se ha mencionado anteriormente, del programa WinEdt. Omitir: si la pregunta ¿Desea generar las Reglas para las variables seleccionadas? es contestada con Omitir, el sistema no generará las reglas de probabilidad de las variables seleccionadas y por lo tanto, no se almacenará en el directorio de resultados, ni en memoria. 7. Menú Validación Esta opción permitirá validar las reglas obtenidas mediante el conjunto de entrenamiento, para lo cual se tomarán los datos de un conjunto de prueba. En un principio este menú aparece desactivado, pero una vez que se presiona el botón de Analizar... de la pantalla del Llamada del Archivo de Prueba se activa el botón Validar y a su vez el menú Validación, dentro del cual se tendrá el siguiente submenú (Figura 24): Figura 24 Criterios. Validación de los criterios para las variables seleccionadas. Muestra la pantalla con el nombre de Validación de reglas, la cual presenta las características que se explicarán a continuación. Nota: Cabe mencionar que si no se asigna un directorio para almacenar los archivos generados por el sistema mostrará en esta pantalla en el apartado de Dirección de los resultados: ¡Indique el directorio! (Figura 25). Figura 25 Tipo de Criterio de Validación. Dentro de este, se tienen tres opciones (métodos) para determinar las probabilidades, donde el usuario deberá seleccionar una para validar el archivo de prueba con ese criterio, y son: Criterio de Máxima Probabilidad. Para este criterio se tienen seis opciones de generación de archivos que son: Con todas las probabilidades, Con probabilidades distintas de cero, Con probabilidades máximas, Clasificación, Frecuencias y Con coincidencias, como se muestra en la Figura 26. Figura 26 Después de elegir una de las seis opciones de Generación de Archivos y al momento de presionar el botón Iniciar mostrará un porcentaje en Confiabilidad para el tipo de criterio seleccionado (Criterio de Máxima Probabilidad) para la validación de las reglas obtenidas mediante el conjunto de entrenamiento, para lo cual es necesario tomar los datos de un conjunto de prueba. Dependiendo de este se mostrará un porcentaje de Confiabilidad determinado. Criterio de Votación. Para este criterio se tienen dos opciones de generación de archivos que son: Con votaciones y Con coincidencias (Figura 27). Figura 27 Después de haber seleccionado alguna opción y al momento de presionar el botón Iniciar mostrará un porcentaje en Confiabilidad para ese tipo de criterio (Criterio de Votación) para la validación de las reglas obtenidas mediante el conjunto de entrenamiento, para lo cual se tomarán los datos de un conjunto de prueba especificado anteriormente; por lo tanto se mostrará un porcentaje de Confiabilidad determinado. El sistema ofrece la posibilidad de apreciar el almacenamiento de los porcentajes de Confiabilidad anteriormente calculados, para así poder realizar una comparación de las Confiabilidades de acuerdo al Tipo de Criterio de Validación en caso de ser necesario (Figura 28). Criterio de Suma Máxima. Para este criterio se tienen dos opciones de generación de archivos que son: Con suma máxima y Con coincidencias (Figura 28). Figura 28 Después de seleccionar una de las dos opciones, y al momento de presionar el botón Iniciar mostrará un porcentaje en Confiabilidad para el tipo de criterio seleccionado (Criterio de Suma Máxima) para la validación de las reglas obtenidas mediante el conjunto de entrenamiento y para lo cual es necesario tomar los datos de un conjunto de prueba, el cual mostrará un porcentaje de Confiabilidad correspondiente a la opción seleccionada. Se puede apreciar como se van almacenando los porcentajes de confiabilidad anteriormente calculados, para así poder realizar una comparación de las confiabilidades de acuerdo al Tipo de Criterio de Validación en caso de ser necesario. Confiabilidad. Una vez que se selecciono el tipo de criterio de validación, se tendrá que seleccionar una o más opciones de todas las posibles en Generación de Archivos (que se explicará posteriormente) y al presionar el botón Iniciar mostrará en Confiabilidad un porcentaje que será el respectivo de acuerdo al archivo de prueba y al de entrenamiento de acuerdo al Criterio de Validación, es decir cada criterio tendrá su porcentaje, siendo el porcentaje de entrada de 0.00%. Generación de archivos. Dentro de la Generación de archivos se tendrán ocho opciones diferentes, las cuales se activarán de acuerdo a cada Tipo de Criterio de Validación. Con Todas las Probabilidades: genera archivos con todas las probabilidades; al presionar el botón Iniciar generará un archivo por cada variable seleccionada donde se podrán encontrar las probabilidades en todas las clases. Por cada valor del archivo de prueba, se mirará a qué intervalo pertenece, y se tomarán las probabilidades de cada clase para ese intervalo. En el archivo aparecerá una fila por cada individuo, y una columna por cada clase. La primera fila y la primera columna indicarán el número de individuo y el número de clase respectivamente. El nombre de los archivos generados consistirá del nombre de la variable, seguido de -1 y con la extensión .txt. Por ejemplo: jh-1.txt. Con Probabilidades Distintas de Cero: el sistema genera un archivo por cada variable seleccionada con la misma información que el anterior, pero sólo con aquellas clases que tienen probabilidad distinta de cero. En este caso se indicará por cada individuo la clase y su probabilidad, tantas veces como clases con probabilidad distinta de cero haya. Habrá una línea por cada individuo. La primera columna seguirá indicando el número del individuo. En caso de valor nulo seguirá apareciendo lo mismo que en el archivo anterior. El nombre de los archivos generados consistirá en el nombre de la variable, seguido de la extensión .vsg. Por ejemplo: jh.vsg. Con Probabilidades Máximas: el archivo generado por el sistema será con probabilidades máximas, es decir, este archivo tendrá sólo por cada individuo aquella clase cuya probabilidad sea mayor, o en caso de igualdad, la primera clase cuya probabilidad no sea superada por ninguna de las siguientes. Se indicará por cada línea el número del individuo, la clase y la probabilidad. En este caso el nombre de cada archivo será el nombre de la variable, seguido de la extensión .vsm. Por ejemplo: jh.vsm. Clasificación: genera un archivo con las clasificaciones de todas las variables, es decir, este archivo indicará por cada línea el número del individuo, las clases de cada variable y la clase CIADEC que será aquella clasificación cuya probabilidad sea mayor por cada individuo, o en caso de igualdad, la primera clasificación. En el archivo aparecerá una fila por cada individuo, y una columna por cada variable; la primera fila y la primera columna indicarán el número de individuo y el nombre de la variable respectivamente. En este caso el nombre del archivo será ClasificaciónMP seguido del nombre del archivo de prueba con la extensión .dat. Por ejemplo: ClasificaciónMP prueba.dat. Frecuencias: genera un archivo con las frecuencias de todas las variables, es decir, este archivo indicará por cada línea el número del individuo, las frecuencias de cada variable y la frecuencia de la clase CIADEC que será aquella frecuencia cuya probabilidad sea mayor por cada individuo, o en caso de igualdad, la primera frecuencia. En el archivo aparecerá una fila por cada individuo, y una columna por cada variable; la primera fila y la primera columna indicarán el número de individuo y el nombre de la variable respectivamente. En este caso el nombre del archivo será FrecuenciasMP seguido del nombre del archivo de prueba con la extensión .dat. Por ejemplo: FrecuenciasMP prueba.dat. Con las Votaciones: genera un archivo con las votaciones de todas las variables, es decir, este archivo indicará por cada línea el número del individuo, las votaciones de cada clase y la clase CIADEC que será la clase en la cual se haya tenido el mayor número de votos, o en caso de igualdad, la primera clase con mayor número de votos. En el archivo aparecerá una fila por cada individuo, y una columna por cada clase; la primera fila y la primera columna indicarán el número de individuo y el nombre de la clase respectivamente. En este caso el nombre del archivo será ClasificaciónV seguido del nombre del archivo de prueba con la extensión .dat. Por ejemplo: ClasificaciónV prueba.dat. Con Suma Máxima: genera un archivo con la suma máxima de todas las variables, es decir, este archivo indicará por cada línea el número del individuo, la suma máxima de cada clase y la clase CIADEC que será la clase que tenga la suma máxima de votos, o en caso de igualdad, la primera clase con mayor número de votos. En el archivo aparecerá una fila por cada individuo, y una columna por cada clase; la primera fila y la primera columna indicarán el número de individuo y el nombre de la clase respectivamente. En este caso el nombre del archivo será ClasificaciónSM seguido del nombre del archivo de prueba con la extensión .dat. Por ejemplo: ClasificaciónSM prueba.dat. Con Coincidencias: genera archivos de coincidencias, es decir este archivo comparará las clases que se asignan a cada individuo en el conjunto de prueba con las clases de probabilidad máxima halladas. Por cada individuo se indicará el número de individuo, la clase asignada en el conjunto de prueba, y la clase de probabilidad máxima. En la última línea se indicará el número total de coincidencias. El nombre de los archivos será el nombre de la variable, seguido de .tcp y con la extensión .txt. Por ejemplo: jh.tcp.txt. Si en el conjunto de prueba se encuentra algún valor nulo o un valor que no corresponde a ningún intervalo, en todos los ficheros se generará una línea como la siguiente para dicho individuo: n ******* Valor nulo o fuera de margen ********** Donde “n” es el número del individuo. Es importante mencionar que si no se selecciona ningún tipo para la Generación de Archivos dentro del Criterio de Máxima Probabilidad y se presiona el botón Iniciar, se despliega el porcentaje de confiabilidad del 100%. El sistema no generará ningún archivo dentro del directorio de resultados debido a que no se selecciono ningún tipo para la Generación de Archivos. Es posible también, de acuerdo al Tipo de Criterios de Validación, seleccionar más de una opción de Generación de Archivos, con lo que, al igual que ya se explico en cada una de estas ocho opciones, se generará un porcentaje de confiabilidad determinado y los archivos necesarios dependiendo de cuantas opciones de Generación de archivos se hayan seleccionado, con su extensión correspondiente, es decir, el sistema genera simultáneamente todos los archivos como si fuera solo una la opción seleccionada. Criterios Log2. Validación de los criterios para las variables seleccionadas en Log2. Esta opción del menú Validación muestra la pantalla con el nombre de Validación de Reglas con Logaritmo Base 2, que se explicará a continuación con sus respectivas características. Es importante mencionar que si no se asigna un directorio para almacenar los archivos generados por el sistema nos mostrará en esta pantalla en el apartado de Dirección de los resultados: ¡Indique el directorio!. Como en el submenú anterior (Criterios). Tipo de Criterio de Validación. Dentro de este criterio se tienen las mismas tres opciones que en el submenú Criterios (explicado anteriormente), es decir, tres métodos para determinar las probabilidades con logaritmo base 2, donde el usuario deberá seleccionar una para validar el archivo de prueba con ese criterio. Estas opciones son: Criterio de Máxima Probabilidad. Para este criterio se tienen seis opciones de generación de archivos, estas son: Con todas las probabilidades, Con probabilidades distintas de cero, Con probabilidades máximas, Clasificación, Frecuencias y Con coincidencias. Al momento de presionar el botón Generar mostrará un porcentaje de Confiabilidad para el tipo de criterio seleccionado (Criterio de Máxima Probabilidad) para la validación en Log2 de las reglas obtenidas mediante el conjunto de entrenamiento y para lo cual se tomarán los datos de un conjunto de prueba, el cual mostrará un porcentaje de confiabilidad determinado. Criterio de Votación. Para este criterio se tienen dos opciones de generación de archivos, las cuales son: Con las votaciones y Con coincidencias. Al momento de presionar el botón Generar mostrará un porcentaje de Confiabilidad para el tipo de criterio seleccionado (Criterio de Votación) para la validación Log2 de las reglas obtenidas mediante el conjunto de entrenamiento con datos de un conjunto de prueba, el cual mostrará un porcentaje de confiabilidad determinado. El sistema permite apreciar como se van almacenando los porcentajes de confiabilidad anteriormente calculados, para así poder realizar una comparación de las confiabilidades de acuerdo al Tipo de Criterio de Validación en Log2 en caso de ser necesario. Criterio de Suma Máxima. Para este criterio se tienen dos opciones de generación de archivos, las cuales son: Con sumas máximas y Con coincidencias. Al momento de presionar el botón Generar mostrará un porcentaje de Confiabilidad para el tipo de criterio seleccionado (Criterio de Suma Máxima) para la validación en Log2 de las reglas obtenidas mediante el conjunto de entrenamiento con datos de un conjunto de prueba, el cual mostrará un porcentaje de confiabilidad determinado. Como se menciono anteriormente, el sistema permite apreciar como se van almacenando los porcentajes de confiabilidad anteriormente calculados, para así poder realizar una comparación de las confiabilidades de acuerdo al Tipo de Criterio de Validación en caso de ser necesario. Confiabilidad. Una vez que se selecciono el tipo de Criterio de Validación, se tendrá que seleccionar una o más opciones de todas las posibles en Generación de Archivos y al presionar el botón Iniciar mostrará en Confiabilidad un porcentaje que será el respectivo de acuerdo al archivo de prueba y al de entrenamiento de acuerdo al Criterio de Validación. El porcentaje inicial es de 0.00%. Generación de archivos. Dentro de la Generación de archivos se tendrán las mismas ocho opciones del submenú Criterios, las cuales se irán activando de acuerdo a cada Tipo de Criterio de Validación en Log2. Dado que cada una de ellas ya ha sido explicada, solo se indicará el único cambio que se presenta en este submenú, el cual hace referencia al nombre del(los) archivo(s) generado(s) por el sistema y que son almacenados en el directorio de pruebas. Con Todas las Probabilidades: el nombre de los archivos generados consistirá del nombre de la variable, seguido de -1log y con la extensión .txt .Por ejemplo: jh-1log.txt. Con Probabilidades Distintas de Cero: el nombre de los archivos generados consistirá en el nombre de la variable, seguido de la palabra log con extensión .vsg. Por ejemplo: jhlog.vsg. Con Probabilidades Máximas: en este caso el nombre de cada archivo será el nombre de la variable, seguido de la palabra log con la extensión .vsm. Por ejemplo: jhlog.vsm. Clasificación: en este caso el nombre del archivo será ClasificaciónMPLog2 seguido del nombre del archivo de prueba con la extensión .dat. Por ejemplo: ClasificaciónMPLog2 prueba.dat. Frecuencias: en este caso el nombre del archivo será FrecuenciasMPLog2 seguido del nombre del archivo de prueba con la extensión .datlog.frc. Por ejemplo: FrecuenciasMPLog2 prueba.datlog.frc. Con las Votaciones: en este caso el nombre del archivo será ClasificaciónVLog2 seguido del nombre del archivo de prueba con la extensión .dat. Por ejemplo: ClasificaciónVLog2 prueba.dat. Con Suma Máxima: en este caso el nombre del archivo será ClasificaciónSMLog2 seguido del nombre del archivo de prueba con la extensión .dat. Por ejemplo: ClasificaciónSMLog2 prueba.dat. Con Coincidencias: el nombre de los archivos será el nombre de la variable, seguido de la palabra log, seguido de .tcp y con la extensión .txt. Por ejemplo: jhlog.tcp.txt. Si en el conjunto de prueba se encuentra algún valor nulo o un valor que no corresponde a ningún intervalo, en todos los ficheros se generará una línea como la siguiente para dicho individuo: n ******* Valor nulo o fuera de margen ********** Donde “n” es el número del individuo. Es importante mencionar que si no se selecciona ningún tipo para la Generación de Archivos dentro del Criterio de Máxima Probabilidad y se presiona el botón Generar, se despliega el porcentaje de confiabilidad del 100%. El sistema no generará ningún archivo dentro del directorio de resultados debido a que no se selecciono ningún tipo para la Generación de Archivos. Es posible también, de acuerdo al Tipo de Criterios de Validación en Log2, seleccionar más de una opción de Generación de Archivos, con lo que, al igual que ya se explico en cada una de estas ocho opciones, se generará un porcentaje de confiabilidad determinado y los archivos necesarios dependiendo de cuantas opciones de Generación de archivos se hayan seleccionado, esto por supuesto con su extensión correspondiente, es decir, el sistema genera simultáneamente todos los archivos como si fuera solo una la opción seleccionada. 8. Menú Gráficos Permite generar gráficos que muestren de manera visual la información contenida en las matrices de probabilidades, para lo cual los gráficos son almacenados en archivos. El menú Gráficos cuenta el siguiente submenú (Figura 29): Figura 29 Generar. Genera los gráficos en formato LaTex, es decir, los archivos llevarán el nombre de la variable seleccionada seguido de la extensión .tex. Este submenú despliega la pantalla Generación de Gráficos (Figura 30), la cual presenta las siguientes características: Figura 30 Dirección de los resultados: despliega la dirección y el nombre del directorio de resultados, es decir la ubicación y el nombre del directorio dentro del cual se almacenarán los archivos generados por el sistema. Tipo de Gráfico: en donde se tendrán cuatro opciones diferentes, que son: Gráfico de distribución condicionado a clases. Gráfico de distribución condicionado a clases MINI. Gráficos de distribución condicionado a clases. Gráficos de distribución condicionado a clases MINI. Variables: se activa una vez que se seleccionó el Tipo de Gráfico, esta opción desplegara las variables que se encuentran dentro del archivo que se selecciono para trabajar. Variable seleccionada: muestra las variables que han sido seleccionadas. Botón Aceptar: se activa desde el momento en que el usuario selecciona un Tipo de gráfico y al ser presionado genera el gráfico de acuerdo a las especificaciones del usuario (al tipo de gráfico y a la variable). Dado que es necesario que el usuario elija un Tipo de Gráfico y se presentan cuatro opciones para ello, a continuación se hace alusión a cada una de ellas. 1) Gráfico de distribución condicionada a clases. Una vez elegido este tipo de gráfico se activa el botón de Variable en el cual se muestran las variables con las cuales puede trabajar (las variables con las cuales se puede generar el gráfico dado que son las que se encuentran dentro del archivo que anteriormente se selecciono para trabajar) e igualmente se activa el botón Aceptar. Es necesario que el usuario elija una variable para realizar el gráfico, la cual aparecerá dentro del recuadro de Variables al igual que en el recuadro de Variable Seleccionada (Figura 31). Figura 31 Una vez seleccionada la variable y presionado el Botón Aceptar se generara el gráfico y se ubicará en la dirección de resultados que se asignó, dentro del cual aparecerá un archivo con formato LaTex, con el nombre de la variable seleccionada y extensión *.tex; por ejemplo kl.tex. Como se ha mencionado, para poder abrir los archivos con formato LaTex (con extensión .tex) que se generó, se requiere del programa WinEdt. 2) Gráfico de distribución condicionada a clases MINI. Una vez que el usuario elige este tipo de gráfico, se activa el botón de Variable en el cual se muestran las variables con las cuales puede trabajar (variables con las cuales puede generar el gráfico y que se encuentran dentro del archivo que anteriormente se selecciono para trabajar) y de igual forma se activa el botón Aceptar. Es necesario que el usuario elija una variable para realizar el gráfico, la cual una vez seleccionada aparecerá tanto en el recuadro de Variables como en el de Variable Seleccionada. Seleccionado el Tipo de Gráfico y la variable con la cual se desea realizarlo se debe presionar el botón Aceptar para que dicho gráfico sea generado en la dirección de resultados que se asigno. Dentro del directorio de resultados aparecerá el archivo con formato LaTex (archivo que generó el sistema), el cual tendrá como identificador el nombre de la variable seguido de las iniciales del tipo de gráfico (mini) y la extensión .tex. Por ejemplo es lsmini.tex. Para poder abrir los archivos con formato LaTex (con extensión .tex) que se generaron, se requiere del programa WinEdt. 3) Gráficos de distribución condicionado a clases. Una vez que el usuario elige este Tipo de Gráfico no se activará el botón de Variable, en el cual se muestran las variables con las cuales puede trabajar (las variables con las cuales puede generar los gráficos en las primeras dos opciones de Tipo de Gráfico), debido a que en este tipo de gráfico se utilizarán todas las variables que se encuentran dentro del archivo que anteriormente se seleccionó para trabajar; por lo tanto, tampoco se activa el recuadro de Variable Seleccionada, porque como se dijo anteriormente, se trabajará con todas las variables y no será necesario seleccionar una variable en especifico. De igual forma que en las dos opciones anteriores se activa el botón Aceptar (Figura 32). Figura 32 Una vez seleccionado el Tipo de Gráfico y presionado el botón Aceptar los gráficos de todas las variables que se encuentran dentro del archivo con el que se esta trabajando son generados (serán posicionados en la dirección de resultados que se asignó). Dentro del directorio de resultados aparecerán los archivos con formato LaTex (archivos generados por el sistema) los cuales serán los gráficos de todas las variables del archivo con el que se esta trabajando. Cada archivo tendrá como identificador el nombre de cada una de las variables más la extensión .tex. Por ejemplo: jh.tex, kl.tex, ls.tex y vb.tex. Los archivos con formato LaTex (con extensión .tex) que se generaron, podrán abrirse con el programa WinEdt. 4) Gráficos de distribución condicionado a clases MINI. Cuando el usuario elige este Tipo de Gráfico no se activará el botón de Variable, en el cual se muestran las variables con las cuales puede trabajar (variables con las cuales puede generar los gráficos en las primeras dos opciones de Tipo de Gráfico), debido a que en este tipo de gráfico se utilizarán todas las variables que se encuentran dentro del archivo que anteriormente se selecciono para trabajar, por lo tanto, tampoco se activa el recuadro de Variable Seleccionada, recordando que se trabajará con todas las variables. Una vez hecha la selección se activa el botón Aceptar (Figura 33). Figura 33 Una vez seleccionado el Tipo de Gráfico, y se presione el botón Aceptar los gráficos de todas las variables que se encuentran dentro del archivo con el que se esta trabajando son generados por el sistema (los gráficos de las variables serán posicionados en la dirección de resultados que se asignó). Dentro del directorio de resultados aparecerán los archivos con formato LaTex, (gráficos de todas las variables del archivo con el que se esta trabajando), que tendrán como identificador el nombre de cada variable seguido del tipo de gráfico (mini) más la extensión .tex. Por ejemplo: jhmini.tex, klmini.tex, lsmini.tex y vbmini.tex. Los archivos con formato LaTex (con extensión .tex) que se generaron, podrán abrirse con ayuda del programa WinEdt. 9. Menú Visualización Una vez seleccionado el archivo de prueba en el menú Entrenamiento, será posible utilizar adecuadamente el menú Visualización ya que permitirá el análisis del archivo de prueba y la interpretación de los resultados arrojados. Por lo tanto, dicho menú despliega la pantalla Valoración e Interpretación de Resultados, que a su vez cuenta con cuatro opciones (Figura 34): Figura 34 Apertura: permite la extracción del archivo de prueba a analizar, y cuenta con las siguientes características: 1) Nombre del archivo: mostrará la siguiente leyenda Elegir Archivo!!! (Figura 34), con lo que se deberá seleccionar el archivo a trabajar, para ello es necesario presionar el botón Examinar y elegir el archivo de prueba (Figura 35). 2) Compatible con CIADEC: en este caso se tendrán dos opciones; verdadero (TRUE) o falso (FALSE), y por lo tanto, en caso de no ser compatible no se podrá trabajar con el archivo. 3) Tamaño del archivo: despliega el tamaño en bytes del archivo que se esta analizando. 4) No. De individuos: despliega el número de individuos con los que cuenta el archivo que se esta analizando. 5) Con nombre de variable: informa si tienen nombre las variables del archivo que se esta analizando, por lo tanto, se tendrán dos opciones; verdadero (TRUE) o falso (FALSE). 6) Con clasificación: informa si las variables tienen clasificación, por lo tanto, se tendrán dos opciones; verdadero (TRUE) o falso (FALSE), en caso de no tener clasificación no se podrá trabajar con el archivo. 7) Columnas numéricas: despliega el número de columnas numéricas que contiene el archivo que se esta analizando. 8) Columnas no numéricas: despliega el número de columnas no numéricas que contiene el archivo que se esta analizando. 9) No. De filas: despliega el número de filas que contiene el archivo que se esta analizando. Figura 35 Si el archivo de prueba cumple con los requisitos necesarios para que CIADEC pueda trabajar con el se habilitará el botón Analizar >>, que al presionarlo desplegará la pantalla Analizar X. Analizar X: la cual contiene las siguientes características (Figura 36): 1) Nombre del archivo: muestra el nombre del archivo que esta siendo analizado. 2) ¿Se localizaron por su nombre y en el orden esperado, todas las Variables a analizar?: se tendrán dos opciones; SI o NO, en caso de no haber sido localizadas no se podrá trabajar con el archivo. 3) ¿Son variables numéricas?: se tendrán dos opciones; SI o NO, en caso de no contener variables numéricas el archivo de prueba no se podrá trabajar con el archivo. 4) ¿Es aceptada la fuente de datos?: se tendrán dos opciones; SI o NO, en caso de no haber sido aceptada la fuente de datos, es decir, el archivo de prueba, no se podrá trabajar con el archivo. Figura 36 Si el archivo cumple con las características anteriormente mencionadas, se habilitará el botón Clasificar >>, que al ser presionado desplegará la pantalla de nombre Clasificación. Clasificación: (Figura 37), mostrará el nombre del archivo que esta siendo analizado, la Base de Conocimientos o archivo de entrenamiento, el número de individuos con los que cuenta el archivo y los tres criterios con los cuales será posible la clasificación de los individuos y la asignación de la clase a los mismos, los criterios son: 1) Criterio de Máxima probabilidad: 2) Criterio de Votación: 3) Criterio de Suma Máxima: Figura 37 Posteriormente, se habilitarán los botones Interpretar y Guardar, permitiendo el último salvar los resultados obtenidos de acuerdo a cada criterio (Figura 38). Figura 38 Al presionar el botón Interpretar, se desplegará la pantalla de nombre Interpretación. Interpretación: (Figura 39) , donde se mostrará cada individuo con el que cuenta el archivo de prueba y las etiquetas lingüísticas, así como la clase asignadas a los mismos, permitiendo de igual forma salvar la información obtenida. Figura 39 10. Menú Herramientas Permite la visualización de los gráficos que genero CIADEC sobre cada una de las variables utilizando para ello un clasificador especial de nombre KEK (Figura 40). Figura 40 11. Menú Acerca de… En este apartado se mencionan los realizadores del sistema CIADEC (Figura 41). Figura 41 12. Menú Salir Permite salir completamente del sistema (Figura 42). Figura 42 BIBLIOGRAFÍA BIBLIOGRAFÍA [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] Vázquez Torres Fernándo. Caracterización e Interpretación de Descripciones Conceptuales en Dominios Poco Estructurados. México D.F. Mayo 2008. Pozo, J. I. Adquisición del Conocimiento. 271 pp. ISBN: 84-7112-489-0. Madrid: Ediciones Morata. 2005. Carrión, J. (n/d). Diferencia entre dato, información y conocimiento. [www.gestiondelconocimiento.com], 2004. Poole, D. Mackworth, A. & Goebel, R. Computational Intelligence: A Logical Approach. Oxford University Press, 1998. Shortlife E.H. MYCIN: A rule-based computer program for advising physicians regarding antimicrobial therapy selection. PhD thesis, Stanford University, USA, 1976. Clancey W.J., & Shortliffe E.H.. "Readings in Medical Artificial Intelligence". AddisonWesley, 1984. Szolovits P., & Pauker S.G. "Categorical and probabilistic reasoning in medical diagnosis". Artificial Intelligence, Vol. 11, pp. 115-144, 1978. Michalski R. & Steep R.E. “A Theory and Methodology of Inductive Learning”. In J. Carbonell, editor, Machine learning: A Artificial Intelligence Approach”, Chapter 11, pages 331-363. Ed. Tioga, Palo Alto, California, 1984. Quinlan, J.R. Discovering Rules by Induction from Large Collection of Examples. In Michele, D (Ed.) Expert System in The Micro-electronics Age. Edinburgh University Press, 1979. Núñez, G., et al. About the attribute relevance's nature. En Proceedings of TEC. COM. 91, Approaches to non-conventional computing: towards intelligent systems. México, 1991. Gibert K. L’us de la Informaciò Simbòlica en l’Automatitizació del Tractament Estadístic de Deominis Poc Estructurats. In the Statistics and operations research Phd. Thesis., Universitat Politécnica de Catalunya, Barcelona, Spain, 1994. Gibert K. The use of symbolic information in automation of statistical treatment for illstructured domains. AI Communications, 9(1): 36-37, marzo 1996. Gibert K. Técnicas híbridas de Inteligencia Artificial y Estadística para el descubrimiento de conocimiento y la minería de datos. Departamento de Estadística e Investigación Operativa, Universitat Politècnica de Catalunya. Ediciones UPC. 2004. Bisquerra. Introducción conceptual al análisis multivariable. Un enfoque informático con los paquetes SPSS-X, BMDP y SPAD. Volumen III. McGraw Hill, España. 1989. Aluja T. Análisis Factoriales Descriptivos con SPAD-N. UPC. España. 1996 Sànchez-Marrè M., Cortés U., Lafuente J., & Poch M. Concept formation in WWTP by means of classification techniques: A compared study. Applied Intelligence. 7:147-166., 1997. Roda-I. Cortés U. Gibert, K. & Sàchez-Marrè. Identifying characteristic situations in wastewater treatment plants. Workshop in Binding Environmental Sciences and Artificial Intelligence, 1:1-9, EDAI, 2000. Rodríguez D. Análisis de los datos de una planta depuradora de aguas utilizando la clasificación basada en reglas, 1999. Sànchez-Marrè M. An Integrated Supervisory Multi-level Architecture for WasteWater Treatment Plants. PhD thesis, UPC, 1995. Gibert K. & A. Salvador. Aproximación difusa a la identificación de situaciones características en el tratamiento de aguas residuales. In X Congreso Español sobre tecnologías y lógica fuzzy, pages 497-502, España, sep 2000. ESTYLF 2000. Bayona, S. Descriptiva de dades y de classes. PFC Facultad d’ Informática, UPC, jul 2000. Aluja, T. & Morineau, A. Aprender de los Datos: El Análisis de Componentes Principales. Una aproximación desde el Data Mining. Ed: EUB S.L. 1999. Gibert K. & Cortés U. Combining Knowledge bases system with a clustering method for an th inductive construction of models. In Proc. 4 In Work. On AI and Stats. Florida, USA,1993. Gibert K. & Cortés U. On the uses of the expert Knowledge for automatic biasing of a [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] clustering method. In ITI 93. Proceedings of the International Conference on Information Technology Interfaces, pages 219-224, ISSN 1330-1012, Croatia, 1993. Gibert K. Klass. Estudi d’un sistema d’ajuda al tractament estadístic de grans bases de dades. Master’s thesis, UPC 1991. Gibert K. & Cortés U. Combining a knowledge-based system and a clustering method for a construction of models in ell-structured domains. In Artificial Intelligence and Statistics IV, volume 89 of Lecture Notes in Statistics, pages 351-360, Springer-Verlang, New York, N.Y. US., 1994. Gibert K. & Cortés U. KLASS: Una herramienta estadística para la creación de prototipos en dominios poco estructurados. Proa. IBERAMIA-92., pages 483-497, Noriega Eds. México, 1992. Gibert K., Hernández, & Cortés U. Classification based on rules: an application to Astronomy. In Ed. Tokio. Japón, editor, Proceedings of 5. Conference of International Federation of Classification Societies, pages 69-72, Mar 1996. Gibert K. & Cortés U. Clustering based on rules and knowledge discovery in ill-structured domains. Computación y Sistemas., 1(4): 213-227, ISSN 1405-5546. Impreso en México, 1998. Gibert K. & Sonicki Z. Classification Based on Rules and Thyroids Dysfunctions. Applied Stochastic Models in Business and Industry, 15(4):319-324, October 1999. Rodas J., Gibert K., & Rojo J. Electroshock Effects Identification Using Classification Techniques. Springer’s Lecture Notes of Computer Science Series, Crespo, Maojo and Martin (Eds.):238-244, Second International Symposium, ISMDA 2001. Gibert K., Alhuja T., & Cortés U. Knowledge Discovery with Clustering Based on Rules. In Quafafou Eds., editor, Principles of Data Mining and Knowledge Discovery, volume 1510 of Lecture Notes in Artificial Intelligence, pages 83-92, Springer-Verlang. Interpreting Results. Nantes, 1998. Fayyd U. From Data Mining to Knowledge Discovery: An overview. ISBN 0-262-56097-6. USA, 1996. Fayyd U., Piatetsky-Shapiro G., Smyth P., & Uthursamy R. Advances in Knowledge Discovery and Data Mining. AAAI Press. 1996. Fayyd U., Piatetsky-Shapiro G., & Smyth P. From Data Mining to Knowledge Discovery in Databases (a survey). AI Magazine., 3(17): 37-54., USA, 1996. Gibert K. & Alhuja T. A computational technique for comparing classifications and its relationship with knowledge discovery. In International Seminar on New Techniques and Technologies for Statistics, pages 193-198. Italy, Nov. 1998. Diday E. & Gowda K.C. Symbolic clustering using a new similarity measure. In IEEE Trans. On systems, man., and cib., volume 22, pages 368-378, 1992 Gibert K. & Cortés U. Weighing quantitative and qualitative variables in clustering methods. Math ware and Soft Computing, 4(3):251 – 266, 1997. Gibert K. On the uses and costs of rules-based classification. In A. Prat. Physical-Verlang, editor, Proceedings of Computational Statistics, pages 265-270, march 1996 Castillejo X.. Un entorn de treball per a Klass. PFC Facultad d’ Informática UPC, julio, 1996. Márquez J. & Martín J.C.. La clasificación automática en las ciencias de la salud. PFC, Facultat de Matemàtiques i Estadística, UPC, Octubre, 1997. Gibert K. & Sonicki Z. Classification Based on Rules and Medical Research. In Rocco Curto, editor, VIII International Symposium on Applied Stochastic Models and Data Analysis, pages 181-186, ASMDA97, Italy, 1997. Tubau X.. Sobre el comportement de les mètriques mextes en algorismes de Clustering. PFC, Facultat d´Informàtica, UPC Octubre 1999. Gibert K. & Salvador A. Aproximación difusa a la identificación de situaciones Características en el tratamiento de aguas residuales. Congreso Español sobre tecnologías, Sevilla, España. 2000. Comas J., S. Dzeroski S., Gilbert K., Rodas I., & Sánchez-Marré M. Knowledge discovery by means of inductive methods in wastewater treatment plant data. AI communications. The European journal on artificial intelligence, 14 (1):45-62, march 2001. [46] [47] [48] [49] [50] [51] [52] [53] [54] [55] [56] [57] [58] [59] [60] [61] [62] [63] [64] [65] [66] [67] [68] Gómez B. Herramientas de muestreo y de clasificación basada en bootstrap. PFC, Facultat de Matemàtiques i Estadística, UPC. Octubre 2000. Nieto M. A. Compilación de técnicas de minería de datos y de descubrimiento de conocimiento. PFC, Facultat de Matemàtiques i Estadística, UPC. Octubre 2000. Gower J.C.. A. General coefficient if similarity and some of its properties. Biometrics, 27:857-874, 1971. Ichino M. & Yaguchi H. Generalized Minkowski Metrics for Mixed feature type data analysis. IEEE Transaction on systems, man and cybernetics, 22(2):146-153, April, 1994. Rodas J. Metodología para el descubrimiento de conocimiento en medidas seriadas muy cortas y repetidas con factor de bloque. Phd. Thesis., Universitat Politécnica de Catalunya, Barcelona, España, 2003. Vázquez F. & Gibert K.. Automatic generation of fuzzy rules in ill structures domains with numerical variables. Research LSI-01-51-R, Technical University of Catalonia, Barcelona, Spain, [www.lsi.upc.es/dept/techreps/html/r01-51.html]. December 2001. Vázquez F. & Gibert K. Generación Automática de Reglas Difusas en Dominios Poco Estructurados con Variables Numéricas. En Actas de la Conferencia de la Asociación Española para la Inteligencia Artificial, volumen 1, Págs. 143-152, España, CAEPIA 01. Nov 2001. Vázquez F. & Gibert K. Implementation of the methodology “Automatic Characterization and Interpretation of Conceptual Descriptions in ill-Structured Domains. Research LSI-0228-R, Technical University of Catalonia, Barcelona. España, Enero 2002. [www.lsi.upc.es/dept/techreps/html/R02-28.html]. Rodas, J., Alvarado, G. & Vázquez, F., Applying KDSM to an specific domain where very short and repeated serial measures with a blocking factor are presented. Research LSI02-53-R, Technical University of Catalonia, Barcelona. Spain, January 2002. [www.lsi.upc.es/dept/techreps/html/R02-28.html]. Vázquez F. & Gómez P. Caracterización e interpretación automática de descripciones conceptuales en dominios poco estructurados. CN y CIIC 2003, ISBN 970-36-0102-2, Zacatecas, México. Octubre 2003. Rodas, J. & Vázquez F. Using the KDSM methodology for knowledge discovery from a labour domain. Sixth ACIS International Conference on Software Engineering, Artificial Intelligence, Networking, and Parallel/Distributed Computing. Towson University, Towson, Maryland, USA. May 2005 Vázquez F. & Díaz de León J.L. Characterization and Interpretation of Classes Based on Fuzzy Rules in ill-Structured Domains. Mexican International Conference on Artificial Intelligence. MICAI-2005, Monterrey, N.L. México. Nov, 2005. Gutiérrez-Cabría, S. Filosofía de la Estadística. Universidad de Valencia, España, 1994. Stephen M. Stigler. Statistics on the Table: The History of Statistical Concepts and Methods Harvard University Press; Reprint edition, August, 2002. Pearson K., The Life, Letters, and Labours of Francis Galton. London, 1914-30. 1967. Fisher, R. A. Biologist, statistician. Published much seminal work in the field of population genetics. Author of "Design of Experiments" (1935), "Genetical Theory of Natural Selection" (1930), and "Statistical Methods and Scientific Inference, 1956. Ashok Rudra. Prasanta Chandra Mahalanobis. A Biography. Oxford University Press. Dec 1997. P.H. Sneath & R.R. Sokal. Numerical Taxonomy - The principles and practice of numerical classification. W. H. Freeman, San Francisco, USA, 1973. Belzer J., Holzman A. G., & Kent A. Encyclopedia of Computer Science and Technology. Marcel Dekker, Inc. USA, 1980. Partridge D. & Alexander Y. Wilks. The Foundations of Artificial Intelligence: A Sourcebook. Cambridge University Press, G.B. 1990. Buchanan D. R. & Shortliffe,E.H., "Production Systems as a Representation for a Knowledge-based Consultation program", Artificial Intelligence, 8, (1), pp. 15-45, 1977. C.Lau, "Neural Networks, Theoretical Foundations and Analysis", IEEE Press, 1991. Coello C. La Computación Evolutiva en el Contexto de la Inteligencia Artificial. LANIA, [69] [70] [71] [72] [73] [74] [75] [76] [77] [78] [79] [80] [81] [82] [83] [84] [85] [86] [87] [88] [89] [90] [91] [92] [93] [94] [95] [96] A.C., México, 2000. Winston, Patrick H., Inteligencia Artificial. Addison-Wesley Iberoamericana, 3ª ed., 1994. Multiagent Systems: A Modern Approach to Distributed Artificial Intelligence, G. Weiss (ed.) The MIT Press, Cambridge, 1999. Knapik, M. & Johnson J., Developing Intelligent Agents for Distributed Systems: Exploring Architecture, Technologies & Applications, McGraw-Hill, 1998. SPSS Inc's. Clementine 10.0, with access data collected using Dimensions™ family of survey research products. 2005 Caruso David R. & Peter Salovey. The Emotionally Intelligent Manager : How to Develop and Use the Four Key Emotional Skills of Leadership. Published by Jossey-Bass, San Francisco California. USA, 1995 Lebart, Ludovic, Morineau, Alain & Bécue, Mónica: Système Portable pour l'Analyse des Données Textualles. SPAD-T. Manuel de l'utilisateur. CISIA, París, 1989. Pérez C., Técnicas estadísticas con SPSS. Prentice Hall. 2001 Ferrán M., SPSS para Windows: Programación y análisis estadístico. McGrawHill. México, 1997. Ian H. Witten & Eiben Frank. Data Mining: Practical Machine Learning Tools and Techniques (Second Edition). Morgan Kaufmann, 525 pages, ISBN 0-12-088407-0. San Francisco, CA. USA, June 2005. Fisher, Douglas H. Knowledge Acquisition Via Incremental Conceptual Clustering. Pages: 139-172 in Machine Learning 2/1987. USA, 1987. th Monferrer M. T. & Toledo Lobo F. Topics in Artificial Intelligence. 5 Catalonian Conference on AI, CCIA, Castellón, Spain ISBN: 3540000119 - Springer. October, 2000. Vladimir N. Vapnik. The Nature of Statistical Learning Theory. ISBN: 0387987800, Springer. AT & T Labs. Research, Red Bank, NJ, University of California, Berkeley. USA, 1999. Springer-Verlang. Artificial Intelligence and Statistical IV, volumen 89, USA, 1994. R. J. Brachman & T. Anand. The process of knowledge discovery in databases: A human centered approach. In U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, editors, Advances in Knowledge Discovery and Data Mining, chapter 2, pages 37-57. AAAI/MIT Press, 1996. S. Watanabe. Pattern Recognition: Human and Mechanical. Wiley, 1985. Fu K. S. A step toward unification of syntactic and statistical pattern recognition. IEEE Trnas. Pattern Analysis and Machine Intelligence. 5(2):200-205, 1983. Bajcsy R. & Kovacic S. Multiresolution elastic matching. Computation Vision Graphics Image Process., 46:1 -21, 1989. U. Grenander. General Pattern Theory. Oxford University Press. First Edition. 1993. Devroye L., Gyorfi L. & Lugosi G. A Probabilistic Theory of Pattern Recognition. SpringerVerlang, Berlin, first edition, 1996. Duda R.O. & Hart P.E.. Pattern Classification and Scene Analysis. Wiley and Sons., New York, 1973. Fu K.S. Syntactic Pattern Recognition and Applications. Prentice-Hall, Englewood Cliffs. 1982. Pavlidis T. Structural Pattern Recognition. Springer-Verlag., New York. 1977. Perlovsy L.I. Conundrum of combinatorial complexity. IEEE Trans. Pattern Analysis and Machine Intelligence. 20:666-670,1998. Jain A.K., Dubes R.C. & Chen C.C. Bootstrap Techniques for error estimation. IEEE Trans. Pattern Analysis and Machine Intelligence. 9:628-633, 1987. Kohonen T. Self-Organizing Maps. Springer Series in Information Sciences, 30, USA, 1995. Yañez-Márquez C. & Díaz de León J.L. "Lernmatrix de Steinbuch", IT 48 Serie Verde, CIC-IPN, México, 2001. Yañez-Márquez C. & Díaz de León J.L. "Linear Associator de Anderson-Kohonen", IT 50 Serie Verde, CIC-IPN, México, 2001. Castellanos Sánchez C. & Díaz de León J.L. y Sánchez López A. "El Paradigma de las Redes Neuronales Morfológicas", México, 1999. [97] [98] [99] [100] [101] [102] [103] [104] [105] [106] [107] [108] [109] [110] [111] [112] [113] [114] [115] [116] [117] [118] [119] [120] [121] [122] [123] [124] [125] [126] [127] [128] Yañez-Márquez C. ―Memorias Asociativas Basadas en Relaciones de Orden y Operadores Binarios‖. Tesis doctoral. CIC-IPN, México, 2003. Santiago Montero R. ―Clasificador híbrido de patrones basados en la Lernmatrix de Steinbuch y Linear Associator de Anderson-Kohonen‖. Tesis de Maestría. CIC-IPN. 2003. Fukunaga K. Introduction to Statistical Pattern Recognition. Academic Press. USA, 1990. Devijver P.A. & Kittler J. Pattern Recognition: A Statistical Approach. Prentice Hall. London first edition, 1982. Bishop C.M. Neural Networks for Pattern Recognition. Clarendon Press, Oxford, firs edition, 1995. Ripley B. Pattern Recognition and Neural Networks. Cambridge University Press., Cambridge, first edition, 1996. Schuhfried G. Wiener Test system. Vienna Reaction Unit, Basic Program. Development and production of scientific equipment. Molding, Austria, 1992. McLachlan G. Discriminate Analysis and Statistical Pattern Recognition. Wiley and Sons, New York, first edition, 1992. Nagy G. State of the art in pattern recognition. Proc. IEEE., 56:836-862, USA, 1968. Kantrowitz M. Milestones in the Development of Artificial Intelligence 1994. Web, 1994. Alderfer M.S. & Blashfield R.K. Cluster Analysis. Sage Publication, San Francisco, California, USA, 1984. Hartigan J. A. Clustering Algorithms. John Wiley & Sons, London (England), eds., 1968. Cormack R. A review of classification. In Journal of the Royal Statistical Society (Series A), pages 134:321-367, 1971. Gordon A.D. Classification. Chapman & Hall, London, 1890. Aluja T. Análisis Factoriales Descriptivos con SPAD-N. España, 1996. Diday E. & Moreau J.V. Learning hierarchical clustering from examples. In N 289 Centre de Rocquencourt, Rapports de Recherche, editor, INRIA, 1984. Mamdani E.H. & Gaines G.R. Fuzzy reasoning and its Applications. Mamdani-Gains eds., USA, 1981. Hughes G.E. & Creswell M.J. An Introduction to Modal Logic. London, England, eds., 1968. McDermott J. R1: A rule-based configured of computer systems. USA, 1982. Brachman R. & Anand T. The Process of Knowledge Discovery in Databases: A HumanCentred Approach. In Advances in Knowledge discovery and Data Mining, pages 65-78, Ed. U. Fayyad, G Piatetsky-Shapiro, P. Smyt, and R. Uthurusamy, AAAI/MIT Press, 1996. Zadeh L.A. Fuzzy Sets. Information and Control, pages 338-353, USA, 1965. Vázquez F. & Gibert K. Fundamentos de la Teoría de los Conjuntos Borrosos y la Lógica Borrosa. Research LSI-02-3-T, Technical University of Catalonia, Barcelona, Spain, March 2002. [www.lsi.upc.es/dept/techreps/html/R02-28.html]. Mizumoto M. & Zimmermann H.J. Comparison of fuzzy reasoning methods, Great Britain, first edition, 1982. Alsina C. & Trillas E., and Valverde L. On some logical connectives for fuzzy set theory. Math. Anal. Appl., 93:149-163, 1997. Aguilar J. & Gibert K. Sobre variables lingüísticas, difusas, paradigmas parmenidianos y lógicas multivaluadas. ESTYLF, 1:185-192., 1991. Aguilar J., Gilbert K. & Rodriguez. Fuzzy semantic in expert process control. LNAI, 1993. Dubois D., Prade H., & Bezdek J. Fuzzy sets in approximate reasoning and information system, volume 1. Kluwer Academic Publishers, 1999. Pedrycz W. & Gomide F. An Introduction to Fuzzy Sets. The MIT, Press. 1998. Klir, G.J. & Folger, T.A. Fuzzy Sets, Uncertainty and Information. Englewood Cliffs, NJ: Prentice Hall. 1988. Zadeh, L.A. Possibility theory and Soft data analysis. In Mathematical Frontiers of Social and Policy Sciences, ed. L Cobb and R. Thrall, 69-129. Boulder, CO: Westview Press. 1981. Dubois D. & Prade H. A Review of fuzzy set aggregation connectives. Information Sciences, 36:85-121, 1985. Zadeh L.A. Outline of a new approach to the analysis of complex systems and decision [129] [130] [131] [132] [133] [134] [135] [136] [137] [138] [139] [140] [141] [142] [143] [144] [145] [146] [147] [148] [149] [150] [151] [152] [153] processes. IEEE Trans. System. Man Cabernet, pages 28-44, 1973. Zimmermann, H.J. Fuzzy Set Theory and its Applications, Boston: Kluwer Academic Publishers, cop.1996. Zadeh L.A. The role of fuzzy logic and soft computing in the conception and design of intelligent systems. 8th Austrian Artificial Intelligence Conference, LNAI 695. 695:1-5, 1993. Cordón, O., M.J. Del Jesús, y F. Herrera. A proposal on reasoning methods in fuzzy rulebased classification system. 1998. Cordon F. Herrera, and A. Applicability of the fuzzy operators in the design of fuzzy logic. Controllers. 1997. Abe S. & Thawonmas R. A fuzzy classifier with ellipsoidal regions. IEEE Trans. on Fuzzy Systems,, pages 358-368, 1997. Cordón O., De Jesús M.J., & Herrera F. Completeness and consistency conditions for learning fuzzy rules, USA, 1999. Ishibuchi H., Nozaki K., & H. Tanaka. ―Distributed representation of fuzzy rules and its applications to pattern classification”. Fuzzy Sets Syst. Vol 52, pp 21-32, 1992. Mandal D.P., Murthy C.A. & S.K. Pal, "Formulation of a Multivalued Recognition System", IEEE Trans. Syst., Man and Cyberns., vol. 22, pp. 607-620, 1992. Cordón O., del Jesus M.J., Herrera F. Métodos de Razonamiento Aproximado Basados en el Concepto de Mayoría Difusa para Sistemas de Clasificación. VIII Congreso Español sobre Tecnologías y Lógica Fuzzy. Pamplona (Spain), 1998, pp. 399-404. Cordón O., del Jesus M.J., Herrera F. A Proposal on Reasoning Methods in Fuzzy RuleBased Classification Systems. International Journal of Approximate Reasoning. Vol. 20 (1999), pp. 21-45. (22 pages). Chi Z., Yan H. & Pham T. Fuzzy algorithms whit applications to image processing and pattern recognition. World Scientific., pages 101, 105, 1996. Yager R.R. On ordered weighted averaging aggregation operators in multicriteria decision making. IEEE Trans. On Systems, Man and Cybernetics. 18:183-190, 1988. Cordón O., del Jesús M.J. & Herrera F. Analyzing the Reasoning Mechanisms in Fuzzy Rule-Based Classification Systems. Mathware & Soft Computing. Vol. 5: 2-3 (1998), pp. 321-332. Yager R.R. Families of OWA operators. Fuzzy Sets and Systems. 59:125-148, 1993. López de Mántaras. Approximate reasoning models. Ellis Horwood series in AI, 1990. Font, J.M. & Hájek, P. On Lukasiewicz's four-valued modal logic. Studia Logica. 70. 157– 182, 2002. Zadeh, L.A. The Concept of a Linguistic and its Application to Approximate Reasoning, Memorandum Erl-M 411, Berkeley, Octuber 1973 Zadeh, L.A. From Computing with Numbers to Computing with Words from Manipulation of Measurements to Manipulation of Perceptions, IEEE Trans. On Circuits and System 1: Fundamental Theory and Applications, 1999 Zadeh, L.A. Toward a Perception Based Theory of Probabilistic Reasoning with Imprecise Probabilities. Journal of Statistical Planning and Inference (105), 2002 Zadeh, L.A. Toward a Theory of Fuzzy Information Granulation and its Centrality in Human Reasoning and Fuzzy Logic. Fuzzy Sets and Systems, Vol. 90, 1997 Roda, R., Poch, M., y Sánchez-Marrè, M. Tratamiento de Aguas Residuales. Barcelona. 1995 Peña, D. Estadística, Modelos y Métodos. Modelos lineales y series temporales, volumen II. Alianza, Madrid, segunda edición, 1989 Walpole, R., Myers, R. y Myers S. Probability and Statistics for Engineers and Scientists, volume I. Prentice Hall, sixth edition, 1998 Vázquez, F., Gibert, K. Robustness of class prediction depending on references partition th in-Ill-Structured Domains. 8 . Iberoamerican Conference on Artificial Intelligence. Sevilla, España. 2002. Vázquez F. & Gibert K. Caracterización e Interpretación Automática de Descripciones Conceptuales en Dominios poco Estructurados usando variables numéricas. Research LSI-02-51-R, Technical University of Catalonia, Barcelona, Spain, [154] [155] [156] [157] [158] [159] [160] [161] [162] [163] [164] [165] [166] [167] [168] [169] [170] [171] [172] [173] [174] [175] [176] [177] [178] [www.lsi.upc.es/dept/techreps/html/02-51-R.html]. Mayo 2002. Morales E., Descubrimiento de conocimientos en bases de datos, [w3.mor.itesm.mx/~emorales/Cursos/KDD/node9.html] [www.lans.ece.utexas.edu/course/ee3801/share/soft/cviz/ manual/cviz.html] Redes Neuronales Artificiales TREC Internet 1999, [electronica.com.mx/neural/informacion/caracteristicas.html]. Ruiz-Shulcloper J. et. al Introducción al Reconocimiento de Patrones. Serie Verde No. 51. Editorial CINVESTAD-IPN Ruiz-Shulcloper J. y Lazo M. (1990). Modelos matemáticos para el Reconocimiento de Patrones. Editorial UCLV, Santa Clara, Cuba. Cheremesina E.N., J. Ruiz-Shulcloper (1992). Cuestiones metodológicas de la aplicación de modelos matemáticos de Reconocimiento de Patrones en zonas del conocimiento poco formalizadas. Revista Ciencias Matemáticas, vol. 13, No.2, pp. 93-108, Cuba. Martínez-Trinidad, J. Fco., Ruiz-Shulcloper J. y Lazo M. ―Structuralization of universes‖. Fuzzy Sets & Systems 112/3, 2000b, pp 485-500. Martínez-Trinidad, J. Fco., Guzman-Arenas, A. The logical combinatorial approach to pattern recognition an overview through selected works, Pattern Recognition, 2001, 34/4 1-11. Tukey J.W. Exploratory Data Analysis. Addison-Wesley, 1977. Ruiz-Shulcloper J., Guzman-Arenas, A., Martínez-Trinidad, J. Fco. Enfoque Lógico Combinatorio al Reconocimiento de Patrones, Cinvestav-IPN, 1999. MINERÍA DE DATOS, Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información, FACENA – UNNE, Octubre – 2003 Carrión, J. (n/d). Diferencia entre sato, información y conocimiento, 2004 [www.destiondelconocimiento.com] [exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/ MineriaDatosBressan.htm#Minería%20de%20Datos] Mitchell, T. M. Machine learning, Boston, McGraw-Hill, 1997. Stephen Haag et al.. Management Information Systems for the information age, pp. 28. ISBN 0-07-095569-7. Xingquan Zhu, Ian Davidson (2007). Knowledge Discovery and Data Mining: Challenges and Realities. Hershey, New Your, pp. 18. ISBN 978-1-59904-252-7. Ferreira, 1995; Shaffer, 1998; Milne, 1998. [www.inta.gov.ar/bariloche/ssd/nqn/queson.htm] Subsecretaría de Empleo y Productividad Laboral del Estado de Chihuahua, Información Laboral, Noviembre de 2009 [perfiles.stps.gob.mx/Perfiles/PERFIL%20CHIHUAHUA.PDF] Soneira Ferrando, María José. Procesado y optimización de espectros raman mediante técnicas de lógica difusa: aplicación a la identificación de materiales pictóricos. FORREST, Steven. HOFMEYER, Stephanie. SOMAYAJI, S. A. Computers immunology, Communications of the ACM, (1996). TAN, A. GILGERT, C. D. Machine Learning and its Application to Bionformatics: An Overwiev. Bioinformatics Research Centre. Department of Computing University of Glasgow G12 8QQ, August 2001. NILSSON, Nils. Introduction to Learning Machine. An early draft of a proposed textbook. Robotics Laboratory. Department of Computer Science. Stanford University. September 26. 1996. U. M. Fayyad, G. Piatetsky-Shapiro, and P. Smyth. The KDD Process for Extracting Useful Knowledge from Volumes of Data. Communications of the ACM, 2004. J. Vallejos, Sofia. Universidad Nacional del Nordeste Facultad de Ciencias Exactas, Naturales y Agrimensura. Trabajo de Adscripción Minería de Datos. 2006.