tesis - Instituto Politécnico Nacional

Anuncio
INSTITUTO POLITÉCNICO NACIONAL
UNIDAD PROFESIONAL INTERDISCIPLINARIA DE
INGENIERÍA Y CIENCIAS SOCIALES Y
ADMINISTRATIVAS
“LA MINERÍA DE DATOS COMO SOPORTE A LA TOMA
DE DECISIONES ESTRATÉGICAS DE LAS
ORGANIZACIONES”
T
QUE
E
S
PARA
OBTENER
INGENIERO
P
IVONNE
LESLIE
I
EL
TÍTULO
EN
R
E
S
THERESA
MÉXICO, D.F.
E
S
DE:
INFORMÁTICA
N
T
ESPINOSA
GUTIÉRREZ
A
N:
ALBA
ROSAS
2010
ÍNDICE
Resumen
I
introducción
II
Capítulo I. Introducción
1.1 Antecedentes
..……………
1
1.2 Motivación
..……………
3
1.3 Planteamiento del Problema
..……………
6
1.4 Objetivo
..……………
7
2.1 Introducción
..……………
8
2.2 Descripción de la Metodología CIADEC
..……………
11
2.3 Estadística e Inteligencia Artificial
..……………
12
2.4 Los Sistemas Híbridos
..……………
14
2.5 El Proceso KDD (Knowledge Discovery in DataBase)
..……………
15
2.6 Reconocimiento Estadístico de Patrones
..……………
15
2.7 Minería de Datos
..……………
18
..……………
19
2.7.1.1 Weka
..……………
19
2.7.1.2 Clementine
..……………
19
2.7.1.3 CIADEC
..……………
19
2.7.1.4 CVIZ
..……………
19
2.8 Sistemas de Clasificación Basados en Reglas
..……………
19
2.9 La Lógica Difusa y el Razonamiento Difuso
..……………
23
2.10 Sistemas de Clasificación Basados en Reglas Difusas
..……………
27
..……………
28
..……………
28
..……………
32
2.11.1 Aprendizaje Supervisado
..……………
32
2.11.2 Aprendizaje No Supervisado
..……………
32
..……………
34
..……………
34
3.1.1.1 Enfoques del Reconocimiento de Patrones
..……………
35
3.1.1.1.1 Enfoque Estadístico
..……………
36
Capítulo II. Marco de Referencia
2.7.1 Sistemas de Minería de Datos
2.10.1 Sistemas Basados en Reglas Difusas (SBRD)
2.10.2 Sistemas de Clasificación Basada en Reglas
2.11 Aprendizaje Automático
Difusas
Capítulo III. Marco Teórico
3.1 Conceptos Básicos
3.1.1 Reconocimiento de Patrones
3.1.1.1.2 Enfoque Sintáctico Estructural
..……………
37
3.1.1.1.3 Enfoque Lógico – Combinatorio
..……………
38
3.1.1.2 Tipos de problemas del Reconocimiento de Patrones
..……………
38
3.1.1.3 Etapas del proceso de Reconocimiento de Patrones
..……………
39
..……………
43
3.1.2.1 Componentes de la Minería de Datos
..……………
45
3.1.2.2 Criterios para aplicar la Minería de Datos
..……………
45
3.1.2.3 Técnicas de Minería de Datos más Usados en la Toma de
Decisiones
3.1.2.3.1 Tablas de Decisión
..……………
3.1.2 Minería de Datos
46
..……………
46
3.1.2.3.2 Arboles de Decisión
..……………
47
3.1.2.3.3 Reglas de Asociación
..……………
48
3.1.2.3.4 Representación Basada en Instancias
..……………
48
3.1.2.3.5 Clústers
..……………
48
3.1.2.3.6 Técnicas Basadas en la Estadística
..……………
49
..……………
49
..……………
49
3.1.3.1.1 Tipos de Sistemas de Soporte a Decisiones
..……………
50
3.1.3.1.2 Características de los Sistemas de Soporte a la Toma de
Decisiones
3.1.3.1.3 Componentes Funcionales que Integran un DSS
..……………
3.1.3 Métodos de la Toma de Decisiones en los Sistemas
3.1.3.1 Sistemas de Soporte a las Decisiones
51
..……………
52
..……………
53
..……………
56
3.2.1 Caracterización a partir de Variables Categóricas
..……………
56
3.2.2 Sistemas de Caracterización
..……………
57
3.3 El Boxplot
..……………
58
3.4 El Aprendizaje Automático
..……………
62
3.1.3.2 Proceso de Decisión
3.2 Tecnología CIADEC Usada en Minería de Datos
3.4.1 Clasificación Aprovechando el Conocimiento Declarativo de los
Expertos
3.4.2 Representación del Conocimiento del Experto e Interpretación
..……………
..……………
64
3.4.3 Metodología de Clasificación Basada en Reglas
..……………
65
3.5 Proceso Knowledge Discovery in DataBase (KDD)
..……………
66
3.6 Conceptos Básicos de Lógica Difusa
..……………
69
3.6.1 Lógica Difusa
..……………
70
3.6.2 Razonamiento Difuso
..……………
71
3.6.3 Las Etiquetas Lingüísticas, la Visualización e Interpretación de
Resultados en Sistema Híbridos
3.6.4 Etiquetas Lingüísticas
..……………
..……………
76
3.6.5 Aplicación
..……………
78
64
73
Capítulo IV. Modelo de la Tecnología CIADEC
4.1 Introducción
..……………
84
4.2 Propuesta del Modelo
..……………
84
..……………
101
..……………
101
5.1.1.1 Diseño de Experimentos
..……………
101
5.1.1.2 Factor de Bloque
..……………
103
5.1.1.3 Metodología CIADEC
..……………
103
5.1.1.3.1 Criterios de Agregación
..……………
104
5.1.1.3.2 Método K-Folds Cross-Validation
..……………
105
..……………
105
..……………
106
Capítulo V. Resultados y Discusión
5.1 Caso de Estudio. Del Dominio del Ámbito Laboral
5.1.1 Conceptos Básicos
5.1.1.4 Metodología KDSM
5.2 Aproximación al Dominio del Ámbito Laboral
5.2.1 Descripción de los Datos del Ámbito Laboral
5.3 Aplicación de la Metodología de KDSM al Dominio del Ámbito
Laboral
5.3.1 Caracterización de la Estructura de los Municipios para el
Establecimiento de las Condiciones Iniciales
5.4 Proceso de Caracterización Usando la Metodología CIADEC
110
..……………
..……………
112
113
..……………
115
5.4.1 Identificación de las Características Relevantes de los Cursos
..……………
123
5.4.2 Eficiencia del Sistema
..……………
125
6.1 Conclusiones
..……………
161
6.2 Trabajo Futuro
..……………
162
Conclusiones
..……………
164
Anexo. Manual de usuario del sistema CIADEC 2.0
..……………
166
Bibliografía
..……………
209
Capitulo VI. Conclusiones y Trabajo Futuro
RESUMEN
Uno de los problemas principales de las técnicas de clustering es que la validación de
resultados es un problema sin resolverse, ya que no existe un criterio objetivo para determinar la
calidad de las clases de una clasificación.
Es fácil evaluar un conjunto de clases en términos de criterios de exactitud siempre que
exista una partición de referencia de los datos y si la comparación es posible. Pero
desafortunadamente, en la mayoría de las situaciones donde se requiere hacer clustering (técnicas
que intentan determinar si existen grupos) no existe y esta aproximación no es útil. Solamente la
utilidad de una clasificación puede usarse para decidir si es correcta o no. Evaluar la utilidad de
una clasificación dada requiere de un mecanismo que permita comprender el significado de las
clases identificadas para finalmente decidir si son útiles o no.
Este proceso, conocido comúnmente como Interpretación de las clases resultantes,
generalmente lo realiza el analista informático, en una forma no sistemática, usando sus
conocimientos y experiencia para poner de manifiesto las principales diferencias entre clases, y
posteriormente, en estrecha colaboración con el experto en la materia, analiza las clases, estudia
su significado para darles una interpretación. Este proceso llega a dificultarse cuando el número de
clases aumenta y el número de variables utilizado para describir los datos también aumenta.
Por tal motivo, se aplica el modelo propuesto, CIADEC (Caracterización e Interpretación
Automática de Descripciones Conceptuales), al análisis de medidas seriadas muy cortas y
repetidas con factor de bloque, presentes en un dominio poco estructurado (DPE) del dominio del
Ámbito Laboral para obtener conocimiento de la evolución de un programa de capacitación
(BECATE), así como de su efectividad a través del análisis de la información relacionada con: la
colocación de la gente capacitada, características de los municipios donde se dio la capacitación y
las necesidades del sector productivo; lo anterior en el Estado de Chihuahua en un total de 17
Municipios.
Palabras clave: Minería de Datos (Data Mining), aprendizaje supervisado, aprendizaje no
supervisado, caracterización, interpretación, Tecnología CIADEC, Estadística, Inteligencia Artificial,
Sistemas Híbridos, Métodos y técnicas de soporte a la toma de decisiones.
INTRODUCCION
La construcción de una plataforma integrada de soporte al análisis inteligente de dominios
poco estructurados, incluyendo todo tipo de herramientas, desde las más básicas de análisis
descriptivo hasta las más sofisticadas como la clasificación basada en reglas y herramientas de
apoyo a la interpretación de resultados, relacionadas con la Minería de Datos y el proceso
Knowledge Discovery in Databases (KDD) es el objetivo de la presente Tesis.
Para el desarrollo de esta aplicación sobre el modelo de caracterización e interpretación de
descripciones conceptuales en dominios poco estructurados (CIADEC) se deben tener en cuenta
los conocimientos de los conceptos básicos sobre caracterización, de la herramienta estadística
denominada boxplot para observar la relación entre variables y las clases y, en especial su utilidad
para representar las diferencias entre grupos, del aprendizaje supervisado que permite que a partir
de una clasificación de referencia se obtengan un conjunto de reglas para decidir la clase a la que
pertenece cada elemento en el Universo del discurso, del proceso Knowledge Discovery in Data
Base (KDD) en el cual este modelo tiene su marco natural de referencia y conceptos básicos sobre
Lógica Difusa, que permite establecer el modelo de etiquetas lingüísticas útil para la visualización
de resultados.
La propuesta del modelo aporta un Sistema de Caracterización de clases, basado en
predicados de lógica de primer orden ( CP1 ), que permiten máxima potencia y flexibilidad para
detectar variables cuantitativas caracterizadoras en algunas clases, permitiendo un procedimiento
de generación automático de reglas, que formarán parte de la base de conocimiento de un sistema
orientado a la predicción o diagnóstico. Además, la automatización de este sistema de
caracterización ofrecerá un conjunto de herramientas de apoyo a la interpretación como: la
construcción de un sistema de reglas, visualización de las funciones de pertenencia de una
variable
Xk
a las distintas clases
C,
evaluación de individuos nuevos de acuerdo a las reglas
generadas y validación de la calidad de la predicción teniendo como base un conjunto de nuevos
objetos.
En esta parte se aplica el modelo propuesto al análisis de medidas seriadas muy cortas y
repetidas con factor de bloque, presentes en un dominio poco estructurado (DPE) del dominio del
Ámbito Laboral para obtener conocimiento de la evolución de un programa de capacitación
(BECATE), así como de su efectividad a través del análisis de la información relacionada con: la
colocación de la gente capacitada, características de los municipios donde se dio la capacitación y
las necesidades del sector productivo.
CAPÍTULO I
INTRODUCCIÓN
En este trabajo de tesis se presenta una aplicación de la Tecnología CIADEC [1]
(Caracterización e Interpretación Automática de Descripciones Conceptuales) y el modelo teóricoconceptual, que incluye una nueva forma de extraer conocimiento útil de los así llamados dominios
poco formalizados o estructurados.
Este modelo permite identificar las características relevantes de las clases resultantes
obtenidas de una partición de referencia, lo cual conlleva a la generación automática de las
descripciones e interpretaciones conceptuales de estas clases; lo anterior, basado en una
combinación de diferentes herramientas y técnicas de Estadística (boxplot múltiple [162], análisis
de datos), Inteligencia Artificial (aprendizaje automático, sistemas basados en conocimientos) y
Lógica Difusa (modelos y razonamiento aproximado).
1.1 ANTECEDENTES
La comprensión de la naturaleza de los métodos que utilizamos los seres humanos para
clasificar datos o conocimientos, es un problema de gran interés teórico y práctico para todas las
ciencias cognitivas, ya que la acción de clasificar es una de las etapas iniciales de los procesos de
adquisición de conocimiento en cualquier campo científico [2]. Teóricamente, la comprensión del
concepto ―clasificar‖ contribuye a entender mejor lo que implica el ―aprendizaje‖; de hecho, es difícil
concebir una forma de aprendizaje sin haber pasado antes por una forma previa de clasificación
[3].
Por otro lado, en la práctica, el desarrollo de sistemas automáticos de clasificación es, hoy
por hoy, una necesidad imperiosa de la sociedad actual ya que en muchos procesos la cantidad de
datos que se genera es tan grande, que resulta muy difícil manipularlos y transmitirlos sin el auxilio
de esta clase de sistemas.
La clasificación automática se desarrolla normalmente en dos grandes enfoques [4]: a) A
partir de una clasificación de referencia de un universo de discurso, definir reglas para decidir la
clase a la que pertenece cada elemento del discurso (aprendizaje supervisado); y b) Dado un
universo de discurso, construir una clasificación adecuada del mismo (aprendizaje no supervisado).
Diversas disciplinas del conocimiento humano han contribuido para la creación, diseño y
desarrollo de reconocedores y clasificadores automáticos de patrones, dentro de ambos enfoques.
De relevancia para este trabajo de tesis, son las contribuciones de la Estadística, la Inteligencia
Artificial y la Lógica Difusa.
En el campo de la estadística, personajes como Galton [57], Pearson [58], Mahalanobis
[59] y Fisher [60] han sido pioneros en la aplicación de métodos estadísticos en el reconocimiento y
clasificación de patrones, y actualmente se aplican diversas técnicas desarrolladas por ellos y sus
seguidores, como son: boxplot múltiple, análisis de regresión, análisis de componentes principales
y análisis discriminante, entre otras. Más recientemente, se han desarrollado algunas técnicas
estadísticas, siendo notable la presencia de clustering [61], dentro del aprendizaje no supervisado.
En lo que respecta al aprendizaje supervisado, son dignos de mención algoritmos como el
bayesiano [85], el euclidiano [86], el k-NN (los k vecinos más cercanos) [99-103], los árboles de
decisión [104,105], y otros algoritmos cuyo fundamento queda en disciplinas diferentes de la
estadística, como las máquinas de soporte vectorial [106], las redes neuronales [67,92,93] y las
memorias asociativas [94-98].
Desde su creación a mediados de los 50 del siglo pasado, los científicos pioneros de la
inteligencia artificial como Von Neumann [64] y Minsky [65], además de una pléyade de científicos
afines a sus ideas, han incidido mediante sus propuestas científicas en las áreas de
reconocimiento y clasificación de patrones [72]; así, a través del tiempo se han incorporado: el
aprendizaje automático [5-8], los sistemas expertos [9-11,66], la Inteligencia Artificial evolutiva
(algoritmos genéticos) [68,69], la inteligencia artificial Macro-distribuida (sistemas multi-agentes)
[70,71] y el descubrimiento del conocimiento en base de datos (KDD) [33].
La Lógica Difusa, por su parte, como una extensión de la lógica multi-valuada de
Lukasiewicz [144] que a su vez se derivó de la lógica booleana, ha permitido considerar desde una
perspectiva más amplia a los problemas relacionados con el modelado del razonamiento.
Formalizada por Zadeh en 1965, la Lógica Difusa refleja las imprecisiones de los datos generados
en el mudo real [117-128]. Numerosos equipos de investigación científica actualmente trabajan en
el diseño de sistemas donde se aplican de manera directa los conceptos y resultados de la lógica y
el razonamiento difusos, siendo relevante su uso en áreas como control [129,130] y sistemas de
clasificación basados en reglas difusas [131-142].
1.2 MOTIVACIÓN
Es un hecho indiscutible que la mayoría de los sistemas expertos de la primera generación
como MYCIN [5], INTERNIST [6], [7], PLANT/DS [8] y algunos otros, son en la práctica, sistemas
clasificadores. Esta clase de sistemas utilizan un conjunto de reglas implementadas como árboles
de decisiones para determinar la clase a la que pertenece un individuo de un cierto dominio de
estudio [9].
En el enfoque clásico a este problema, el experto humano es el responsable de decidir
cuáles son las variables ―relevantes‖ para la formulación de las reglas de clasificación. Cuando se
procede de esta forma, el diseñador del sistema requiere información que el experto no está
preparado para proporcionar debido, fundamentalmente, a la falta de familiaridad con los términos
que se utilizan en el sistema informático. Esto provoca graves problemas de comunicación al
tratarse de personas que tienen formaciones diferentes, por lo que la extracción de conocimiento
se hace difícil de superar y consume mucho tiempo.
Por lo tanto, la clasificación de ejemplos se presenta como una herramienta alternativa
posible para la extracción del conocimiento de las descripciones que los expertos podrán dar a sus
dominios.
Esta es la razón de que hayan surgido diversas metodologías que permiten el análisis de la
información con miras a crear agrupaciones de observaciones para su posterior caracterización e
interpretación [10].
Un enfoque diferente es el de la Inteligencia Artificial ya que, se ha decidido por el uso de
técnicas de aprendizaje inductivo para la automatización de procesos. De esta manera, a partir de
una colección de individuos de un dominio propuestos por el experto o extraídos directamente de
dicho dominio y, de estas técnicas, se puede descubrir el conocimiento oculto en los datos y en
consecuencia conocer la estructura semántica del dominio, útil en la construcción de bases de
conocimiento, disminuyendo en este sentido su costo. Este mecanismo parece más viable ya que
se ha observado que los expertos tienen más facilidad para dar ejemplos de instancias de su
dominio que para expresar los conceptos o reglas que les permiten identificarlas [11].
En el caso del dominio donde la estructura semántica esté claramente definida y exista
una manera de discernir entre las diferentes categorías que lo componen, esta metodología es
clara y provechosa a la hora de construir bases de conocimiento para sistemas basados en
conocimiento, disminuyendo la interacción experto-diseñador del sistema.
Todos los problemas de adquisición de conocimiento mencionados se agravan si el
dominio sobre el que se está tratando es un Dominio poco Estructurado (ILL-Structured Domains,
ISD). Estos dominios se caracterizan por [11], [12]:
No existir consenso entre los expertos para la definición de todos los conceptos y objetos
que los componen y las relaciones entre éstos.
Complejidad del área de conocimiento en concreto, ya sea por la falta de una metodología
de investigación aceptada por todos los expertos o por un continuo cambio en el
conocimiento o en su extensión.
Las variables que describen a los individuos pueden ser cuantitativos o cualitativos.
Los expertos suelen disponer de grandes cantidades de conocimiento implícito, además de
manejar diversos grados de especificidad, lo que hace a este conocimiento parcial y no
homogéneo.
De esta forma la alternativa que parece más prometedora para resolver estas limitaciones
es liberar al experto de este trabajo, mediante el desarrollo de técnicas que a partir de la evidencia
empírica en forma de ejemplos, identifiquen las variables más relevantes y formulen reglas que
expresen las regularidades existentes en los datos.
En las últimas décadas, el crecimiento explosivo de los avances científicos y tecnológicos
ha generado sistemas complejos que han rebasado nuestra capacidad para analizarlos e
interpretarlos, creando la necesidad de una nueva generación de métodos, técnicas y herramientas
con la capacidad para asistir inteligente y automáticamente a los seres humanos en el análisis de
estas bases de datos para extraer conocimiento útil que represente los dominios del mundo real.
Descubrir la estructura semántica o extraer conocimiento de dominios reales y complejos
(dominios poco estructurados) no es tarea fácil y se requiere el combinar técnicas y herramientas
de diversos campos para construir Sistema Híbridos que permitan encontrar e interpretar patrones
especiales (o conceptos) en las bases de datos; y así, extraer conocimiento útil que represente
estos dominios, con mejor desempeño que las técnicas tradicionales o los enfoques clásicos de los
sistemas basados en conocimiento [13].
Así, dada una partición (clasificación de referencia) de un conjunto grande de individuos, es
necesario introducir herramientas para asistir al usuario en las tareas de interpretación, con objeto
de establecer el significado de las clases resultantes.
Frecuentemente, no es suficiente descubrir
la construcción automática de clases, sino poder entender por qué se detectaron estas clases.
Algunos paquetes estadísticos orientados al análisis multivariante y de propósito general como
SPAD (Système Portable pour L'Analyse des Donees Textuelle) y SPSS (Statistical Package for
Social Sciences) [14], incluyen varias herramientas orientadas a la interpretación de una
clasificación dada, como la posibilidad de calcular la contribución de cierta variable a la formación
de una clase. Sin embargo, en la etapa final, la interpretación misma deberá hacerla el usuario en
una forma no-sistemática, usando su propia experiencia y la tarea llega a dificultarse cuando el
número de clases resultantes aumenta, así como también cuando el número de variables también
aumenta para describir los datos.
Por otro lado, no se tiene información sobre un criterio objetivo para determinar la
validación de clases, considerándola por lo tanto, como el grado de interpretabilidad o utilidad de
éstas.
Por lo anterior, el interés de este trabajo de tesis es presentar una aplicación de la
tecnología CIADEC, la cual combina herramientas y técnicas de Estadística, Inteligencia Artificial y
Lógica Difusa en forma cooperativa, de forma que, a partir de las variables cuantitativas de los
datos que definen a los individuos pertenecientes a cierto dominio, sea posible identificar cuáles
son las situaciones características (clases resultantes) que se pueden encontrar en él, analizarlas,
estudiar su significado y, en consecuencia, conocer la estructura semántica del dominio al cual
pertenecen dichos individuos.
Una vez identificadas e interpretadas estas situaciones típicas, el conocimiento generado
pueden ser usadas posteriormente como herramienta de apoyo al proceso de administración o
toma de decisiones. Incluso se ha llegado a decir que la validación de una clasificación (problema
abierto) consiste, precisamente, en probar que las clases tienen sentido o utilidad [15].
En esta dirección, esta aplicación sobre un dominio laboral pretende facilitar la generación
automática de descripciones e interpretaciones conceptuales en este dominio real y complejo.
El caso de estudio es una aplicación de la metodología al estudio de un dominio laboral. A
partir de una base de datos y una partición de referencia de los mismos, se genera un sistema de
reglas difusas usando las variables cuantitativas recomendadas por el experto. Este sistema
permitirá, para un nuevo individuo i (día), predecir la clase C (situación típica del dominio) que le
corresponde y generar de forma automática las caracterizaciones e interpretaciones de las
descripciones conceptuales correspondientes a esa clase.
1.3 PLANTEAMIENTO DEL PROBLEMA
A partir de una matriz de datos X y una partición de referencia P se obtiene un conjunto de
individuos con una clase asignada de acuerdo con el proceso de clasificación dado. Se plantea
aplicar la metodología CIADEC para identificar en forma eficiente las características relevantes de
las diferentes clases obtenidas de tal forma que proporcionen un Sistema de Caracterización de
clases para obtener descripciones conceptuales directamente comprensibles al usuario-experto.
Uno de los problemas principales de las técnicas de clustering es que la validación de
resultados es un problema sin resolverse, ya que no existe un criterio objetivo para determinar la
calidad de las clases de una clasificación.
Es fácil evaluar un conjunto de clases en términos de criterios de exactitud siempre que
exista una partición de referencia de los datos y si la comparación es posible [21]. Pero
desafortunadamente, en la mayoría de las situaciones donde se requiere hacer clustering (técnicas
que intentan determinar si existen grupos) no existe y esta aproximación no es útil. Solamente la
utilidad de una clasificación puede usarse para decidir si es correcta o no [22]. Evaluar la utilidad
de una clasificación dada requiere de un mecanismo que permita comprender el significado de las
clases identificadas para finalmente decidir si son útiles o no.
Este proceso, conocido comúnmente como Interpretación de las clases resultantes,
comúnmente lo realiza el analista informático, en una forma no sistemática, usando sus
conocimientos y experiencia para poner de manifiesto las principales diferencias entre clases, y
posteriormente, en estrecha colaboración con el experto en la materia, analiza las clases, estudia
su significado para darles una interpretación. Este proceso llega a dificultarse cuando el número de
clases aumenta y el número de variables utilizado para describir los datos también aumenta.
Es en esta línea donde se propone la aplicación de esta metodología híbrida que
represente una nueva forma de extraer conocimiento útil directamente comprensible al usuario-
experto usando una combinación de diferentes herramientas y técnicas de Estadística (boxplot
múltiple, análisis de datos), Inteligencia Artificial (aprendizaje automático, sistemas basados en
conocimientos) y Lógica Difusa (modelos y razonamiento aproximado) para soportar la toma de
decisiones en estos dominios.
1.4 OBJETIVO
Aplicar la metodología para identificar las características relevantes de las clases
resultantes, obtenidas de una partición de referencia, la cual a partir del sistema de caracterización
se genera de forma automática las descripciones conceptuales de estas clases con variables
numéricas y categóricas, y la cual permita conocer la estructura semántica del dominio poco
estructurado en estudio, de bajo costo y útil en tareas de predicción o diagnóstico. Obtener,
además, contribuciones a la validación de clases, en relación a su representación formal y su
calidad, considerando esta última como el grado de interpretabilidad o utilidad de las clases
formadas.
CAPÍTULO II
MARCO DE REFERENCIA
2.1 Introducción
La presente propuesta de tesis que se presenta se ubica dentro del contexto del desarrollo
de los Sistemas Híbridos para la extracción de conocimiento. La línea de investigación inicia en
1995 [11] con el objetivo principal de estudiar los dominios poco estructurados.
La primera propuesta constituye la tesina [25] y después la tesis doctoral de Gibert [11] que
cristalizó en la formulación de la metodología de clasificación basada en reglas y una primera
versión del sistema informático que la implementa, denominado Klass [26] y [27] y que se ha
utilizado en diversas aplicaciones [17], [23], [24], [28], [29], [30] y [31] todas estas contribuciones
constituyen un Proyecto Marco.
El objetivo de este Proyecto Marco es construir una plataforma integrada de soporte al
análisis inteligente de dominios poco estructurados, incluyendo todo tipo de herramientas, desde
las más básicas de análisis descriptivo hasta las más sofisticadas como la clasificación basada en
reglas y herramientas de apoyo a la interpretación de resultados, relacionadas con la minería de
datos y el proceso Knowledge Discovery in Databases (KDD) [32], [33], [34] y [35].
Considerando las características especiales de este tipo de dominios, se han desarrollado
métodos mixtos de análisis que combinan técnicas estadísticas con técnicas de Inteligencia
Artificial para resolver los problemas que se plantean en este contexto [36] y [37].
Todo el software que se ha desarrollado en el seno del Proyecto Marco ha integrado lo que
podemos llamar herramienta master, que actualmente es el joc.Klass+, y que aglutina herramientas
de muy distinta naturaleza ofreciendo la interfaz necesaria en cada momento del análisis [27]. Esta
herramienta informática ha venido evolucionando de forma continua desde su origen en la medida
en que se ha avanzado en la investigación y experimentación de la línea de investigación antes
mencionada.
Evolución del Proyecto Marco

KLASS v0. Tesina de Ingeniería en informática de Karina Gibert. ―Klass. Estudi d’un
sistema d’ajuda al tractament estadístic de grans de dades‖. Clasifica matrices de datos
heterogéneas usando una distancia mixta definida especialmente para ello [25], [38].

KLASS v1. Tesis doctoral en informática de Karina Gibert. ―L’us de la información
simbólica en l’automatizació del tractament estadístic de dominis poc estructurats‖. Es una
ampliación de KLASS v0. Incorpora la clasificación basada en reglas. Es una herramienta
informática, orientada a la clasificación automática de dominios poco estructurados,
implementada en LISP y lenguaje C. Ha sido desarrollada en el departamento de
Investigación de Operaciones de la Universidad Politécnica de Cataluña e implementa la
metodología de clasificación basada en reglas, la que representa una estrategia mixta de
clasificación automática que usa una combinación de métodos basados en el conocimiento
(Inteligencia Artificial) y clasificación ascendente jerárquica (tradicionalmente de la
Estadística) [11], [26] y [39].

Xcn.KLASS. PFC de Ingeniería Informática de Xavier Castillejo. Incorpora a KLASS v1
una interfaz de ventanas independientes, implementada en C, que comunica con el núcleo
LISP. Existe una versión PC de la interfaz que facilita el uso de KLASS (sobre SUN) desde
PC’s a usuarios que desconocen LISP y UNIX [40].

jj.KLASS. PFC de la Diplomatura de Estadística de Juan José Márquez y Juan Carlos
Martín. Incorpora a la versión KLASS v1 nuevas opciones para el tratamiento de datos
faltantes, la posibilidad de trabajar con objetos ponderados e implementa un test no
paramétrico de comparación de clasificaciones [41] y el cual se aplicó al análisis de
disfunciones de tiroides [30] y [42].

xt.KLASS. PFC de Ingeniería en Informática de Xavier Tubau. Incorpora a la versión
xcn.KLASS cuatro métricas mixtas más y el módulo nuevo de comparación de
clasificaciones [32] de jj.KLASS [43]. También se diseñó un experimento para estudiar el
comportamiento de las distintas métricas, así como el análisis estadístico de los resultados.

KLASS+. PFC de Ingeniería Técnica en Informática de Sistemas de Silvia Bayona. Fusión
definitiva de las versiones xt.KLASS y jj.KLASS. Además incorpora un módulo nuevo de
análisis descriptivo y de ayuda a la interpretación de datos [17], [44] y [45] y de clases
resultantes con el propósito de reorientar KLASS, haciéndola más general [21]. Sobre esta
versión, el proyecto de la Diplomatura Estadística de Begoña Gómez [46] consistió en el
desarrollo de herramientas de muestreo y de clasificación basada en bootstrap, las cuales
aún están por integrarse.

PFC de Diplomatura de Estadística de Miguel Ángel Nieto. Compilación de técnicas de
minería de datos y de descubrimiento de conocimiento [47].

Joc.KLASS+. PFC de Ingeniería en Informática de Universidad Autónoma de Barcelona
(UAB) de Joseph Oliveras. Incorpora a la versión sbh.KLASS+ tres métricas mixtas más
[37] y [48], la métrica generalizada de Minkowski propuesta por Ichino y Yaguchi [49].

COLUMBUS. Tesis doctoral del programa de Inteligencia Artificial de la UPC de Jorge
Rodas. Diseño de la metodología para el descubrimiento de conocimiento en medidas
seriadas muy cortas y repetidas con factor de bloque (KDSM). Construcción de un primer
satélite de joc.KLASS+, denominado COLUMBUS que implementa la metodología KDSM
[50].

CIADEC.
Tesis doctoral en el programa de doctoral en computación del Centro de
Investigación en Computación (CIC) del IPN, de Fernando Vázquez. Desarrollo de la
metodología para la caracterización e interpretación automática de descripciones
conceptuales en dominios poco estructurados con variables numéricas (AUGERISD).
Construcción en Java de un satélite de joc.KLASS+ denominado CIADEC que implementa
la metodología AUGERISD. Actualmente existe ya un prototipo de CIADEC que se
encuentra en fase de experimentación y pruebas. [51], [52], [53], [54], [55], [56] y [57].

Java.KLASS. Proyecto que consiste en traducir al lenguaje de programación Java el
núcleo LISP de la versión más reciente de KLASS, se integrarán todos los módulos y
satélites (COLUMBUS y CIADEC) en Java con una interfaz general con total transparencia
para el usuario.
En la Figura 2.1 se aprecia el panorama general de la evolución del Proyecto Marco.
Clasificación de datos mixtos
KLASS v0
(1991)
Interfase independiente de
ventanas
Clasificación basada en reglas
KLASS v1 Comparación de clasificaciones
Clasificación ponderada
(1994)
Tratamiento de Missings
Nueva métrica mixta
Ralambondrainy xcn.KLASS
(1996)
xt.KLASS
(1999)
jj.KLASS
(1997)
Comparación de
clasificaciones
Descriptiva de datos
Descriptiva de clases
Clasificación
ponderada
KDSM
COLUMBUS
(2002)
sbh.KLASS (+)
(2001)
CIADEC
(2008)
(2008)
joc.KLASS(+)-JAVA
Figura 2.1. Cronología del Proyecto Marco
2.2 DESCRIPCIÓN DE LA METODOLOGÍA CIADEC
Partiendo de los trabajos previos sobre la interpretación a partir de variables cualitativas
[11], en donde se analizó la caracterización de clases a partir de conceptos fundamentales como:
conjunto de valores propios (caracterizador, parcialmente caracterizador, no propio y genérico),
variable caracterizadora (v.c.), variable ε-caracterizadora, sistema caracterizador; además, en [51]
se demostró que el boxplot múltiple es una herramienta ágil y potente con variables numéricas
para identificar elementos útiles, considerándolo como la base de esta propuesta metodológica
para la detección de las variables caracterizadoras en variables cuantitativas que se proponen en
CIADEC.
La aproximación a lo que sería un proceso automático de interpretación de clases tiene su
origen en la idea del boxplot múltiple. Así, la metodología aunque inspirada en esta herramienta
gráfica estadística ha sido automatizada usando algoritmos no gráficos, calculando los valores
mínimo y máximo de cada clase, procediendo a una ordenación ascendente del total de estos
valores a las distintas clases. Los extremos de los intervalos de longitud variable a generar serán
los valores contiguos dos a dos.
Con ello se construye la tabla de contingencia entre los intervalos y las clases, lo que dará
el número de observaciones que hay en cada clase para cada intervalo. A partir de esta tabla se
obtienen las distribuciones condicionadas a cada intervalo y que resulta en el porcentaje de
elementos de cierto intervalo en cada clase. Así, podemos asociar a un objeto o individuo
cualquiera su grado de pertenencia a cada clase. Esta idea da lugar a un gráfico de grados de
pertenencia difusos para cada clase y cada variable.
A partir de aquí es fácil conectar la metodología con un modelo de creación de etiquetas
lingüísticas que generen automáticamente las interpretaciones de las descripciones conceptuales
de las clases.
2.3 ESTADÍSTICA E INTELIGENCIA ARTIFICIAL
El término Estadística se deriva del latín Status, que se refiere a política y situación social,
al Estado, empieza como una ciencia de recolección de datos económicos y demográficos. En su
evolución y aún hoy en día se considera una ciencia relacionada con la recolección y el análisis de
datos, para extraer información y presentarla en forma comprensible y sintética [58].
A fines del siglo XVIII surge un periodo científico fértil en el campo de la Estadística. En
este tiempo F. Galton [59] presentó sus primeros trabajos sobre Análisis de Regresión, y K.
Pearson [60] presentó, entre otros trabajos, en 1901, una versión preliminar del Análisis de
Componentes Principales. Su principal discípulo, R. A. Fisher [61], cuyos trabajos son
considerados la base de la Estadística moderna, junto con P. Ch. Mahalanobis [62] en 1936,
presentaron los primeros trabajos acerca del Análisis Discriminante en el cual existe una variable
respuesta, que indica la clase de todo objeto y encuentra la mejor combinación lineal de todas las
variables para distinguir la clase.
Así, desde hace mucho tiempo se utiliza la formación y distinción entre diferentes clases de
objetos (clustering), tomando actualidad cuando las computadoras llegan a ser más poderosas. En
1963, R.R. Sokal y P.H. Sneath [63] presentaron The Numerical Taxonomy la cual puede ser
considerada como la primera formulación moderna de clustering.
La Inteligencia Artificial es una disciplina formal que surge a mediados de los años 50’s. Al
inicio estuvo bajo el paradigma de Von Newmman [64] y técnicas de puntuación secuencial y su
característica a través de su génesis histórica en la búsqueda para construir máquinas que
―piensen‖.
En 1961, M. Minsky [65] divide la Inteligencia Artificial en cinco tópicos: búsqueda,
reconocimiento de patrones, aprendizaje, planeación e inducción. La mayoría de los trabajos serios
sobre Inteligencia Artificial de acuerdo con este esquema estuvieron relacionados con búsqueda
heurística.
Uno de los primeros éxitos en la aplicación a la solución de problemas orientados al
diagnóstico fue MYCIN [66] en 1976 (diagnóstico de infecciones), y otras técnicas como: sistemas
expertos, representación del conocimiento, aprendizaje automático, razonamiento, procesamiento
de lenguaje natural, etc. Sin embargo, las representaciones simbólicas mostraron serias
limitaciones cuando hicieron frente a problemas reales y complejos, principalmente porque la
mayoría de los problemas en Inteligencia Artificial son NP- completos.
En los años 70’s aparece el paradigma del paralelismo (arquitectura de computadoras en
paralelo), algunas veces llamado Inteligencia Artificial micro-distribuida y denominada por algunos
autores, por su metáfora implícita como: redes neuronales artificiales (ANN) [67].
Entre el paradigma del paralelismo y del simbolismo, aparecieron la Inteligencia Artificial
evolutiva [68] y [69] y la Inteligencia Artificial macro-distribuida [70] y [71]. La primera se caracteriza
por los algoritmos genéticos y la segunda por los sistemas multi-agentes y otras técnicas.
De los campos de aplicación de estas disciplinas se puede establecer que los objetivos de
la Inteligencia Artificial como de la Estadística son: la primera desarrollar programas que
“aprendan” y enriquezcan el conocimiento propio y el del usuario y de la segunda, presentar de
forma sintética y comprensible la colección y análisis de todo tipo de información [72].
2.4 LOS SISTEMAS HÍBRIDOS
Es claro que actualmente, las nuevas tecnologías aumentan significativamente nuestra
capacidad de producir, coleccionar y almacenar datos. Enormes cantidades de datos están
disponibles para ser analizados y extraer conocimiento en corto tiempo.
Obtener conocimiento de conjuntos de datos grandes o pequeños y además, poco
estructurados es una tarea muy difícil. La combinación de técnicas de análisis de datos (ej.
clustering), aprendizaje inductivo (ej. sistemas basados en conocimiento), administración de base
de datos y representación gráfica multidimensional, deberán producir beneficios en esta dirección y
a corto plazo.
Existen diversas herramientas informáticas que tratan algunas de las situaciones
mencionadas como por ejemplo: Clementine [73], Intelligent Manager [74], SPAD [14], SPSS [75],
[76] y WEKA [77] entre otras son algunas de las más famosas hoy en día, las cuales presentan
principalmente una combinación de técnicas existentes, permitiendo comparación de resultados y
la selección del mejor método en cada caso.
Sin embargo, en situaciones reales, es común trabajar con dominios complejos [27], tales
como trastornos mentales [42], esponjas marinas [11], disfunciones tiroidales [30], pruebas
psicofisiológicas [31] y muchas más, donde las bases de datos tienen tanto variables cualitativas
como cuantitativas; y el experto tiene algún conocimiento a priori (en general parcial) de la
estructura del dominio –el cual es difícil tomarse en cuenta por métodos de clustering– y difícil de
incluir en una base de conocimiento.
Durante la década pasada, en una gran variedad de dominios de aplicación, los
investigadores en aprendizaje automático, teoría del aprendizaje computacional, reconocimiento de
patrones y la estadística han hecho un esfuerzo por establecer un puente de comunicación entre
investigadores de la Inteligencia Artificial y la Estadística, Douglas H. Ficher [78] y Bill Gale [79] –
entre otros– han establecido una línea de investigación conformada por ambas ciencias, creando la
Society for Artificial Intelligence and Statistics (Asociación para la Inteligencia Artificial y la
Estadística) que tiene como objetivo impulsar la investigación para poder combinar técnicas de
estas disciplinas en la creación de Sistemas Híbridos (sistemas que son combinación de enfoques
de técnicas y/o métodos de diversas disciplinas como la Inteligencia Artificial, la Estadística y la
Lógica principalmente) que mejoren las funciones y desempeño de los sistemas actuales en las
diversas áreas tanto de la Inteligencia Artificial como la Estadística y algunas otras que estén
soportadas por estas disciplinas, dando lugar a una tercera opción que es el trabajo
interdisciplinario [80].
―Nos parece que hay un potencial de desarrollo enorme en la intersección de la Inteligencia
Artificial, la Ciencia de la Computación y la Estadística‖ [81].
“Cheeseman y Oldfor”
2.5 EL PROCESO
DATABASES)
KDD
(KNOWLEDGE
DISCOVERY
IN
Se estima que la cantidad de información en el mundo se dobla cada 20 meses [35]; esto
significa que científicos, gobierno y sistemas de información corporativos están siendo inundados
por una gran cantidad de datos que son generados y almacenados rutinariamente, los cuales
aumentan las bases de datos. Estos volúmenes de datos rebasan los métodos manuales
tradicionales de análisis de datos como hojas de cálculo y cuestionarios ad-hoc, los cuales pueden
crear reportes informativos de datos, pero no pueden analizar los contenidos de estos reportes
para obtener conocimiento importante.
De ahí que existe una necesidad significativa para una nueva generación de técnicas y
herramientas con la capacidad de asistir inteligente y automáticamente a las personas en el
análisis de la gran cantidad de datos para obtener conocimiento útil. Estas técnicas y herramientas
son temas de un campo emergente el de descubrimiento del conocimiento en base de datos (KDD)
[33], el cual se describirá en el marco teórico.
2.6 RECONOCIMIENTO ESTADÍSTICO DE PATRONES
El objetivo fundamental del reconocimiento de patrones es clasificar perfiles de
comportamiento de los objetos. Entre los diferentes contextos en los cuales el reconocimiento de
patrones ha sido formulado, el enfoque estadístico ha sido estudiado y usado en la práctica y el
cual se utilizara como fundamento en el desarrollo del modelo propuesto y se explicará en el marco
teórico.
La literatura sobre el reconocimiento de patrones es vasta y dispersa encontrándose en
numerosas revistas de diferentes disciplinas (ej. estadística aplicada, aprendizaje automático,
redes neuronales y procesamiento de señales e imágenes).
Un rápido vistazo de la tabla de contenidos de todos los temas de la IEEE, Transactions on
Pattern Analysis and Machine Intelligence, desde su primera publicación en enero de 1979, revela
que aproximadamente 350 artículos tratan sobre el reconocimiento de patrones. Aproximadamente
300 de estos artículos cubren el enfoque estadístico y pueden ser categorizados en los subtemas
siguientes: problema de dimensionalidad (15), reducción de la dimensionalidad (50), diseño de
clasificadores (175), combinación de clasificadores (10), estimación de error (25) y clasificación no
supervisada (59). Además los excelentes libros de Duda y Hart [88], Fukunaga [99], Devijver y
Kittler [100], Devroye, Gyorfi y Lugosi [87], Bishop [101], Ripley [102], Schuhfried [103] y McLachlan
[104], Nagy [105] y Kanal [106] en 1974 entre otros investigadores han contribuido notablemente al
estado del arte de este tema.
La Tabla 2.1 resume los clasificadores más comúnmente usados. Muchos de ellos
representan, en realidad, una familia completa de clasificadores y permiten al usuario modificar
diferentes parámetros asociados y funciones de criterios. Todos (o casi todos) los clasificadores
son aceptables en el sentido de que existen algunos problemas de clasificación para los cuales son
la mejor opción.
Método
Árbol de
decisión
Discriminante
lineal de
Encuentra
Propiedad
un
conjunto
de
umbrales para una secuencia de
iterativo;
características dependiente.
necesidad de poda; rápida prueba.
Clasificador
lineal
que
usa
optimización MSE.
Parzen
Regla de los
k-vecinos
próximos
Clasificador
logístico
entrenamiento
sensitivo:
Simple y rápido; similar a Bayes para las
distribuciones Gaussianas con matrices
Fisher
Clasificador
Comentarios
Procedimiento
de
entrenamiento
de covarianzas idénticas.
La
regla
de
Bayes
para
la
densidad de Parzen estima con
Óptima asintóticamente; dependiente de
la escala; prueba rápida.
desempeño al núcleo optimizado.
Asigna
patrones
a
la
clase
mayoritaria entre los k vecinos
próximos
usando
un
Óptima asintóticamente; dependiente de
la escala; prueba lenta.
valor
optimizado para k.
Regla de probabilidad máxima
Clasificador
lineal;
procedimiento
para probabilidades a posteriori
iterativo; óptimo para una familia de
logísticas (sigmoidales).
diversas
distribuciones
(Gaussianas);
tipos de datos mixtos.
Clasificador
de Bayes
Asigna patrones a la clase que
Pertenece a los clasificadores sencillos
tiene
(lineales
probabilidad
a
posteriori
estimada máxima.
o
cuadrática)
para
distribuciones Gaussianas; sensitivo a la
densidad de estimación de errores.
Método del
Asigna patrones a la clase más
En vez de normalización de invariantes,
cercana del subespacio.
es
Subespacio
usado
el
sub-espacio
de
las
invariantes; dependiente de la escala
(métrica).
Clasificador
cercano
Asigna patrones a la clase más
Sin necesidad de entrenamiento; prueba
cercana media.
rápida
medio
dependiente
de
la
escala
(métrica)
Clasificador
Maximiza el margen entre las
Dependiente de la escala; iterativo; lento
vector de
clases seleccionando un número
entrenamiento; no lineal e insensitivo.
soporte
mínimo de vectores.
Recuperar patrones completos a
Metodología
Memorias
partir de patrones de entrada que
computacional, un grado mínimo de
asociativas
pueden estar alterados con ruido
heurística y factible de implementarse en
aditivo, sustractivo o combinado.
hardware.
Tabla 2.1. Métodos de clasificación.
de
bajo
costo
2.7 MINERIA DE DATOS
La Minería de Datos es un conjunto de técnicas agrupadas con el fin de crear mecanismos
adecuados de dirección, entre ellas puede citarse la estadística, el reconocimiento de patrones, la
clasificación y la predicción [47].
Para descubrir patrones de relaciones útiles en un conjunto de datos se empezaron a
utilizar métodos que fueron denominados de diferente forma. El término Data Mining, en inglés, no
era, al principio, del agrado de muchos estadísticos, porque sus investigaciones estaban dirigidas a
procesar y reprocesar suficientemente los datos, hasta que confirmasen o refutasen las hipótesis
planteadas. Desde este ángulo, la Minería de Datos aplica una dinámica que se mueve en sentido
contrario al método científico tradicional.
Con frecuencia, el investigador formula una hipótesis; luego, diseña un experimento para
captar los datos necesarios y realizar los experimentos que confirmen o refuten la hipótesis
planteada. Este es un proceso, que realizado de forma rigurosa, debe generar nuevos
conocimientos.
En la Minería de Datos, por el contrario, se captan y procesan los datos con la esperanza
de que de ellos surja una hipótesis apropiada. Se desea que los datos nos describan o indiquen el
porqué presentan determinada configuración y comportamiento. Como afirma Eduardo Morales:
―La más inocente mirada a los datos puede inspirar una hipótesis. Recuérdese que los humanos
tienen un gran poder para generalizar e identificar patrones. Luego entonces, validar una hipótesis
inspirada por los datos en los datos mismos, será numéricamente significativa, pero
experimentalmente inválida [154].‖
Las técnicas de Minería de Datos no pueden utilizarse para confirmar o rechazar hipótesis,
porque puede conducir a errores fatales. Su función se trata de explorar datos, darles sentido,
convertir un volumen de datos, que poco o nada aportan a la descripción, en información para
interpretar un fenómeno, para adoptar decisiones de acuerdo con las necesidades.
2.7.1 Sistemas de Minería de Datos
2.7.1.1 WEKA
Visualiza únicamente la clase de pertenencia y gráficos de los comportamientos. Después
de haber sometido una base de datos a este sistema, se visualiza únicamente la clase a la que
pertenece cada uno de los individuos contenidos en la base de datos. Con la ayuda de una gráfica,
se pueden observar las agrupaciones o clases encontradas por el sistema, cada una de las cuales
se diferencia ya que se muestran en distinto color.
2.7.1.2 CLEMENTINE
Visualiza reglas de pertenencia a las clases. Al analizar una base de datos clasificada, este
sistema visualiza una serie de reglas de pertenencia a las clases, para que el usuario de acuerdo
con su criterio clasifique nuevos individuos.
2.7.1.3 CIADEC
Visualiza la clase de pertenencia, reglas y gráficos. Al analizar una base de datos
clasificada, este sistema visualiza: sistemas reglas, gráficos de pertenencia a las clases e
interpretación de resultados. Al analizar un nuevo individuo, el sistema proporciona la clase a la
que pertenece para que con el sistema de gráficos interprete los resultados, observando el grado
de pertenencia a las clases.
2.7.1.4 CVIZ
Una herramienta de visualización diseñada para el análisis de datos de alta dimensión en
grandes y complejos conjuntos de datos. Otorga al analista de datos una herramienta única para
ver todo el conjunto de puntos de datos a través de las dimensiones más interesantes en un corto
período [155].
2.8 SISTEMAS DE CLASIFICACIÓN BASADOS EN REGLAS
Hoy los métodos de clasificación automática son utilizados en todas sus variedades para
conocer la estructura de grandes bases de datos, lo cual incide en los objetivos básicos de los
procesos emergentes de Minería de Datos que tan de moda ha puesto la Sociedad de la
Información y las Nuevas Tecnologías.
Clustering. Es un término usado para denotar la función de un gran número de técnicas
que intentan determinar si existen grupos o clusters en un conjunto de datos y, en el caso que así
sea, determinarlos.
A pesar de las diferencias en cuanto a las aplicaciones, los tipos de datos y las técnicas
utilizadas, existen cinco pasos básicos [107] que caracterizan todo análisis de clúster [108]:
1. Selección de la muestra sobre la que se hará la clasificación.
2. Definición del conjunto de variables con los que se describirán las entidades de la muestra.
3. Cálculo de las disimilitudes o distancias entre las entidades con base en dichas variables.
4. Selección de un algoritmo de clustering y detección de grupos.
5. Validación de los resultados proporcionados por el algoritmo.
Un aspecto importante a puntualizar es que, de todas las clasificaciones posibles que se
pueden hacer con un conjunto de objetos, no existe la buena clasificación sino que, dependiendo
de los objetivos del estudio o uso que se quieran hacer, se escoge una u otra. La recomendación
general es que se elija la que resulte útil en cada contexto.
Existen diferentes familias de métodos en la elección de una distancia [11]:
Métodos de particiones. Se busca la participación óptima del conjunto que se estudia en un
número prefijado de clases k. Hay dos tipos:
-
Métodos de particiones directas: Las clases que se forman serán disjuntas, y pueden ser
aglomeradas o divisivas.
-
Métodos de participaciones en clase solapadas: Las clases que forman serán disjuntas, y
pueden ser aglomeradas o divisivas.
Métodos de clasificación jerárquica. Se busca el árbol que refleja la estructura jerárquica de
los datos. Según el nivel por que se corte el árbol se obtendrá una partición más o menos
precisa del conjunto objeto de estudio. Una ventaja respecto al anterior método es que no
hace falta determinar el número de clases que se quiere obtener al final.
Otros Métodos. Métodos de clasificación piramidal, métodos de árboles aditivos y de clases
latentes.
El principal problema para desarrollar métodos de clasificación automática es que el
concepto de clúster no es fácil de definir. Algunos enfoques para definir un clúster pueden basarse
por sus propiedades como: máxima cohesión interna y máximo aislamiento externo, propiedades
propuestas por [109] y [110]. Además, las clases pueden presentar formas y magnitudes muy
diferentes y se puede entender la dificultad de que exista una definición general de clusters que los
incluya a todos.
El problema de fondo es que el investigador puede no conocer la estructura de los datos a
priori y existe el peligro de interpretar la existencia de diferentes clusters cuando estos no existen
realmente.
En [111] se plantea hasta qué punto las clases obtenidas en un proceso de clasificación
refleja clases reales presentes en los datos, o si por el contrario, las clases obtenidas son el simple
resultado de aplicar un algoritmo a los datos, es decir, una partición de una realidad continua.
También, se afirma que la experiencia prueba que, aunque se esté en este último caso, la
tipología obtenida puede ser igualmente útil, ya que aunque no se pueda hablar de clases
realmente diferenciadas entre ellas, la partición obtenida suele facilitar la comprensión y estructura
de los datos y por tanto su operatividad. En este caso se habla de clases instrumentales en vez de
clases reales.
Algoritmo genérico de clasificación ascendente jerárquica. Una clasificación jerárquica
es una secuencia de clasificaciones en la que los clusters más grandes se forman a través de la
fusión consecutiva de clusters más pequeños.
Existen muchos algoritmos de clasificación ascendente jerárquica cada uno con sus propias
variantes y que conducen a diferentes clasificaciones. Sin embargo, si se quisiera presentar un
algoritmo genérico para los métodos de clasificación ascendente jerárquica, este podría ser el que
se plantea en clustering jerárquico de aprendizaje de ejemplos [112].
Uno de los algoritmos que se enmarca en este esquema de clasificación es el conocido
como de los vecinos recíprocos encadenados que se describe a continuación.
Vecinos recíprocos. El algoritmo de los vecinos recíprocos utiliza un concepto propio para
determinar cuáles son los individuos que se agregan:
Son vecinos recíprocos los individuos i ,
e
i' si i es el objeto más próximo a i' en la muestra,
i' es a su vez el más próximo a i . De este modo, en la clasificación por vecinos recíprocos,
siempre se agregarán parejas de vecinos recíprocos.
La principal propiedad de este método es que el resultado no depende del orden como se
procesan los datos (ni del orden como se producen las agregaciones) porque se está trabajando
con un criterio global sobre todos los datos.
La Figura 2.2 ilustra como en este algoritmo se produce un encadenamiento de objetos que
va del objeto más cercano al siguiente más cercano de éste hasta que se forme un lazo. El lazo es
precisamente la expresión gráfica de las parejas de vecinos recíprocos. Cuando se halla uno, se
produce una agregación con la consecuente creación de una nueva clase. Es frecuente
representar en forma de árbol la secuencia de agregaciones de un proceso así. Estos árboles
reciben el nombre de dendogramas.
En estos contextos identificar cuáles son las parejas de elementos más próximos (o de
vecinos recíprocos en este último caso) en cada iteración requiere la definición de una métrica
sobre el espacio de las variables que permita calcular la distancia entre dos individuos.
1
2
3
…
Figura 2.2. El proceso de los vecinos recíprocos encadenados
2.9 LA LÓGICA DIFUSA Y EL RAZONAMENTO DIFUSO
Una de las disciplinas matemáticas con mayor número de seguidores actualmente es la
llamada lógica difusa o borrosa, que es la lógica que utiliza expresiones que no son ni totalmente
ciertas ni completamente falsas, es decir, es la lógica aplicada a conceptos que pueden tomar un
valor cualquiera de veracidad dentro de un conjunto de valores que oscilan entre dos extremos, la
verdad absoluta y la falsedad total. Conviene recalcar que lo que es difuso, borroso, impreciso o
vago no es la lógica en sí, sino el objeto que estudia: expresa la falta de definición del concepto al
que se aplica.
La Lógica difusa permite tratar información imprecisa, como estatura media o temperatura
baja, en términos de conjuntos borrosos que se combinan en reglas para definir acciones: si la
temperatura es alta entonces enfriar mucho. De esta manera, los sistemas de control basados en
lógica difusa combinan variables de entrada, definidas en términos de conjuntos difusos, por medio
de grupos de reglas que producen uno o varios valores de salida.
La lógica difusa fue investigada, por primera vez, a mediados de los años sesenta en la
Universidad de Berkeley (California) por el ingeniero Lofty A.Zadeh cuando se dio cuenta de lo que
él llamo principio de incompatibilidad: ‖Conforme la complejidad de un sistema aumenta, nuestra
capacidad para ser precisos y construir instrucciones sobre su comportamiento disminuye hasta el
umbral más allá del cual, la precisión y el significado son características excluyentes‖. Introdujo
entonces el concepto de conjunto difuso (Fuzzy Set) bajo el que reside la idea de que los
elementos sobre los que se construye el pensamiento humano no son números sino etiquetas
lingüísticas.
La lógica difusa permite representar el conocimiento común, que es mayoritariamente del
tipo lingüístico cualitativo y no necesariamente cualitativo, en un lenguaje matemático a través de
la teoría de conjuntos difusos y funciones características asociadas a ellos. Permite trabajar a la
vez con datos numéricos y términos lingüísticos; los términos lingüísticos son inherentemente
menos precisos que los datos numéricos pero en muchas ocasiones aportan una información más
útil para el razonamiento humano.
El aspecto central de los sistemas basados en la teoría de la lógica difusa es que, a
diferencia de los que se basan en la lógica clásica, tienen la capacidad de reproducir
aceptablemente los modos usuales del razonamiento, considerando que la certeza de una
proposición es una cuestión de grado.
Mas formalmente se puede decir que si la lógica es la ciencia de los principios formales y
normativos del razonamiento, la lógica difusa o borrosa se refiere a los principios formales del
razonamiento aproximado, considerando el razonamiento preciso (lógica clásica) como caso limite.
Así pues, las características más atractivas de la lógica difusa son su flexibilidad, su tolerancia con
la imprecisión, su capacidad para modelar problemas no-lineales, y su base en el lenguaje natural.
Aunque la lógica difusa es conocida con este nombre desde que Zadeh la bautizo así en
1965, la idea que se esconde tras ella y sus orígenes se remontan hasta 2.500 años atrás [46]. Los
filósofos griegos, Aristóteles entre ellos, consideraban que existían ciertos grados de veracidad y
falsedad y Platón ya trabajo con grados de pertenencia.
El termino borroso aplicado a la lógica y a la teoría de conjuntos y sistemas procede de la
expresión fuzzy sets (conjuntos borrosos) acuñada por Lofti A. Zadeh, brillante ingeniero eléctrico
iraní nacionalizado en Estados Unidos, profesor en las más prestigiosas universidades
norteamericanas y doctor honoris causa de varias instituciones académicas. Sus tesis entroncan,
como podemos observar, con la obra de pensadores de distintas disciplinas que tenían una visión
similar de los problemas alejada de la lógica tradicional.
La paradoja del conjunto de Bertrand Russell, el principio de incertidumbre de la física
cuántica de W. Heisenberg, la teoría de los conjuntos vagos de Max Black, sin olvidar la
fundamental aportación del polaco Jan Lukasiewick, creador de la lógica multivaluada, influyeron
para que Zadeh publicase su famoso ensayo ―Fuzzy Sets‖ en ―Informations and Control‖ en 1965 y
más tarde ―Fuzzy algorithm‖ en la misma revista en 1968. Mientras que Russell y Black utilizaron el
termino vagueness (vaguedad, vago) para referirse a la nueva lógica o para calificar a los
conjuntos en la teorización sobre los mismos, Zadeh prefirió el término fuzzy (borroso, difuso) para
denominar a sus conjuntos y a la lógica en la que se apoya su análisis.
Aunque en un principio la lógica encontró una fuerte resistencia entre la comunidad
científica, algunos investigadores se convirtieron en seguidores de las teorías de Zadeh y mientras
él siguió ampliando y asentando los fundamentos de la teoría de conjuntos difusos estos
investigadores exploran estas nuevas teorías durante la década posterior a su nacimiento. Además
de las contribuciones del propio Zadeh, otros autores como Bellman, Lakoff, Goguen, Kohout,
Smith, Sugeno, Chang, Dunn, Bezdek, Negoita, Mizumoto, Tanaka, Kandel, Zimmermann, etc…
hicieron aportaciones al desarrollo de las bases de esta teoría.
Durante esta primera década, gran parte de estructuras lógicas y matemáticas son
generalizadas en términos de lógica difusa: relaciones lógicas, funciones, grupos, operaciones,
operadores, algoritmos, etc.
A principios de la década de los setenta, se establecen varios grupos de investigación en
lógica difusa en algunas pequeñas universidades japonesas; los profesores Terano y Shibata en
Tokio y los profesores Tanaka y Asai en Osaka, y pese a encontrar también un ambiente hostil en
estos primeros años de investigación, hacen grandes contribuciones tanto al desarrollo de la teoría
de la lógica difusa como al estudio de sus aplicaciones.
Un hito importante en el desarrollo de la lógica difusa fue establecido por Assilian y
Mamdami en 1974 en el Reino Unido al desarrollar el primer controlador difuso diseñado para una
máquina de vapor, pero la primera implantación real de un controlador de este tipo fue realizada en
1980 por F.L. Smidth & Co. en una planta cementera en Dinamarca. En 1983 Fuji aplica la lógica
difusa para el control de inyección química en plantas depuradoras de agua por primera vez en
Japón y en 1987 Hitachi pone en marcha un controlador fuzzy para el control del tren-metro de
Sendai, y la empresa Omron desarrolla los primeros controladores difusos comerciales.
Paralelamente al desarrollo de las aplicaciones de la lógica difusa, investigadores teóricos
siguen, en la década de los ochenta, el camino iniciado por Mamdani. Asi, Tagaki y Sugeno
desarrollan la primera aproximación para construir reglas fuzzy a partir de datos de entrenamiento,
y aunque en un principio no tiene mucha repercusión, mas tarde será el punto de partida para
investigar la identificación de modelos fuzzy.
Otro de los factores que contribuye a seguir con la investigación en este campo es el
creciente interés en las redes neuronales y su similitud con los sistemas fuzzy; la tendencia es
buscar vías de relación entre las dos técnicas y los resultados son los llamados neuro-fuzzy
systems, sistemas fuzzy que usan métodos de aprendizaje basados en redes neuronales para
identificar y optimizar sus parámetros. B. Kosho es conocido por su contribución a los sistemas
neuro-fuzzy y con sus publicaciones introdujo en la lógica difusa a muchos lectores interesados en
las redes neuronales.
En la década de los noventa, además de las redes neuronales y los sistemas fuzzy, hacen
su aparición los algoritmos genéticos. Estas tres técnicas computacionales, que pueden
combinarse de múltiples maneras y se pueden considerar complementarias, son herramientas de
trabajo muy potentes en el campo de los sistemas de control en la última década.
En realidad, la intención original del profesor Zadeh era crear un formalismo para manipular
de forma más eficiente la imprecisión y la vaguedad del razonamiento humano expresado
lingüísticamente, sin embargo causo cierta sorpresa que el éxito de la lógica borrosa llegase en el
campo del control automático de procesos.
Esto se debió básicamente al boom que la lógica borrosa causo en Japón, iniciado en 1987
y que alcanzo su máximo apogeo a principios de los noventa. Este boom fue el resultado de una
estrecha colaboración entre el gobierno, las universidades y las industrias japonesas,
estableciéndose dos proyectos nacionales a gran escala llevados a cabo por el Ministerio de
Industria y Comercio (MITI) y la Agencia de Ciencia y Tecnología (STA) en consorcio con el LIFE,
Laboratory for International Fuzzy Research, y en los que se involucran más de 50 compañías
durante seis años.
Desde entonces, han sido infinidad los productos lanzados al mercado que usan tecnología
borrosa, muchos de ellos utilizando la etiqueta fuzzy como símbolo de calidad y prestaciones
avanzadas.
El control difuso ha sido aplicado con éxito en muy diversas ramas tecnológicas, por
ejemplo la metalurgia, robots para la fabricación, controles de maniobras de aviones, sensores de
imagen y sonido (sistema de estabilización de la imagen en cámaras fotográfica y de video Sony,
Sanyo y Cannon), lavadoras (Panasonic y Bosch) que son capaces de autorregular la cantidad de
jabón que requiere un lavado dependiendo del grado de suciedad de la ropa, aire acondicionado
(Mitsubishi) en el que el sistema fuzzy evita las oscilaciones entre el exceso y el defecto de
temperatura), rice-cooker capaces de elaborar diversas variedades de arroz regulando la cantidad
de agua y la temperatura en cada caso para que el grano quede cocido y suelto.
Estas son algunas de las muchísimas aplicaciones de la lógica difusa, que ya están
funcionando en el campo de los llamados sistemas expertos [173].
Una gran variedad de ciencias aplican métodos de Inteligencia Artificial principalmente para
modelar el razonamiento del experto. Para diseño de tales sistemas inteligentes, la importancia de
la Lógica Difusa ha ganado gran aceptación. Publicaciones recientes han demostrado también que
los Sistemas Híbridos en Inteligencia Artificial han conseguido buenos resultados, combinando
Lógica Difusa e Inteligencia Artificial para el diagnóstico médico en la prevención de enfermedades,
redes neuronales para el reconocimiento de patrones, sistemas de inferencia difusos para
incorporar conocimiento humano, realizar inferencia y tomar decisiones, entre otras acciones.
Es importante considerar que los problemas complejos del mundo real requieren sistemas
inteligentes que combinen conocimiento, técnicas y metodologías de diferentes fuentes. Estos
sistemas inteligentes deberán poseer experiencia como la del humano dentro de un dominio
especifico, adaptándose y aprendiendo a hacer lo mejor en ambientes dinámicos y explicando
cómo tomar decisiones o acciones. De cara a los problemas de cálculo, es más ventajoso usar
diferentes técnicas de cálculo sinérgicas que exclusivas, obteniendo como resultado la
construcción de Sistemas Híbridos Inteligentes. Los conceptos básicos a utilizar en este trabajo por
ser parte fundamental se describirán en el marco teórico.
2.10 SISTEMAS DE CLASIFICACIÓN BASADOS EN REGLAS
DIFUSAS
Hoy en día, las aplicaciones más importantes de la teoría de de los conjuntos difusos
desarrollada por Zadeh en 1965 son los Sistemas Basados en Reglas Difusas (SBRD).
Esta clase de sistemas constituye una extensión de los sistemas clásicos basados en
reglas, debido a que tratan con reglas difusas en vez de reglas lógicas clásicas. Gracias a esto,
han sido aplicados exitosamente a una amplia gama de problemas de diferentes áreas que
presentan diferentes formas de incertidumbre y vaguedad.
2.10.1 Sistemas Basados en Reglas Difusas (SBRD)
Un Sistema Basado en Reglas Difusas (SBRD) presenta dos componentes principales: 1)
el sistema de inferencia, que ejecuta el proceso de inferencia difuso necesario para obtener una
salida del cual ha sido especificada una entrada, y 2) la Base de Reglas Difusa (BRD) que
representa el conocimiento que se tiene acerca del problema a resolver, formando un conjunto de
reglas [131].
En el diseño de un sistema inteligente de esta clase se deberán de realizar dos tareas
principales para una aplicación concreta: i) seleccionar los operadores difusos involucrados en el
sistema de inferencia, esto es, definir la forma en la cual el proceso de inferencia difusa se
realizará, y ii) obtener una adecuada BRD acerca del problema a resolver. La exactitud de los
SBRD para resolver un problema específico depende, directamente de ambas componentes [132].
La primera tarea ha de ser ampliamente analizada en la literatura especializada, y se ha de
realizar una gran cantidad de estudios teóricos y comparativos para tratar con el problema de
seleccionar los mejores posibles operadores difusos en el sistema de inferencia.
En relación a la segunda tarea del diseño, parece ser más fácil la decisión porque la
composición de la BRD depende directamente del problema a resolver. Debido a la complejidad de
la derivación de la BRD, se han propuesto una gran cantidad de técnicas automáticas para tal
efecto.
Los Sistemas Basados en Reglas Difusas (SBRD) combinan la precisión de la predicción
con un alto nivel de interpretabilidad, lo cual los hace muy adecuados para el diseño de Sistemas
de Clasificación en problemas reales [125], [130].
2.10.2 Sistemas de Clasificación Basada en Reglas Difusas
En un Sistema de Clasificación Basada en Reglas Difusas (SCBRD), se distinguen dos
componentes: 1) La Base de Conocimiento (BC), la cual es específica para un problema dado de
clasificación, y 2) un Modelo de Razonamiento Difuso (MRD).
El diseño de un SCBRD implica encontrar ambas componentes, y este proceso se lleva a
cabo a través de un proceso de aprendizaje supervisado, que inicia con un conjunto de individuos
clasificados correctamente (conjunto de entrenamiento) y cuyo objetivo es diseñar un Sistema de
Clasificación, asignando etiquetas de clase a nuevos objetos con un mínimo de error. Finalmente,
se calcula el desempeño del sistema sobre los datos de prueba para obtener una estimación
acerca del error de predicción del SCBRD. El proceso se ilustra en la Figura 2.3.
Figura 2.3. Diseño de un SCBRD (Aprendizaje / Clasificación)
Base de Conocimiento. La Base de Conocimiento (BC) está compuesta de la BR (Base
de Reglas) y la BD (Base de Datos). En la literatura especializada, se han usado diferentes tipos
de reglas y su diferencia consiste en la composición del consecuente: una clase [133], [134] y un
grado de certeza asociado a la clasificación de esa clase [135], y el grado de certeza asociado a la
clasificación de cada una de las clases posibles [136].
Un SCBRD está compuesto de una BR del siguiente tipo de reglas:
Rk : Si x1
k
A 1 Λ……. Λ x n
k
A n entonces Y
Cj con r
k
Donde:
x1,……...,xn son las variables seleccionadas para el problema de clasificación.
k
k
A 1,………,A
n
son etiquetas lingüísticas usadas para discretizar los dominios de las
variables cuantitativas o cualitativas.
Y es la clase Cj
{C1,…C ξ} a la que pertenece el objeto.
k
y, r es el grado de certeza de la clasificación en la clase C j para un objeto que pertenece
al subespacio difuso definido por el antecedente de la regla.
Base de Datos. La Base de Datos (BD) contiene la definición de los conjuntos difusos
asociados a los términos lingüísticos usados en la BR. Esta transformación es común para todas
las reglas en la BR para mantener la naturaleza lingüística de los SCBRD.
Método de Razonamiento Difuso. En [137] se define un Método de Razonamiento Difuso
(MRD) como un procesamiento de inferencia, que deriva conclusiones a partir de un conjunto de
reglas difusas y un objeto. El uso de un método de razonamiento que combine la información de
las reglas disparadas por el objeto a ser clasificado, puede mejorar la capacidad de generalización
del Sistema de Clasificación.
Un modelo de razonamiento general lo podemos describir en la siguiente forma [138]:
En la clasificación de un objeto Et = (xt1,…., xtk), la base de reglas R = {R1,….,RL} está dividido en ξ
subconjuntos de acuerdo con la clase indicada por su consecuente, R = R C1 U RC2 U….U RCξ.
Y siguiendo el esquema siguiente:
1. Grado de Compatibilidad. El grado de compatibilidad del antecedente con el objeto se
calcula para todas las reglas en la BR, aplicando una t-norma [120], [127], sobre el grado
de pertenencia de los valores del individuo (eti) a los correspondientes subconjuntos
difusos.
k
k
Rk(Et) = T(µA 1(et1),…, µA n(etn)), k = 1,…,L
2. Grado de Asociación. El grado de asociación del objeto Et con las ξ clases se calcula de
acuerdo a cada regla en la BR.
k
b i = h(Rk(Et), rk), k = 1,…, | RCi |,
i = 1,…, ξ
3. Función de Ponderación. Los valores obtenidos son ponderados por medio de un función
g. una expresión que promueve los valores altos y penaliza los pequeños parece ser la
selección más adecuada para esta función.
k
k
B i = g(b i),
k = 1,…, | RCi |,
i= 1,…, ξ
4. Grado de Validez de la clasificación para todas las clases. Para calcular este valor, se usa
un operador de agregación que combine, para cada clase, el grado de asociación positivo
calculado en el paso anterior.
k
k
Yi = f(B i, k = 1,… | RCi |, i = 1,…, ξ y B i > 0)
i = 1,…, ξ con ƒ un operador de agregación
El operador ƒ regresa un valor entre el mínimo y el máximo. Si se selecciona ƒ como
operador máximo se tiene el Modelo de Razonamiento Difuso Clásico.
5. Clasificación. Se aplica una función de decisión F a los grados de clasificación del
individuo. Esta función regresa la etiqueta de clase que corresponde al valor máximo.
Cl = F(Y1,…Yξ) tal que Yl = maxj=1,…, ξ Yj
Así, en los Sistemas de Clasificación Basada en Reglas Difusas (SCBRD), el Método
Clásico de Razonamiento Difuso (MCRD), grado máximo de asociación, clasifica un nuevo objeto
del dominio con el consecuente de la regla con el grado más alto de asociación [133], [139], [134],
[135], [140], [136]. Usando este método de inferencia, se pierde información proporcionada por las
otras reglas difusas con diferentes etiquetas lingüísticas que representan también el valor en la
variable patrón (clase), aunque probablemente con menor grado.
Por otro lado, es bien conocido que en otros SBRD como los controladores lógicos difusos
el mejor desempeño se obtiene cuando se usan métodos de defuzificación que operan sobre
subconjuntos difusos obtenidos en las reglas difusas satisfechas (aquéllas cuyos datos de entrada
satisfacen sus antecedentes), tomando en consideración todas ellas para obtener el valor de la
salida vía el método de defuzificación [141], [142].
2.11 APRENDIZAJE AUTOMATICO
El aprendizaje automático usualmente se refiere a cambios en un sistema que realiza
tareas usando Inteligencia Artificial. Dichas tareas involucran reconocimiento, diagnostico,
planeación, control, etc. En términos más generales se puede afirmar que el aprendizaje
automático se basa en la idea de hacer mejor el aprendizaje futuro, basado en las experiencias del
pasado [174].
Los principales métodos para el aprendizaje están tipificados en diferentes ramas de las
inteligencia computacional, pero la gran mayoría se encuentran bajo modelos probabilísticos,
estadísticos
y algebraicos.
Dentro de los más representativos están las Redes Neuronales
Artificiales, Descubrimiento de Conocimiento en Bases de Datos (KDD), Árboles de Decisión,
Redes Bayesianas. Algoritmos Genéticos, Modelos Ocultos de Markov, Programación Lógica
Inductiva, Clustering, Máquinas de Vector de Soporte, etc. [175]
Es posible realizar una clasificación de las maneras de aprendizaje según como sea el
proceso Supervisado y no Supervisado.
2.11.1 Aprendizaje Supervisado
El aprendizaje Supervisado es aquel en el cual se utilizan ejemplos de entrenamiento para
―Supervisar‖ la manera como se adquiere el conocimiento, de tal forma que el sistema se debe
ajustar perfectamente al (los) patrón(es) que se utilizaron como entrenadores.
Ocurre cuando se le proporciona a la red tanto la entrada como la salida correcta, y la red
ajusta sus pesos tratando de minimizar el error de su salida calculada. Este tipo de entrenamiento
se aplica por ejemplo, en el reconocimiento de patrones [156].
2.11.2 Aprendizaje No Supervisado
Se presenta cuando a la red se le proporcionan únicamente los estímulos, y la red ajusta
sus interconexiones basándose únicamente en sus estímulos y la salida de la propia red. Las leyes
de aprendizaje determinan como la red ajustará sus pesos utilizando una función de error o algún
otro criterio. La ley de aprendizaje adecuada se determina en base a la naturaleza del problema
que se intenta resolver [156].
El aprendizaje no supervisado está relacionado con el agrupamiento según patrones de
similitud entre los datos. Los datos no están clasificados (no etiquetados) y el sistema se encarga
de organizarlos dividiéndolos en grupos [176].
A MODO DE CONCLUSION
A partir de las ideas antes expuestas en el Marco de Referencia, se elaboró una primera
hipótesis en el sentido de que la hibridación produce realmente buenos resultados en aplicaciones
reales de muy diversa índole y segunda, abordar el problema de descubrimiento de conocimiento
en dominios poco estructurados, caracterización e interpretación automática de descripciones
conceptuales, nos sitúa en la intersección de los objetivos de los sistemas de KDD por un lado en
la línea de Fayyad, y por otro, de los de la Inteligencia Artificial y la Estadística, en la línea de las
directrices marcadas por Oldford y Cheeseman [81] ubicando esta propuesta de tema de tesis en
un marcado carácter interdisciplinario.
CAPÍTULO III
MARCO TEÓRICO
Para el desarrollo de esta aplicación sobre el modelo de caracterización e interpretación de
descripciones conceptuales en dominios poco estructurados (CIADEC) se deberán tener en cuenta
los conocimientos de los conceptos básicos sobre caracterización, de la herramienta estadística
denominada boxplot para observar la relación entre variables y las clases y, en especial su utilidad
para representar las diferencias entre grupos, del aprendizaje supervisado que permite que a partir
de una clasificación de referencia se obtengan un conjunto de reglas para decidir la clase a la que
pertenece cada elemento en el Universo del discurso, del proceso Knowledge Discovery in Data
Base (KDD) en el cual este modelo tiene su marco natural de referencia y conceptos básicos sobre
Lógica Difusa, que permite establecer el modelo de etiquetas lingüísticas útil para la visualización
de resultados.
3.1 CONCEPTOS BÁSICOS
3.1.1 Reconocimiento de Patrones
Objeto: es un concepto con el cual se representan los elementos sujetos a estudio. Pueden ser
concretos o abstractos.
Patrón: es sinónimo de objeto. En ocasiones se le llama así a los objetos ya clasificados.
Rasgo: propiedad, factor, característica, etc., que se toma en cuenta para estudiar los objetos.
Existen dos tipos:
Esenciales: no pueden ser eliminados de la descripción de los objetos sin confundirlos.
Accidentales: pueden ser ignorados en una descripción y los objetos no se confunden.
Clase: es un conjunto de objetos. La agrupación en clases se puede hacer de dos formas distintas:
Por pertenencias duras: Un objeto pertenece o no a una clase.
Por pertenencias difusas: Los objetos pertenecen parcialmente a una clase. Existen clases
con intersecciones no vacías.
Reconocimiento: proceso de clasificación de un objeto en una o más clases.
Filtración: consiste en quitar información o datos indeseados de entrada. Dependiendo del uso, el
algoritmo o método de filtrado cambia.
Reconocimiento de patrones: es la rama del conocimiento, de carácter multidisciplinario, cuyo
objeto de estudio son los procesos de identificación, caracterización, clasificación y reconstrucción
sobre conjuntos de objetos o fenómenos, así como el desarrollo de teorías, tecnologías y
metodologías relacionadas con dichos procesos. Es decir, es la ciencia que se ocupa de los
procesos sobre ingeniería, computación y matemáticas relacionados con objetos físicos y/o
abstractos, con el propósito de extraer información que permita establecer propiedades de
o entre conjuntos de dichos objetos.
3.1.1.1 Enfoques del Reconocimiento de Patrones
Se entiende por problemas de Reconocimiento de Patrones a todos aquellos relacionados
con la clasificación de objetos y fenómenos y con la determinación de los factores que inciden en
los mismos. El Reconocimiento de Patrones es una disciplina que aborda principalmente cuatro
familias de problemas, a saber [157, 158]:
1. Selección de rasgos o características.
2. Clasificación con aprendizaje (supervisado) y donde el diagnóstico y pronóstico
pueden modelarse como una clasificación supervisada.
3. Clasificación sin aprendizaje (no supervisado).
4. Clasificación con aprendizaje parcial (parcialmente supervisado).
A continuación se describirán brevemente los enfoques más populares en esta disciplina.
3.1.1.1.1 Enfoque Estadístico
Históricamente, una de las primeras herramientas empleadas en la solución de problemas
de Reconocimiento de Patrones es la Estadística; utiliza el Análisis Discriminante, la Teoría
Bayesiana de la Decisión, la Teoría de la Probabilidad y el Análisis de Agrupamientos (Cúmulos,
cluster).
El enfoque estadístico es la más simple y consiste en representar cada patrón mediante un
vector de números resultantes del muestreo y cuantificación de las señales externas, y cada clase
por uno o varios patrones prototipo. Un patrón no es más que un punto del espacio de
representación de los patrones, que es un espacio de dimensionalidad determinada por el número
de variables consideradas [14].
El estudio del conjunto apropiado de variables, la variabilidad de los patrones de una clase,
las medidas de semejanza entre patrones, así como la relación entre patrones y clases constituye
el Reconocimiento Estadístico de Patrones cuyas principales características son:

Se basa en descripciones de objetos en términos de mediciones, es decir, variables
numéricas.

A dichas variables se le presuponen propiedades tales como las de estar definidas sobre
un espacio métrico o normado, e incluso en ocasiones se asume un tipo particular de
métrica.

Es muy frecuente el uso de probabilidades, en particular cuando se considera la presencia
de elementos de incertidumbre o subjetividad; pero también en estos casos es frecuente el
asumir un determinado comportamiento de dichas probabilidades y con ello aparece la
suposición de ajustarse a distribuciones normales.
Este enfoque ha sido aplicado en muchos problemas concretos, en particular los
relacionados con imágenes y señales; sin embargo, su uso se ha extendido indebidamente, a
zonas para las cuales no fueron concebidas, en problemas donde las hipótesis que se presuponen
no se cumplen [41, 46, 47].
3.1.1.1.2 Enfoque Sintáctico Estructural
Otro de los enfoques importantes del Reconocimiento de Patrones es el que parte de la
Teoría de los Lenguajes Formales. Su origen está relacionado con el reconocimiento de imágenes
y señales. Su idea central consiste en suponer que estos objetos, una señal electrocardiográfica
por ejemplo, se puede descomponer (físicamente) en elementos primarios, atómicos, (en pedazos
de la misma) como si fueran las letras de un cierto alfabeto; y a partir de estas letras, teniendo en
cuenta la señal completa, encontrar las reglas gramaticales que permitan formar la señal (como si
se armara un rompecabezas).
En otras palabras, el propósito es encontrar la gramática cuyo lenguaje estaría formado
sólo por señales que estarían muy estrechamente vinculadas unas con las otras y aquellas señales
que no tuviesen que ver con las primeras, responderían a gramáticas diferentes, por lo que
pertenecerían a otro lenguaje. Algunas de las características de este enfoque, denominado
Reconocimiento Sintáctico Estructural de Patrones [83], son las siguientes [157]:

Se basa en las descripciones de los objetos en términos de sus partes constitutivas.

Se apoya en la Teoría de los Lenguajes Formales, la Teoría de Autómatas, las Funciones
Recursivas y la Teoría de Grafos.

Se asume que la estructura de los objetos a ser reconocidos es cuantificable.
En forma muy general, se puede decir que en este enfoque se asocia a cada conjunto de
objetos una gramática que genera sólo elementos de dicho conjunto, y el problema consiste en
averiguar cuál de las gramáticas genera como palabra la correspondiente al objeto que se desea
clasificar; o también que a cada conjunto de objetos se le asocia un grafo que describe las
relaciones entre las propiedades estructurales de un objeto representante del conjunto de objetos.
Aquí se compararían los grafos asociados a cada representante de las clases con el objeto que se
quiere clasificar.
Esta manera de abordar un problema de Reconocimiento de Patrones es especialmente
productiva cuando los objetos de estudio son objetos físicos, es decir, imágenes o señales.
Ejemplos de estas aplicaciones son trabajos en identificación de impresiones digitales [84, 89],
entre muchos otros.
3.1.1.1.3 Enfoque Lógico – Combinatorio
La Lógica Matemática, la Teoría de Testores, la Teoría Clásica de Conjuntos, la Teoría de
los Subconjuntos Difusos, la Teoría Combinatoria, la Matemática Discreta en general, constituyen
el basamento teórico-matemático en el que se desarrolla el denominado Enfoque LógicoCombinatorio en Reconocimiento de Patrones. Las ideas centrales de este enfoque consisten en
suponer que los objetos se describen por medio de una combinación de rasgos numéricos y no
numéricos, y los distintos valores pueden ser procesados por funciones numéricas [158, 160, 161].
Este enfoque se basa en la idea de que la modelación del problema debe ser lo más
cercana posible a la realidad del mismo, sin hacer suposiciones que no estén fundamentadas. Uno
de los aspectos esenciales del enfoque es que las características utilizadas para describir a los
objetos de estudio deben ser tratadas adecuadamente [157, 162].
El enfoque lógico combinatorio es más que un conjunto de técnicas, es una filosofía, una
manera de enfrentar los problemas de Reconocimiento de Patrones a partir de una determinada
metodología de la modelación matemática, es decir, como deben ser modelados y resueltos los
problemas reales. Además, aborda problemas de selección de variables (determinación de
síndromes de enfermedades, determinación de la relevancia de síntomas, signos de
enfermedades, o del estado de una red de computadoras, etc.) y de clasificación supervisada (con
aprendizaje: diagnóstico y pronóstico médicos; pronóstico de fenómenos naturales o sociales;
pronóstico de perspectividad de recursos minerales, etc.) a partir del enfoque lógico combinatorio
en los llamados dominios poco estructurados.
3.1.1.2 Tipos de Problemas del Reconocimiento de Patrones
Selección de variables: consiste en seleccionar cuál es el tipo de características o rasgos
más adecuados para describir los objetos. Se deben localizar los rasgos que inciden en el
problema de manera determinante.
Clasificación supervisada: también es conocida como clasificación con aprendizaje, en este
tipo de problemas ya se encuentran definidas las clases, y éstas cuentan con algunos
objetos previamente clasificados.
Clasificación parcialmente supervisada: también conocida como de aprendizaje parcial, en
éstos problemas existe una muestra de objetos sólo en algunas de las clases definidas.
Clasificación no supervisada: también conocida como clasificación sin aprendizaje, en
éstos problemas no existe ninguna clasificación previa de objetos y en algunas ocasiones
ni siquiera se han definido las clases.
3.1.1.3 Etapas del Proceso de Reconocimiento de Patrones
La Metodología para el proceso de modelación matemática de problemas de
Reconocimiento de Patrones [157] consta de siete etapas, como se muestra en el esquema de la
figura 3.1 [159], y son:
1. Formulación del problema inicial A (cuya solución es R).
2. Recolección de información.
3. Formalización lógica-matemática del problema A en A’. Selección del modo de
solución del problema A’.
4. Solución del problema matemático (R’).
5. Interpretación y validación de los resultados respecto al problema A.
6. Pruebas de campo.
Figura 3.1. Esquema global de la modelación matemática
Las etapas anteriores contienen un conjunto de acciones, que según la experiencia
práctica, resultan fundamentales en el proceso y las cuales se describen a continuación:
1. Formulación del problema inicial A. En esta etapa, el especialista tiene una mayor
participación porque es quien expresa en su lenguaje el problema a resolver, determinando:
A. El objetivo de la investigación.
B. Los objetos de la investigación.
C. Las propiedades que caracterizan a los objetos.
D. Las características de dichas propiedades.
E. Las relaciones entre los objetos y sus propiedades.
F. Las hipótesis en que se fundamenta el trabajo a realizar.
G. Las fuentes de información.
H. Qué información es relevante, si esto se conoce.
I.
Cómo se recolecta la información.
J.
Cómo se interpreta y manipula la información.
K. Cómo se requiere que se presenten los resultados.
L. La identificación de ruidos y distorsiones de la información.
M. La valoración de los errores en la información en su entrada, procesamiento y
salida.
Es obvio que en esta etapa, el papel principal lo desempeña el especialista del área de
aplicación. Sin embargo, nada tendría sentido si el papel de los modeladores (matemáticos,
ingenieros, informáticos entre otros) es pasivo, de contemplación anodina. Se trata por el contrario
de cuestionar, de entender la esencia del fenómeno a explicar, si bien en el lenguaje del
especialista del área, pero con la intención de alcanzar un verdadero diálogo, en el que las ideas
esenciales subyacentes al problema que investigamos se vean con precisión [158, 161, 163].
2.
La Recolección de datos. La recolección de datos se refiere al uso de una gran
diversidad de técnicas y herramientas que pueden ser utilizadas por el modelador para recabar
información útil en el problema que se pretende resolver, dicha información se puede obtener a
través de las entrevistas, la encuesta, el cuestionario, la observación, el diagrama de flujo y el
diccionario de datos.
Todos estos instrumentos se aplicarán en un momento en particular, con la finalidad de
buscar información que será útil a una investigación en común. Los analistas modeladores utilizan
una variedad de métodos a fin de recopilar los datos sobre una situación existente, como
entrevistas, cuestionarios, inspección de registros (revisión en el sitio) y observación. Cada uno
tiene ventajas y desventajas. Generalmente, se utilizan dos o tres para complementar el trabajo de
cada una y ayudar a asegurar una investigación completa [41, 46].
3.
Formalización del problema A. Esta etapa es posible que mentalmente se lleve a cabo a
medida que el especialista formula el problema. Es compleja porque se requiere ―traducir‖ del
lenguaje del especialista al lenguaje formal de la Matemática, de tal manera que de la etapa
anterior queden reflejados: objetivos, objetos, propiedades y su escala de medición,
características, relaciones entre objetos y entre propiedades, el concepto de clase de objetos,
propiedades de las mismas, los conceptos de analogía, la evaluación de los errores, entre otros.
En esta etapa se realizan:
A. La selección del espacio de representación de los objetos de investigación;
B. La determinación de las funciones que modelarán los criterios de comparación de
valores de cada variable, así como entre las descripciones de los objetos.
C. El análisis desde el punto de vista formal de los requisitos de la solución que el
especialista impone a los resultados,
D. La interpretación que el especialista da a los datos.
Estos son aspectos que contribuyen en la búsqueda de la solución y en la selección de
algoritmos óptimos para el problema en cuestión, y determinan en gran medida la forma en que
serán elaborados los datos iniciales a partir de su organización en lo que se denomina Matriz de
Aprendizaje (MA) o también Tabla de Objeto-Propiedad (TOP) [41, 46, 47].
4.
Selección del modo de solución del problema (solución del problema matemático A’). El
proceso de formalización muchas veces restringe fuertemente el área de búsqueda de las técnicas
de solución. En esta etapa un papel decisivo lo desempeña el análisis de la TOP. En esta etapa se
puede reducir la cantidad de información requerida al mismo tiempo que se aumenta su calidad. Se
decide el enfoque o combinación de ellos para la solución del problema A’, determinando la familia
de algoritmos a la que pertenece. La etapa se concluye con la elección del modo de solución que
se debe aplicar; y si es el caso, el esquema de procesamiento de la información [41, 46, 47].
5.
Solución del problema expresado en términos matemáticos (se obtiene R’). Tomando
como base los datos formalizados y el tipo de algoritmo a utilizar, se elabora el sistema
computarizado (si lo amerita el caso) y se obtiene la solución R’ del problema A’. Se analiza la
concordancia del resultado alcanzado R’ con los objetivos formalizados del problema matemático
A’, teniendo como herramienta fundamental la formalización de los criterios para la evaluación de
resultados de la segunda etapa [41, 46, 47].
6.
Análisis e Interpretación de los resultados respecto al problema (de R’ a R luego hacia
A). Los resultados de A’ (R’) se interpretan expresándolos en un lenguaje o en otro, en forma
similar a lo que se hizo en su contraparte en la segunda etapa. Después de la correspondencia del
resultado R’ con el problema A’ en la etapa anterior, se hace necesario el análisis entre el resultado
R y el problema A. Las acciones resolutivas obtenidas son variadas y dependen de los resultados
de dicho análisis [41, 46, 47].
El especialista del área de aplicación también es el máximo responsable de esta etapa y
debe ser ejecutada en conjunto con los elementos del equipo multidisciplinario.
7.
Pruebas de campo. Es una fase de validación científica que debe cumplir con las
condiciones, requisitos y normas establecidas del problema planteado por el especialista. Estas
pruebas son un ideal para evaluar los resultados lógicos obtenidos con los resultados de la
realidad [41, 46, 47].
Así, la aplicación de la metodología siempre nos llevará de manera secuencial a la solución
definitiva. En ocasiones habrá que regresarse a etapas anteriores para reconsiderar algunas de las
decisiones tomadas, a confirmarlas a veces, otras a modificarlas. Cabe mencionar que este
proceso, que puede parecerle a algunos engorroso, aburrido, innecesario, ha dado frutos antes de
llegar a clasificar, antes de procesar los datos [41, 46, 47].
3.1.2 Minería de Datos
La tecnología informática constituye la infraestructura fundamental de las grandes
organizaciones y permite, hoy en día, registrar múltiples detalles de la vida de las empresas. Las
bases de datos posibilitan almacenar cada transacción, así como otros muchos elementos que
reflejan la interacción de la organización con otras organizaciones, clientes, o internamente, entre
sus divisiones y empleados, etcétera.
Es imprescindible convertir los grandes volúmenes de datos existentes en experiencia,
conocimiento y sabiduría, para que sea útil a la toma de decisiones, especialmente en las grandes
organizaciones y proyectos científicos. La búsqueda de información relevante siempre es útil a la
administración empresarial: el control de la producción, el análisis de los mercados, el diseño en
ingeniería y la exploración científica, porque pueden ofrecer las respuestas más apropiadas a las
necesidades de información. Varias preguntas se relacionan frecuentemente con los datos, la
información y el conocimiento. Su respuesta, demanda la participación de varios especialistas.
La Minería de Datos es un conjunto de técnicas agrupadas con el fin de crear mecanismos
adecuados de dirección, entre ellas puede citarse la estadística, el reconocimiento de patrones, la
clasificación y la predicción [47].
Para descubrir patrones de relaciones útiles en un conjunto de datos se empezaron a
utilizar métodos que fueron denominados de diferente forma. El término Data Mining, en inglés, no
era, al principio, del agrado de muchos estadísticos, porque sus investigaciones estaban dirigidas a
procesar y reprocesar suficientemente los datos, hasta que confirmasen o refutasen las hipótesis
planteadas. Desde este ángulo, la Minería de Datos aplica una dinámica que se mueve en sentido
contrario al método científico tradicional.
Con frecuencia, el investigador formula una hipótesis; luego, diseña un experimento para
captar los datos necesarios y realizar los experimentos que confirmen o refuten la hipótesis
planteada. Este es un proceso, que realizado de forma rigurosa, debe generar nuevos
conocimientos.
En la Minería de Datos, por el contrario, se captan y procesan los datos con la esperanza
de que de ellos surja una hipótesis apropiada. Se desea que los datos nos describan o indiquen el
porqué presentan determinada configuración y comportamiento. Como afirma Eduardo Morales:
―La más inocente mirada a los datos puede inspirar una hipótesis. Recuérdese que los humanos
tienen un gran poder para generalizar e identificar patrones.
Luego
entonces,
validar
una
hipótesis inspirada por los datos en los datos mismos, será numéricamente significativa, pero
experimentalmente inválida [154].‖
Las técnicas de Minería de Datos no pueden utilizarse para confirmar o rechazar hipótesis,
porque puede conducir a errores fatales. Su función se trata de explorar datos, darles sentido,
convertir un volumen de datos, que poco o nada aportan a la descripción, en información para
interpretar un fenómeno, para adoptar decisiones de acuerdo con las necesidades.
3.1.2.1 Componentes de la Minería de Datos
Las componentes básicas de los métodos de la Minería de Datos son:
1. Lenguaje de representación del modelo: comprende las suposiciones y restricciones
utilizadas en la representación empleada.
2. Evaluación del modelo: incluye el uso de técnicas de validación cruzada para la
predictividad y aplicación de principios como el de máxima verosimilitud o el de descripción
mínima para evaluar la calidad descriptiva del modelo.
3. Método de búsqueda: puede dividirse en búsqueda de parámetros y del modelo,
determinan los criterios que se siguen para encontrar los modelos.
Algunas de las técnicas más comunes usadas en la Minería de Datos son:
Árboles de decisión y reglas de clasificación.
Métodos de clasificación y regresiones no-lineales.
Métodos basados en ejemplos prototípicos.
Modelos gráficos de dependencias probabilísticas.
Modelos relacionales.
3.1.2.2 Criterios para aplicar la Minería de Datos
Factibilidad económica - organizativa: existe potencialmente un impacto significativo, no se
conocen métodos alternativos, se dispone de personal calificado, no existen problemas de
legalidad o violación de la información.
Factibilidad técnica: se dispone de suficientes datos, los datos contienen rasgos
relevantes, existe poco ruido en los datos y se domina la aplicación de los métodos.
3.1.2.3 Técnicas de Minería de Datos más usadas en la Toma de
Decisiones
3.2.1.3.1 Tablas de Decisión
Las tablas de decisión son herramientas que se utilizan en la etapa de análisis de sistemas
para efectuar una representación gráfica simplificada de los procesos lógicos que hayan sido
relevados durante la investigación detallada, a efectos de analizar si se adecuan o no a los
requerimientos del sistema.
En la etapa de diseño de sistemas para representar gráficamente procesos lógicos creados
para satisfacer las necesidades del sistema bajo estudio y aisladamente, es decir, en tareas que no
tengan que ver con el estudio de sistemas, para la representación simplificada de procedimientos
específicos que sirvan de apoyo para una interpretación correcta del mismo y su posterior
ejecución (procedimientos legales, laborales, aplicación de normas técnicas, etc.) .
Las Tablas de Decisión están compuestas por cuatro secciones:
Identificación de condiciones
Identificación de acciones
Reglas de decisión
Valores de condiciones
Valores de acciones
a) Identificación de condiciones: se detalla una condición por renglón. Se llaman condiciones
a situaciones variables que pueden ocurrir (por ejemplo tipo de cliente, monto de ventas,
antigüedad, etc.).
b) Identificación de acciones: se describen todos los pasos que se deben realizar. Se llaman
acciones a los distintos comportamientos que se asumirán en función de los valores que
tomen las condiciones y se escriben en el orden en que deben ser ejecutadas (por ejemplo
calcular descuento, calcular retención, pedir materiales, etc.).
c) Valores de condiciones: se indican valores de las condiciones indicadas en la primera
sección, dependiendo del tipo de tabla de decisión (de entrada limitada o extendida) que se
construya para representar el proceso.
d) Valores de acciones: se indican valores de las acciones descritas en la segunda sección,
dependiendo del tipo de tabla de decisión (de entrada limitada o extendida) que se
confeccione.
Una vez confeccionada la tabla, quedarán determinadas las reglas de decisión, es decir,
las proposiciones que se leerán verticalmente, partiendo desde la sección Valores de Condiciones
y descendiendo por la sección Valores de Acciones. Se las enuncia así:
―SI...(condición1, condición2, etc.)... ENTONCES ... (acción1, acción2, etc.)…‖.
Las tablas de decisión permiten agrupar todas las combinaciones de condiciones y todas
las posibilidades lógicas en un conjunto que sea fácil de entender y analizar, creando además la
posibilidad de controlar que no se haya omitido ninguna alternativa y que se hayan cubierto todas
las posibilidades.
3.2.1.3.2 Árboles de Decisión
Son estructuras que representan conjuntos de decisiones [164]. Está técnica se encuentra
dentro de una metodología de aprendizaje supervisado, donde su principal ventaja es la facilidad
de interpretación de la decisión adoptada. Su representación es en forma de árbol en donde cada
nodo es una decisión, los cuales a su vez generan reglas para la clasificación de un conjunto de
datos [165].
Los árboles de decisión explican el comportamiento respecto a una determinada tarea de
decisión, reduciendo el número de variables independientes y permitiendo la clasificación de
nuevos casos siempre y cuando no existan modificaciones sustanciales en las condiciones bajo las
cuales se generan los ejemplos que sirvieron para su construcción.
3.2.1.3.3 Reglas de Asociación
Establecen asociaciones en base a los perfiles de los clientes sobre los cuales se realiza la
MD. Las reglas de Asociación están siempre definidas sobre atributos binarios [166].
3.2.1.3.4 Representación basada en instancias
[167] A diferencia de aquellos métodos de aprendizaje que construyen una descripción
general, y explícita de la función objetivo a partir de los datos de entrenamiento, estos métodos
simplemente guardan dichos datos. La generalización sobre estos ejemplos se pospone hasta que
una nueva instancia debe ser clasificada. Cada vez que una nueva instancia es encontrada, se
calcula su relación con los ejemplos previamente guardados con el propósito de asignar un valor
de la función objetivo para la nueva instancia. El aprendizaje basado en instancias incluye el vecino
más cercano y métodos de regresión pesados localmente que asumen que las instancias pueden
ser representadas como puntos en el espacio euclideo.
Los métodos de aprendizaje basados en instancias son denominados ―perezosos‖ pues
dilatan el procesamiento hasta que una nueva instancia deba ser clasificada. Una ventaja de este
retraso es que no se estima la función objetivo una vez para todo el espacio de instancias, sino que
se hace en forma local y diferente para cada nueva instancia a clasificar.
3.2.1.3.5 Clústers
Agrupan datos dentro de un número de clases preestablecidas o no, partiendo de criterios
de distancia o similitud, de manera que las clases sean similares entre sí y distintas con las otras
clases. Este método debido a su naturaleza flexible se puede combinar fácilmente con otro tipo de
técnica de Minería de Datos, dando como resultado un sistema híbrido.
Clustering y el vecino más cercano. Es una técnica que clasifica cada registro en un
conjunto de datos basado en una combinación de las clases de k registro/s más similar/es a él en
un conjunto de datos históricos. Algunas veces se llama la técnica del vecino k-más cercano [166].
3.2.1.3.6 Técnicas basadas en la Estadística [168, 169]
Ciertamente, la Minería de Datos bebe de la Estadística, de la que toma las siguientes técnicas:
Análisis de varianza: mediante el cual se evalúa la existencia de diferencias significativas
entre las medias de una o más variables continúas en poblaciones distintas.
Regresión: define la relación entre una o más variables y un conjunto de variables
predictoras de las primeras.
Prueba chi-cuadrado: por medio de la cual se realiza el contraste la hipótesis de
dependencia entre variables.
Análisis de agrupamiento o clustering: permite la clasificación de una población de
individuos caracterizados por múltiples atributos (binarios, cualitativos o cuantitativos) en
un número determinado de grupos, con base en las semejanzas o diferencias de los
individuos.
Análisis discriminante: permite la clasificación de individuos en grupos que previamente se
han establecido, permite encontrar la regla de clasificación de los elementos de estos
grupos, y por tanto una mejor identificación de cuáles son las variables que definan la
pertenencia al grupo.
Series de tiempo: permite el estudio de la evolución de una variable a través del tiempo
para poder realizar predicciones, a partir de ese conocimiento y bajo el supuesto de que no
van a producirse cambios estructurales.
3.1.3 Métodos de la Toma de Decisiones en los Sistemas
3.1.3.1 Sistemas de Soporte a las Decisiones
El Sistema de Soporte a las Decisiones (DSS), es un bloque de toma de decisiones
sustentado en Base de Datos para que quienes toman las decisiones puedan usar para apoyar el
proceso de decidir.
En un sentido amplio, se define a este sistema, como un conjunto de programas y
herramientas que permiten obtener de manera oportuna la información que se requiere mediante el
proceso de la toma de decisiones que se desarrolla en un ambiente de incertidumbre. Ayudan a la
toma de decisiones de los administradores al combinar datos, modelos analíticos sofisticados y
software amigable en un solo sistema poderoso que puede dar soporte a la toma de decisiones
semiestructuradas o no estructuradas. El DSS está bajo el control del usuario desde la concepción
inicial a la implantación final y uso diario.
El DSS tiene como finalidad apoyar a la toma de decisiones mediante la generación y
evaluación sistemática de diferentes alternativas o escenarios de decisión, todo esté utilizando
modelos y herramientas computacionales. Un DSS no soluciona problemas, ya que solo apoya el
proceso de la toma de decisiones. La responsabilidad de tomar una decisión, de optarla y de
realizarla es de los administradores, no del DSS.
Dado que su objetivo es mejorar la efectividad de las decisiones y no la eficiencia con la
que esas decisiones son tomadas [170].
3.1.3.1.1 Tipos de Sistemas de Soporte a Decisiones
Sistemas de información gerencial (MIS, Management Information Systems): también
llamados Sistemas de Información Administrativa (AIS) dan soporte a un espectro más
amplio de tareas organizacionales, encontrándose a medio camino entre un DSS
tradicional y una aplicación CRM/ERP implantada en la misma compañía.
Sistemas de información ejecutiva (EIS, Executive Information System): son el tipo de
DSS que más se suele emplear en Business Intelligence, ya que proveen a los gerentes de
un acceso sencillo a información interna y externa de su compañía, y que es relevante para
sus factores clave de éxito.
Sistemas expertos basados en Inteligencia Artificial (SSEE): también llamados
sistemas basados en conocimiento, utilizan redes neuronales para simular el conocimiento
de un experto y utilizarlo de forma efectiva para resolver un problema concreto.
Sistemas de apoyo a decisiones de grupo (GDSS, Group Decision Support Systems):
es "un sistema basado en computadoras que apoya a grupos de personas que tienen una
tarea (u objetivo) común, y que sirve como interfaz con un entorno compartido". El
supuesto en que se basa el GDSS es que si se mejoran las comunicaciones se pueden
mejorar las decisiones.
3.1.3.1.2 Características de los Sistemas de Soporte a la Toma de
Decisiones
Interactividad: sistema computacional con la posibilidad de interactuar en forma amigable y
con respuestas a tiempo real con el encargado de tomar decisiones.
Tipo de decisiones: apoya el proceso de toma de decisiones estructuradas y no
estructuradas.
Frecuencia de Uso: tiene una utilización frecuente por parte de la administración media y
alta para el desempeño de su función.
Variedad de Usuarios: puede emplearse por usuarios de diferentes áreas funcionales como
ventas, producción, administración, finanzas y recursos humanos.
Flexibilidad: permite acoplarse a una variedad determinada de estilos administrativos:
Autocráticos, Participativos, etc.
Desarrollo: permite que el usuario desarrollo de manera directa modelos de decisión sin la
participación operativa de profesionales en informática.
Interacción Ambiental: permite la posibilidad de interactuar con información externa como
parte de los modelos de decisión.
Comunicación Inter-Organizacional: facilita la comunicación de información relevante de
los niveles altos a los niveles operativos y viceversa, a través de gráficas.
Acceso a base de Datos: tiene la capacidad de accesar información de las bases de datos
corporativos.
Simplicidad: simple y fácil de aprender y utilizar por el usuario final.
3.1.3.1.3 Componentes Funcionales que integran un DSS.
Una de las características que poseen un DSS es la facilidad que un usuario, sin tener
conocimientos amplios sobre sistemas computacionales, pueda desarrollar sus propios modelos de
decisión. Estos modelos son construidos con ayuda de herramientas, que en términos generales
se clasifican en herramientas de hardware y software. Las primeras están constituidas por todos
los elementos del hardware, incluyendo microcomputadoras, monitores de alta resolución,
impresoras, etc. Las segundas son aquellas que permiten al usuario generar sus propias
aplicaciones, manipular su información particular y, en general, interactuar con el DSS.
Una parte fundamental de los DSS es la facilidad para explorar la información a través de
gráficas de alta calidad y reportes que se diseñan y obtienen en intervalos cortos de tiempo, así
como la disponibilidad de lenguajes de muy alto nivel para facilitar la consulta de información que
contiene la Base de Datos.
La mayoría de los DSS permiten a los usuarios desarrollar sus propios modelos de
decisión. Esto implica la posibilidad de manejar entrada, procesamiento, almacenamiento, y salida
de información.
En este sentido el usuario diseña sus propios formatos de entrada y salida, así como la
estructura de almacenamiento de información y las funciones de procesamiento, de tal forma que
el sistema puede evolucionar de manera permanente, a través de los cambios que periódicamente
se van integrando a la aplicación. Esta forma de desarrollo denominada prototipo, es diferente al
proceso tradicional de desarrollo de un sistema transaccional típico. En este último, el usuario tiene
que definir de antemano todos los requerimientos de sus sistemas de aplicación durante las fases
de análisis antes de iniciar la fase de diseño.
Otra característica que se deriva de estos Sistemas de desarrollo es el concepto de
aplicaciones desechables; es decir, modelos de decisión que fueron desarrollados en un tiempo
muy corto, para apoyar una decisión particular. Una vez tomada la decisión no repetitiva, el modelo
que se desarrolló carece de valor y desecha, o bien, se almacena para usarse con modificaciones
en una decisión posterior.
Los DSS permiten contestar preguntas específicas basadas en la combinación de dos
elementos [171]:
1. Una base de datos que recopila distintas capas de información geo-referenciada (SIG).
Para manejar estas bases de datos se utilizan programas específicos de computación que
trabajan con capas superpuestas de imágenes satelitales, cartografía de recursos
naturales, catastro, resultados de investigaciones, información proveniente de encuestas e
informantes calificados, etc.
2. Uno o más modelos de simulación que integran distintas capas de información, realizan
cálculos y brindan resultados de acuerdo a las necesidades de los usuarios. Estos modelos
pueden variar en su complejidad, pero son los que permiten aprovechar la base de datos y
relacionar la información existente.
Planificación
Modelos
SSD
SIG
Ejecución
Monitoreo
Figura 3.2. Esquema del funcionamiento del Sistema de Soporte de Decisiones
3.1.3.2 Proceso de Decisión
Es el proceso durante el cual la persona debe escoger entre dos o más alternativas. La
toma de decisiones en una organización se circunscribe a una serie de personas que están
apoyando el mismo proyecto. Debemos empezar por hacer una selección de decisiones, y esta
selección es una de las tareas de gran trascendencia.
Las condiciones en las que se toman las decisiones pueden clasificarse en términos
generales como certidumbre, riesgo e incertidumbre.
Certidumbre. Es la condición en que los individuos son plenamente informados sobre un
problema, las soluciones alternativas son obvias, y son claros los posibles resultados de cada
decisión. En condiciones de certidumbre, la gente puede al menos prever (si no es que controlar)
los hechos y sus resultados. Esta condición significa el debido conocimiento y clara definición tanto
del problema como de las soluciones alternativas. Una vez que un individuo identifica soluciones
alternativas y sus resultados esperados, la toma de la decisión es relativamente fácil. El
responsable de tomar la decisión sencillamente elige la solución con el mejor resultado potencial.
Un problema puede tener muchas posibles soluciones, y calcular los resultados esperados de
todas ellas puede ser extremadamente lento y costoso.
La toma de decisiones en condiciones de incertidumbre es la excepción para la mayoría de
los administradores y otros profesionales. Sin embargo, los administradores de primera línea toman
decisiones diariamente en condiciones de certidumbre, o casi.
Riesgo. Es la condición en la que los individuos pueden definir un problema, especificar la
probabilidad de ciertos hechos, identificar soluciones alternativas y enunciar la probabilidad de que
cada solución dé los resultados deseados. El riesgo suele significar que el problema y las
soluciones alternativas ocupan algún punto intermedio entre los extremos representados por la
plena información y definición y el carácter inusual y ambiguo.
La probabilidad es el porcentaje de veces en las que ocurriría un resultado específico si un
individuo tomara muchas veces una misma decisión.
Probabilidad objetiva. La posibilidad de que ocurra un resultado específico con base en
hechos consumados y números concretos se conoce como probabilidad objetiva. En ocasiones, un
individuo puede determinar el resultado probable de una decisión examinando expedientes
anteriores. Por ejemplo, aunque las compañías de seguros de vida no pueden determinar el año en
que morirá cada tenedor de pólizas, pueden calcular las probabilidades objetivas se basan en la
expectativa de que los índices de mortalidad prevalecientes en el pasado se repitan en el futuro.
Probabilidad subjetiva. A la apreciación basada en juicios y opiniones personales de que
ocurra un resultado específico se conoce como probabilidad subjetiva. Tales juicios varían de un
individuo a otro, dependiendo de su intuición, experiencia previa en situaciones similares,
conocimientos y rasgos personales (como preferencia por la asunción o por la elusión de riesgos).
Incertidumbre. Es la condición en que un individuo no dispone de la información necesaria
para asignar probabilidades a los resultados de las soluciones alternativas. De hecho, quizá el
individuo esté imposibilitado incluso para definir el problema, y mucho más para identificar
soluciones alternativas y posibles resultados. La incertidumbre suele indicar que el problema y las
soluciones alternativas son tanto ambiguos como extremadamente inusuales.
Las condiciones de certidumbre, riesgo e incertidumbre aparecen en la línea diagonal que
va del extremo inferior izquierdo al extremo superior derecho (Figura 3.3).
Tipos de
Problemas
Inusuales
Conocidos y
Claramente
Definidos
Incertidumbre
Decisiones
Decisiones
Riesgo
Decisiones
Condiciones en las que se toman decisiones
Certidumbre
Soluciones
Alternativas
Experimental es y
Figura 3.3. Condiciones de certidumbre
3.2 TECNOLOGIA CIADEC USADA EN LA MINERIA DE DATOS
El punto de partida son los trabajos previos [10], donde se analizó la caracterización e
interpretación de clases a partir de variables cualitativas, usando conceptos fundamentales como:
variable caracterizadora (v.c.), variable parcialmente-caracterizadora y Sistema caracterizador
(mínimo, completo).
3.2.1 Caracterización a partir de Variables Categóricas
Se define el conjunto de valores propios de la variable
por
k
c
como: el conjunto de valores de
X k para la clase C , representado
X k que toman algunos elementos de C y ningún otro
elemento fuera de C los toma, esto es, son valores exclusivos de C . Estos valores propios,
cuando ocurren, identifican una clase con toda seguridad, por lo que son llamados valores
caracterizadores de la clase C [10].
Una variable caracterizadora
k
c
: i
C, xik
X k es caracterizadora de una clase dada C si
k
c
i
C, xik
k
c
Para los dominios poco estructurados (dpe) en general es difícil encontrar variables
caracterizadoras para las clases de una partición P. Para los propósitos es interesante considerar
las variables
X k que son parcialmente caracterizadoras de una clase C . Estas variables se
definen como
X k tales que:
k
c
. Esto es, si tiene al menos un valor propio de la clase C ,
aunque puede compartir alguno con otra clase.
Así, de los conceptos básicos en la construcción de este modelo híbrido es el de la
representación para identificar lo que se define como variable caracterizadora de la clase C ,
concepto que descansa a su vez en el de valor propio de la clase
C . Así, se definen los siguientes
conceptos [25]:
Un valor
csk
Dk
de la variable
X k es propio de la clase C , si cumple:
( i C : xik
csk ) ( i C : xik
csk )
Estos valores, cuando ocurren, identifican una clase con toda seguridad, por lo que, se les
llamara valores caracterizadores de C y se denotan por
Una variable
Vck
P si tiene al menos un
k
C , aunque puede compartir alguno con otras clases; se llamara Vc al
conjunto de valores parcialmente caracterizadores de
tiene
, siendo C la clase y k la variable.
X k es parcialmente caracterizadora de la clase C
valor propio de la clase
Una variable
k
sc
C:
{csk : csk es valor propio de X x para la clase C }
X k es totalmente caracterizadora de la clase C
P , si todos los valores que
X k en la clase C son propios de C . En este caso, se denota por
estos valores, los cuales caracterizan totalmente a la clase
k
c
c kj : c kj
Vck
el conjunto de
C:
C , c kj
C
k
c
Vck
3.2.2 Sistema de Caracterización
Para la caracterización de una partición es necesario describir los que es un Sistema de
Caracterización. Una partición puede ser caracterizada por lo que se conoce como Sistema de
Caracterización ( S ):
S = {( C , X k ,
k
c ):
C
P
k
c
}
El Sistema de Caracterización es mínimo y completo (Hipótesis de mundo cerrado) si:

Si
S contiene únicamente una tripleta para cada clase C
Sistema Mínimo y Completo.
P , se llama

Algunas veces el sistema de caracterización S No es Completo:
C
P : (C ' , X x ,
k
c
) S
C
C'
3.3 EL BOXPLOT
Un boxplot múltiple es una herramienta de la estadística descriptiva inventada por Jhon
Turkey [162] cuya representación gráfica [77], muestra la relación entre una variable numérica y
algunos grupos/clases.
Así tenemos algunos conceptos básicos relacionados con el boxplot, a decir:
Estadísticos: son valores representativos que proporcionan información sobre la serie en
cuanto a su posición en la escala de medición, agrupamiento en torno a un valor, distribución de
los datos y concentración en una región entre otros. Los estadísticos proveen información sobre
una muestra. Cuando se trabaja con toda la información (población) se le denomina parámetro.
Cuartiles: son valores que dividen a la distribución en cuatro partes iguales en cuanto a la
cantidad de datos. Así, tenemos que el primer cuartil (Q1), es el valor por debajo del cual ocurre el
25% de las observaciones y el tercer cuartil (Q 3) es aquel por debajo del cual ocurre el 75% de las
observaciones. Siguiendo en esta línea, el segundo cuartil (Q 2) coincide con la mediana de la
distribución.
Dispersión: indica la variabilidad del conjunto de datos: cómo se distribuyen los datos de
estudio. Una dispersión grande indica un conjunto de datos heterogéneos e implica poca utilidad
de una medida de tendencia central únicamente para describir la distribución.
Simetría: indica la forma del conjunto de datos, lo cual implica observar donde se concentra
la información. Para el estudio de la forma de una distribución, también se usan los términos sesgo
o asimetría. Una distribución puede ser:
a) Simétrica: en este tipo de distribuciones la media, la moda y la mediana coinciden
y los datos se distribuyen de igual forma a ambos lados de estas medidas. En el
contexto, hay igual número de opiniones por encima que por debajo de la mediana.
b) Asimétrica positiva o sesgada a la derecha: los datos tienden a concentrarse hacia
la parte inferior de la distribución y se extienden más hacia la derecha. La media
suele ser mayor que la mediana en estos casos. En el contexto, las opiniones se
concentran en un puntaje menor y las de mayor puntaje están más dispersas.
c) Asimétrica negativa o sesgada a la izquierda: los datos tienden a concentrarse
hacia la parte superior de la distribución y se extienden más hacia la izquierda. La
media suele ser menor que la mediana en estos casos. En el contexto, las
opiniones se concentran en un puntaje mayor y las de menor puntaje están más
dispersas.
d) Medida de tendencia central: estadístico que procura aportar información sobre la
localización central de la distribución de datos. Son: la media aritmética, la moda,
la mediana, la media geométrica y la media armónica, y se emplean de acuerdo al
objetivo del estudio y al tipo de dato que se tenga.
Y las medidas descriptivas que identifican las partes de un boxplot:
1. Valor máximo: es el valor extremo superior de la distribución de datos. Los valores por
encima de encima de este límite se consideran también atípicos.
2. Tercer cuartil: es aquel por debajo del cual ocurre el 75% de las observaciones o datos.
3. Mediana: coincide con el segundo cuartil. Divide a la distribución horizontal en dos partes
iguales y se representa por un segmento horizontal. De este modo, 50% de las
observaciones están por debajo de la mediana y 50% está por encima.
4. Primer Cuartil: es el valor por debajo del cual ocurre el 25% de las observaciones o datos.
5. Valor Mínimo: es el valor extremo inferior de la distribución de datos. Por debajo de este
valor se encuentran los valores atípicos.
6. Valores Atípicos: son valores que están apartados del cuerpo principal de la distribución de
datos. Pueden representar efectos de causas extrañas, opiniones extremas o en el caso de
la tabulación manual, errores de medición o registro. Se colocan en la gráfica con
asteriscos (*) o puntos (.) según se alejan menos o más del conjunto de datos. Se utiliza un
superíndice numérico para indicar el número de veces que aparece ese dato como atípico.
7. Media Aritmética: es lo que tradicionalmente se conoce como promedio. Originalmente no
forma parte del boxplot, sin embargo, se considera su inclusión para dar una idea del
puntaje general de los datos estudiados.
Para cada grupo, se visualiza el intervalo de valores que toma la variable y las
observaciones atípicas (outliers) se marcan con "*". Para cada clase, se despliega una caja de Q1
(primer cuartil) a
Q3 (tercer cuartil) que representa el 50% de los valores de esa clase, a partir de
ésta se marcan los ―bigotes‖ con sus extremos el mínimo y el máximo que representan cada uno el
25% de los valores de esa clase y la mediana se marca con una línea horizontal.
Es muy fácil observar si el boxplot múltiple de cierta clase no intersecta con el de las
demás; en un caso así, la variable es totalmente caracterizadora. A veces, sólo es una parte del
boxplot la que no interseca; en este caso se trata de una variable parcialmente caracterizadora.
Para identificar estas variables, se estudian los valores propios que toma una variable
en una clase
Xk
C , en relación a las otras y se ve si son de la clase o no; para ello hay que analizar
cómo son las interacciones entre clases.
Ejemplo. En la figura 3.4 se muestra el boxplot múltiple de la variable T.C. (total de
personas colocadas), variable del dominio del ámbito laboral, la cual nos indica el total de personas
colocadas en alguna institución una vez terminado el curso impartido. Como se puede observar el
la figura 3.4 cada clase tiene asociada un boxplot, estos boxplot al proyectarlos sobre el eje vertical
la mayoría se intersecan, lo cual significa que comparte valores propios con otras clases definiendo
a la variable parcialmente caracterizadora para algunas clases.
Figura 3.4. Boxplot de la variable total de personas colocadas T.C.
Por su facilidad de construcción e interpretación, permite también comparar a la vez varios
grupos de datos sin perder información ni saturarse de ella. Esto ha sido particularmente
importante a la hora de escoger esta representación para mostrar información.
En cuanto a la interpretación del boxplot se deberán tener las siguientes consideraciones a
la hora de interpretarlo:
1) Mientras más larga la caja y los bigotes, más dispersa es la distribución de datos.
2) La distancia entre las cinco medidas descritas en el boxplot (sin incluir la media
aritmética) puede variar, sin embargo, recuerde que la cantidad de elementos entre
una y otra es aproximadamente la misma. Entre el límite inferior y Q 1 hay igual
cantidad de opiniones que de Q1 a la mediana, de ésta a Q3 y de Q3 al límite
superior. Se considera aproximado porque pudiera haber valores atípicos, en cuyo
caso la cantidad de elementos se ve levemente modificada.
3) La línea que representa la mediana indica la simetría. Si está relativamente en el
centro de la caja la distribución es simétrica. Si por el contrario se acerca al primer
o tercer cuartil, la distribución pudiera ser sesgada a la derecha (asimétrica
positiva) o sesgada a la izquierda (asimétrica negativa) respectivamente. Esto
suele suceder cuando las observaciones o datos tienden a concentrase más hacia
un punto de la escala.
4) La mediana puede inclusive coincidir con los cuartiles o con los límites de los
bigotes. Esto sucede cuando se concentran muchos datos en un mismo punto, por
ejemplo, cuando muchos estudiantes opinan igual en determinada pregunta.
Pudiera ser este un caso particular de una distribución sesgada o el caso de una
distribución muy homogénea.
5) Las opiniones emitidas como No aplica (N/A) cuando en realidad sí aplica o las
opiniones nulas (cuando el estudiante no opina en una pregunta), no son tomadas
en cuenta para elaborar el boxplot de esa pregunta. Por esta razón encontrará que
en ocasiones no hay igual número de opiniones para todas las preguntas.
6) Se debe estar atento al número de estudiantes que opina en cada pregunta. Lo
que pareciera ser dispersión en los resultados, en ocasiones podría deberse a un
tamaño de muestra muy pequeño: pocos estudiantes opinaron. Debe ser cauteloso
a la hora de interpretar. En estos casos se sugiere remitirse al reporte numérico.
7) En términos comparativos, procure identificar aquellas preguntas cuyos boxplot
parecen diferir del resto. Pudiera con esto encontrar fortalezas o debilidades en su
actuación según la opinión de los estudiantes.
3.4 APRENDIZAJE AUTOMÁTICO
Dado un patrón, su reconocimiento/clasificación puede consistir de una de las siguientes
dos tareas [82]: (i) clasificación supervisada (ej., análisis discrimínante) en la cual el patrón de
entrada se identifica como un miembro de una clase predefinida, (ii) clasificación no supervisada
(ej., clustering) en la cual el patrón se le asigna una clase desconocida hasta ese momento. Aquí el
problema de reconocimiento se está considerando como una tarea de clasificación o
categorización, donde las clases están definidas por el diseñador del sistema (en clasificación
supervisada).
A pesar de los pocos más de cincuenta años de investigación y desarrollo en este campo,
el problema general de reconocimiento de patrones con una orientación, ubicación y escalamiento
no se ha resuelto, esto es, no se ha conseguido un diseño de un reconocedor de patrones
automático de propósito general.
El diseño de un sistema de reconocimiento de patrones incluye los siguientes tres
aspectos:
e) Adquisición de datos y preprocesamiento.
f)
Representación de datos.
g) Toma de decisiones.
El dominio del problema sugiere la selección de los sensores, la técnica de
preprocesamiento, el esquema de representación y el modelo de toma de decisiones.
Generalmente un problema de reconocimiento bien definido y suficientemente delimitado (pocas
variaciones intra-clases y muchas variaciones inter-clases) conducen a una representación
compacta de patrones y a una estrategia simple de toma de decisiones. Por lo que, ningún enfoque
por sencillo que sea, será el mejor ya que se han de utilizar diferentes técnicas y métodos. En
consecuencia, la combinación de éstos es una práctica de uso común en el diseño de sistemas
híbridos de reconocimiento de patrones [83].
Los mejores cinco enfoques conocidas son: i) patrones de referencia [84] y [85], ii)
clasificación estadística [86] y [87] y [79], iii) igualación sintáctica o estructural [88], [83], [89] y [90],
iv) redes neuronales [91] y [92], v) memorias asociativas [93], [94], [95], [96] y [97]. La Tabla 3.1
muestra una breve descripción y comparación de estos enfoques.
Aproximación
Representación
Patrones de
referencia
Muestras, píxeles
curvas
Estadística
Características
Función de
reconocimiento
Correlación,
medida de
distancia
Función
Criterio típico
Error de clasificación
Error de clasificación
discriminante
Sintáctica o
estructural
Primitivas
Redes neuronales
Memorias asociativas
Muestras, píxeles,
características
Muestras, píxeles,
características
Reglas, gramática
Error de aceptación
Función de la red
Error cuadrático medio
Recuperación de
patrones
Razón señal puesta
Tabla 3.1. Enfoques de reconocimiento de patrones
3.4.1 Clasificación Aprovechando el Conocimiento Declarativo de
los Expertos
Los métodos clásicos de clasificación automática aplicada a dominios poco estructurados
[10], muchas veces presentan resultados que no se pueden interpretar. En muchas ocasiones el
experto tiene suficiente conocimiento para organizar parte del dominio en entidades que tengan
sentido. Sin embargo, los métodos estadísticos clásicos prácticamente ignoran esta información.
La herramienta Klass+ [24] implementa la metodología de clasificación basada en reglas
cuya idea fundamental es recoger este conocimiento en forma de reglas que subdividan el espacio
de clasificación
en entornos coherentes y respetar esta primera estructuración sugerida
directamente por el experto. Con esto se pretende cubrir dos objetivos: i) incorporación a la
clasificación de información antes ignorada
(como relaciones entre variables ó restricciones),
recogida de los objetos de la clasificación que se pretende obtener y ii) garantizar la
interpretabilidad de la clasificación obtenida [25].
3.4.2 Representación
Interpretación
del
Conocimiento
del
Experto
e
Introducir un nivel semántico en el proceso de clasificación ha de permitir una
interpretación más clara de las clases finales. Incluir relaciones entre variables, condiciones de
pertenencia a una clase o restricciones de incompatibilidad de grupos de objetos en un único
formalismo conduce a buscar un modelo de representación muy genérico con suficiente potencia
para tratar todo esto.
Esta es la razón por la que el conocimiento adicional que proporciona el experto se
representa a través de reglas lógicas de primer orden.
La estructura de las reglas que contempla el método a usar es sencilla desde el punto de
vista sintáctico y muy potente. Una regla está compuesta de una parte derecha que indica el
nombre de alguna clase C y una parte izquierda con la condición A que ha de satisfacer un
objeto i para formar parte de dicha clase
C . En resumen diremos que un objeto i es
seleccionado por una regla del tipo:
r
(A
C)
Si A se evalúa como cierto para el objeto i .
En general, los objetos pueden satisfacer una, ninguna o más de una regla. Aquéllos que
no cumplan ninguna regla no son motivo de preocupación, ya que se ha dicho que el experto
proporciona sólo un conocimiento parcial sobre el dominio.
3.4.3 Metodología de Clasificación Basada en Reglas
Una vez construida la Base de Reglas (BR), con ayuda del experto, se puede evaluar qué
objetos satisfacen cada una de las reglas. Algunos no satisfacen ninguna. El conjunto de objetos
que están en esta situación forma parte de lo que se denota como clase residual y se integra a la
jerarquía global en la última etapa del proceso de clasificación con reglas.
El resultado de evaluar las reglas sobre los individuos es una partición de la muestra en
k
clases más la clase residual, donde k es el número de partes derechas distintas en las reglas.
Con la finalidad de respetar la estructura de la clasificación jerárquica hace falta que las
clases inducidas por las reglas se constituyan en forma de árbol. En primer lugar se realiza una
clasificación local de cada una de las clases inducidas por las reglas. Esto genera los primeros
nodos internos del árbol final. Por último, los centros de dichas clases se clasifican junto a los
elementos de la clase para integrar todos los elementos en un único árbol ascendente jerárquico
que es el que dará lugar a la clasificación final. Sobre las ventajas de trabajar con este tipo de
metodología, véase [38], [41] y [26].
3.5 PROCESO KNOWLEDGE DISCOVERY IN DATA BASE (KDD)
En [177], se define a KDD como ―el proceso no trivial de identificar patrones válidos,
novedosos, potencialmente útiles y comprensibles a partir de datos‖. En esta definición se resumen
cuales son las propiedades deseables del conocimiento extraído:
Válido: hace referencia a que los patrones deben seguir siendo precisos para datos nuevos
(con un cierto grado de certidumbre).
Novedoso: que aporte algo desconocido tanto para el sistema y preferiblemente para el
usuario.
Potencialmente útil: la información debe conducir a acciones que reporten algún tipo de
beneficio al usuario.
Comprensible: la extracción de patrones no comprensibles dificulta o imposibilita su
interpretación, revisión, validación y uso en la toma de decisiones.
Como se deduce de la anterior definición, el proceso Knowledge Discovery in Data Base
(KDD) es un proceso complejo que incluye no sólo la obtención de los modelos o patrones (el
objetivo de la minería de datos), sino también la evaluación y posible interpretación de los mismos.
El proceso KDD es un proceso iterativo e interactivo. Es iterativo ya que la salida de alguna
de las fases puede hacer volver a pasos anteriores y porque a menudo son necesarias varias
iteraciones para extraer conocimiento de alta calidad. Es interactivo porque el usuario, o más
generalmente un experto en el dominio del problema, debe ayudar en la preparación de los datos,
validación del conocimiento extraído, etc.
El objetivo fundamental del KDD es encontrar conocimiento útil, válido, relevante y nuevo
sobre un fenómeno o actividad mediante algoritmos eficientes, dadas las crecientes órdenes de
magnitud en los datos. Al mismo tiempo hay un profundo interés por presentar los resultados de
manera visual o al menos de manera que su interpretación sea muy clara. Otro aspecto es que la
interacción humano-máquina deberá ser flexible, dinámica y colaboradora [178].
El resultado de la exploración deberá ser interesante y su calidad no debe ser afectada por
mayores volúmenes de datos o por ruido en los datos. En este sentido, los algoritmos de
descubrimiento de información deben ser altamente robustos.
Las metas del KDD son:
Procesar automáticamente grandes cantidades de datos crudos.
Identificar los patrones más significativos y relevantes.
Presentarlos como conocimiento apropiado para satisfacer las metas del usuario.
Relación con otras disciplinas:
KDD nace como interfaz y se nutre de diferentes disciplinas:
Sistemas de información / bases de datos: tecnologías de bases de datos y bodegas de
datos, maneras eficientes de almacenar, accesar y manipular datos.
Estadística, aprendizaje automático / IA (redes neuronales, lógica difusa, algoritmos
genéticos, razonamiento probabilístico): desarrollo de técnicas para extraer conocimiento a
partir de datos.
Reconocimiento de patrones: desarrollo de herramientas de clasificación.
Visualización de datos: interfaz entre humanos y datos, y entre humanos y patrones.
Computación paralela / distribuida: cómputo de alto desempeño, mejora de desempeño de
algoritmos debido a su complejidad y a la cantidad de datos.
Interfaces de lenguaje natural a bases de datos.
En [81] se da un punto de vista práctico del proceso de KDD enfatizando la naturaleza
interactiva e iterativa de este proceso, incluye varios pasos con decisiones que tienen que tomarse
por el usuario. La Figura 3.5 muestra un diagrama del proceso KDD. A continuación se resume
cada una de las etapas:
1. La comprensión del dominio de aplicación, el conocimiento a priori relevante, y las metas
del usuario final.
2. La creación de un conjunto de datos destino. Seleccionar un conjunto de datos, o
seleccionar un subconjunto de variables o muestra de datos, sobre los cuales se realizará
el descubrimiento.
3. La preparación y pre-procesamiento de datos. Operaciones básicas, si fuera necesarias,
como la eliminación de ruido, datos atípicos (outliers) o perdidos, recabar la información
necesaria para modelar el ruido, decidir sobre estrategias para manejar datos pedidos.
4. La reducción y proyección de datos. Encontrar características útiles para representar los
datos depende de las metas del proceso. Usar reducción de la dimensionalidad o métodos
de transformación para reducir el número de variables bajo consideración o para encontrar
representaciones invariantes para los datos.
5. Seleccionar la tarea de Minería de Datos. Decidiendo si la meta del proceso KDD es
clasificación, regresión, clustering o alguna otra.
6. Seleccionar el o los algoritmo(s) de Minería de Datos. Seleccionar los métodos que se
emplearán en la investigación para identificar patrones en los datos. Esto incluye decir qué
modelos y parámetros son los apropiados y escoger un método de Minería de Datos
compatible con el criterio del proceso de KDD.
7. La Minería de Datos. La investigación de patrones en una representación formal o un
conjunto de representaciones como: reglas de clasificación o árboles, regresión, clustering
y así sucesivamente. El usuario puede apoyar el método de Minería de Datos realizando
correctamente los pasos previos.
8. La interpretación de los resultados obtenidos, posible retorno a cualquiera de los pasos
previos del 1-7 para iteraciones posteriores.
9. La consolidación del conocimiento descubierto. Incorporación de este conocimiento en el
desempeño del sistema, o simplemente documentarlo y reportarlo a las partes interesadas.
El proceso de KDD puede incluir iteraciones significativas y contener ciclos entre
cualesquiera dos pasos; así en cada etapa el ―minero informático‖ puede volver a la etapa que el
requiera para continuar su trabajo. La etapa donde se descubre la información es la denominada
Minería de Datos.
Figura 3.5. Diagrama del proceso KDD
3.6 CONCEPTOS BASICOS DE LOGICA DIFUSA
Una gran variedad de ciencias aplican métodos de Inteligencia Artificial (IA) principalmente
para modelar el razonamiento del experto. Para el diseño de tales sistemas inteligentes, la
importancia de la lógica difusa ha ganando gran aceptación [129].
Publicaciones recientes han mostrado también que los sistemas híbridos en IA han
conseguido buenos resultados, combinando lógica difusa e Inteligencia Artificial para la diagnosis
médica en la prevención de enfermedades, redes neuronales para el reconocimiento de
patrones, sistemas de inferencia difusos para incorporar
conocimiento
humano,
realizar
inferencia y tomar decisiones, etc.
Es
importante
considerar
que los problemas complejos del mundo real requieren
sistemas inteligentes que combinen conocimiento, técnicas y metodologías de diferentes fuentes.
Estos sistemas inteligentes deberán poseer experiencia como la del humano dentro de un
dominio específico, adaptándose y aprendiendo a hacer lo mejor en ambientes dinámicos y
explicando cómo toman decisiones o acciones. De frente a los problemas de cálculo, es más
ventajoso usar diferentes técnicas de cálculo sinérgicas que exclusivas, obteniendo como resultado
la construcción de sistemas híbridos inteligentes.
3.6.1 Lógica Difusa
La lógica como base para el razonamiento puede distinguirse por sus tres componentes
principales (independientes del contexto): valores de verdad, vocabulario (operadores) y
razonamiento (tautologías, silogismos). En la lógica de Boole, los valores de verdad son 0 (falso) ó
1 (verdadero) y por medio de estos valores de verdad, se define el vocabulario vía las tablas de
verdad.
Una distinción entre la verdad material y la lógica [112] se hace en las llamadas lógicas
extendidas: La Lógica modal [113] distingue entre verdad necesaria y posible, y la lógica temporal
[114] entre enunciados que fueron verdaderos en el pasado y aquéllos que serán verdaderos en el
futuro. La lógica epistémica [115] trata del conocimiento y las creencias, la lógica deóntica [101]
con lo que debe hacerse y que permite ser verdadero. La lógica modal, en particular, podría ser
una buena base para aplicar diferentes medidas de la lógica de la incertidumbre.
Otra extensión de la lógica de Boole es el cálculo de predicados, el cual es un conjunto
lógico teórico que usa cuantificadores y predicados para los operadores de la lógica de Boole.
La Lógica Difusa [116] hace una extensión del conjunto teórico de la lógica multivaluada en
la cual los valores de verdad son variables lingüísticas (términos de verdad de variables
lingüísticas).
Lo mismo que en la lógica clásica, los operadores se definen en la lógica difusa a través de
tablas de verdad, usando el Principio de Extensión para obtener las definiciones de estos
operadores [117]. Hasta ahora, la teoría de la posibilidad ha empezado a ser usada para definir
operadores en Lógica Difusa, aunque hay otros operadores que también han sido investigados
[118] y que podrían usarse.
Además, se puede considerar conectivos mixtos como funciones para calcular el grado de
potencia conjunta vía las t-normas en problemas de clasificación [119]. Un punto importante es la
relación y diferencia entre los conceptos de probabilidad y posibilidad; con este último concepto se
tiene una estrecha relación con el grado de pertenencia a un conjunto difuso [120]. El concepto de
posibilidad juega un importante papel particularmente en la representación del significado, en la
gestión o manejo de la incertidumbre en sistemas de clasificación, sistemas inteligentes y en
algunas otras aplicaciones [121].
3.6.2 Razonamiento Difuso
En realidad, cuando las personas hablan acerca de un sistema del mundo real, lo hacen en
tres etapas [122]:
Seleccionan un conjunto de variables que podría ser entendido como un conjunto de
entidades bien diferenciadas. Tales variables pueden estar directamente vinculados a la
experiencia sensorial y entonces expresada en una manera informal o pueden estar
determinadas por medio de procedimientos de mediciones más precisas.
Establecen las relaciones entre las variables, ligando sus estados particulares. Esto en
realidad se hace dando reglas como Si (hecho A) entonces (hecho B), donde cada hecho
describe un estado o un valor preciso de alguna variable particular.
Finalmente, hay una tercera etapa donde los conjuntos de reglas se organizan para
construir una teoría o un modelo que describe el sistema del mundo real bajo estudio.
El sistema está bien comprendido cuando su teoría no conduce a conclusiones
contradictorias o a enunciados experimentalmente falsos acerca del sistema.
En este contexto el término inferencia se aplica a cualquier algoritmo que se use para
derivar consecuencias de hechos conocidos dentro del modelo. La inferencia en un amplio sentido
puede aparecer en diferentes formas dependiendo del contexto considerado, desde la
manipulación simbólica en una base de datos lógica hasta la evaluación de una función numérica o
vectorial. En el caso anterior, las reglas aparecen bajo la forma: Si
Y
f ( x), x X , con los hechos conocidos como X
x0
ó X
X
x entonces
A , siendo A un subconjunto
de X . En Dubois y Prade [122] leemos: ―las reglas Si……entonces……. son una herramienta
clave para expresar piezas de conocimiento en lógica difusa‖.
Sin embargo, cuando las variables consideradas vienen de conceptos graduales como
altura, temperatura, cantidad y algunas otras, las descripciones de sus estados están algunas
veces dadas también por enunciados graduales e implícitamente vagos. Ejemplos de estos
enunciados son la temperatura es alta, el color es azul, entre otros. Más aún, en este caso el
conocimiento acerca del sistema puede presentarse en forma de enunciados condicionales ligando
estos estados vagos de las variables, tales como ―Si la temperatura es baja, entonces el color es
verde‖ [119].
Cuando los estados vagos de las variables están representados por conjuntos difusos del
Universo del discurso donde las variables toman sus posibles valores, el problema surge
naturalmente de cómo determinar los hechos y las reglas que se han de combinar para derivar
nuevos hechos. Esta es la esencia de la inferencia difusa. A estos hechos vagos en el contexto de
los conjuntos difusos se les denominan enunciados difusos ó proposiciones difusas, y las reglas
relacionadas con estos hechos como reglas difusas ó enunciados condicionales difusos [123].
Lo que es evidente desde el punto de vista de la lógica es que la inferencia lógica tiene
lugar a nivel semántico. A diferencia de los procedimientos de la lógica clásica, que derivan
conclusiones por manipulación simbólica, en la Lógica Difusa los enunciados difusos están siempre
relacionados a los conjuntos difusos que los representan, y el proceso de inferencia total se realiza
por manipulación numérica de sus funciones de pertenencia. En esta forma los hechos inferidos se
constituyen a partir de sus funciones de pertenencia, y no en forma inversa [124].
En los diferentes significados que puede tener un enunciado difuso, hay una característica
común que todas las reglas comparten: es decir, su capacidad para ser aplicadas a situaciones no
lejanas de aquellas para las cuales han sido originalmente concebidas. La inferencia difusa tiene la
ventaja de su versatilidad para derivar consecuencias cuando los hechos conocidos no coinciden
exactamente con cualquiera de los antecedentes de las reglas que describen el conocimiento
acerca del sistema. Tales procesos de inferencia son referidos en la literatura como razonamiento
aproximado, y están obviamente más cercanos a la forma humana de pensar que a los
procedimientos clásicos de inferencia. Este aspecto de la Lógica Difusa es relevante e importante
para la Inteligencia Artificial [125] y [126].
La idea original de realizar inferencia difusa por medio de relaciones difusas compuestas
(reglas de composición difusa) fue introducida por Zadeh [127]. Esta aproximación naturalmente
conduce a un patrón de inferencia que se extiende al modus ponens y que puede ser fácilmente
generalizado a situaciones más complejas donde se consideren varias variables (principio de
proyección-combinatoria). En este contexto nos preguntamos: ¿cómo deberá interpretarse una
regla difusa dada Si X es A entonces Y es B en términos de una relación difusa sobre el
producto cartesiano de los universos de discurso
X x Y ?. Las dos respuestas más aceptables a
esta pregunta se encuentran en la literatura y vienen de dos trabajos pioneros, uno de Zadeh y el
otro de Mamdani.
El enfoque de Zadeh toma
R( x, y)
I ( A( x), B( y)) donde I significa una función de
implicación multivaluada, mientras la aproximación de Mamdani toma a
con
R( x, y)
A( x)
B( y),
definido como el mínimo (min) o más generalmente cualquier función multivaluada. Esta
segunda forma de realizar inferencia es la más usual en el campo del control difuso. La selección
entre aproximaciones basadas en implicación y en conjunciones depende sobre el significado
deseado de la regla y la forma condicional de combinar hechos inferidos de las diferentes reglas
[128] y [129].
La interpretación de procesos de inferencia difusa como procesos de razonamiento
aproximado permite comparar qué tan lejanos son los hechos conocidos de los antecedentes y
hechos inferidos de los consecuentes.
3.6.3 Las Etiquetas Lingüísticas, la Visualización e Interpretación
de Resultados en Sistemas Híbridos
Debido a la gran importancia que tiene la etapa de interpretación y evaluación del
conocimiento obtenido en bases de datos del proceso KDD, es necesaria la aplicación de
disciplinas, herramientas, métodos, etc., que sean soporte para el desarrollo de interfaces para el
usuario en esta etapa del proceso KDD.
Las etiquetas lingüísticas son un medio atractivo de la Lógica Difusa para visualizar
resultados para su interpretación por los usuarios que presentan los sistemas de Minería de Datos
con el objetivo de apoyar a la toma de decisiones.
La Lógica Difusa ha cobrado una gran importancia por la variedad de sus aplicaciones, las
cuales van desde el control de complejos procesos industriales, hasta el diseño de dispositivos
artificiales de deducción automática, pasando por la construcción de artefactos electrónicos de uso
doméstico y de entretenimiento. La expedición de patentes industriales de mecanismos basados
en la lógica difusa tiene un crecimiento sumamente rápido en todas las naciones industrializadas.
La importancia que representa la visualización de resultados para su interpretación en los
sistemas de Minería de Datos, debe de ser tomada en cuenta por los desarrolladores de este tipo
de sistemas, ya que no todos los sistemas poseen una adecuada forma o una interfaz adecuada,
que visualice clara y sencillamente los resultados.
Muchos de los desarrolladores de este tipo de sistemas, están más preocupados en
encontrar conocimiento en bases de datos que en visualizarlo; es por ello que se necesitan
métodos que lo visualicen de tal forma que exista una semántica estrictamente cimentada entre el
conocimiento obtenido por el sistema y el usuario. Existen muchos sistemas poderosos en este
ramo, pero son pocos los sistemas que visualizan con un método adecuado para la interpretación
de resultados.
En la Tabla 3.2 se muestra la forma de visualizar resultados por parte de los sistemas
híbridos que se han mencionado. Es de gran importancia haber entendido las descripciones
mencionadas anteriormente acerca de estos sistemas, ya que la siguiente descripción está
estrechamente relacionada.
La búsqueda de nuevas técnicas para la visualización de resultados, puede hacer que la
potencialidad de los sistemas de Minería de Datos crezca a medida que estos sistemas se
apeguen a la realidad, describiendo fenómenos como el ser humano tiene la capacidad de
describir si el clima es caliente, frió, templado, etc.
Sistema
¿Qué visualiza?
Únicamente
Weka
(Supervisado
y
no
supervisado)
Clementine
(Supervisado)
clase
la
de
pertenencia
gráficos
de
y
los
comportamientos.
Reglas
Descripción
Después de haber sometido una BD a este sistema, se
visualiza únicamente la clase a la que pertenece cada uno de
los individuos contenidos en la BD. Con la ayuda de una
grafica, se pueden observar las agrupaciones o clases
encontradas por el sistema, cada una de las cuales se
diferencia ya que se muestran en distinto color.
de Al analizar una BD clasificada, este sistema visualiza una
pertenencia a las serie de reglas de pertenencia a las clases, para que el
clases.
usuario de acuerdo a su criterio clasifique nuevos individuos.
Al analizar una BD clasificada, este sistema visualiza una
XpertRule
Gráficos
Miner
(Supervisado)
y serie de gráficos y un diagrama de árbol que indican la
árboles
pertenencia a las clases, para que el usuario de acuerdo a su
criterio clasifique nuevos individuos.
Después de haber sometido una BD a
este sistema, se
visualiza en pantalla una gráfica multidimencional donde se
Cluesome
pueden observar las agrupaciones o clases encontradas por
(No
Gráficos
el sistema, cada una de las clases se diferencia ya que se
supervisado)
muestran en distinto color, y se muestra a que clase
pertenece cada una de las observaciones en la misma
gráfica.
Se visualiza en pantalla una gráfica donde se pueden
observar las agrupaciones o clases encontradas por el
sistema, cada una de las clases se diferencia ya que se
Ginko
(No
supervisado)
muestran en distinto color, y se muestra a que clase
Gráficos
pertenece cada observación. La posición de dicha gráfica, se
puede manipular con el objetivo de tener flexibilidad en la
observación.
_______________________________________
Al analizar una BD clasificada, este sistema visualiza:
CIADEC
(Supervisado)
La
clase
de
pertenencia,
reglas y gráficos.
sistemas reglas,
gráficos de pertenencia a las clases e
interpretación de resultados. Al analizar un nuevo individuo,
el sistema proporciona la clase a la que pertenece para que
con el sistema de gráficos interprete los resultados,
observando el grado de pertenencia a las clases.
Tabla 3.2. Métodos de visualización de resultados
En los siguientes puntos se hará énfasis al marco teórico que comprende la solución de
problemas con el uso de etiquetas lingüísticas.
3.6.4 Etiquetas Lingüísticas
En el tratamiento de la precisión frente a la complejidad dominante de los sistemas, es
natural el uso de las llamadas variables lingüísticas, esto es, variables cuyos valores no son
números sino palabras o expresiones en lenguaje natural o artificial.
Una de las herramientas básicas para la Lógica Difusa es el concepto de variable
lingüística que en 1973 fue llamada variable de orden superior más que variable difusa y definida
como en [128, Pág. 75] como:
Definición. Una variable lingüística se caracteriza por una quíntupla:
( x,T ( x),U , G, A),
En la cual
términos de
x es el nombre de la variable; T (x) (o simplemente T ) denota el conjunto de
x , esto es, el conjunto de los nombres de los valores lingüísticos de x , y cada valor
es una variable difusa denotada genéricamente por X la cual se extiende sobre un universo de
discurso
U , que se asocia con la variable de base u ; G es una regla sintáctica (la cual
comúnmente tiene la forma de una gramática) para generar el nombre, X, de valores de x; y A es
una regla semántica que asocia a cada X su significado,
A(X ) , es un subconjunto difuso de U.
Una X particular, esto es, un nombre generado por G, se llama un término. Deberá notarse que la
variable base u puede ser un vector.
Las etiquetas lingüísticas son el centro de las técnicas de modelado difuso que ejemplifican
la idea de variable lingüística. Desde su raíz, una variable lingüística es el nombre de un conjunto
difuso. Si se tiene un conjunto difuso llamado ''largo'', éste es una simple variable lingüística, al
igual que otro conjunto llamado ―corto‖, a cada conjunto difuso se le atribuye una etiqueta, el
conjunto difuso está constituido por un rango de valores del Universo del discurso U. Una variable
lingüística encapsula las propiedades de aproximación o conceptos de imprecisión en un sistema.
Esto reduce la aparente complejidad de describir lo que debe concordar con su semántica.
En el campo de la semántica difusa cuantitativa al significado de un término " x " se le
representa como un conjunto difuso M(x) del universo de discusión. Desde este punto de vista, uno
de los problemas básicos en semántica es que se desea calcular el significado de un término
compuesto.
La idea básica sugerida por Zadeh [144] es que una etiqueta lingüística tal como ''muy'',
''más o menos'', ''ligeramente'', etc. puede considerarse como un operador que actúa sobre un
conjunto difuso asociado al significado de su operando. Por ejemplo, en el caso de un término
compuesto ''muy alto'', el operador ''muy'' actúa en el conjunto difuso asociado al significado del
operando ''alto''. Una representación aproximada para una etiqueta lingüística se puede lograr en
términos de combinaciones o composiciones de las operaciones básicas. En [144] considera que
las etiquetas lingüísticas pueden clasificarse en dos categorías que se definen como sigue:
Tipo I: las que pueden representarse como operadores que actúan en un conjunto difuso:
''muy'', ''más o menos'', ''mucho'', ''ligeramente'', ''altamente'', ''bastante'', etc.
Tipo II: las que requieren una descripción de cómo actúan en los componentes del conjunto
difuso
(operando):
''esencialmente'',
''técnicamente'',
''estrictamente'',
''prácticamente'',
''virtualmente'', etc. Su caracterización envuelve una descripción de forma que afectan a los
componentes del operando y por lo tanto es más compleja que las del tipo I. En general, la
definición de una etiqueta de este tipo debe formularse como un algoritmo difuso que envuelve
etiquetas tipo I.
En otras palabras, las etiquetas lingüísticas pueden ser caracterizadas cómo operadores
más que construcciones complicadas sobre las operaciones primitivas de conjuntos difusos.
En la actualidad la mayoría de las decisiones procede de problemas relacionados con el
transcurso del tiempo (TS), el análisis económico y financiero son campos donde se relacionan
generalmente con las decisiones del humano soportados por software desarrollado con técnicas de
la estadística y de Minería de Datos. En un futuro la importancia de estos ―sistemas inteligentes‖
estarán relacionados con la posibilidad de operarlos con información lingüística, razonando y
respondiendo
cuestiones prometedoras en el campo de la investigación. La Teoría de la
Percepción Computacional (Computational Theory of Perceptions, CTP) [145, Pág. 105-119] y 146,
Pág. 233-64] puede servir
básicamente para el avance de estos sistemas. La lógica difusa
constituye el cuerpo de la CTP haciendo poderosas las herramientas para el modelado y
procesamiento de información lingüística de dominios cuantitativos. La metodología para el uso de
palabras propone el uso de métodos de razonamiento basados en modelos difusos.
El éxito de la Lógica Difusa en aplicaciones de control y sistemas para el reconocimiento
de patrones hace posible el uso de descripciones lingüísticas para áreas que regularmente están
basadas con variables numéricas.
En [144] llama la atención cuando se basa en la aplicación de la Lógica Difusa para el
apoyo a las decisiones en áreas económicas, financieras, ciencias terrenales, etc. con el role
central de la percepción humana. La percepciones son basadas en preposiciones como: ―el precio
del gas es muy alto‖, ―es muy improbable que suba el peso‖, etc. Es normal el uso este tipo de
proposiciones en las decisiones de las personas. Los términos bajo, muy improbable, alto, más o
menos, etcétera, normalmente están constituidos por una graduación difusa de información [147,
Pág. 111-127].
3.6.5 Aplicación
Los sistemas para el descubrimiento de conocimiento con respecto a su visualización de
resultados, siempre están sostenidos sobre conjuntos difusos, lo que hace posible la aplicación de
etiquetas lingüísticas para visualizar resultados. En esta aplicación, se plantea el uso de etiquetas
lingüísticas como medio de visualización de resultados.
En esta parte se mostrará un ejemplo matemático de aplicación de etiquetas lingüísticas
basadas en modelos difusos.
Sea el universo X = {0, 1, 2, 3,…, 25}, un conjunto de personas colocadas, medidas en
número de personas y E= {Muy Bajo, Bajo, Mediano, Alto, Muy Alto} un conjunto de etiquetas
lingüísticas que hacen referencia a modelos difusos del universo X . Aplicar el conjunto E al
universo X .
Solución:
Generando los modelos difusos para aplicar etiquetas lingüísticas que hagan referencia al
universo X. Sea
x
X.
Para hacer una distribución de las etiquetas lingüísticas, se toma el camino más sencillo
que es dividir los elementos x restantes de X entre los elementos restantes de E , dando un
rango de 5 elementos del universo X para cada una de las cinco etiquetas restantes del conjunto
E.
Para poder modelar la solución a un sentido que se asemeje a la realidad, se necesita
hacer una operación que indique el nivel de pertenencia de los valores fronterizos de los conjuntos
difusos, es decir, la quinta persona, no le pertenece en un 100% a la etiqueta ―Muy Bajo‖, ya que
ésta casi pertenece a las velocidades fronterizas de la siguiente etiqueta, es por ello que se
necesita saber que rango de valores de personas colocadas pertenecen a una etiqueta al 100% y
cuál es el valor de pertenencia de las restantes. En las siguientes formulaciones de los conjuntos
difusos para las etiquetas lingüísticas restantes, se representan los niveles de pertenencia de las
personas colocadas a las respectivas etiquetas.
1.- MUY BAJO
Para esta etiqueta, se genera el siguiente modelo difuso.
Gráfica 3.1. Etiqueta Muy Bajo
En la Gráfica 3.1 se puede observar los niveles de pertenencia de cada valor de personas
ocupadas con respecto a la etiqueta ―Muy Bajo‖.
2.- BAJO
Para esta etiqueta, se genera el siguiente modelo difuso.
Gráfica 3.2. Etiqueta Bajo
En la Gráfica 3.2 se puede observar los niveles de pertenencia de cada valor de personas
ocupadas con respecto a la etiqueta ―Bajo‖.
3.- MEDIANO
Para esta etiqueta, se genera el siguiente modelo difuso.
Gráfica 3.3. Etiqueta Mediano
En la Gráfica 3.3 se puede observar los niveles de pertenencia de cada valor de personas
ocupadas con respecto a la etiqueta ―Mediano‖.
4.- ALTO
Para esta etiqueta, se genera el siguiente modelo difuso.
Gráfica 3.4. Etiqueta Alto
En la Gráfica 3.4 se puede observar los niveles de pertenencia de cada valor de personas
ocupadas con respecto a la etiqueta ―Alto‖.
5.- MUY ALTO
Para esta etiqueta, se genera el siguiente modelo difuso.
Gráfica 3.5. Etiqueta Muy Alto
En la Gráfica 3.5 se puede observar los niveles de pertenencia de cada valor de personas
ocupadas con respecto a la etiqueta ―Muy Alto‖.
Ésta es la forma de cómo implementar etiquetas lingüísticas sobre un universo, en este
caso, se construyeron modelos difusos para poder implementar las etiquetas lingüísticas,
quedando el universo dividido en conjuntos difusos, esta división se puede observar en la Gráfica
3.6, que muestra los niveles de pertenencia de cada una de las personas colocadas del universo
hacia las etiquetas lingüísticas.
Una mejor visualización de resultados hace que la interpretación de éste sea correcta y se
tenga un mejor apoyo en la toma de decisiones. El uso de etiquetas lingüísticas para la
representación de resultados en cualquier dominio, hacen generar proposiciones que forman el
núcleo de nuestras relaciones con ''la forma de las cosas en el mundo'' e incorporar conceptos que
hacen lograr que los sistemas sean potentes y se aproximen más a la realidad.
MB
B
M
A
MA
Muy Bajo = MB, Bajo = B, Mediano = M, Alto = A, Muy Alto = MA
Grafica 3.6 Comportamiento de las etiqueta lingüísticas sobre X
CAPÍTULO IV
MODELO DE LA TECNOLOGÍA CIADEC
4.1 INTRODUCCIÓN
El punto de partida nos sitúa de pleno en el empleo de técnicas de clasificación automática
que particionan los datos del dominio de estudio en un conjunto de clases realizando una
clasificación utilizando el método de clasificación basada en reglas propuesto por [10, 25], donde
se introduce el conocimiento adicional, parcial y no homogéneo que posee el experto del dominio a
través de un conjunto de reglas ( CP1 ) para que actúe como un sesgo semántico durante el
proceso de clasificación, mejorando la comprensión de las clases obtenidas.
4.2 PROPUESTA DEL MODELO
La propuesta del modelo aporta un Sistema de Caracterización de clases, basado en
predicados de lógica de primer orden ( CP1 ), que permiten máxima potencia y flexibilidad para
detectar variables cuantitativas caracterizadoras en algunas clases, permitiendo un procedimiento
de generación automático de reglas, que formarán parte de la base de conocimiento de un sistema
orientado a la predicción o diagnóstico. Además, la automatización de este sistema de
caracterización ofrecerá un conjunto de herramientas de apoyo a la interpretación como: la
construcción de un sistema de reglas, visualización de las funciones de pertenencia de una
variable
X k a las distintas clases C , evaluación de individuos nuevos de acuerdo a las reglas
generadas y validación de la calidad de la predicción teniendo como base un conjunto de nuevos
objetos.
Los pasos que conforma el modelo son los siguientes:
1. Descripción estadística de las variables
En esta primera etapa, se utilizan algunas técnicas descriptivas clásicas que permiten
identificar el comportamiento y naturaleza de los datos en la matriz
X
. Esta etapa sirve
para obtener información preliminar acerca de la variabilidad de las mediciones y para
representar los boxplots múltiples, que permiten observar la relación entre las variables y
las clases y, en especial es útil para representar las diferencias entre grupos.
2. Uso del boxplot múltiple como herramienta gráfica, para la detección de variables
caracterizadoras.
El modelo propuesto está inspirado en el boxplot múltiple, el cual es una herramienta que
permite visualizar y comparar la distribución de una variable a través de todas las clases.
Con la representación de las variables, es posible identificar lo que se denominan variables
caracterizadoras de la clase
una clase
C,
concepto que descansa a su vez en el de valor propio de
C.
Así, se definen los siguientes conceptos:
K
Un valor cS
DK de la variable X k es propio de la clase C , si cumple:
( i C : xik
csk ) ( i C : xik
csk )
Estos valores, cuando ocurren, identifican una clase con toda seguridad, por lo que, se les
denominara valores caracterizadores de
C
k
sc
y se denotan
,
siendo
C
la clase y k la
variable.
Una variable
X k es parcialmente caracterizadora de la clase C
valor propio de la clase
Vck
tiene
si tiene al menos un
C , aunque puede compartir alguno con otras clases; se llamara VCk
al conjunto de valores parcialmente caracterizadora de
Una variable
P
C:
{csk : csk es valor de X k para la clase C }
X k es totalmente caracterizadora de la clase C
P , si todos los valores que
X k en la clase C son propios de C . En este caso, se denota por
estos valores, los cuales caracterizan totalmente a la clase
k
c
c kj : c kj
Vck
C:
C
C , c kj
Vck
k
C
el conjunto de
Es muy fácil observar si el boxplot de cierta clase no interseca con el de las demás; en un
caso así, la variable es totalmente caracterizadora. A veces, sólo es una parte del boxplot la
que no interseca; en ese caso se trata de una variable parcialmente caracterizadora.
Para identificar estas variables, se estudiaran los valores propios que toma una variable
en una clase
Xk
C , en relación a las otras y poder ver si son de la clase o no; para ello hay que
analizar cómo son las interacciones entre clases.
3. Estudio de interacciones entre clases
En este proceso, es de interés considerar las variables, en su estado natural, evitando
cualquier transformación arbitraria sobre su naturaleza, que pudieran alterar el sentido de la
interacción.
Esta etapa consiste en identificar todas las intersecciones que se dan entre los valores de
las variables y las distintas clases, determinando en qué puntos del rango de las variables están
cambiando estas intersecciones; así se pueden identificar las distintas combinaciones de clases
donde se puede dar un mismo valor de cierta variable, y como consecuencia hacer emerger los
valores propios (caracterizadores) de una clase; éstos identificarán variables total o parcialmente
caracterizadoras.
Sin embargo, en la práctica no se puede basar un proceso automático en la interpretación
de una representación gráfica, por lo que en los siguientes apartados se propone una alternativa
equivalente, pero automatizable.
4. Sistema de intervalos o ventanas de longitud variable
Estas intersecciones entre las distintas clases se pueden encontrar de forma exacta con un
costo computacional mínimo, solamente calculando los valores mínimos y máximos por variable y
clase y ordenándolos en forma conveniente, representando este paso la aportación fundamental de
este trabajo de tesis. Así, a partir de esta ordenación, se define una discretización de la variable
X k en un conjunto de intervalos de longitud variable, sobre los que se podrá identificar los valores
propios de dicha variable en todas las clases.
Formalizando estos conceptos se tiene que, si
de la variable
X k en la clase C
mCk
xik y M Ck
min i
C
max i
mck y M Ck
son los mínimos y los máximos
P , observados de la descriptiva o del boxplot múltiple, donde
C
xik . Ahora se procede a ordenarlos en forma ascendente,
este proceso consiste en:
Definir M
k
como el conjunto de todos los mínimos y máximos correspondientes a la variable
X k , en todas las clases de P, esto es:
MK
siendo la card
Ordenando M
K
MK
mck1 ,, mck , M ck1 ,, M ck
2
de menor a mayor valor, se construye un conjunto Z
ZK
K
de forma que:
zik ; i 1 : 2
tal que :
i)
z1κ
k
ii) zi
min M k
min M k \ z kj ; j i , i
Dado que
ZK
zik
2,,2
es un conjunto ordenado, sus elementos tienen la siguiente propiedad:
Zk
z kj z kj
1
z kj ; 1
j
2
A este conjunto se le denominara puntos de corte.
A partir de este conjunto ordenado, se construye el sistema de intervalos de longitud variable
I k en la siguiente forma:
Ik
I sk : 1 s
2
1
donde:
i)
I1k
z1k , z 2k
ii)
I sk
z sk , z sk
1
,
s
2:2
1
De ahí se define una nueva variable categórica I
D
k
k
1
I , , I
k
2
k
cuyo conjunto de valores es
k
1
para cada variable
, la variable I identifica todas las intersecciones entre clases que se define
X k , este sistema de intervalos de longitud variable está asociado a cada
Xk .
variable
Así, si se tiene 2
k
card( D ) = 2
puntos de corte diferentes se generan a lo más 2
-1, recordando que
-1 intervalos y la
es el número de clases de la partición de referencia que se
quiere caracterizar.
Además, siendo D
k
el dominio de
X k , D k representa una categorización del mismo,
pero no es arbitraria en absoluto, y además se calcula de forma inmediata. Por último, hay que
observar que para construir I
k
ya no hace falta realizar el boxplot múltiple, aunque éste sigue
siendo una excelente representación de lo que se está haciendo.
5. Construcción de la tabla de contingencia de clases vs intervalos
En esta etapa se realiza la construcción de la tabla de contingencia para cada variable
X k , como una matriz de números A , en la cual los renglones están representados por los
intervalos I
k
encontrados en la etapa anterior y las columnas, por las clases de la partición
de referencia; así, una cierta casilla de la matriz
P
A , indica el número de elementos del dominio
k
I , cuyos valores de X k se encuentran en el intervalo representado por I s . En general, para un
cierto valor de la variable
X k se tienen elementos en distintas clases. De esta forma se define la
tabla de contingencia como:
A I k P (nsc (s 1 : 2
donde
de
n sc es la card i C
I sk
xik
, es decir,
1), (C
P)),
n sc es el número de elementos de C cuyo valor
X k está en I sk , teniendo la matriz A dimensión constante 2
depende de
1,
porque ésta sólo
.
k
Se usará I para caracterizar las clases de
P , para ello se buscara si I k
tiene algún valor
propio o parcialmente caracterizador en alguna clase. Intuitivamente, los valores propios son valores
exclusivos de la clase
C
y gráficamente son muy fáciles de identificar en un boxplot múltiple,
quedando la misma información reflejada en la tabla
A.
k
La característica de un valor propio o parcialmente caracterizador de I en la clase
la tabla de contingencia
I sk
C
sobre
A es tal que cumple:
es valor propio o parcialmente caracterizador de la clase
nsc
C
C
si:
0y
C, nsc
0
Si además
s
s, n s c
0
entonces
I sk
es un valor totalmente caracterizador de
C.
Como en lo habitual se encuentran pocos valores totalmente caracterizadores, en sentido
estricto, lo común, son los valores propios o parcialmente caracterizadores. Es decir, valores que
determinan parte de una clase, la cual tiene que cuantificarse para poder determinar el poder de
caracterización de dichos valores.
1
Se define
,
0 ,1
como el grado de caracterización de una clase
valor. Ya en [10] aparece la idea de
1
C,
para un
caracterización y se maneja en todos los trabajos
posteriores a nivel de variable. Ello conduce a situaciones en apariencia complejas como el hecho
de que
1
X k sea 1
1
caracterizadora de
C
y también
1
2
caracterizadora de
C
con
2.
En realidad esto sucede porque lo que determina el poder de caracterización no es la
variable en sí, sino los valores que toma y su distribución a través de las clases. Así, de ahora en
adelante, se trasladara a nivel de valores este análisis.
Así se define, dada una variable
Un valor
1
1
% de
Xk :
caracterizador de
C
es aquel valor propio de
C
que sólo identifica
C.
Existe aún una tercera situación, que corresponde al patrón llamado valor caracterizador no
propio, el cual satisface la siguiente propiedad:
I sk
n sc
C
es un valor no propio de la clase
0
s
si cumple:
s ns c 0
Para analizar los valores concretos de
previo que pasará por la tabla de contingencia I
en la partición
k
P será necesario un análisis
P , entre otras cosas.
6. Construcción de la tabla de distribuciones condicionada a los intervalos.
Es fácil construir ahora la tabla de distribuciones condicionada a los intervalos, como una
matriz de números
B , en la cual los renglones están representados por los intervalos I k
encontrados anteriormente y las columnas, por las clases de la partición
P de referencia, de modo
que las casillas representen una estimación de la probabilidad de que un elemento
intervalo
x ik de un cierto
I sk , pertenezca a una clase específica C .
Así, se puede representar la tabla de distribuciones condicionada como una matriz de la
forma B
Ik
P , cuyos valores toman la forma:
B ( psc (s 1 : 2
siendo
I sk
la cardinalidad de
P (card( P )), p sc la frecuencia relativa de los individuos de valor xk
que se encuentran en la clase
C P
y cuyo valor esta dado por:
p sc = nsc nI
donde
nI k
s
1), (c 1 : ))
k
s
,
n sc es el número de individuos que pertenecen al intervalo I sk y a la clase C , y
c 1
n sc es el número total de objetos que se encuentran en el mismo intervalo I sk .
De acuerdo a la construcción de la tabla de distribuciones condicionada
B , se le puede
caracterizar por las siguientes propiedades:
k
Para los valores de la variable I (renglones) en cada uno de los intervalos
tienen probabilidades
p sc
I sk
se
en el sentido frecuentista de que un elemento de I de valor
x ik le sea asignada la clase C , cumpliendo con:
i.
ii.
p sc
i 1
[0, 1]
psci
1
En la tabla de frecuencias condicionadas
B , los valores caracterizadores, de la clase C
son todavía más fáciles de identificar, porque se detectan observando una solo casilla de la clase y
pueden ser parcialmente caracterizadores o totalmente caracterizadores dependiendo de si existe o
no la interacción entre clases. Así, tenemos que:
Un valor
I sk
de la clase
=1 ó
I sk
I sk
es un valor propio o parcialmente caracterizador si su
p sc = 1
frecuencia es
Un valor
C
de la clase
ps c = 0,
s
C
es un valor totalmente caracterizador si su frecuencia
p sc
s
p sc
es un valor caracterizador no propio si
(0, 1)
Visto como se identifican los valores caracterizadores, ahora se cuantificara al grado de
caracterización tal y como ya se definió.
El valor
I sk de la variable X k
será
1
caracterizador de
n sc = (1-
C
si
) nc
El grado de caracterización en este contexto, se interpreta como la parte proporcional
(porcentaje) de individuos de
C,
cuyos valores de la variable
XK
se encuentran en el intervalo
I sk .
7. Generación del sistema de reglas
( X k , P)
Así, para cada valor propio (total o parcial) de la clase
C , se puede extraer una regla que
identifica la clase con el mínimo de información, de la forma:
Xk
donde
X k es la k-ésima variable,
k
c es
k
c
C
el conjunto de valores propios de la clase
C.
Ahora bien, si un valor es caracterizador no propio entonces, cuando se da ese valor, la
clase de asignación puede ser una u otra con distintos grados de certeza.
de ahí que, la regla
Xk
I sk
C
deje de ser segura.
Se puede definir
p sc
como el grado de certeza de esa regla, entendiendo que
p sc
(frecuencia relativa sobre la muestra) constituye una buena estimación puntual de la probabilidad,
I sk , pertenezca realmente a la clase C .
de que un individuo i que toma valores en ese intervalo
Así, si
I sk
es un caracterizador no propio de
x ik
donde
p sc
I sk
C , se puede generar una regla de la forma:
p
sc
i
C
se define en forma equivalente como una probabilidad condicional P (C I
k
I sk )
en la siguiente forma:
p sc = P (C I k I sk )
De hecho,
correcta
I sk
C
p sc está
a partir del valor
= card{i tal que
x ik
I sk
i
C } / nI k
s
indicando con qué probabilidad el elemento i pertenece a la clase
x k , considerando que existen otros individuos que toman valores en
y se dispersan en las demás clases.
El esquema en la Tabla 4.1 establece la relación entre el conjunto antecedente
k
I sk
donde
se encuentra el valor de la variable I , la forma de la regla de asociación y el valor de su
probabilidad de asignación
p sc
a la clase C.
REGLA
CONJUNTO ANTECEDENTE
I
x ik
I sk
x ik
I sk
C
p
k
s
PROBABILIDAD
I
C
k
s
=
C
propio parcialmente
propio totalmente
caracterizador
caracterizador
p sc
=1
total caracterizador
C
sc
no propio
p sc
( 0, 1)
Tabla 4.1. Relación entre reglas de asociación y valores propios
De ahí se observa que los valores propios siempre generan reglas seguras, pero el poder
de caracterización depende del cardinal del conjunto antecedente. Si éste coincide con toda la clase
entonces hay una caracterización completa de la misma. De otra forma, es parcial, como se
observa en la Tabla 4.1, ésta tiene una casilla vacía.
Esta casilla identifica un cuarto caso que corresponde a un cuarto patrón, se trata de la
situación más general denominada valor genérico y que permitirá generar caracterizadores
parciales y no seguros, representando este el caso más débil de todos. Así, se define:
Un valor
i)
ii)
iii)
p sc
I sk de la variable I k
es un valor genérico de la clase
C
si:
(0, 1) y
s tal que ps c
c tal que psc
0, s
s,
0, c
c.
y
Estos valores se pueden interpretar como el subconjunto de individuos i de la clase
comparten su valor
I sk
C
tanto con las demás clases, existiendo a su vez en la misma clase
que
C
algunos otros elementos que pertenezcan a otros intervalos.
A partir de los conceptos anteriores, se puede realizar la siguiente identificación, en relación
a los valores caracterizadores:
Si
I sk
es el valor de la variable I
p sc
k
(un intervalo de
X k ), y
(0, 1] es su frecuencia condicionada para la clase
para cada elemento de la Tabla
Si
donde:
entonces se genera
B reglas de la forma:
I sk para el elemento i
x ik
C
p
C
i
sc
x ik es el valor de la k-ésima variable para i-ésimo elemento, I sk es el
intervalo al que pertenece dicho valor y
C
es la clase caracterizada a partir de
I sk con probabilidad p sc .
Esta definición es general y cubre como casos particulares las reglas resultantes de los
valores propios de
C , que incluye los valores a p sc = 1, que corresponden a las reglas seguras.
Así, para cada tabla de distribución condicionada a intervalos
siguiente sistema de reglas asociado a
(
I sk
X k , P ) = { rl : xik
l
X k para identificar cierta partición P .
psc
i C con p sc
{ 1,, (2
1) }, s
0, p sc
B,
{1,, (2
Este sistema ha de permitir identificar las distintas clases a partir de
Fijando una sola clase
que representan a
C
C
B se puede derivar el
1)}}
Xk .
que se quiere caracterizar, las probabilidades de todas reglas
como parte derecha pueden verse como una distribución de posibilidades
k
[122] y [143] que asigna a cada valor de la variable I su grado de pertenencia a la clase
C
y que
se representa como un gráfico (ver figura 4.1) con cada una de las funciones horizontales. Cabe
mencionar, que el área bajo estas funciones ya no es 1, puesto que se componen de probabilidades
que provienen de distintas distribuciones condicionadas (las de
C | I Isk , s ).
Así se define la función:
def
C
k
( xik )
Para cada elemento de la partición
P (columnas de las matrices A y B ) que son las
distintas clases, se tiene una distribución de posibilidad
del valor de
I sk
psc , xik
C
K
, que indica el grado de compatibilidad
X k con la asignación a C . En esta distribución se tiene un número finito de niveles
de posibilidad de
C,
distinguiendo valores entre lo ―imposible‖ (codificado por 0) y lo
―completamente posible‖ (codificado por 1).
A partir de lo anterior, se tiene que para toda
es posible que cierto valor de
xik
I sk ,
C
k
( X k ) representa hasta qué punto
X k implique la pertenencia a C .
una restricción flexible de los valores de la variable
La función
C
K
representa
X k con las siguientes convenciones:
c
k
( X ik ) 0 , significa que la pertenencia a la clase C
c
k
( X ok ) 0 , significa que la pertenencia a la clase C
es imposible;
es posible a distintos grados
(ejemplos: débil, fuerte, muy fuerte etc.) tanto más intenso cuanto más se acerque a 1,
que representa la pertenencia segura.
Finalmente, se obtiene un sistema global que contiene reglas difusas o posibilistas, a partir
del cual, para cierto valor de la variable
X k se da con mayor o menor grado de pertenencia a cada
clase de cierta partición de referencia P.
A partir de aquí, se verá como la representación gráfica de este sistema permite generar
interpretaciones automáticas de las clases.
8. Validación del Sistema Global de Reglas
En el modelo propuesto, los boxplot múltiples se han usado como un elemento básico
gráfico para la determinación de los valores característicos, considerándolo como la base del
sistema de intervalo de longitud variable generado para cada variable
Xk .
Esto permite identificar cual es la estructura natural que subyace en la base de datos del
dominio de estudio variable por variable. Esto, ha permitido desarrollar un método rápido para
construir un sistema de reglas difusas asociadas a cada variable
tabla de distribuciones condicionadas a intervalos
B
X k , el cual queda reflejado en la
P | Ik .
Un primer propósito, fue reducir la ambigüedad inherente al sistema de reglas
(Xk ,
considerando el criterio de grado más grande de asociación (con el consecuente de la regla con la
probabilidad máxima, PM), el cual conduce a un sistema reducido
(Xk , )
mucho más
pequeño en número de reglas, sin ambigüedad pero conservando incertidumbre.
Como una aplicación práctica, la evaluación del sistema de reglas consiste en considerar
un conjunto de elementos de prueba
partición de referencias
, tomando cada valor
clase
C
P . Así, considerando la variable X k y una participación de referencia P
xik
para toda i en el conjunto de prueba y los evaluándolo en el sistema de
(Xk ,
reglas reducido
P0 y evaluarlos en el correspondiente sistema de reglas de la
, en cada caso, para cada valor
y la probabilidad correspondiente
C
se localizan los intervalos
I sk
la
psc . Es decir, si existe una regla:
r : xik
La clase
xik
I sk
Psc
C,
se asigna al individuo i con un grado de pertenencia p sc considerando
únicamente la variable
K
. El resto de las variables se evalúan de igual forma.
Este proceso continua hasta agotar todas las variables de todos los individuos en el
conjunto de prueba
P0 .
El siguiente paso fue considerar otros criterios de agregación de información como: criterio
de votación (Vot), suma máxima de probabilidades (Sum) que permitieran un mejor desempeño en
la clasificación de nuevos individuos; así, acuerdo al criterio de agregación de información elegido,
la combinación de todas las variables por individuo del conjunto de entrenamiento P0, se determina
el número de individuos mal clasificados y se calcula el error de predicción del sistema de reglas
como un parámetro de validación del propio sistema de reglas generado.
9. Interpretación de clases
La interpretación de las clases resultantes es siempre de gran importancia para usar los
conocimientos generados como herramientas de apoyo a la posterior toma de decisiones. Uno de
los problemas principales de las técnicas de clustering es que la validación de la clasificación es un
problema sin resolverse, ya que no existe un criterio objetivo para determinar la calidad de las
clases de una clasificación.
Es fácil evaluar un conjunto de clases en términos de criterios de exactitud siempre que
exista una partición de referencia de los datos y si la comparación es posible. Pero
desafortunadamente, en la mayoría de las situaciones donde se requiere hacer clustering no existe
y esta aproximación no es útil. Solamente la utilidad de una clasificación puede usarse para decidir
si es correcta o no [21]. Evaluar la utilidad de una clasificación dada requiere de un mecanismo que
permita comprender el significado de las clases identificadas para finalmente decidir si son útiles o
no.
Este proceso, conocido comúnmente como Interpretación de las clases resultantes,
habitualmente lo realiza el analista informático, en una forma no sistemática, usando sus
conocimientos y experiencia para poner de manifiesto las principales diferencias entre clases, y
posteriormente, en estrecha colaboración con el experto en la materia, analizar las clases, estudiar
su significado y darles interpretación, este proceso llega a dificultarse cuando el número de clases
aumenta y el número de variables utilizadas para describir los datos también aumenta.
Así se puede decir que la validación de una clasificación, se puede considerar como el
grado de interpretabilidad o utilidad de éstas, sin ningún otro criterio que el de un especialista que
observa y analiza las clases resultantes de una clasificación.
Teniendo, como base la tabla de distribuciones condicionadas a los intervalos se puede
asociar a un individuo cualquiera i su grado de pertenencia a cada clase. Esto da lugar a un
gráfico de grados de pertenencia difusos para cada clase y para cada variable como se muestra en
la Figura 4.1. En el gráfico el eje horizontal es común y representa el rango de
clase se representa el grado de pertenencia de los valores de
X k según las reglas. La forma
escalonada de dichas funciones de pertenencia se debe a la categorización de
dado un valor de
X k ; para cada
X k en I k . Así,
X k se visualiza fácilmente su relación con las otras clases.
Se observa que a partir de esta representación gráfica, el paradigma difuso [52] constituye
un excelente soporte al proceso de interpretación.
I sk
y
partes derechas diferentes (clases) en distintos grados de pertenencia. Por otro lado, una clase
C
Esto es, porque el sistema
(X k ,
contendrá reglas con el mismo antecedente
se reconoce por muchas reglas, lo que trae consigo problemas de imprecisión e incertidumbre en
el modelo de razonamiento asociado a la caracterización de la clase. Esto es claramente visible en
la representación gráfica de la figura 4.1 y evidencia que se presenta una situación compleja que
por sus características se presta a su contextualización en el paradigma de los conjuntos difusos
[120, 121], su extensión la Lógica Difusa y la teoría de la posibilidad; los que constituyen un
excelente soporte para representar y manejar piezas de información que contienen tanto la
imprecisión como la incertidumbre, como es el caso en la determinación de la clase
objeto i
C
de un
.
A partir de aquí, se debe soportar el proceso con un método de creación de etiquetas
lingüísticas que genere descripciones conceptuales de las clases del estilo:
Si la variable
X k toma valores muy altos entonces ese objeto i se asocia a C03 , donde,
el grado de pertenencia de una variable específica
determinado precisamente por un gráfico de
asignado la clase
C
C03
X k al concepto ―Muy Altos‖ vendría
como el de la Figura 4.2. Así, una vez que se ha
a un nuevo individuo, podemos analizar los gráficos de distribución variable
por variable para obtener conocimiento útil y comprensible en la interpretación conceptual de la
clase identificada y su relación con otras clases.
Figura 4.2. Diagrama de grados de pertenencia a las clases de la variable T.C.
CAPÍTULO V
RESULTADOS Y DISCUSIÓN
En este capítulo se presentará la aplicación de la Tecnología CIADEC al dominio real y
complejo como es: el dominio del ámbito laboral en el Subprograma de Becas a la Capacitación
para el Trabajo (BECATE) del Programa de Apoyo al Empleo, del Servicio Estatal de Empleo de la
coordinación de la Secretaría del Trabajo y Previsión Social (Ejecutivo Federal) y Gobierno del
Estado de Chihuahua, México.
5.1 CASO DE ESTUDIO. DEL DOMINIO DEL ÁMBITO LABORAL
En esta parte se aplica el modelo propuesto al análisis de medidas seriadas muy cortas y
repetidas con factor de bloque, presentes en un dominio poco estructurado (DPE) del dominio del
Ámbito Laboral para obtener conocimiento de la evolución de un programa de capacitación
(BECATE), así como de su efectividad a través del análisis de la información relacionada con: la
colocación de la gente capacitada, características de los municipios donde se dio la capacitación y
las necesidades del sector productivo.
Los resultados obtenidos en este caso de estudio son una aplicación del modelo
―Caracterización e Interpretación Automática de Descripciones Conceptuales‖ (CIADEC) [51] y la
metodología para el ―Descubrimiento de Conocimiento en Medidas Seriadas Cortas y Repetidas‖
(KDSM) [31] que permitieron conocer el efecto que cada curso impartido aporta al municipio donde
actúa el BECATE y se pueda incidir en el funcionamiento del programa mismo de manera más
oportuna y eficaz. Por lo que en esta parte se da a conocer la propuesta de solución (haciendo uso
del sistema CIADEC) y los resultados obtenidos.
5.1.1 Conceptos Básicos
5.1.1.1 Diseño de experimentos
El objetivo del diseño de experimentos es estudiar cómo realizar comparaciones, lo más
homogéneas posibles, para aumentar la probabilidad de detectar cambios o identificar variables
relevantes sobre cierto fenómeno de interés [150]. Comprobar si un evento mejora un proceso
requiere comparar los resultados antes y después de la ocurrencia del mismo. Cuando existe una
variabilidad alta entre los resultados—o, en otros términos, un gran error experimental—sólo se
detectaran como relevantes, aquellos eventos que produzcan cambios muy grandes con relación al
error experimental.
El objetivo de un experimento es estudiar el efecto que sobre una variable de interés tienen
un conjunto de otras variables, factores o eventos.
En cualquier experimento en que se investiga el efecto de un evento, existen a priori un
gran número de variables que pueden influir sobre los resultados y presentan lo que se conoce
como confusión de los efectos. Conceptualmente existen tres caminos para eliminar el efecto de
una variable:
Mantenerla fijo durante toda la realización del experimento.
Reorganizar la estructura del experimento de manera que las comparaciones de interés se
efectúen para valores fijos de esa variable, lo que supone eliminar estadísticamente su
efecto y,
Evitar su influencia aleatorizando su aparición en eventos.
De acuerdo al diseño del experimento se han trazado tres tareas principales que son:
La caracterización de la estructura de los individuos sobre la primera toma de medidas, es
decir, el establecimiento de las condiciones iniciales;
El análisis del efecto de cada evento aislado eliminando el factor de bloque; y;
La identificación de las características relevantes de los eventos, la descripción de su
estructura y su interpretación.
Dadas las tareas del experimento, se reorganiza la estructura de datos del caso de estudio,
de forma que se elimine el factor de bloque que ejerce el individuo sobre los eventos y poder
estudiar sólo el comportamiento de los mismos [150, 151].
5.1.1.2 Factor de bloque
Se denomina factor de bloque [150] al factor (objeto o variable) que tiene un efecto sobre la
respuesta, que aunque no es directamente de interés, se debe considerar en el experimento para
obtener comparaciones homogéneas en los grupos de observaciones donde dicho factor se
mantiene constante. Así se tienen: i) curvas del índice de contratación a lo largo de tres meses tras
la impartición de un curso, ii) el municipio en donde se impartió el curso no es directamente de
interés, pero influye en la representación y hay que tenerlo en cuenta porque determina bloques de
curvas—las de un mismo municipio—con influencia.
Para evitar la influencia del factor de bloque que conforma el individuo sobre las medidas
seriadas, se determinó realizar la diferencia entre las medidas seriadas del evento actual y las
medidas seriadas del evento anterior (o viceversa). Así, se puede medir el efecto per se de un
evento dado sobre la variable de interés, independientemente de las características del individuo.
Estos datos, sólo toman en cuenta el incremento o decremento de la variable Y debido a la
ocurrencia del evento, comparando lo sucedido antes y después de la ocurrencia del mismo.
5.1.1.3 Metodología CIADEC
El sistema CIADEC implementa el modelo ―Caracterización e Interpretación Automática de
Descripciones Conceptuales en Dominios poco Estructurados usando variables cuantitativas‖, que
es un sistema híbrido (Inteligencia Artificial, la Estadística y Lógica Difusa) que surge de la
necesidad de automatizar la caracterización e interpretación de clases en dominios poco
estructurados [51-53] previamente particionados. Mediante la automatización de la metodología
formal, denominada ―Generación Automática de Reglas Difusas en Dominios poco Estructurados
con variables cuantitativas [51]‖, se pretende reducir el tiempo para la caracterización e
interpretación de descripciones conceptuales usando variables cuantitativas, dando agilidad
tanto a las actividades asociadas al análisis de datos como a la obtención de información relevante
que posteriormente sea útil en la gestión y toma de decisiones en esa clase de dominios. Además,
la automatización de esta metodología ofrece un conjunto de funcionalidades que permiten:
Construir un sistema de reglas.
Visualizar funciones de pertenencia de una variable XK a las distintas clases.
Caracterizar las diferentes situaciones que se presentan en una clasificación previa
validada por el experto.
Evaluar un conjunto de objetos nuevos de acuerdo a las reglas generadas.
Interpretar las distintas situaciones que un individuo tiene respecto a las variables
relevantes que lo definen.
Validar la calidad de las clases resultantes respecto a su utilidad.
En resumen, CIADEC permite determinar qué variables caracterizan, estadísticamente
hablando, a las clases. Es fundamental la contribución de CIADEC, ya que mejora la actuación del
experto, ahorrando su tiempo de análisis, pues sólo trabaja variables relevantes y caracterizadoras
[52, 53].
5.1.1.3.1 Criterios de Agregación
Uno de los factores que inciden directamente en la asignación de clases es el criterio de
agregación que se toma al hacer el análisis multivariable. A continuación se describen brevemente
los tres criterios de los que se puede hacer uso en el sistema CIADEC, para comprender el modo
en que estos llevan a cabo el proceso de análisis de las variables y de esta manera obtener
mejores resultados. Los tres criterios a los que se hará mención, tienen como entrada el conjunto
de entrenamiento T0, la partición de referencia, el conjunto de prueba P0 y su partición
correspondiente.
Criterio de Probabilidades Máximas (PM). Para cada individuo i del conjunto de prueba, se
lee el valor xik de la variable xk, se ubica en el intervalo correspondiente,
, de la tabla de distribuciones y se observa cual valor de cada intervalo es el mayor para
que este sea asignado a la clase C1, a la clase C2 ó a la clase C3.
Criterio de Votación (Vot). Para cada individuo i del conjunto de prueba, se lee el valor xik
de
la
variable
xk ,
se
ubica
en
el
intervalo
correspondiente,
, de la tabla de distribuciones y se inicializa un contador por variable para llevar el récord
de cuántas variables con probabilidades distintas de cero se le asignan a C1, cuántas a C2
y cuántas a C3, para después observar el número máximo de votos y al individuo i, y se le
pueda asignar la clase correspondiente.
Criterio de Suma Máxima (Sum). Para cada individuo i del conjunto de prueba, se lee el
valor
xik
de
la
variable
xk,
se
ubica
en
el
intervalo
correspondiente,
, de la tabla de distribuciones y se inicializa un sumador por variable para llevar la suma
de las probabilidades de las variables que se les asignan la C1, la C2 y la C3, para
después observar la suma máxima y al individuo i, y de esta forma se le pueda asignar la
clase correspondiente a esa suma máxima.
5.1.1.3.2 Método k-folds cross-validation
Abreviado como CV, este método evita la superposición o solapamiento de los conjuntos
de prueba. Consta de los pasos:
1. Los datos se dividen en k conjuntos de igual tamaño (por lo general en un muestro
aleatorio).
2. Cada conjunto es usado para la realización de pruebas y el resto para el entrenamiento.
Las estimaciones se promedian y el resultado es un promedio del error de estimación.
5.1.1.4 Metodología KDSM
La utilización de la informática para monitorizar un proceso, por ejemplo, el seguimiento a
un paciente que está sometido a una terapia; ofrece una gran cantidad de información tanto del
proceso como de los actores (individuos y los eventos que intervienen sobre los individuos) en el
proceso. Con frecuencia se encuentra que muchos datos, que provienen de monitorizar un
proceso, son resultado de medidas seriadas en el tiempo de duración de dicho proceso. Además,
éste proceso suele repetirse tantas veces sea necesario para lograr el objetivo esperado.
Aparentemente, estas dos características de las medidas seriadas y repetidas en el tiempo,
no ofrecen mucho problema para ser analizadas con técnicas clásicas de series de tiempo. Sin
embargo, ¿qué sucede cuando la cantidad de medidas es sumamente pequeña?. Por otra parte,
en situaciones así, se cuenta con una gran cantidad de información adicional sobre los actores del
proceso y el proceso mismo, que no son medidas seriadas, pero que sí guardan una estrecha
relación con lo que sucede en el proceso.
Además, frecuentemente los actores conforman un factor de bloque sobre las medidas
seriadas; entonces, ¿cómo aprovechar esta información adicional?, ¿cómo se trabajaría dicha
información, en relación a las medidas seriadas y repetidas, si ésta no se conforma de medidas
sino de características de los actores en el proceso?.
Para dar respuesta a estas interrogantes se estableció la metodología KDSM [31] para el
descubrimiento de conocimiento en dominios donde se presentan medidas seriadas muy cortas y
repetidas con factor de bloque (conformado por los individuos) y donde se cuenta con información
adicional de los actores en el proceso como lo son sus variables características.
La metodología KDSM cumple a grandes rasgos con tres tareas principales:
La caracterización de la estructura de los individuos sobre la primera toma de medidas, es
decir, el establecimiento de las condiciones iniciales;
El análisis del efecto de cada evento aislado eliminando el factor de bloque; y;
La identificación de las características relevantes de los eventos, la descripción de su
estructura y su interpretación.
5.2 APROXIMACION AL DOMINIO DEL AMBITO LABORAL
El Servicio Estatal de Empleo (SEE), en un esfuerzo conjunto de la Secretaria del Trabajo y
Previsión Social y los Gobiernos de los Estados; lleva a cabo programas de sentido social que
tienen por objetivo promover el diseño y aplicación de políticas orientadas a la generación de
empleo.
Para lograr este objetivo, se implementó el Subprograma de Becas a la Capacitación para
el Trabajo (BECATE) del Programa de Apoyo al Empleo del estado de Chihuahua. Sin embargo, el
SEE desconoce el efecto que cada curso de entrenamiento impartido en los diversos municipios
del Estado de Chihuahua tiene directamente en el índice de empleo. El SEE pretende establecer
un rol dinámico de participación en el BECATE para seguir las tendencias globales de los
mercados laborales con mayor efectividad y de forma oportuna.
Es así que, la utilización del sistema CIADEC se aplicó para obtener conocimiento de la
evolución de dicho programa y que este permita establecer con la ayuda de reglas, en que
Municipios del Estado es más conveniente aplicar cada curso para que de esta manera más
personas resulten beneficiadas.
El análisis incluye todas las características de los Municipios, medidas seriadas muy cortas
y repetidas del Índice de Contratación de las personas desempleadas y todas las características de
los cursos. Se trata de información de cada tipo de curso de la rama de Manufactura Textil
(Confección, 3 diferentes) para cada uno de los 17 municipios utilizados en este estudio, donde sus
características influyen sobre las medidas del índice de empleo.
Por todo lo anterior es necesario conocer datos de relevancia del Estado que nos permitan
conocer la situación de la población, siendo estos los siguientes [172]: el Estado de Chihuahua
2
cuenta con una superficie de 247,938 km , lo cual lo convierte en el más extenso del país; está
dividido en 67 Municipios y su población total es de 3,387,722.
De acuerdo a la Subsecretaría de Empleo y Productividad Laboral (STPS, Noviembre de
2009) la distribución económica de la población en el Estado de Chihuahua es la siguiente: hay un
total de 843,649 personas menores de 14 años (hombres y mujeres) y 2,544,073 mayores de14
años, esta última se subdivide a su vez en población económicamente activa (1,413,899) y
población económicamente inactiva (1,130,174). De la población económicamente activa se
derivan 1,311,939 personas ocupadas, es decir, con un trabajo fijo de los cuales 939,852 son
asalariados, 292,438 personas son trabajadores por cuenta propia, 52,306 son empleados y
27,343 personas se encuentran en la categoría de sin pago y otros (divisiones creadas por la
STPS). Por otra parte un total de 101,960 de la población económicamente activa están
desocupados.
Los 17 Municipios del Estado de Chihuahua que se estudiarán para conocer la mejor
opción en cuanto a la distribución para la impartición de los cursos de manera que de esta
asignación, los resultados generen una mayor cantidad de personas ocupadas,
son: Meoqui,
Ocampo, Camargo, Rosario, Delicias, Guadalupe y Calvo, Aquiles Serdán, Valle de Zaragoza,
Parral, Madera, Santa Isabel, Ojinaga, Cuauhtémoc, San Francisco del Oro, Balleza, Jiménez
y Allende.
Por otra parte, el desarrollo industrial en el Estado de Chihuahua está basado en
agrupamientos industriales, los cuales generan más de 300,000 empleos, en 406 plantas
establecidas en el Estado, las cuales son: Electrónica y Telecomunicaciones, Automotriz y
Autopartes, Confección, Agroindustria y Alimentos, Forestal y Muebles y Materiales para
Construcción y Minería. Existen cuatro nuevas áreas de oportunidad dentro del desarrollo
tecnológico industrial que está adquiriéndola la entidad donde la mano de obra es más calificada y
estas son: Aeroespacial, Electrodomésticos, Tecnologías de Información y Biotecnología.
BECATE ofrece cursos de capacitación de corta duración (de 1 a 3 meses) en coordinación
con los sectores productivo y educativo en diversas especialidades, para personas que se
encuentran desempleadas y que no están estudiando en ningún nivel educativo.
El objetivo es proveer conocimientos actualizados a los participantes para poder ser
puestos en práctica de manera inmediata mediante el apoyo de material de práctica, un instructor y
una beca mensual correspondiente al salario mínimo como incentivo para lograr su permanencia
en el curso.
El programa de becas tiene diferentes modalidades de capacitación siendo estas las
siguientes:
Capacitación Mixta. Que consiste en la realización de cursos a petición expresa y en
coordinación con el sector empresarial, para satisfacer requerimientos específicos de
personal calificado.
Capacitación Mixta en las Micro y Pequeñas Empresas. Esta capacitación está orientada a
capacitar y generar experiencia laboral a población joven buscadora de empleo,
aprovechando la infraestructura productiva de las Micro y Pequeñas empresas.
Capacitación Escolarizada. Consiste en impartir conocimientos teóricos y prácticos en las
especialidades demandadas por los sectores productivos de la región en planteles
educativos y de enseñanza.
Capacitación de Autoempleo. Su propósito es promover alternativas de ocupación para
personas desempleadas de zonas urbanas y rurales, para que adquieran conocimientos,
habilidades y destrezas que les permitan iniciar una actividad por cuenta propia.
Proyecto de modernización de la educación técnica y la capacitación. Busca cubrir los
requerimientos de calificación de los trabajadores para mejorar los niveles de productividad
y competitividad de las empresas, así como ampliar las posibilidades de incorporación,
desarrollo y permanencia de las personas en el empleo.
Iniciativas locales de empleo. Opera con productores de escasos recursos agrupados en
torno a un proyecto productivo que ya tengan desarrollado, y tiene como objetivo mejorar
los conocimientos y habilidades de los integrantes del grupo para ejecutar el proyecto.
Con el fin de que BECATE responda a las expectativas de las tres entidades
gubernamentales (Gobierno Federal, Estados y Municipios) en México, se debe monitorizar de
forma adecuada los progresos obtenidos tras la impartición de cada curso. El análisis de esta
información, compuesta por: las características de los Municipios (matriz X), de la cantidad de
colocados (medidas seriadas, matriz Y) en un periodo fijo de tiempo (3 meses), en seis ocasiones
(una cada 15 días) y, las características de los cursos (matriz Z) no es trivial; pues se cuenta con
conjuntos de medidas por cada uno de los tipos de curso existentes en el Estado de Chihuahua (3
especialidades de cursos aproximadamente). Donde cada uno de los municipios actúa como un
factor de bloque sobre las medidas seriadas y las características de los cursos. Es decir, por cada
municipio existe un paquete de medidas seriadas y otro de características de los cursos que se
impartieron en él.
Para efectos de esta tesis, se tiene que por cada uno de los 17 municipios existen
conjuntos de medidas relativas a la variable de interés (que en este caso de estudio corresponde al
índice de contratación) para cada una de las 3 especialidades de cursos de la rama de
Manufactura Textil (Confección), además de las características tanto de los municipios como de los
cursos. Cabe mencionar que el BECATE está presente en los 31 Estados y el Distrito Federal, por
lo que se aplica en 2427 Municipios con un total de 180 especialidades en diferentes ramas
(Actividades
Agropecuarias,
Industria
Manufacturera,
Industria
Extractiva
y
Electricidad,
Construcción, Comercio, Transportes y Comunicaciones, Otros Servicios, Gobierno y Organismos
Internacionales y otros no especificados).
Lo anterior, invita a cualquier analista de datos a utilizar alguna técnica especial o
metodología que le permita distinguir la información verdaderamente importante para lograr el
objetivo principal que consiste en medir la efectividad de BECATE. Como análisis piloto de
BECATE se eligió trabajar con la información del Estado de Chihuahua, analizando un curso de la
rama textil ya que es uno de los más solicitados y del cual el Departamento del Servicio Estatal de
Empleo (SEE) desea obtener mayor conocimiento sobre su comportamiento para poder incidir en
su funcionamiento de manera más oportuna y eficaz.
5.2.1 Descripción de los datos del ámbito laboral
El conjunto de matrices de datos contiene información sobre las variables características
de 17 municipios del Estado de Chihuahua en México (matriz X), medidas seriadas relativas a la
cantidad de personas colocadas (ocupadas) en un puesto de trabajo (matriz Y) y la variables
características de los cursos de capacitación (matriz Z).
Descripción de las variables en la matriz X (Tabla 5.1):
Var.
Etiqueta
Descripción
Tipo
1
ni
Número de identificación de cada Municipio
Numérico
2
municipio
Territorio que pertenece al Estado
Cadena
3
p.total
Población total del Municipio
Numérico
4
hombres
Total de hombres que habitan en el Municipio
Numérico
5
mujeres
Total de mujeres que habitan en el Municipio
Numérico
6
p12+
Total de población a partir de 12 años
Numérico
7
pea
Población económicamente activa
Numérico
8
pea.ocupada
Población económicamente ocupada
Numérico
9
pea.desocupada
Población económicamente desocupada
Numérico
10
alfabetas.masculinos
Alfabetas masculinos (mayores de 15 años)
Numérico
11
alfabetas.femeninas
Alfabetas femeninas (mayores de 15 años)
Numérico
12
analfabetas.masculinos
Analfabetas masculinos (mayores de 15 años)
Numérico
13
analfabetas.femeninas
Analfabetas femeninos (mayores de 15 años)
Numérico
14
ue.sector.manufactura
Establecimientos manufactureros en el Mpio.
Numérico
15
ue.sector.comercio
Establecimientos comerciales en el Mpio.
Numérico
16
ue.sector.servicios
Establecimientos de servicios en el Mpio.
Numérico
17
ue.sector.minero
Establecimientos mineros en el Mpio.
Numérico
18
total.de.escuelas
Total de escuelas en el Municipio
Numérico
19
tot.de.viviendas.hab
Total de viviendas habitadas
Numérico
20
ocu.en.viviendas.part
Ocupantes en viviendas particulares
Numérico
21
prom.de.ocu.por.vivienda
Promedio de ocupantes por vivienda
Numérico
22
t.de.red.carretera (km)
Total Km de red carretera en el Mpio.
Numérico
23
2
ext.territorial (km )
2
Area en Km que comprende el Mpio.
Numérico
24
tmax
Temperatura media máxima (°C)
Numérico
25
tmin
Temperatura media mínima (°C)
Numérico
26
tmed
Temperatura media anual (°C)
Numérico
27
precip.med.anual (ml)
Precipitación pluvial media anual (ml)
Numérico
Descripción de las variables en la matriz Y (Tabla 5.2):
Var.
Etiqueta
Descripción
Etiqueta del curso
Tipo
1
ec
Numérico
2
ic1
3
ic2
4
ic3
5
ic4
3ra Medida seriada correspondiente al no. de personas colocadas
Numérico
6
ic5
4ta Medida seriada correspondiente al no. de personas colocadas
Numérico
7
ic6
5ta Medida seriada correspondiente al no. de personas colocadas
Numérico
Medida seriada basal correspondiente al no. de personas
colocadas
1er Medida seriada correspondiente al no. de personas colocadas
2da Medida seriada correspondiente al no. de personas
colocadas
Numérico
Numérico
Numérico
Descripción de las variables en la matriz Z (Tabla 5.3):
Var.
Etiqueta
Descripción
Tipo
1
ec
Etiqueta del curso
Cadena
2
no.aut
Número de autorización de cada curso
Numérico
3
c.por.rama.econ
Especificación del ramo económico de cada curso
Cadena
4
especialidad
Actividad específica en que se desarrolla el curso
Cadena
5
centro.de.capacitación
Lugar en donde se imparte el curso
Cadena
6
localidad
Poblado en donde se desarrollan los cursos
Cadena
7
municipio
Territorio que pertenece al Estado
Cadena
8
u.op
Oficina coordinadora de los cursos
Numérico
9
progr.
10
t.i.
Total de personas inscritas en cada curso
Numérico
11
i.h
Hombres inscritos
Numérico
12
i.m
Mujeres inscritas
Numérico
13
t.e
Total de personas egresadas en cada curso
Numérico
14
e.h
Hombres egresados
Numérico
Personas programadas presupuestalmente en cada
curso
Numérico
15
e.m
Mujeres egresadas
Numérico
16
t.c
Total de personas colocadas
Numérico
17
c.h
Hombres colocados
Numérico
18
c.m
Mujeres colocadas
Numérico
19
f.inicio
Fecha en que inicia el curso
Cadena
20
f.termino
Fecha en que termina el curso
Cadena
21
duración
Tiempo de duración de cada curso
Cadena
22
horario
Turno en que se lleva a cabo cada curso
Cadena
23
inversión
Cantidad monetaria invertida en los cursos
Numérico
24
modalidad
Modo de impartición del curso
Cadena
En resumen, para efectos de esta tesis, se hará uso de la matriz Z (Tabla 5.3), que está
conformada por un total de 115 registros previamente clasificados por el experto (aprendizaje
supervisado). Dicha matriz será caracterizada e interpretada por CIADEC, para lo que se utilizará
el método de ten-folds cross-validation para generar dos conjuntos, uno de entrenamiento y uno de
prueba, con 105 y 10 registros respectivamente, alternando estos datos 12 veces de manera que
todos los registros sean evaluados en la forma necesaria por el sistema.
Es decir, la primera división contempla como conjunto de prueba a los 10 primeros
registros (del registro 1 al 10) y como conjunto de entrenamiento a los 105 restantes (del registro
11 al 115); para la segunda división, los 10 registros de prueba se tomaran a partir del registro 11
al 20 y el conjunto de entrenamiento estará conformado por los 10 anteriores registros de prueba,
es decir, del 1 al 10, más los registros restantes, esto es del registro 21 al 115 y así sucesivamente
hasta completar las 12 iteraciones.
5.3 APLICACIÓN DE LA METODOLOGIA DE KDSM AL DOMINIO
DEL AMBITO LABORAL
Para el análisis de los datos del Estado de Chihuahua, se aplicó la metodología KDSM
lográndose sus tres tareas principales:
La caracterización de la estructura conformada por los municipios sobre el primer índice de
contratación, es decir, el establecimiento de las condiciones iniciales;
El análisis del efecto de cada curso aislado eliminando el factor de bloque que conforman
los municipios; y
La identificación de las características relevantes de los cursos, la descripción de su
estructura y su interpretación.
5.3.1 Caracterización de la estructura de los Municipios para el
establecimiento de las condiciones iniciales
Al realizar los pasos de la metodología KDSM (apartado 5.1.1.4), se obtuvo como resultado
una base de conocimiento conformada por reglas que describen la estructura de los municipios en
relación al primer Índice de Contratación (IC).
A continuación en la Figura 5.1, se puede observar el árbol jerárquico obtenido al realizar la
clasificación de la matriz de basales Y0. Es decir la clasificación de las primeras medidas seriadas
del IC. La Figura 5.1 le sugirió al experto que el corte más conveniente era en 3 clases:
Clase C1
Municipios
de
Meoqui,
Ocampo, Camargo, Rosario, Delicias, Guadalupe y
Calvo, Aquiles Serdán, Valle de Zaragoza y Parral.
Clase C2
Municipios de Madera, Santa Isabel y Ojinaga.
Clase C3
Municipios
Allende.
de
Cuahtémoc, San
Francisco
del Oro,
Balleza, Jiménez y
Figura 5.1. Estructura de los Municipios
Para iniciar la interpretación de dichas clases se analizó la Figura 5.2 donde se puede
visualizar la caracterización del patrón de curva típico de cada clase (curva media de cada clase);
además de la tendencia general de las clases y la variabilidad entre ellas.
Figura 5.2. Medidas del IC en 3 clases
Se puede observar que la clase C1 (compuesta por nueve municipios) presenta variables
que le distinguen especialmente porque se encuentran dentro de rangos donde los límites mínimos
y máximos son los más pequeños y mayores de las tres clases. De la misma manera, se puede ver
que la contratación más elevada se realiza en la primera y segunda mediciones (línea continua).
En la clase C2 (conformada por tres municipios) se presentan valores que en general se
sitúan más cerca del punto medio de los rangos citados anteriormente. Además, se puede ver que
la contratación se realiza de forma más equilibrada distribuyendo su grosor entre la segunda y la
cuarta mediciones (línea de puntos).
Finalmente en la clase C3 (compuesta por cinco municipios) se tienen variables con
valores dispersos en rangos menores a la clase C1. De igual forma, se puede observar que el
comportamiento muestra que en la primera y segunda mediciones se colocan en promedio de 2 a 3
personas pero se aprecia que en la quinta medición hay un incremento considerable (línea
discontinua).
5.4
PROCESO
DE
CARACTERIZACION
USANDO
LA
METODOLOGIA CIADEC
En lo habitual cuando los individuos (en este caso municipios) de un dominio complejo y
real son descritos por variables cuantitativas, no es común encontrar aquellas que caractericen a
las distintas clases de una partición dada (o de referencia); por lo que para su análisis se debe
relajar este concepto al de variables parcialmente caracterizadoras [51], esto es, variables que son
compartidas por otras clases y que en un sistema de reglas, se representan con un grado de
pertenencia difuso a cada una de las clases de la partición de referencia, es decir, reglas difusas
(en el sentido de certeza a una clase).
Esto plantea un problema serio en la determinación de las variables caracterizadores y en
consecuencia en la caracterización y calidad de las clases resultantes de una clasificación de
referencia, considerando la calidad de una clasificación, desde un punto de vista subjetivo como la
utilidad o significado que las clases resultantes puedan tener para el experto, ya que no existe un
criterio objetivo que determine esta calidad.
Como una aproximación al proceso de caracterización y en consecuencia a la obtención de
una clasificación ―útil‖ o de ―calidad‖ para los propósitos del estudio se propone realizar los
siguientes pasos:
1. Una estadística descriptiva que proporcione información preliminar sobre la variabilidad de
las mediciones, descripción grafica de los boxplot para identificar las variables
caracterizadores y algunos otros parámetros útiles si los hubiera.
2. La inclusión del conocimiento a priori del experto para obtener las restricciones semánticas
(reglas) sobre las clases resultantes de la partición que faciliten el significado de las clases.
3. La aplicación de CIADEC para la obtención del sistema de reglas que proporcionen las
características relevantes de éstas para después continuar con el siguiente punto.
4. Determinar la calidad de las clases en términos del ―significado‖ o ―utilidad‖ de éstas.
5. Con estas clases a la vista y el análisis del experto, decidir si la estructura descubierta es
útil, de no ser así se repetiría el proceso; considerando otra clasificación donde se puede o
no incluir nuevas restricciones semánticas, nuevo conocimiento del experto o bien
combinando variables en forma de reglas difusas que permitan obtener una nueva
estructura de forma que ésta tenga significado para el objetivo del estudio. Si la
clasificación es útil entonces se efectúa el paso siguiente.
6. Proceso de interpretación de resultados y la estructura descubierta en los datos que puede
usarse como nuevo conocimiento para la toma de decisiones.
La Figura 5.3 muestra este proceso de caracterización de la matriz de basales Y0 a partir
de la matriz X (Tabla 5.1).
1
Estadística Descriptiva
2
Clustering Con o Sin
Reglas
3
Descripciones
Conceptuales de las
Clases
5
Utilidad de las Clases
4
Medida ? Calidad de
las Clases
6
Interpretaciones
7
2ª Tarea De KDSM
Figura 5.3. Diagrama del proceso de caracterización
Después de haber realizado la estadística descriptiva sobre las medidas del IC para
determinar la variabilidad de éstas se realizó la prueba de Kruskal-Wallis, que es un método no
parametrito para probar si un grupo de datos proviene de la misma población, y el boxplot [51, 53]
sobre todas las variables de la matriz X, para identificar aquéllos relevantes y caracterizadores,
estadísticamente hablando no se obtuvo ninguna información al respecto.
Dada la situación anterior, fue necesario acudir con el experto quien determinó que las
variables PROGR (Personas programadas presupuestalmente en cada curso), T.I (Total de
personas inscritas en cada curso), I.H (Hombres inscritos), I.M (Mujeres inscritas), T.E (Total de
personas egresadas de cada curso), E.H (Hombres egresados), E.M (Mujeres egresadas), T.C
(Total de personas colocadas), C.H (Hombres colocados), y C.M (Mujeres colocadas), todas ellas
pertenecientes a la Matriz Z (variables características de los cursos de capacitación), son
importantes para determinar un indicador para la Secretaría de Trabajo y Previsión Social, en los
17 Estados antes mencionados y distribuidos en tres clases. Estas variables son importantes
debido a que la impartición de los cursos y su contenido están sumamente relacionados con la
población y el territorio que ésta ocupa.
En la Figura 5.4 se pueden apreciar los boxplots de las variables de interés para lograr el
objetivo del experto.
Figura 5.4. Boxplots de variables características de los cursos de capacitación
A partir de estas variables se aplicó CIADEC para obtener el sistema de reglas que
permitiera la caracterización de cada una de las clases. Así mismo se crearon las etiquetas
lingüísticas (descripciones conceptuales de las clases resultantes): Muy Bajo (MB), Bajo (B),
Mediano (M), Alto (A) y Muy Alto (MA), para describir el grado de pertenecía de los cursos a las
clases anteriormente establecidas (Municipios), este procedimiento fue descrito en el Capítulo 3
apartado 3.6.5.
En consecuencia, dado que la mayoría de los intervalos presenta diferentes grados de
pertenencia a diferentes clases, esto genera un número de reglas con diferentes consecuentes
dentro del mismo intervalo. Por ejemplo, si la variable NO_AUT toma el valor de 392, este se
localiza en el intervalo
y satisface tres reglas en el sistema global de reglas con diferentes
grados de pertenencia. En este caso, el grado de pertenencia a la clase C1 es 0.64, a la clase C2
es 0.17 y a la clase C3 es 0.19; por lo tanto, hay tres reglas para asignar clases, de acuerdo al
nivel de NO_AUT. En notación de cálculo de predicados de primer orden, se expresa de la
siguiente forma:
XiNO_AUT Є (392]→ 0.64 → I Є C1
XiNO_AUT Є (392]→ 0.17 → I Є C2
XiNO_AUT Є (392]→ 0.19 → I Є C3
Lo anterior presenta una situación ambigua y la decisión de asignación de clase puede
llevar a errores. Como primera aproximación al proceso de toma de decisiones, se considera
K
necesario reducir el conjunto de reglas de cada intervalo I a solo una regla, siguiendo el criterio
del modo clásico de razonamiento aproximado para sistemas de clasificación difusa, respecto a
seleccionar la regla que presente probabilidad máxima en cada intervalo. Esta elección permitirá
reducir la ambigüedad del sistema de reglas resultante, a lo que se le designa el nombre de
Sistema de Reducido de Reglas.
A continuación se muestran los Conjuntos de Reglas Reducidas resultantes para cada
variable seleccionada como de relevante por el experto obtenidas por el sistema CIADEC, después
de caracterizar la matriz Z (características de los cursos).
Conjunto de Reglas Reducidas obtenidas para la variable PROGR:
xiPROGR Є I1→ 1.00 → C1
xiPROGR Є I2→ 0.81 → C2
xiPROGR Є I3→ 0.53 → C1
xiPROGR Є I4→ 0.33 → C1
xiPROGR Є I5→ 0.67 → C3
Conjunto de Reglas Reducidas obtenidas para la variable T.I:
xiT.I. Є I1→ 1.00 → C1
xiT.I. Є I2→ 0.80 → C1
xiT.I. Є I3→ 0.57 → C1
xiT.I. Є I4→ 0.50 → C3
xiT.I. Є I5→ 0.50 → C1
Conjunto de Reglas Reducidas obtenidas para la variable I.H:
xiI.H. Є I1→ 0.52 → C1
xiI.H. Є I2→ 0.52 → C1
xiI.H. Є I3→ 0.70 → C1
xiI.H. Є I4→ 0.86 → C1
xiI.H. Є I5→ 1.00 → C3
Conjunto de Reglas Reducidas obtenidas para la variable I.M:
xiI.M. Є I1→ 1.00 → C1
xiI.M..Є I2→ 0.80 → C1
xiI.M. Є I3→ 0.42→ C1
xiI.M Є I4→ 0.53 → C1
xiI.M. Є I5→ 0.67 → C1
Conjunto de Reglas Reducidas obtenidas para la variable T.E:
xiT.E. Є I1→ 1.00 → C1
xiT.E. Є I2→ 0.83 → C1
xiT.E. Є I3→ 0.59 → C1
xiT.E. Є I4→ 0.33 → C1
xiT.E. Є I5→ 0.50 → C1
Conjunto de Reglas Reducidas obtenidas para la variable E.H:
xiE.H. Є I1→ 0.54 → C1
xiE.H. Є I2→ 0.54 → C1
xiE.H. Є I3→ 0.54 → C1
xiE.H. Є I4→ 0.84 → C1
xiE.H. Є I5→ 0.75 → C3
Conjunto de Reglas Reducidas obtenidas para la variable E.M:
xiE.M. Є I1→ 1.00 → C1
xiE.M. Є I2→ 0.60 → C1
xiE.M. Є I3→ 0.50 → C1
xiE.M. Є I4→ 0.58 → C1
xiE.M. Є I5→ 0.50 → C1
Conjunto de Reglas Reducidas obtenidas para la variable T.C:
xiT.C. Є I1→ 1.00 → C1
xiT.C. Є I2→ 0.33 → C1
xiT.C. Є I3→ 0.70 → C1
xiT.C. Є I4→ 0.77 → C2
xiT.C. Є I5→ 0.50 → C1
Conjunto de Reglas Reducidas obtenidas para la variable C.H:
xiC.H. Є I1→ 0.56 → C1
xiC.H. Є I2→ 0.56 → C1
xiC.H. Є I3→ 0.56 → C1
xiC.H. Є I4→ 0.69 → C1
xiC.H. Є I5→ 0.63 → C3
Conjunto de Reglas Reducidas obtenidas para la variable C.M:
xiC.M. Є I1→ 0.80 → C1
xiC.M. Є I2→ 0.80 → C1
xiC.M. Є I3→ 0.69 → C1
xiC.M. Є I4→ 0.83 → C1
xiC.M. Є I5→ 0.50 → C1
Una vez obtenidas las reglas se ponen a consideración del experto para que él valore la
representación que forman en la estructura.
5.4.1 Identificación de las características relevantes de los cursos
Como se especifico anteriormente, se hizo uso del sistema CIADEC para localizar las
variables de la matriz Z “Características de los cursos”, obteniendo las reglas ya citadas.
Una vez identificadas dichas variables relevantes de la proyección de la matriz de
características de los cursos en las clases obtenidas con la ClBR (Clasificación Basada en Reglas)
de las diferencias—que determinan en algún sentido el comportamiento de los municipios—el
experto procedió a dar significado a los mismos.
Se encontró que la clase C1 se compone de 74 cursos de los cuales 45 de ellos
corresponden a la modalidad mixta capacitando aproximadamente a 588 personas, en donde la
inversión económica osciló entre $16,100 pesos hasta $68,800 pesos por curso. Se logró un
porcentaje de egresados del 76% (447 personas) y una contratación para un puesto de trabajo del
70% de participantes aproximadamente (412 personas).
Por
último,
se
tienen
29
cursos
de
modalidad
de
autoempleo
capacitando
aproximadamente a 584 personas, en donde la inversión económica oscila entre $45,900 pesos y
$92,000 pesos por curso, logrando que el total de egresados fuera de un 96% (563 personas) y
que se ocupara aproximadamente el 68% de participantes (395 personas).
La tendencia de esta clase, refleja un repunte tardío hacia la medición de la diferencia del
Índice de Contratación, que indica la evolución de dicho índice eliminando el efecto que el
municipio ejerce en el curso. Siendo la mayoría de los cursos de capacitación mixta, los
participantes al egresar requieren de más tiempo para encontrar un puesto de trabajo o bien,
establecer su propio negocio.
Se observa que la Clase C2, se compone de 14 cursos, todos ellos corresponden a la
modalidad de autoempleo capacitando aproximadamente a 272 personas, en donde la inversión
económica osciló entre $45,850 pesos hasta $111,000 pesos por curso. La mayoría de los cursos
iniciaron al 100% de su capacidad (20 personas) logrando que al término del curso,
aproximadamente un 93% de los participantes egresaran (253 personas) y que un 71% (192
personas) de estos se ocupara.
La tendencia de ésta clase, refleja que el IC está directamente relacionado con la
modalidad de los cursos, ya que todos ellos son de capacitación de autoempleo, por lo que la
mayoría de los participantes al egresar ya cuentan con un puesto de trabajo en las empresas que
participan en el proceso de capacitación.
La Clase C3, se compone de 27 cursos de los cuales 16 corresponden a la modalidad de
autoempleo capacitando aproximadamente a 311 personas, en donde la inversión económica
osciló entre $45,850 pesos hasta $91,700 pesos por curso. La mayoría de los cursos iniciaron al
100% de su capacidad (20 personas) logrando que al término del curso, aproximadamente un 90%
de los participantes egresaran (282 personas) y que un 80% (250 personas) de estos se ocupara
ya sea trabajando por cuenta propia o bien, uniéndose en microempresas. Por otra parte, se tienen
11 cursos de modalidad mixta capacitando aproximadamente a 230 personas, en donde la
inversión económica oscila entre $32,300 pesos y $67,800 pesos por curso; donde se logró un
porcentaje de egresados superior al 93% de los participantes (215 personas), además de la
contratación para un puesto de trabajo del 94% de participantes aproximadamente (217 personas).
La tendencia de esta clase refleja que el IC se encuentra estrechamente ligada a la
modalidad de los cursos, siendo estos en mayor cantidad de capacitación de autoempleo, por lo
que gran parte de los participantes al egresar ya cuentan con un puesto de trabajo en las
empresas que participan en el proceso de capacitación.
Para finalizar, se aprecia claramente que entre las clases se presenta una tendencia muy
diferente marcada por la modalidad, donde cada curso tiene su efecto particular invitando a
analizar aquellas variables que influyen en el comportamiento encontrado y que esta información
pueda ser la pauta para que la Secretaria de trabajo y Previsión Social (STPS) realice la
planificación futura del BECATE.
5.4.2 Eficiencia del sistema
En este apartado se incluirán las principales pantallas que genera la Tecnología CIADEC
con el fin de mostrar el proceso que se llevo a cabo para obtener los resultados mencionados,
explicando cada una de ellas para permitir una mejor comprensión. Es importante mencionar que
se incluye un anexo en la presente tesis, en el que se describe de forma amplia el funcionamiento
del sistema.
Figura 5.5
Después de crear un nuevo directorio para que ahí se alojen los resultados (en este caso
CursosPM), se procede a elegir el archivo de entrenamiento (T0_1.dat), Figura 5.5, el cual se
analiza y proyecta la siguiente pantalla (Figura 5.6).
Figura 5.6
En esta pantalla se pueden observar las características del archivo que fue analizado;
como se mencionó en el apartado 5.2.1, la matriz Z, ―variables características de los cursos de
capacitación‖, se proceso una matriz de 24 columnas y 106 filas (105 registros y 1 fila para el
nombre de la variable), además de que los registros que conforman el archivo están previamente
clasificados.
Posteriormente, se procede eligieron las variables con las que se trabajaría, y como se
puede
observar
en
la
Figura
5.7,
CIADEC
nos
permite
seleccionar
todas
aunque
consecuentemente nos sugiera una selección de variables que nos permita obtener mejores
resultados (Figura 5.8).
Figura 5.7
Figura 5.8
Una vez que se seleccionaron las variables, a continuación se generaron los Intervalos,
Tablas y Reglas de cada una de las variables, las cuales se guardan en la carpeta que está siendo
usada (CursosPM).
Acto seguido, en el menú entrenamiento se elije la opción de llamar a P0, que será el
archivo de prueba para ese conjunto de entrenamiento (P0_1), Figura 5.9, compuesto por 10
registros y una fila que indica el nombre de las variables; los registros de este archivo no cuentan
con una clasificación, de manera que sea el sistema, con el conocimiento adquirido al procesar el
conjunto de entrenamiento, quien asigne la mejor clase.
Figura 5.9
En las pantallas anteriores se maneja el Criterio de Agregación de Probabilidades
Máximas, y se hace lo mismo con los otros dos Criterios, el de Votación y el de Sumas Máximas.
La valoración e interpretación de dicho archivo de prueba, está compuesta de cuatros
pestañas que nos indican las características del archivo, la clasificación de los registros (por el
método con que se esté trabajando) y la generación de la interpretación de dicha clasificación.
Figura 5.10
En la Figura 5.10 se puede observar que la primera pestaña ―Apertura‖, analiza el archivo
de prueba mostrando sus características. En la Figura 5.11, se muestra la pestaña de ―Analizar‖,
que da la pauta para continuar con el proceso de valoración e interpretación.
Figura 5.11
A continuación, la Figura 5.12, hace referencia a la pestaña ―Clasificación‖, que nos indica
con que archivo de entrenamiento y de prueba se está trabajando y donde se permite seleccionar
el Criterio de Agregación para generar los resultados (en este caso Criterio de Máxima
Probabilidad). En esta pantalla se puede ver que CIADEC ha asignado una clase a los archivos de
prueba.
Figura 5.12
Para efectos de este apartado, se incluyen las pantallas generadas con los dos Criterios de
Agregación restantes, el de Votación y el de Suma Máxima (Figura 5.13 y 5.14 respectivamente),
en las que se muestra que la clasificación obtenida por los tres Criterios de Agregación en este
archivo de prueba es la misma. De igual manera es importante reiterar que no siempre será así, ya
que cada método cuenta un proceso propio.
Figura 5.13
Figura 5.14
Por último, en la Figura 5.15 (a) y Figura 5.15 (b), se puede observar la pestaña de
―Interpretación‖, que precisamente genera un archivo en donde se interpreta la clasificación que
realizó CIADEC al archivo de prueba.
Figura 5.15 (a)
Figura 5.15
(b)
El proceso anterior se realiza con todos los archivos de entrenamiento y prueba, como ya
se había mencionado, de manera que los 115 registros que conforman la matriz Z ―variables
características de los cursos de capacitación‖ sean evaluados por la Tecnología CIADEC (método
k-folds cross-validation, apartado 5.1.1.3.2), de igual forma con los tres Criterios de Agregación
citados en el apartado 5.1.1.3.1.
A continuación se muestran las etiquetas lingüísticas para cada variable, tal y como fueron
expuestas en el Capítulo 3 en el apartado 3.6.5.
Etiquetas lingüísticas para la variable PROGR.
1.- MUY BAJO
Modelo difuso.
Gráfica 5.1. Etiqueta Muy Bajo para la variable PROGR
2.- BAJO
Modelo difuso.
Gráfica 5.2. Etiqueta Bajo para la variable PROGR
3.- MEDIANO
Modelo difuso.
Gráfica 5.3. Etiqueta Mediano para la variable PROGR
4.- ALTO
Modelo difuso.
Gráfica 5.4. Etiqueta Alto para la variable PROGR
5.- MUY ALTO
Modelo difuso.
Gráfica 5.5. Etiqueta Muy Alto para la variable PROGR
Etiquetas lingüísticas para la variable T.I.
1.- MUY BAJO
Modelo difuso.
Gráfica 5.6. Etiqueta Muy Bajo para la variable T.I.
2.- BAJO
Modelo difuso.
Gráfica 5.7. Etiqueta Bajo para la variable T.I.
3.- MEDIANO
Modelo difuso.
Gráfica 5.8. Etiqueta Mediano para la variable T.I.
4.- ALTO
Modelo difuso.
Gráfica 5.9. Etiqueta Alto para la variable T.I.
5.- MUY ALTO
Modelo difuso.
Gráfica 5.10. Etiqueta Muy Alto para la variable T.I.
Etiquetas lingüísticas para la variable I.H.
1.- MUY BAJO
Modelo difuso.
Gráfica 5.11. Etiqueta Muy Bajo para la variable I.H.
2.- BAJO
Modelo difuso.
Gráfica 5.12. Etiqueta Bajo para la variable I.H.
3.- MEDIANO
Modelo difuso.
Gráfica 5.13. Etiqueta Mediano para la variable I.H.
4.- ALTO
Modelo difuso.
Gráfica 5.14. Etiqueta Alto para la variable I.H.
5.- MUY ALTO
Modelo difuso.
Gráfica 5.15. Etiqueta Muy Alto para la variable I.H.
Etiquetas lingüísticas para la variable I.M.
1.- MUY BAJO
Modelo difuso.
Gráfica 5.16. Etiqueta Muy Bajo para la variable I.M.
2.- BAJO
Modelo difuso.
Gráfica 5.17. Etiqueta Bajo para la variable I.M.
3.- MEDIANO
Modelo difuso.
Gráfica 5.18. Etiqueta Mediano para la variable I.M.
4.- ALTO
Modelo difuso.
Gráfica 5.19. Etiqueta Alto para la variable I.M.
5.- MUY ALTO
Modelo difuso.
Gráfica 5.20. Etiqueta Muy Alto para la variable I.M.
Etiquetas lingüísticas para la variable T.E.
1.- MUY BAJO
Modelo difuso.
Gráfica 5.21. Etiqueta Muy Bajo para la variable T.E.
2.- BAJO
Modelo difuso.
Gráfica 5.22. Etiqueta Bajo para la variable T.E.
3.- MEDIANO
Modelo difuso.
Gráfica 5.23. Etiqueta Mediano para la variable T.E.
4.- ALTO
Modelo difuso.
Gráfica 5.24. Etiqueta Alto para la variable T.E.
5.- MUY ALTO
Modelo difuso.
Gráfica 5.25. Etiqueta Muy Alto para la variable T.E.
Etiquetas lingüísticas para la variable E.H.
1.- MUY BAJO
Modelo difuso.
Gráfica 5.26. Etiqueta Muy Bajo para la variable E.H.
2.- BAJO
Modelo difuso.
Gráfica 5.27. Etiqueta Bajo para la variable E.H.
3.- MEDIANO
Modelo difuso.
Gráfica 5.28. Etiqueta Mediano para la variable E.H.
4.- ALTO
Modelo difuso.
Gráfica 5.29. Etiqueta Alto para la variable E.H.
5.- MUY ALTO
Modelo difuso.
Gráfica 5.30. Etiqueta Muy Alto para la variable E.H.
Etiquetas lingüísticas para la variable E.M.
1.- MUY BAJO
Modelo difuso.
Gráfica 5.31. Etiqueta Muy Bajo para la variable E.M.
2.- BAJO
Modelo difuso.
Gráfica 5.32. Etiqueta Bajo para la variable E.M.
3.- MEDIANO
Modelo difuso.
Gráfica 5.33. Etiqueta Mediano para la variable E.M.
4.- ALTO
Modelo difuso.
Gráfica 5.34. Etiqueta Alto para la variable E.M.
5.- MUY ALTO
Modelo difuso.
Gráfica 5.35. Etiqueta Muy Alto para la variable E.M.
Etiquetas lingüísticas para la variable C.H.
1.- MUY BAJO
Modelo difuso.
Gráfica 5.36. Etiqueta Muy Bajo para la variable C.H.
2.- BAJO
Modelo difuso.
Gráfica 5.37. Etiqueta Bajo para la variable C.H.
3.- MEDIANO
Modelo difuso.
Gráfica 5.38. Etiqueta Mediano para la variable C.H.
4.- ALTO
Modelo difuso.
Gráfica 5.39. Etiqueta Alto para la variable C.H.
5.- MUY ALTO
Modelo difuso.
Gráfica 5.40. Etiqueta Muy Alto para la variable C.H.
Etiquetas lingüísticas para la variable C.M.
1.- MUY BAJO
Modelo difuso.
Gráfica 5.41. Etiqueta Muy Bajo para la variable C.M.
2.- BAJO
Modelo difuso.
Gráfica 5.42. Etiqueta Bajo para la variable C.M.
3.- MEDIANO
Modelo difuso.
Gráfica 5.43. Etiqueta Mediano para la variable C.M.
4.- ALTO
Modelo difuso.
Gráfica 5.44. Etiqueta Alto para la variable C.M.
5.- MUY ALTO
Modelo difuso.
Gráfica 5.45. Etiqueta Muy Alto para la variable C.M.
Una vez que la matriz Z, características de los cursos, ha sido caracterizada e interpretada
por CIADEC, se procede a medir la eficiencia de los resultados generados por el experto contra los
resultados concebidos por el sistema, por lo que a continuación se presenta una tabla comparativa
(Tabla 5.4) que permitirá observar de manera clara dicha comparación.
Tabla de Validación de Resultados (Tabla 5.4).
i
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20
CLASE
1
1
1
1
1
1
1
1
1
1
1
3
3
3
2
1
1
1
1
1
PM
1
1
1
1
1
1
1
1
1
1
1
1
3
3
1
1
1
1
1
1
VOT
1
1
1
1
1
1
1
1
1
1
1
3
3
1
1
1
1
1
1
1
SUM
1
1
1
1
1
1
1
1
1
1
1
3
1
1
1
1
1
1
1
1
i
21 22 23 24 25 26 27 28 29 30
CLASE
1
1
1
1
1
1
1
3
1
1
PM
1
1
1
1
1
1
1
1
1
1
VOT
1
1
1
1
1
1
1
1
1
1
SUM
1
1
1
1
1
1
1
1
1
1
Es importante mencionar que los datos que contempla la tabla de validación (Tabla 5.5.) de
resultados fueron seleccionados aleatoriamente del total de 115 registros que contiene la matriz Z.
Tabla de Errores de Predicción (Tabla 5.5).
CLASIF.
P. MÁXIMA
VOTACIÓN
SUMA MÁXIMA
CLASE
90%
90%
87%
Con los datos anteriores se puede observar, que la Tecnología CIADEC con ayuda de la
Asignación por Criterios de Probabilidad Máxima y por el Criterio de Votación presenta una
eficiencia del 90%, es decir, los resultados arrojados por CIADEC son confiables y serán de gran
ayuda al experto al momento de llevar a cabo la toma de decisiones con respecto a los cursos
impartidos por cada municipio que conforman la Clase C1. Por otra parte, puede verse también,
que la Asignación por Criterio de Suma Máxima presenta un ligero decremento de porcentaje,
87%, lo que indica que la clasificación generada por este tipo de Criterio será solo un poco menor
en el grado de confiabilidad con respecto a los Criterios anteriormente mencionados.
CAPÍTULO VI
CONCLUSIONES Y TRABAJO FUTURO
6.1 Conclusiones
En este trabajo se hizo uso de la metodología KDSM para el análisis de medidas seriadas
muy cortas y repetidas y, de la metodología de CIADEC enfocada al proceso de caracterización y
en consecuencia a la obtención de una clasificación ―útil‖ o de ―calidad‖, que permitiera obtener la
estructura semántica de forma que, ésta tuviera significado para el objetivo de este estudio; los
datos fueron tomados de un conjunto de municipios, donde éstos actúan formado bloques con
dichas medidas.
La metodología CIADEC fue diseñada para descubrir nuevo conocimiento en dominios
donde se presentan este tipo de datos; obteniendo a la fecha resultados muy satisfactorios en una
primera aplicación al ámbito medioambiental [153].
Los trabajos de mejora de esta metodología continúan y su aplicación se ha extendido a
otro ámbito: la capacitación laboral; donde también se obtuvieron resultados satisfactorios e
importantes. Se puede concluir, en cuanto a la metodología se refiere, que ésta integra técnicas
habituales de Estadística, Inteligencia Artificial y Lógica Difusa para dar una posible solución al
problema cuando no se encuentran variables relevantes o caracterizadores y medidas seriadas
como complemento de la metodología KDSM para caracterizar la matriz de basales Y0 en función
de la matriz de datos X.
Por otra parte, el uso de reglas difusas como combinación de variables permitió la
obtención de una clasificación ―útil‖ para el experto en función del objetivo de estudio.
En cuanto a la aplicación de las metodologías antes mencionadas al ámbito laboral, se
debe recordar que una de las funciones de la Secretaria de Trabajo y Previsión Social (STPS) a
través de los Servicios Estatales de Empleo (SEE) es dar seguimiento a los resultados obtenidos
con el BECATE, midiendo su eficiencia mediante una relación costo/beneficio; es decir, la inversión
económica con respecto a la gente ya capacitada y que se ha incorporado al sector laboral.
En un esfuerzo por mejorar esta labor se ejecutó un programa piloto para valorar la
conveniencia de utilizar la metodología antes mencionada (CIADEC) como herramienta auxiliar
para el análisis de 3 diferentes tipos de cursos en 17 Municipios del Estado de Chihuahua, México.
El programa piloto consistió del análisis de una sola rama de estudio (Manufactura Textil) impartida
en el conjunto de 17 municipios del Estado y de los resultados obtenidos descritos en el apartado
5.4.1 se obtuvieron las conclusiones que se detallan a continuación.
En la distribución de las unidades económicas del sector Manufactura (cantidad de
empresas) en las clases C1, C2 y C3, la inversión económica y la modalidad se aprecia que: la
inversión económica por parte del gobierno es menor cuando la modalidad del curso es
capacitación mixta debido a la participación directa de las empresas. Es así, que basándose en
este hecho la STPS puede optimizar el BECATE de forma que se aproveche al máximo el nicho de
oportunidad que para el gobierno, sector empresarial y trabajadores desempleados representa la
coordinación gobierno-empresa en la capacitación.
Por otra parte, conociendo la distribución de las empresas, la modalidad del curso y las
características de los municipios (Boxplots de la Figura 5.4) la STPS podrá realizar la planeación
de la capacitación decidiendo entre las diferentes modalidades de los cursos, sus contenidos y
Municipio en que se impartirá; de forma que respondan a las necesidades económicas de los
estos, así como las necesidades del sector empresarial y se maximice la relación costo/beneficio.
Finalmente, en base al total de inscritos (Figura 5.4(b)), total de egresados (Figura 5.4(e)) y
total de contratados (Figura 5.4(h)), la STPS podrá actuar ante una situación en la cual el mercado
ya no contrate la cantidad suficiente de egresados y en la que se pierda el equilibrio de la relación
costo/beneficio.
6.2 Trabajo futuro
Este trabajo representa una primera etapa de la aplicación de la metodología CIADEC en el
dominio laboral de una organización, en el cual varias tareas se han identificado para ser
desarrolladas.
Formalizar un mecanismo para mejorar el proceso de adquisición con calidad de clases en
términos de la utilidad.
Definir el mecanismo de obtención de reglas cuando ninguno de los atributos caracteriza
completamente a las clases y además no existe ninguno estadísticamente relevante.
Establecer un sistema de caracterización para descripciones conceptúales de las clases a
partir de una partición de referencia así como un modelo de generación automática de
interpretación de las mismas.
CONCLUSIONES
El uso de la metodología KDSM para el análisis de medidas seriadas muy cortas y
repetidas y, de la metodología de CIADEC enfocada al proceso de caracterización, permitieron la
obtención de una clasificación de calidad, que permitiera obtener una estructura semántica para un
caso especifico, que para efectos de esta tesis fue el ámbito laboral del Subprograma BECATE, de
forma que, ésta tuviera significado para el objetivo de este estudio.
La metodología CIADEC, combinación de técnicas habituales de Estadística, Inteligencia
Artificial y Lógica Difusa, ofrece una posible solución al problema cuando no se encuentran
variables relevantes o caracterizadores y medidas seriadas como complemento de la metodología
KDSM para caracterizar una matriz de basales Y0 en función de una matriz de datos X. El uso de
reglas difusas como combinación de variables permitió la obtención de una clasificación ―útil‖ para
el experto en función del objetivo de estudio.
En cuanto a la aplicación de las metodologías antes mencionadas al ámbito laboral, se
debe recordar que una de las funciones de la Secretaria de Trabajo y Previsión Social (STPS) a
través de los Servicios Estatales de Empleo (SEE) es dar seguimiento a los resultados obtenidos
con el BECATE, midiendo su eficiencia mediante una relación costo/beneficio; es decir, la inversión
económica con respecto a la gente ya capacitada y que se ha incorporado al sector laboral. En un
esfuerzo por mejorar esta labor se ejecutó un programa piloto para valorar la conveniencia de
utilizar la metodología antes mencionada (CIADEC) como herramienta auxiliar para el análisis de 3
diferentes tipos de cursos en 17 Municipios del Estado de Chihuahua, México. El programa piloto
consistió del análisis de una sola rama de estudio (Manufactura Textil) impartida en el conjunto de
17 municipios del Estado; los resultados obtenidos se describieron en el Capítulo 6.
En resumen, las conclusiones de la aplicación de la metodología CIADEC al ámbito de la
capacitación laboral son las siguientes:
Como soporte a la toma de decisiones en una organización. Retroalimenta con
conocimiento del BECATE a la STPS para que ésta actúe en consecuencia.
Como auxiliar a la optimización y planeación. Fundamenta las decisiones en cuanto a que
tipo de curso sería mejor implementar en cada Municipio y demás características de los
mismos que le permitirán mejorar de forma continua y permanente el funcionamiento del
BECATE.
Como proveedor de nuevo conocimiento. Otorga conocimiento proveniente de la
monitorización a los cursos que permitirá que la STPS actúe ante un desequilibrio en la
relación costo/beneficio.
ANEXO
ANEXO
MANUAL DE USUARIO DEL SISTEMA CIADEC 2.0
Introducción
El Sistema CIADEC (Características e Interpretación Automática de Descripciones Conceptuales
en Dominios poco Estructurado usando Variables Numéricas), está diseñado para generar reglas
difusas a partir de variables numéricas; tal sistema permite caracterizar las diversas clases de una
clasificación previamente establecida, en dominios poco estructurados asignando etiquetas
lingüísticas.
A partir de ello, se pueden establecer criterios de decisión en tiempo real, de acuerdo con los
hombres y mujeres inscritos en cada curso del dominio que se esté considerando, por ejemplo, los
componentes de un programa de capacitación orientado al Ámbito Laboral, de manera más
sencilla y eficiente de forma tal que no sólo puede ser realizado por un experto sino por un usuario
en general.
Requerimientos
Los requerimientos de software y hardware para la instalación del sistema CIADEC son:
Hardware:

Disco duro 40 GB

Procesador PENTIUM IV a 500 Mhz

256 Mb de Memoria RAM
Software:

JAVA

JCreator LE

WinEdt
Instalación
A continuación se muestran los pasos para la instalación del sistema CIADEC:
1. Principalmente se ejecuta el programa JCreator LE.
2. En la opción Abrir… despliega una ventana la cual nos da la opción Buscar
dentro de la cual se seleccionará la unidad C:\, posteriormente se seleccionará la
carpeta de nombre CIADEC, finalmente se selecciona el archivo llamado Grafico
de extensión .java y se da un clic al botón Aceptar.
3. Una vez que se abre el código del programa CIADEC se presiona el botón de
Compilar archivo.
4. Finalizada la compilación se muestra el mensaje: Proceso completo y se procede
a presionar el botón de Ejecutar archivo.
5. A continuación se despliega una pantalla de fondo negro la cual manda llamar a
las clases del programa y en pocos segundos despliega la pantalla principal del
sistema CIADEC y a partir de ese momento se puede trabajar con el sistema.
Características Generales del Sistema CIADEC
Barra de
Menús
Figura 1
1. Menú Directorio (Activado al inicio del Sistema)
Figura 2
Manipula el directorio de trabajo, y cuenta con los submenús siguientes:
Nuevo.
Crea un nuevo directorio de resultados, es decir crea una carpeta vacía en la que se almacenarán
los archivos que genera el sistema, para lo cual es necesario introducir la dirección en donde se
desea posicionar la carpeta y el nombre del directorio.
Figura 3
En este apartado es necesario especificar que existen dos posibles maneras para poder crear esta
carpeta:
1. El usuario introduce una dirección y nombre al directorio de resultados (carpeta donde
se almacenarán los archivos generados por el sistema), es decir, la ruta específica
donde quiere que se guarden los archivos resultantes.
2. No se asigna ninguna dirección para posicionar la carpeta pero si se asigna un nombre.
La carpeta se creará por default con el nombre asignado, en la dirección donde se
encuentra el ejecutable del programa CIADEC.
Al no asignar ninguna dirección, ni nombre a la carpeta donde se almacenarán los archivos
generados por el sistema, éste enviara un mensaje de error indicando que no se ha asignado ya
sea una ruta o un nombre a la carpeta que servirá para almacenar los archivos generados por el
sistema. Por lo anterior, es necesario crear o abrir una carpeta para poder trabajar con el sistema.
Después de asignar una ruta para la carpeta, el sistema habilita el submenú Cambiar… que se
explicará posteriormente.
Abrir.
Abre un directorio de resultados ya creados. Despliega una ventana llamada Abrir Directorio
(Figura 4) en la cual se introducirá la dirección en donde se encuentra posicionada la carpeta y el
nombre del directorio que se desea abrir.
Figura 4
Al igual que con el submenú Nuevo Directorio, se puede asignar la ruta especifica o únicamente
el nombre de la carpeta que desee abrir.
El sistema enviará mensajes de Advertencia o de Error según sea el caso; serán de Advertencia
cuando la carpeta que desea abrir ya existe por lo que el sistema le preguntará si desea trabajar
con ella, y también, cuando la carpeta que indique que abra no exista, para lo que el sistema se lo
hará saber preguntando si desea crear una nueva carpeta. Se emitirá un mensaje de Error cuando
no escriba ningún nombre de carpeta, es decir, que no escriba nada en el cuadro de dialogo de
Abrir Directorio.
Después de asignar Abrir una carpeta especifica, el sistema habilitará el submenú Cambiar… que
se explica a continuación.
NOTA: una vez que se ubique en un directorio, los submenús Nuevo… y Abrir… permanecerán
desactivados, ya que esta actualmente trabajando con el sistema CIADEC, para elegir otro
directorio para trabajar puede hacer uso del submenú Cambiar.
Cambiar (desactivado al inicio del sistema, pero activado después de ejecutar alguna de
las operaciones de Crear Directorio y Abrir Directorio).
Despliega una ventana llamada Cambiar Directorio, como se muestra en la siguiente imagen
(Figura 5), en la cual se tendrá que introducir la dirección y el nombre del directorio con el que se
desea trabajar para almacenar los archivos generados por el sistema, por default aparece el
nombre del directorio actual con que se esta trabajando.
Figura 5
De la misma forma es posible asignar una ruta completa o únicamente el nombre de la carpeta a la
que desee cambiar, esto depende de donde este ubicada.
El sistema emitirá mensajes de Advertencia o de Error según sea el caso; serán de Advertencia
cuando la carpeta a la que desea cambiar ya existe, por lo que el sistema le preguntará si desea
trabajar con ella, y también, cuando la carpeta a cambiar no exista, para lo que el sistema se lo
hará saber preguntando si desea crear una nueva carpeta con ese nombre. Se emitirá un mensaje
de Error cuando no escriba ningún nombre de carpeta a la que desee cambiar, es decir, que no
escriba nada en el cuadro de dialogo de Cambiar Directorio.
A pesar de que no se haya creado la carpeta a la cual se deseaba cambiar, se podrá continuar
trabajando con los siguientes menús dado que se almacenarán los archivos generados por el
sistema en la dirección actual en la que se encuentre, pero si en algún momento desea cambiar el
directorio de resultados lo podrá hacer dado que continua activado el submenú Cambiar… , pero
en este caso no contendrá el nombre y la dirección que se le asignaron por última vez, es decir, la
posición y el nombre de la carpeta que no se deseó crear sólo contendrá el nombre y la dirección
del directorio actual.
2. Menú Entrenamiento (Activado al inicio del Sistema)
Figura 6
Escoge el archivo de entrada y cuenta con los siguientes submenús:
Llamar T0.
Llama al archivo de trabajo, es decir llama al archivo de entrenamiento. El submenú Llamar a T0
muestra la pantalla con el nombre de Llamada del Archivo de Entrenamiento, y esta contiene:

Dirección de archivos.
Es la dirección donde se encuentran los archivos de entrenamiento, dentro del cual por default
aparecerá el nombre de la carpeta Datos la cual se encuentra Dentro de la Carpeta del
sistema CIADEC en la unidad C:\.
Figura 7
El usuario pueda asignar la dirección que el desee para elegir los archivos de entrenamiento.
Al presionar el Botón Extraer, se mostraran mensajes de Advertencia cuando no exista el
directorio especificado por lo que se pide se compruebe su nombre; cuando este sea correcto,
en ese momento se cargarán todos los archivos especificados.

Especificación de extensión.
Cuenta con dos opciones: No, por default se extraerán todos los archivos de entrenamiento
con la extensión *.dat que se encuentran dentro de la carpeta con la que se trabajará; con la
opción Sí se tiene que especificar la extensión del archivo de entrenamiento con *.extensión. Si
se elige esta última, se pueden presentar cinco posibles casos (se menciona cada uno con su
respectivo mensaje de Advertencia):
1. Que opte por la extensión .doc, la cual no existe, ya que no existirán archivos dentro de la
dirección mencionada con esta extensión. El mensaje hará referencia a que existe el
directorio pero no contiene ningún archivo especificado.
2. Cuando no se especifique ninguna extensión de archivo, es decir, se deje el espacio en
blanco. El mensaje indicara que existe un error en la extensión.
3. Cuando se escribe la extensión sin iniciar con ―.‖. El mensaje será el mismo que en el punto
anterior.
4. Cuando se escriba únicamente un punto (.). El mensaje dirá que se cargaran todos los
archivos especificados, es decir, todos los archivos que están contenidos dentro de la
carpeta especificada en Dirección de Archivos.
5. Cuando se escriba en forma correcta la extensión, es decir, .dat, o lo que sería su
equivalente al seleccionar la opción No.
Figura 8

Elegir archivo.
Al momento en que se abre la pantalla Llamada del Archivo de Prueba la opción de Elegir
archivo aparece desactivada, debido a que inicialmente se tiene que asignar una Dirección
de archivos y una Especificación de extensión, una vez realizados los pasos anteriores, al
presionar el botón Extraer, se activará la opción Elegir Archivo.
Figura 9
En esta opción se muestran los archivos de prueba (con la extensión que se especifico o la
que aparece por default en caso de no especificarla) que se encuentran dentro de la carpeta
indicada, se tendrá que seleccionar uno para trabajar con él.
Al presionar el botón Analizar… activa el botón Aceptar, al igual que el menú Variables y
despliega una ventana llamada Características, la cual se explicará a continuación.
Características
Despliega las características del archivo que se esta analizando dentro de los que se
encuentran:

Propiedades del archivo: muestra el nombre del archivo que esta analizando y su
extensión.

Compatible con CIADEC: en este caso se tendrán dos opciones; verdadero
(TRUE) o falso (FALSE), y por lo tanto, en caso de no ser compatible no se podrá
trabajar con el archivo.

Tamaño: despliega el tamaño en bytes del archivo que se esta analizando.

No. Columnas: despliega el número de columnas que contiene el archivo que se
esta analizando.

No. Filas: despliega el número de filas que contiene el archivo que se esta
analizando.

C.N.: despliega cuantas columnas numéricas existen dentro de este archivo que se
esta analizando.

C.N.N.: despliega cuantas columnas no numéricas existen dentro del archivo que
se esta analizando.

Con Nombre de Variables: informa si tienen nombre las variables del archivo que
se esta analizando, por lo tanto, se tendrán dos opciones; verdadero (TRUE) o
falso (FALSE), en ambos casos se podrá trabajar con el archivo.

Con clasificación: informa si las variables tienen clasificación, por lo tanto, se
tendrán dos opciones; verdadero (TRUE) o falso (FALSE), en caso de no tener
clasificación no se podrá trabajar con el archivo.

Número de individuos: despliega el número de individuos con los que cuenta el
archivo que se esta analizando.
Figura 10
Al visualizar las características de un archivo específico se presentan las siguientes
situaciones:
1.
Se trabaja con un archivo de extensión *.dat el cual es compatible con CIADEC,
las variables tienen nombre, pero no cuenta con una clasificación. En este caso, lo
más importante es que no cuenta con una clasificación y como consecuencia no
se podrá trabajar con el archivo ya que no generará Intervalos, Tablas, Reglas ni
Gráficos. Por lo tanto, se deberá trabajar con otro archivo o en caso contrario
hacerle los cambios necesarios (asignarle una clasificación).
2.
Se utiliza un archivo *.dat el cual es compatible con CIADEC, las variables no
tienen nombre y no cuenta con una clasificación. La situación que se presenta es
similar a la anterior solo que en este caso las variables no tienen nombre lo que no
afecta ya que el sistema las nombrara como: sin nombre 0, sin nombre 1, sin
nombre 2, etc. (NONAME 0, NONAME 1, NONAME 2, ETC). Ya que el archivo no
tiene clasificación se hace la misma recomendación que en el punto anterior.
Para los dos casos anteriores, en el momento en que se presione el botón
Analizar… y se despliegue la ventana de Características, a su vez se activa el
botón Aceptar, por lo tanto, una vez que se muestran las características se puede
cerrar esa ventana o dejarla abierta, y al presionar el botón Aceptar para poder
trabajar con el menú Variables, el cual se explicará más adelante.
3.
Se selecciona un archivo con extensión *.dat el cual es compatible con CIADEC, las
variables no tienen nombre y cuenta con una clasificación. En este caso lo más
importante es que cuenta con una clasificación y como consecuencia se podrá
trabajar con el archivo y generar Intervalos, Tablas, Reglas y Gráficos ya que,
como se menciono anteriormente, a pesar de que las variables no cuenten con un
nombre el sistema las nombrara como: sin nombre 0, sin nombre 1, sin nombre 2,
etc. (NONAME 0, NONAME 1, NONAME 2, ETC). Es recomendable que las
variables cuenten con nombre aunque realmente no afecte el funcionamiento del
sistema pero sería mejor para la identificación de las variables.
En el momento en que se presione el botón Analizar… aparecerá la ventana de
Características y a su vez se activará el botón Aceptar, por lo tanto, una vez que
se mostraron las características se puede cerrar esa ventana o dejarla abierta, y al
presionar el botón Aceptar se puede trabajar con el menú Variables, Intervalos,
Tablas, Reglas y Gráficos, los cuales se explicarán más adelante.
4.
Se trabaja con un archivo de extensión *.dat el cual no es compatible con
CIADEC, las variables tienen nombre y cuenta con una clasificación. Como no es
compatible con CIADEC no se podrá trabajar con el archivo ya que no se
activaran los menús Variables, Intervalos, Tablas, Reglas ni Gráficos.
5.
Se trabaja con un archivo de extensión *.dat el cual no es compatible con
CIADEC, las variables no tienen nombre y cuenta con una clasificación. Como el
archivo no es compatible con el sistema CIADEC no se activarán los submenús
Variables, Intervalos, Tablas ni Gráficos. Como ya se explicaba el que las
variables no cuenten con un nombre no afecta en nada al funcionamiento del
sistema, ya que este las nombra como: sin nombre 0, sin nombre 1, sin nombre 2,
etc. (NONAME 0, NONAME 1, NONAME 2, ETC).
6.
Se trabaja con un archivo de extensión *.dat el cual no es compatible con
CIADEC, las variables tienen nombre y no cuenta con una clasificación.
7.
Se trabaja con un archivo de extensión *.dat el cual no es compatible con
CIADEC, las variables no tienen nombre y no cuenta con una clasificación. La
incompatibilidad del archivo impide que se active el botón Validar y por lo tanto el
submenú Validación.
Para los cuatro casos anteriores, en el momento en que sea presionado el botón
Analizar… aparecerá la ventana de Características y no se activará el botón
Aceptar, por lo tanto, una vez que se mostraron las características es
recomendable cerrar esa ventana e intentar trabajar con otro archivo o en su
defecto corregir los errores con los que cuenta el archivo (aparecen en la ventana
de características), al igual que realizar los cambios necesarios para que el
archivo sea compatible con CIADEC.
8.
Se trabaja con el archivo con el extensión *.dat el cual es compatible con
CIADEC, las variables tienen nombre y cuenta con una clasificación. En este caso
lo más importante es que es compatible con CIADEC, y como consecuencia se
podrá trabajar con él sin necesidad de hacerle ninguna modificación o corrección.
Al presionar el botón Validar se puede trabajar con el submenú Validación, el
cual se explicará posteriormente. Una vez que se cerró la ventana de
Características, y se presiona el botón Validar aparece la pantalla Validación de
Reglas.
En caso de no presionar el botón Validar será necesario ir al menú
Entrenamiento y presionar el submenú Validación
el cual se explicará a
continuación.
3. Menú Variables
Permite la selección de las variables, al igual que mostrará las variables aceptadas y rechazadas
después de realizar una selección y cuenta con los siguientes submenús:
Figura 11
Seleccionar.
Permite seleccionar las variables con las que se desea trabajar.
Como se muestra en la siguiente imagen (Figura 12), se tienen los siguientes atributos:
* Seleccionando variables…
El submenú Seleccionar muestra la pantalla con el nombre de Seleccionando variables…, y esta
contiene:
Figura 12

No. de variables: muestra el número de variables con las que cuenta el archivo con el
que se esta trabajando.

Seleccionar variables: consiste en seleccionar una variable para trabajar con ella,
dando un click en la flecha
que aparece delante de Seleccionar variables que
muestra la palabra Variables. Una vez que se dio un click sobre la flecha se
desplegarán las variables que contiene el archivo con el que se esta trabajando para
posteriormente seleccionar con las que se desee trabajar. Al seleccionar la variable o
variables deseadas estas se mostrarán en el cuadro de texto en blanco, ubicado en la
parte derecha de la pantalla.

Botón Aceptar: la variable seleccionada se muestra en el recuadro blanco que
aparece del lado derecho de la pantalla Seleccionando variables, desde el momento
en que se presiona el botón Aceptar se activa el botón Siguiente >>, pero se
desactiva el botón Todas y mostrará en Seleccionar variable, la variable anterior, es
decir la variable que se encuentra arriba de la última variable que se selecciono y se
acepto. Además de que se activa el submenú Selección que se encuentra dentro del
menú Variables.
Una vez que se presiona el botón Aceptar y pasa del lado derecho en el recuadro
blanco la variable que se selecciono, automáticamente dicha variable se elimina de la
opción de Seleccionar variable para evitar la redundancia. El proceso de selección
de variables se repetirá de la misma manera para la cantidad de variables que se
necesiten.

Botón Quitar: si una variable, que se muestra en el recuadro blanco Seleccionando
variables, es seleccionada, se eliminará de ese recuadro y regresará a la parte de
Seleccionar variable. En caso de que sólo existiera una variable y se quitara del
recuadró, es decir que el recuadro blanco no contará con ninguna variable se
desactivará el submenú Selección que se encuentra dentro del menú Variables.

Botón Limpiar: ayuda a que todas las variables que se muestran en el recuadro
blanco (Seleccionando variables), se eliminen y regresen a la parte de Seleccionar
variable, y como consecuencia una vez que el recuadro blanco no cuente con ninguna
variable se desactiva el submenú Selección que se encuentra dentro del menú
Variables. Si no se cuenta con ninguna variable seleccionada se desactiva el botón
Siguiente >> y se activa el botón Aceptar. Como se mencionó anteriormente las
variables regresan al recuadro de Seleccionar Variables para que puedan volver a
usarse.

Botón Todas: todas las variables que se muestran en el recuadro de Seleccionar
variable pasarán al recuadro ―Seleccionando variables”, por lo que una vez hecho lo
anterior se eliminarán del cuadro de Seleccionar variable y se activa el submenú
Selección que se encuentra dentro del menú Variables. Acto seguido se desactivan
los botones Aceptar y Todas.
Ya seleccionadas las variables con las que se necesite trabajar, el usuario tendrá que presionar el
botón Siguiente >>, con lo cual se activa el menú Intervalos y por lo tanto, se mostrará la pantalla
de Selección de Variables Numéricas la cual se explicará a continuación.
Selección (se encuentran desactivado al inicio del sistema).
* Selección de variables numéricas
Esta pantalla se mostrará principalmente al presionar el botón Siguiente >>; sin embargo, si el
usuario se encuentra trabajando en algún menú o submenú posterior al de Variables y requiere
ver esta pantalla, puede hacerlo dirigiéndose al menú Variables  Selección para que despliegue
la pantalla de Selección de Variables Numéricas (Figura 13).
Cabe mencionar que el submenú Seleccionar se activa desde el momento que se selecciono una
o más variables y se presiono el botón Aceptar, o en su defecto el botón Todas.
Figura 13
En esta pantalla se muestra:

No Numéricas (recuadro ubicado del lado izquierdo de la pantalla): muestra las variables
que se seleccionaron anteriormente y no son numéricas.

Numéricas (recuadro ubicado del
lado derecho de la pantalla): muestra las variables
numéricas que se seleccionaron anteriormente.

Variables seleccionadas: indican la cantidad de variables aceptadas (seleccionadas).

Variables no aceptadas: indican la cantidad de variables no aceptadas (no
seleccionadas).
4. Menú Intervalos
Calcula los intervalos [k]P, es decir los mínimos y máximos de cada variable seleccionada. Estos
intervalos se pueden almacenar en un archivo con el mismo formato de entrada, y con una
columna por cada variable donde se pondrá la lista de intervalos ordenada de menor a mayor. Este
menú cuenta el siguiente submenú (Figura 14):
Figura 14
Generar.
El submenú despliega la siguiente pantalla que se explica a continuación:
Figura 15

Dirección de los resultados: despliega la dirección y el nombre del directorio de
resultados, es decir la ubicación y el nombre del directorio dentro del cual se
almacenarán los archivos generados por el sistema.
Si no se asigna ningún Directorio de resultados cuando se empieza a trabajar con el
sistema mostrará el mensaje ¡Indique el directorio!, por lo que tendrá que elegir
alguno para poder generar los intervalos.

¿Desea generar archivos de intervalos?: esta pregunta dará dos opciones:
 Aceptar: en caso de presionar este botón generará un archivo en formato LaTex
(*.tex) por cada una de las variables seleccionadas, los cuales contendrán los
intervalos de cada una de ellas y los almacenará en el directorio de resultados.
Cada archivo contendrá el nombre de la variable seleccionada, seguida de –iks
más la extensión .tex. Por ejemplo: jh-iks.tex
Se activa el menú Tablas y despliega una ventana llamada Mensaje de
Advertencia,
en el que se indica que ―Se generaron los Intervalos
exitosamente” (Figura 16).
Figura 16
Al presionar el botón Aceptar se cerrará la ventana de Mensaje de Advertencia;
de esta manera quedaran generados los archivos en formato LaTex (con extensión
–iks.tex) que son los intervalos de las variables seleccionadas anteriormente,
dentro del directorio de resultados.
Para poder Abrir los archivos con extensión –iks.tex de formato LaTex, se requiere
del programa WinEdt, el cual contendrá los intervalos de cada una de las variables
seleccionadas.
 Omitir: si la pregunta ¿Desea generar archivos de intervalos? es contestada con
Omitir, el sistema generara los intervalos de cada una de las variables
seleccionadas, pero no se almacenará en el directorio de resultados.
Se activa el menú Tablas y despliega una ventana llamada Mensaje de
Advertencia, que indica que ―Se generaron los Intervalos exitosamente” (de
igual manera que en la opción anterior).
Al presionar el botón Aceptar se cerrará la ventana del Mensaje de Advertencia,
el cual significa que aunque no genere los archivos dentro del directorio de
resultados para que el usuario pueda apreciarlos a través del programa WinEdt, los
generara en memoria para poder continuar trabajando con el sistema CIADEC.
5. Menú Tablas
Con este menú se calcularán las matrices de probabilidad por clase y por intervalo y los datos se
podrán almacenar en un Archivo. El menú Tablas cuenta con el siguiente submenú (Figura 17):
Figura 17
Generar Tablas.
Crea un archivo por cada variable seleccionada. La primera línea del archivo tendrá los intervalos
de menor a mayor, y las siguientes líneas contendrán las probabilidades en cada intervalo, con una
línea por cada clase. Este submenú desplegara la pantalla Generación de Matrices (Figura 18),
que consta de los siguientes elementos:
Figura 18

Dirección de los resultados: despliega la dirección y el nombre del directorio de
resultados, es decir la ubicación y el nombre del directorio dentro del cual se
almacenarán los archivos generados por el sistema.

¿Desea generar las Tablas de Frecuencias para las variables seleccionadas?:
esta pregunta dará dos opciones que son:
Aceptar: en caso de presionar este botón generara un archivo en formato LaTex
(*.tex) por cada una de las variables seleccionadas, los cuales contendrán las
matrices de probabilidad por clase y por intervalo de cada una de ellas y los
almacenará en el directorio de resultados. Cada archivo contendrá el nombre de la
variable seleccionada seguida de -dci, más la extensión .tex. Por ejemplo: jhdci.tex.
Despliega una ventana llamada Mensaje de Advertencia, en el que se indica que
―Se generaron las Tablas exitosamente” (Figura 19).
Figura 19
Al presionar el botón Aceptar se cerrará la ventana de Mensaje de Advertencia,
quedara la pantalla de Generación de Matrices y se activan los menús de Reglas y
Gráficos, al igual que el submenú Llamar P0 que se encuentra dentro del menú
Entrenamiento (Figura 20).
Figura 20
Por lo tanto, al presionar el botón Aceptar se generaran los archivos de formato
LaTex con extensión .dci que son las Matrices de las variables seleccionadas
anteriormente, dentro del directorio de resultados indicado.
Para poder abrir los archivos con formato LaTex
(con extensión .dci) que se
generaron, se requiere del programa WinEdt.
Omitir: si la pregunta ¿Desea generar las Tablas de Frecuencia para la
variables seleccionadas? es contestada con Omitir, el sistema generara las
matrices de probabilidad por clase y por intervalo de cada una de las variables
seleccionadas, pero no se almacenará en el directorio de resultados.
Al presionar el botón Aceptar se despliega una ventana con un Mensaje de
Advertencia, en el cual se indica que ―Se generaron las Tablas exitosamente”
(como en la opción anterior). Acto seguido, se cerrará la ventana del Mensaje de
Advertencia, y se activan el menú Reglas y Gráficos, al igual que el submenú
Llamar P0 que se encuentra dentro del menú Entrenamiento (Figura 20).
6. Menú Reglas
Permite generar las reglas de probabilidad, por lo tanto, los datos se podrán almacenar en
archivos. Este menú cuenta con el siguiente submenú (Figura 21).
Figura 21
Generar.
Este submenú genera las reglas de probabilidad en formato LaTex, es decir dos archivos por cada
variable seleccionada; despliega la pantalla Generación de Reglas (Figura 22), que contiene los
siguientes atributos:
Figura 22

Dirección de los resultados: despliega la dirección y el nombre del directorio de
resultados, es decir la ubicación y el nombre del directorio dentro del cual se
almacenarán los archivos generados por el sistema.

¿Desea generar las Reglas para la variables seleccionadas?: esta pregunta dará
dos opciones las cuales son:
 Aceptar: generara dos archivos en formato LaTex por cada una de las variables
seleccionadas. El primero tendrá como distintivo el nombre de la variable seguido
de -scr.tex y mostrará las reglas de probabilidad diferente de cero para cada clase.
Por ejemplo: jh-scr.tex. El segundo tendrá como distintivo el nombre de la variable
seguido de -srr.tex y mostrará por cada clase sólo la regla de probabilidad
máxima. Por ejemplo: jh-srr.tex.
Si la pregunta ¿Desea generar las Reglas para las variables seleccionadas? es
contestada con Aceptar, es decir se presiona el botón Aceptar, se despliega una
ventana de Mensaje de Advertencia, el cual indicara que ―Se generaron las
Reglas exitosamente” (Figura 23).
Figura 23
Por lo tanto, los archivos de formato LaTex con extensión .scr y .srr que son las
Matrices de las variables seleccionadas anteriormente ya se han generado, dentro
del directorio de resultados. Para poder abrir estos archivos (con formato LaTex y
extensión .scr y .srr) se requiere, como ya se ha mencionado anteriormente, del
programa WinEdt.
 Omitir: si la pregunta ¿Desea generar las Reglas para las variables
seleccionadas? es contestada con Omitir, el sistema no generará las reglas de
probabilidad de las variables seleccionadas y por lo tanto, no se almacenará en el
directorio de resultados, ni en memoria.
7. Menú Validación
Esta opción permitirá validar las reglas obtenidas mediante el conjunto de entrenamiento, para lo
cual se tomarán los datos de un conjunto de prueba. En un principio este menú aparece
desactivado, pero una vez que se presiona el botón de Analizar... de la pantalla del Llamada del
Archivo de Prueba se activa el botón Validar y a su vez el menú Validación, dentro del cual se
tendrá el siguiente submenú (Figura 24):
Figura 24
Criterios.
Validación de los criterios para las variables seleccionadas. Muestra la pantalla con el nombre de
Validación de reglas, la cual presenta las características que se explicarán a continuación.
Nota: Cabe mencionar que si no se asigna un directorio para almacenar los archivos generados
por el sistema mostrará en esta pantalla en el apartado de Dirección de los resultados: ¡Indique
el directorio! (Figura 25).
Figura 25

Tipo de Criterio de Validación.
Dentro de este, se tienen tres opciones (métodos) para determinar las
probabilidades, donde el usuario deberá seleccionar una para validar el archivo de
prueba con ese criterio, y son:

Criterio de Máxima Probabilidad.
Para este criterio se tienen seis opciones de generación de archivos que son: Con
todas las probabilidades, Con probabilidades distintas de cero, Con probabilidades
máximas, Clasificación, Frecuencias y Con coincidencias, como se muestra en la
Figura 26.









Figura 26
Después de elegir una de las seis opciones de Generación de Archivos y al
momento de presionar el botón Iniciar mostrará un porcentaje en Confiabilidad
para el tipo de criterio seleccionado (Criterio de Máxima Probabilidad) para la
validación de las reglas obtenidas mediante el conjunto de entrenamiento, para lo
cual es necesario tomar los datos de un conjunto de prueba. Dependiendo de este
se mostrará un porcentaje de Confiabilidad determinado.

Criterio de Votación.
Para este criterio se tienen dos opciones de generación de archivos que son: Con
votaciones y Con coincidencias (Figura 27).
Figura 27
Después de haber seleccionado alguna opción y al momento de presionar el botón
Iniciar mostrará un porcentaje en Confiabilidad para ese tipo de criterio (Criterio
de Votación) para la validación de las reglas obtenidas mediante el conjunto de
entrenamiento, para lo cual se tomarán los datos de un conjunto de prueba
especificado anteriormente; por lo tanto se mostrará un
porcentaje de
Confiabilidad determinado.
El sistema ofrece la posibilidad de apreciar el almacenamiento de los porcentajes
de
Confiabilidad
anteriormente
calculados,
para
así
poder
realizar
una
comparación de las Confiabilidades de acuerdo al Tipo de Criterio de Validación en
caso de ser necesario (Figura 28).

Criterio de Suma Máxima.
Para este criterio se tienen dos opciones de generación de archivos que son: Con
suma máxima y Con coincidencias (Figura 28).
Figura 28
Después de seleccionar una de las dos opciones, y al momento de presionar el
botón Iniciar mostrará un porcentaje en Confiabilidad para el tipo de criterio
seleccionado (Criterio de Suma Máxima) para la validación de las reglas obtenidas
mediante el conjunto de entrenamiento y para lo cual es necesario tomar los datos
de un conjunto de prueba, el cual mostrará un porcentaje de Confiabilidad
correspondiente a la opción seleccionada.
Se puede apreciar como se van almacenando los porcentajes de confiabilidad
anteriormente calculados, para así poder realizar una comparación de las
confiabilidades de acuerdo al Tipo de Criterio de Validación en caso de ser
necesario.

Confiabilidad.
Una vez que se selecciono el tipo de criterio de validación, se tendrá que
seleccionar una
o más opciones de todas las posibles
en Generación de
Archivos (que se explicará posteriormente) y al presionar el botón Iniciar mostrará
en Confiabilidad un porcentaje que será el respectivo de acuerdo al archivo de
prueba y al de entrenamiento de acuerdo al Criterio de Validación, es decir cada
criterio tendrá su porcentaje, siendo el porcentaje de entrada de 0.00%.

Generación de archivos.
Dentro de la Generación de archivos se tendrán ocho opciones diferentes, las
cuales se activarán de acuerdo a cada Tipo de Criterio de Validación.
 Con Todas las Probabilidades: genera archivos con todas las probabilidades;
al presionar el botón Iniciar generará un archivo por cada variable seleccionada
donde se podrán encontrar las probabilidades en todas las clases. Por cada
valor del archivo de prueba, se mirará a qué intervalo pertenece, y se tomarán
las probabilidades de cada clase para ese intervalo. En el archivo aparecerá
una fila por cada individuo, y una columna por cada clase. La primera fila y la
primera columna indicarán el número de individuo y el número de clase
respectivamente. El nombre de los archivos generados consistirá del nombre de
la variable, seguido de -1 y con la extensión .txt. Por ejemplo: jh-1.txt.
 Con Probabilidades Distintas de Cero: el sistema genera un archivo por cada
variable seleccionada con la misma información que el anterior, pero sólo con
aquellas clases que tienen probabilidad distinta de cero. En este caso se
indicará por cada individuo la clase y su probabilidad, tantas veces como clases
con probabilidad distinta de cero haya. Habrá una línea por cada individuo. La
primera columna seguirá indicando el número del individuo. En caso de valor
nulo seguirá apareciendo lo mismo que en el archivo anterior. El nombre de los
archivos generados consistirá en el nombre de la variable, seguido de la
extensión .vsg. Por ejemplo: jh.vsg.
 Con Probabilidades Máximas: el archivo generado por el sistema será con
probabilidades máximas, es decir, este archivo tendrá sólo por cada individuo
aquella clase cuya probabilidad sea mayor, o en caso de igualdad, la primera
clase cuya probabilidad no sea superada por ninguna de las siguientes. Se
indicará por cada línea el número del individuo, la clase y la probabilidad. En
este caso el nombre de cada archivo será el nombre de la variable, seguido de
la extensión .vsm. Por ejemplo: jh.vsm.
 Clasificación: genera un archivo con las clasificaciones de todas las variables,
es decir, este archivo indicará por cada línea el número del individuo, las clases
de cada variable y la clase CIADEC que será aquella clasificación cuya
probabilidad sea mayor por cada individuo, o en caso de igualdad, la primera
clasificación. En el archivo aparecerá una fila por cada individuo, y una columna
por cada variable; la primera fila y la primera columna indicarán el número de
individuo y el nombre de la variable respectivamente. En este caso el nombre
del archivo será ClasificaciónMP seguido del nombre del archivo de prueba
con la extensión .dat. Por ejemplo: ClasificaciónMP prueba.dat.
 Frecuencias: genera un archivo con las frecuencias de todas las variables, es
decir, este archivo indicará por cada línea el número del individuo, las
frecuencias de cada variable y la frecuencia de la clase CIADEC que será
aquella frecuencia cuya probabilidad sea mayor por cada individuo, o en caso
de igualdad, la primera frecuencia. En el archivo aparecerá una fila por cada
individuo, y una columna por cada variable; la primera fila y la primera columna
indicarán el número de individuo y el nombre de la variable respectivamente. En
este caso el nombre del archivo será FrecuenciasMP seguido del nombre del
archivo de prueba con la extensión .dat. Por ejemplo: FrecuenciasMP
prueba.dat.
 Con las Votaciones: genera un archivo con las votaciones de todas las
variables, es decir, este archivo indicará por cada línea el número del individuo,
las votaciones de cada clase y la clase CIADEC que será la clase en la cual se
haya tenido el mayor número de votos, o en caso de igualdad, la primera clase
con mayor número de votos. En el archivo aparecerá una fila por cada
individuo, y una columna por cada clase; la primera fila y la primera columna
indicarán el número de individuo y el nombre de la clase respectivamente. En
este caso el nombre del archivo será ClasificaciónV seguido del nombre del
archivo de prueba con la extensión .dat. Por ejemplo: ClasificaciónV
prueba.dat.
 Con Suma Máxima: genera un archivo con la suma máxima de todas las
variables, es decir, este archivo indicará por cada línea el número del individuo,
la suma máxima de cada clase y la clase CIADEC que será la clase que tenga
la suma máxima de votos, o en caso de igualdad, la primera clase con mayor
número de votos. En el archivo aparecerá una fila por cada individuo, y una
columna por cada clase; la primera fila y la primera columna indicarán el
número de individuo y el nombre de la clase respectivamente. En este caso el
nombre del archivo será ClasificaciónSM seguido del nombre del archivo de
prueba con la extensión .dat. Por ejemplo: ClasificaciónSM prueba.dat.
 Con Coincidencias: genera archivos de coincidencias, es decir este archivo
comparará las clases que se asignan a cada individuo en el conjunto de prueba
con las clases de probabilidad máxima halladas. Por cada individuo se indicará
el número de individuo, la clase asignada en el conjunto de prueba, y la clase
de probabilidad máxima. En la última línea se indicará el número total de
coincidencias. El nombre de los archivos será el nombre de la variable, seguido
de .tcp y con la extensión .txt. Por ejemplo: jh.tcp.txt.
Si en el conjunto de prueba se encuentra algún valor nulo o un valor que no
corresponde a ningún intervalo, en todos los ficheros se generará una línea como
la siguiente para dicho individuo:
n ******* Valor nulo o fuera de margen **********
Donde “n” es el número del individuo.
Es importante mencionar que si no se selecciona ningún tipo para la Generación de Archivos
dentro del Criterio de Máxima Probabilidad y se presiona el botón Iniciar, se despliega el
porcentaje de confiabilidad del 100%. El sistema no generará ningún archivo dentro del directorio
de resultados debido a que no se selecciono ningún tipo para la Generación de Archivos.
Es posible también, de acuerdo al Tipo de Criterios de Validación, seleccionar más de una
opción de Generación de Archivos, con lo que, al igual que ya se explico en cada una de estas
ocho opciones, se generará un porcentaje de confiabilidad determinado y los archivos necesarios
dependiendo de cuantas opciones de Generación de archivos se hayan seleccionado, con su
extensión correspondiente, es decir, el sistema genera simultáneamente todos los archivos como si
fuera solo una la opción seleccionada.
Criterios Log2.
Validación de los criterios para las variables seleccionadas en Log2.
Esta opción del menú Validación muestra la pantalla con el nombre de Validación de Reglas con
Logaritmo Base 2, que se explicará a continuación con sus respectivas características.
Es importante mencionar que si no se asigna un directorio para almacenar los archivos generados
por el sistema nos mostrará en esta pantalla en el apartado de Dirección de los resultados:
¡Indique el directorio!. Como en el submenú anterior (Criterios).

Tipo de Criterio de Validación.
Dentro de este criterio se tienen las mismas tres opciones que en el submenú
Criterios (explicado anteriormente), es decir, tres métodos para determinar las
probabilidades con logaritmo base 2, donde el usuario deberá seleccionar una para
validar el archivo de prueba con ese criterio. Estas opciones son:
 Criterio de Máxima Probabilidad.
Para este criterio se tienen seis opciones de generación de archivos, estas son:
Con todas las probabilidades, Con probabilidades distintas de cero, Con
probabilidades máximas, Clasificación, Frecuencias y Con coincidencias.
Al
momento de presionar el botón Generar mostrará un porcentaje de
Confiabilidad para el tipo de criterio seleccionado (Criterio de Máxima
Probabilidad) para la validación en Log2 de las reglas obtenidas mediante el
conjunto de entrenamiento y para lo cual se tomarán los datos de un conjunto
de prueba, el cual mostrará un porcentaje de confiabilidad determinado.
 Criterio de Votación.
Para este criterio se tienen dos opciones de generación de archivos, las cuales
son: Con las votaciones y Con coincidencias. Al momento de presionar el botón
Generar mostrará un porcentaje de Confiabilidad para el tipo de criterio
seleccionado (Criterio de Votación) para la validación Log2 de las reglas
obtenidas mediante el conjunto de entrenamiento con datos de un conjunto de
prueba, el cual mostrará un porcentaje de confiabilidad determinado.
El sistema permite apreciar como se van almacenando los porcentajes de
confiabilidad anteriormente calculados, para así poder realizar una comparación
de las confiabilidades de acuerdo al Tipo de Criterio de Validación en Log2 en
caso de ser necesario.
 Criterio de Suma Máxima.
Para este criterio se tienen dos opciones de generación de archivos, las cuales
son: Con sumas máximas y Con coincidencias. Al momento de presionar el
botón Generar mostrará un porcentaje de Confiabilidad para el tipo de criterio
seleccionado (Criterio de Suma Máxima) para la validación en Log2 de las
reglas obtenidas mediante el conjunto de entrenamiento con datos de un
conjunto de prueba, el cual mostrará un porcentaje de confiabilidad
determinado.
Como se menciono anteriormente, el sistema permite apreciar como se van
almacenando los porcentajes de confiabilidad anteriormente calculados, para
así poder realizar una comparación de las confiabilidades de acuerdo al Tipo de
Criterio de Validación en caso de ser necesario.

Confiabilidad.
Una vez que se selecciono el tipo de Criterio de Validación, se tendrá que
seleccionar una
o más opciones de todas las posibles
en Generación de
Archivos y al presionar el botón Iniciar mostrará en Confiabilidad un porcentaje
que será el respectivo de acuerdo al archivo de prueba y al de entrenamiento de
acuerdo al Criterio de Validación. El porcentaje inicial es de 0.00%.

Generación de archivos.
Dentro de la Generación de archivos se tendrán las mismas ocho opciones del
submenú Criterios, las cuales se irán activando de acuerdo a cada Tipo de
Criterio de Validación en Log2. Dado que cada una de ellas ya ha sido explicada,
solo se indicará el único cambio que se presenta en este submenú, el cual hace
referencia al nombre del(los) archivo(s) generado(s) por el sistema y que son
almacenados en el directorio de pruebas.
 Con Todas las Probabilidades: el nombre de los archivos generados
consistirá del nombre de la variable, seguido de -1log y con la extensión .txt
.Por ejemplo: jh-1log.txt.
 Con Probabilidades Distintas de Cero: el nombre de los archivos generados
consistirá en el nombre de la variable, seguido de la palabra log con extensión
.vsg. Por ejemplo: jhlog.vsg.
 Con Probabilidades Máximas: en este caso el nombre de cada archivo será el
nombre de la variable, seguido de la palabra log con la extensión .vsm. Por
ejemplo: jhlog.vsm.
 Clasificación: en este caso el nombre del archivo será ClasificaciónMPLog2
seguido del nombre del archivo de prueba con la extensión .dat. Por ejemplo:
ClasificaciónMPLog2 prueba.dat.
 Frecuencias: en este caso el nombre del archivo será FrecuenciasMPLog2
seguido del nombre del archivo de prueba con la extensión .datlog.frc. Por
ejemplo: FrecuenciasMPLog2 prueba.datlog.frc.
 Con
las
Votaciones:
en
este
caso
el
nombre
del
archivo
será
ClasificaciónVLog2 seguido del nombre del archivo de prueba con la
extensión .dat. Por ejemplo: ClasificaciónVLog2 prueba.dat.
 Con
Suma
Máxima:
en
este
caso
el
nombre
del
archivo
será
ClasificaciónSMLog2 seguido del nombre del archivo de prueba con la
extensión .dat. Por ejemplo: ClasificaciónSMLog2 prueba.dat.
 Con Coincidencias: el nombre de los archivos será el nombre de la variable,
seguido de la palabra log, seguido de .tcp y con la extensión .txt. Por ejemplo:
jhlog.tcp.txt.
Si en el conjunto de prueba se encuentra algún valor nulo o un valor que no
corresponde a ningún intervalo, en todos los ficheros se generará una línea como
la siguiente para dicho individuo:
n ******* Valor nulo o fuera de margen **********
Donde “n” es el número del individuo.
Es importante mencionar que si no se selecciona ningún tipo para la Generación de Archivos
dentro del Criterio de Máxima Probabilidad y se presiona el botón Generar, se despliega el
porcentaje de confiabilidad del 100%. El sistema no generará ningún archivo dentro del directorio
de resultados debido a que no se selecciono ningún tipo para la Generación de Archivos.
Es posible también, de acuerdo al Tipo de Criterios de Validación en Log2, seleccionar más de
una opción de Generación de Archivos, con lo que, al igual que ya se explico en cada una de
estas ocho opciones, se generará un porcentaje de confiabilidad determinado y los archivos
necesarios dependiendo de cuantas opciones de Generación de archivos se hayan seleccionado,
esto por supuesto con su extensión correspondiente, es decir, el sistema genera simultáneamente
todos los archivos como si fuera solo una la opción seleccionada.
8. Menú Gráficos
Permite generar gráficos que muestren de manera visual la información contenida en las matrices
de probabilidades, para lo cual los gráficos son almacenados en archivos. El menú Gráficos cuenta
el siguiente submenú (Figura 29):
Figura 29
Generar.
Genera los gráficos en formato LaTex, es decir, los archivos llevarán el nombre de la variable
seleccionada seguido de la extensión .tex. Este submenú despliega la pantalla Generación de
Gráficos (Figura 30), la cual presenta las siguientes características:
Figura 30

Dirección de los resultados: despliega la dirección y el nombre del directorio de
resultados, es decir la ubicación y el nombre del directorio dentro del cual se
almacenarán los archivos generados por el sistema.

Tipo de Gráfico: en donde se tendrán cuatro opciones diferentes, que son:
Gráfico de distribución condicionado a clases.
Gráfico de distribución condicionado a clases MINI.
Gráficos de distribución condicionado a clases.
Gráficos de distribución condicionado a clases MINI.

Variables: se activa una vez que se seleccionó el Tipo de Gráfico, esta opción
desplegara las variables que se encuentran dentro del archivo que se selecciono para
trabajar.

Variable seleccionada: muestra las variables que han sido seleccionadas.

Botón Aceptar: se activa desde el momento en que el usuario selecciona un Tipo de
gráfico y al ser presionado genera el gráfico de acuerdo a las especificaciones del
usuario (al tipo de gráfico y a la variable).
Dado que es necesario que el usuario elija un Tipo de Gráfico y se presentan cuatro opciones
para ello, a continuación se hace alusión a cada una de ellas.
1) Gráfico de distribución condicionada a clases.
Una vez elegido este tipo de gráfico se activa el botón de Variable en el cual se muestran
las variables con las cuales puede trabajar (las variables con las cuales se puede generar
el gráfico dado que son las que se encuentran dentro del archivo que anteriormente se
selecciono para trabajar) e igualmente se activa el botón Aceptar.
Es necesario que el usuario elija una variable para realizar el gráfico, la cual aparecerá
dentro del recuadro de Variables al igual que en el recuadro de Variable Seleccionada
(Figura 31).
Figura 31
Una vez seleccionada la variable y presionado el Botón Aceptar se generara el gráfico y se
ubicará en la dirección de resultados que se asignó, dentro del cual aparecerá un archivo
con formato LaTex, con el nombre de la variable seleccionada y extensión *.tex; por
ejemplo kl.tex.
Como se ha mencionado, para poder abrir los archivos con formato LaTex (con extensión
.tex) que se generó, se requiere del programa WinEdt.
2) Gráfico de distribución condicionada a clases MINI.
Una vez que el usuario elige este tipo de gráfico, se activa el botón de Variable en el cual
se muestran las variables con las cuales puede trabajar (variables con las cuales puede
generar el gráfico y que se encuentran dentro del archivo que anteriormente se selecciono
para trabajar) y de igual forma se activa el botón Aceptar.
Es necesario que el usuario elija una variable para realizar el gráfico, la cual una vez
seleccionada aparecerá tanto en el recuadro de Variables como en el de Variable
Seleccionada.
Seleccionado el Tipo de Gráfico y la variable con la cual se desea realizarlo se debe
presionar el botón Aceptar para que dicho gráfico sea generado en la dirección de
resultados que se asigno.
Dentro del directorio de resultados aparecerá el archivo con formato LaTex (archivo que
generó el sistema), el cual tendrá como identificador el nombre de la variable seguido de
las iniciales del tipo de gráfico (mini) y la extensión .tex. Por ejemplo es lsmini.tex.
Para poder abrir los archivos con formato LaTex (con extensión .tex) que se generaron,
se requiere del programa WinEdt.
3) Gráficos de distribución condicionado a clases.
Una vez que el usuario elige este Tipo de Gráfico no se activará el botón de Variable, en
el cual se muestran las variables con las cuales puede trabajar (las variables con las cuales
puede generar los gráficos en las primeras dos opciones de Tipo de Gráfico), debido a
que en este tipo de gráfico se utilizarán todas las variables que se encuentran dentro del
archivo que anteriormente se seleccionó para trabajar; por lo tanto, tampoco se activa el
recuadro de Variable Seleccionada, porque como se dijo anteriormente, se trabajará con
todas las variables y no será necesario seleccionar una variable en especifico. De igual
forma que en las dos opciones anteriores se activa el botón Aceptar (Figura 32).
Figura 32
Una vez seleccionado el Tipo de Gráfico y presionado el botón Aceptar los gráficos de
todas las variables que se encuentran dentro del archivo con el que se esta trabajando son
generados (serán posicionados en la dirección de resultados que se asignó).
Dentro del directorio de resultados aparecerán los archivos con formato LaTex (archivos
generados por el sistema) los cuales serán los gráficos de todas las variables del archivo
con el que se esta trabajando. Cada archivo tendrá como identificador el nombre de cada
una de las variables más la extensión .tex. Por ejemplo: jh.tex, kl.tex, ls.tex y vb.tex.
Los archivos con formato LaTex (con extensión .tex) que se generaron, podrán abrirse
con el programa WinEdt.
4) Gráficos de distribución condicionado a clases MINI.
Cuando el usuario elige este Tipo de Gráfico no se activará el botón de Variable, en el
cual se muestran las variables con las cuales puede trabajar (variables con las cuales
puede generar los gráficos en las primeras dos opciones de Tipo de Gráfico), debido a
que en este tipo de gráfico se utilizarán todas las variables que se encuentran dentro del
archivo que anteriormente se selecciono para trabajar, por lo tanto, tampoco se activa el
recuadro de Variable Seleccionada, recordando que se trabajará con todas las variables.
Una vez hecha la selección se activa el botón Aceptar (Figura 33).
Figura 33
Una vez seleccionado el Tipo de Gráfico, y se presione el botón Aceptar los gráficos de
todas las variables que se encuentran dentro del archivo con el que se esta trabajando son
generados por el sistema (los gráficos de las variables serán posicionados en la dirección
de resultados que se asignó).
Dentro del directorio de resultados aparecerán los archivos con formato LaTex, (gráficos
de todas las variables del archivo con el que se esta trabajando), que tendrán como
identificador el nombre de cada variable seguido del tipo de gráfico (mini) más la extensión
.tex. Por ejemplo: jhmini.tex, klmini.tex, lsmini.tex y vbmini.tex.
Los archivos con formato LaTex (con extensión .tex) que se generaron, podrán abrirse
con ayuda del programa WinEdt.
9. Menú Visualización
Una vez seleccionado el archivo de prueba en el menú Entrenamiento, será posible utilizar
adecuadamente el menú Visualización ya que permitirá el análisis del archivo de prueba y la
interpretación de los resultados arrojados.
Por lo tanto, dicho menú despliega la pantalla Valoración e Interpretación de Resultados, que a
su vez cuenta con cuatro opciones (Figura 34):
Figura 34

Apertura: permite la extracción del archivo de prueba a analizar, y cuenta con las
siguientes características:
1) Nombre del archivo: mostrará la siguiente leyenda Elegir Archivo!!! (Figura 34), con lo
que se deberá seleccionar el archivo a trabajar, para ello es necesario presionar el botón
Examinar y elegir el archivo de prueba (Figura 35).
2) Compatible con CIADEC: en este caso se tendrán dos opciones; verdadero (TRUE) o
falso (FALSE), y por lo tanto, en caso de no ser compatible no se podrá trabajar con el
archivo.
3) Tamaño del archivo: despliega el tamaño en bytes del archivo que se esta analizando.
4) No. De individuos: despliega el número de individuos con los que cuenta el archivo que
se esta analizando.
5) Con nombre de variable: informa si tienen nombre las variables del archivo que se esta
analizando, por lo tanto, se tendrán dos opciones; verdadero (TRUE) o falso (FALSE).
6) Con clasificación: informa si las variables tienen clasificación, por lo tanto, se tendrán dos
opciones; verdadero (TRUE) o falso (FALSE), en caso de no tener clasificación no se
podrá trabajar con el archivo.
7) Columnas numéricas: despliega el número de columnas numéricas que contiene el
archivo que se esta analizando.
8) Columnas no numéricas: despliega el número de columnas no numéricas que contiene el
archivo que se esta analizando.
9) No. De filas: despliega el número de filas que contiene el archivo que se esta analizando.
Figura 35
Si el archivo de prueba cumple con los requisitos necesarios para que CIADEC pueda trabajar con
el se habilitará el botón Analizar >>, que al presionarlo desplegará la pantalla Analizar X.

Analizar X: la cual contiene las siguientes características (Figura 36):
1) Nombre del archivo: muestra el nombre del archivo que esta siendo analizado.
2) ¿Se localizaron por su nombre y en el orden esperado, todas las Variables a
analizar?: se tendrán dos opciones; SI o NO, en caso de no haber sido localizadas no se
podrá trabajar con el archivo.
3) ¿Son variables numéricas?: se tendrán dos opciones; SI o NO, en caso de no contener
variables numéricas el archivo de prueba no se podrá trabajar con el archivo.
4) ¿Es aceptada la fuente de datos?: se tendrán dos opciones; SI o NO, en caso de no
haber sido aceptada la fuente de datos, es decir, el archivo de prueba, no se podrá trabajar
con el archivo.
Figura 36
Si el archivo cumple con las características anteriormente mencionadas, se habilitará el botón
Clasificar >>, que al ser presionado desplegará la pantalla de nombre Clasificación.
 Clasificación: (Figura 37), mostrará el nombre del archivo que esta siendo
analizado, la Base de Conocimientos o archivo de entrenamiento, el número de
individuos con los que cuenta el archivo y los tres criterios con los cuales será
posible la clasificación de los individuos y la asignación de la clase a los mismos,
los criterios son:
1) Criterio de Máxima probabilidad:
2) Criterio de Votación:
3) Criterio de Suma Máxima:
Figura 37
Posteriormente, se habilitarán los botones Interpretar y Guardar, permitiendo el último salvar los
resultados obtenidos de acuerdo a cada criterio (Figura 38).
Figura 38
Al presionar el botón Interpretar, se desplegará la pantalla de nombre Interpretación.
 Interpretación: (Figura 39) , donde se mostrará cada individuo con el que cuenta
el archivo de prueba y las etiquetas lingüísticas, así como la clase asignadas a los
mismos, permitiendo de igual forma salvar la información obtenida.
Figura 39
10. Menú Herramientas
Permite la visualización de los gráficos que genero CIADEC sobre cada una de las variables
utilizando para ello un clasificador especial de nombre KEK (Figura 40).
Figura 40
11. Menú Acerca de…
En este apartado se mencionan los realizadores del sistema CIADEC (Figura 41).
Figura 41
12. Menú Salir
Permite salir completamente del sistema (Figura 42).
Figura 42
BIBLIOGRAFÍA
BIBLIOGRAFÍA
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
[15]
[16]
[17]
[18]
[19]
[20]
[21]
[22]
[23]
[24]
Vázquez Torres Fernándo.
Caracterización e Interpretación de Descripciones
Conceptuales en Dominios Poco Estructurados. México D.F. Mayo 2008.
Pozo, J. I. Adquisición del Conocimiento. 271 pp. ISBN: 84-7112-489-0. Madrid: Ediciones
Morata. 2005.
Carrión,
J.
(n/d).
Diferencia
entre
dato,
información
y
conocimiento.
[www.gestiondelconocimiento.com], 2004.
Poole, D. Mackworth, A. & Goebel, R. Computational Intelligence: A Logical Approach.
Oxford University Press, 1998.
Shortlife E.H. MYCIN: A rule-based computer program for advising physicians regarding
antimicrobial therapy selection. PhD thesis, Stanford University, USA, 1976.
Clancey W.J., & Shortliffe E.H.. "Readings in Medical Artificial Intelligence". AddisonWesley, 1984.
Szolovits P., & Pauker S.G. "Categorical and probabilistic reasoning in medical diagnosis".
Artificial Intelligence, Vol. 11, pp. 115-144, 1978.
Michalski R. & Steep R.E. “A Theory and Methodology of Inductive Learning”. In J.
Carbonell, editor, Machine learning: A Artificial Intelligence Approach”, Chapter 11, pages
331-363. Ed. Tioga, Palo Alto, California, 1984.
Quinlan, J.R. Discovering Rules by Induction from Large Collection of Examples. In
Michele, D (Ed.) Expert System in The Micro-electronics Age. Edinburgh University Press,
1979.
Núñez, G., et al. About the attribute relevance's nature. En Proceedings of TEC. COM. 91,
Approaches to non-conventional computing: towards intelligent systems. México, 1991.
Gibert K. L’us de la Informaciò Simbòlica en l’Automatitizació del Tractament Estadístic de
Deominis Poc Estructurats. In the Statistics and operations research Phd. Thesis.,
Universitat Politécnica de Catalunya, Barcelona, Spain, 1994.
Gibert K. The use of symbolic information in automation of statistical treatment for illstructured domains. AI Communications, 9(1): 36-37, marzo 1996.
Gibert K. Técnicas híbridas de Inteligencia Artificial y Estadística para el
descubrimiento de conocimiento y la minería de datos. Departamento de Estadística e
Investigación Operativa, Universitat Politècnica de Catalunya. Ediciones UPC. 2004.
Bisquerra. Introducción conceptual al análisis multivariable. Un enfoque informático con
los paquetes SPSS-X, BMDP y SPAD. Volumen III. McGraw Hill, España. 1989.
Aluja T. Análisis Factoriales Descriptivos con SPAD-N. UPC. España. 1996
Sànchez-Marrè M., Cortés U., Lafuente J., & Poch M. Concept formation in WWTP by
means of classification techniques: A compared study. Applied Intelligence. 7:147-166.,
1997.
Roda-I. Cortés U. Gibert, K. & Sàchez-Marrè. Identifying characteristic situations in
wastewater treatment plants. Workshop in Binding Environmental Sciences and Artificial
Intelligence, 1:1-9, EDAI, 2000.
Rodríguez D. Análisis de los datos de una planta depuradora de aguas utilizando la
clasificación basada en reglas, 1999.
Sànchez-Marrè M. An Integrated Supervisory Multi-level Architecture for WasteWater
Treatment Plants. PhD thesis, UPC, 1995.
Gibert K. & A. Salvador. Aproximación difusa a la identificación de situaciones
características en el tratamiento de aguas residuales. In X Congreso Español sobre
tecnologías y lógica fuzzy, pages 497-502, España, sep 2000. ESTYLF 2000.
Bayona, S. Descriptiva de dades y de classes. PFC Facultad d’ Informática, UPC, jul
2000.
Aluja, T. & Morineau, A. Aprender de los Datos: El Análisis de Componentes Principales.
Una aproximación desde el Data Mining. Ed: EUB S.L. 1999.
Gibert K. & Cortés U. Combining Knowledge bases system with a clustering method for an
th
inductive construction of models. In Proc. 4 In Work. On AI and Stats. Florida, USA,1993.
Gibert K. & Cortés U. On the uses of the expert Knowledge for automatic biasing of a
[25]
[26]
[27]
[28]
[29]
[30]
[31]
[32]
[33]
[34]
[35]
[36]
[37]
[38]
[39]
[40]
[41]
[42]
[43]
[44]
[45]
clustering method. In ITI 93. Proceedings of the International Conference on Information
Technology Interfaces, pages 219-224, ISSN 1330-1012, Croatia, 1993.
Gibert K. Klass. Estudi d’un sistema d’ajuda al tractament estadístic de grans bases de
dades. Master’s thesis, UPC 1991.
Gibert K. & Cortés U. Combining a knowledge-based system and a clustering method for
a construction of models in ell-structured domains. In Artificial Intelligence and Statistics
IV, volume 89 of Lecture Notes in Statistics, pages 351-360, Springer-Verlang, New York,
N.Y. US., 1994.
Gibert K. & Cortés U. KLASS: Una herramienta estadística para la creación de prototipos
en dominios poco estructurados. Proa. IBERAMIA-92., pages 483-497, Noriega Eds.
México, 1992.
Gibert K., Hernández, & Cortés U. Classification based on rules: an application to
Astronomy. In Ed. Tokio. Japón, editor, Proceedings of 5. Conference of International
Federation of Classification Societies, pages 69-72, Mar 1996.
Gibert K. & Cortés U. Clustering based on rules and knowledge discovery in ill-structured
domains. Computación y Sistemas., 1(4): 213-227, ISSN 1405-5546. Impreso en México,
1998.
Gibert K. & Sonicki Z. Classification Based on Rules and Thyroids Dysfunctions. Applied
Stochastic Models in Business and Industry, 15(4):319-324, October 1999.
Rodas J., Gibert K., & Rojo J. Electroshock Effects Identification Using Classification
Techniques. Springer’s Lecture Notes of Computer Science Series, Crespo, Maojo and
Martin (Eds.):238-244, Second International Symposium, ISMDA 2001.
Gibert K., Alhuja T., & Cortés U. Knowledge Discovery with Clustering Based on Rules. In
Quafafou Eds., editor, Principles of Data Mining and Knowledge Discovery, volume 1510
of Lecture Notes in Artificial Intelligence, pages 83-92, Springer-Verlang. Interpreting
Results. Nantes, 1998.
Fayyd U. From Data Mining to Knowledge Discovery: An overview. ISBN 0-262-56097-6.
USA, 1996.
Fayyd U., Piatetsky-Shapiro G., Smyth P., & Uthursamy R. Advances in Knowledge
Discovery and Data Mining. AAAI Press. 1996.
Fayyd U., Piatetsky-Shapiro G., & Smyth P. From Data Mining to Knowledge Discovery in
Databases (a survey). AI Magazine., 3(17): 37-54., USA, 1996.
Gibert K. & Alhuja T. A computational technique for comparing classifications and its
relationship with knowledge discovery. In International Seminar on New Techniques and
Technologies for Statistics, pages 193-198. Italy, Nov. 1998.
Diday E. & Gowda K.C. Symbolic clustering using a new similarity measure. In IEEE
Trans. On systems, man., and cib., volume 22, pages 368-378, 1992
Gibert K. & Cortés U. Weighing quantitative and qualitative variables in clustering
methods. Math ware and Soft Computing, 4(3):251 – 266, 1997.
Gibert K. On the uses and costs of rules-based classification. In A. Prat. Physical-Verlang,
editor, Proceedings of Computational Statistics, pages 265-270, march 1996
Castillejo X.. Un entorn de treball per a Klass. PFC Facultad d’ Informática UPC, julio,
1996.
Márquez J. & Martín J.C.. La clasificación automática en las ciencias de la salud. PFC,
Facultat de Matemàtiques i Estadística, UPC, Octubre, 1997.
Gibert K. & Sonicki Z. Classification Based on Rules and Medical Research. In Rocco
Curto, editor, VIII International Symposium on Applied Stochastic Models and Data
Analysis, pages 181-186, ASMDA97, Italy, 1997.
Tubau X.. Sobre el comportement de les mètriques mextes en algorismes de Clustering.
PFC, Facultat d´Informàtica, UPC Octubre 1999.
Gibert K. & Salvador A. Aproximación difusa a la identificación de situaciones
Características en el tratamiento de aguas residuales. Congreso Español sobre
tecnologías, Sevilla, España. 2000.
Comas J., S. Dzeroski S., Gilbert K., Rodas I., & Sánchez-Marré M. Knowledge discovery
by means of inductive methods in wastewater treatment plant data. AI communications.
The European journal on artificial intelligence, 14 (1):45-62, march 2001.
[46]
[47]
[48]
[49]
[50]
[51]
[52]
[53]
[54]
[55]
[56]
[57]
[58]
[59]
[60]
[61]
[62]
[63]
[64]
[65]
[66]
[67]
[68]
Gómez B. Herramientas de muestreo y de clasificación basada en bootstrap. PFC,
Facultat de Matemàtiques i Estadística, UPC. Octubre 2000.
Nieto M. A. Compilación de técnicas de minería de datos y de descubrimiento de
conocimiento. PFC, Facultat de Matemàtiques i Estadística, UPC. Octubre 2000.
Gower J.C.. A. General coefficient if similarity and some of its properties. Biometrics,
27:857-874, 1971.
Ichino M. & Yaguchi H. Generalized Minkowski Metrics for Mixed feature type data
analysis. IEEE Transaction on systems, man and cybernetics, 22(2):146-153, April, 1994.
Rodas J. Metodología para el descubrimiento de conocimiento en medidas seriadas muy
cortas y repetidas con factor de bloque. Phd. Thesis., Universitat Politécnica de
Catalunya, Barcelona, España, 2003.
Vázquez F. & Gibert K.. Automatic generation of fuzzy rules in ill structures domains with
numerical variables. Research LSI-01-51-R, Technical University of Catalonia, Barcelona,
Spain, [www.lsi.upc.es/dept/techreps/html/r01-51.html]. December 2001.
Vázquez F. & Gibert K. Generación Automática de Reglas Difusas en Dominios Poco
Estructurados con Variables Numéricas. En Actas de la Conferencia de la Asociación
Española para la Inteligencia Artificial, volumen 1, Págs. 143-152, España, CAEPIA 01.
Nov 2001.
Vázquez F. & Gibert K. Implementation of the methodology “Automatic Characterization
and Interpretation of Conceptual Descriptions in ill-Structured Domains. Research LSI-0228-R, Technical University of Catalonia, Barcelona. España, Enero 2002.
[www.lsi.upc.es/dept/techreps/html/R02-28.html].
Rodas, J., Alvarado, G. & Vázquez, F., Applying KDSM to an specific domain where very
short and repeated serial measures with a blocking factor are presented. Research LSI02-53-R, Technical University of Catalonia, Barcelona. Spain, January 2002.
[www.lsi.upc.es/dept/techreps/html/R02-28.html].
Vázquez F. & Gómez P. Caracterización e interpretación automática de descripciones
conceptuales en dominios poco estructurados. CN y CIIC 2003, ISBN 970-36-0102-2,
Zacatecas, México. Octubre 2003.
Rodas, J. & Vázquez F. Using the KDSM methodology for knowledge discovery from a
labour domain. Sixth ACIS International Conference on Software Engineering, Artificial
Intelligence, Networking, and Parallel/Distributed Computing. Towson University, Towson,
Maryland, USA. May 2005
Vázquez F. & Díaz de León J.L. Characterization and Interpretation of Classes Based on
Fuzzy Rules in ill-Structured Domains. Mexican International Conference on Artificial
Intelligence. MICAI-2005, Monterrey, N.L. México. Nov, 2005.
Gutiérrez-Cabría, S. Filosofía de la Estadística. Universidad de Valencia, España, 1994.
Stephen M. Stigler. Statistics on the Table: The History of Statistical Concepts and
Methods
Harvard University Press; Reprint edition, August, 2002.
Pearson K., The Life, Letters, and Labours of Francis Galton. London, 1914-30. 1967.
Fisher, R. A. Biologist, statistician. Published much seminal work in the field of population
genetics. Author of "Design of Experiments" (1935), "Genetical Theory of Natural
Selection" (1930), and "Statistical Methods and Scientific Inference, 1956.
Ashok Rudra. Prasanta Chandra Mahalanobis. A Biography. Oxford University Press.
Dec 1997.
P.H. Sneath & R.R. Sokal. Numerical Taxonomy - The principles and practice of numerical
classification. W. H. Freeman, San Francisco, USA, 1973.
Belzer J., Holzman A. G., & Kent A. Encyclopedia of Computer Science and Technology.
Marcel Dekker, Inc. USA, 1980.
Partridge D. & Alexander Y. Wilks. The Foundations of Artificial Intelligence: A
Sourcebook. Cambridge University Press, G.B. 1990.
Buchanan D. R. & Shortliffe,E.H., "Production Systems as a Representation for a
Knowledge-based Consultation program", Artificial Intelligence, 8, (1), pp. 15-45, 1977.
C.Lau, "Neural Networks, Theoretical Foundations and Analysis", IEEE Press, 1991.
Coello C. La Computación Evolutiva en el Contexto de la Inteligencia Artificial. LANIA,
[69]
[70]
[71]
[72]
[73]
[74]
[75]
[76]
[77]
[78]
[79]
[80]
[81]
[82]
[83]
[84]
[85]
[86]
[87]
[88]
[89]
[90]
[91]
[92]
[93]
[94]
[95]
[96]
A.C., México, 2000.
Winston, Patrick H., Inteligencia Artificial. Addison-Wesley Iberoamericana, 3ª ed., 1994.
Multiagent Systems: A Modern Approach to Distributed Artificial Intelligence, G. Weiss
(ed.) The MIT Press, Cambridge, 1999.
Knapik, M. & Johnson J., Developing Intelligent Agents for Distributed Systems: Exploring
Architecture, Technologies & Applications, McGraw-Hill, 1998.
SPSS Inc's. Clementine 10.0, with access data collected using Dimensions™ family of
survey research products. 2005
Caruso David R. & Peter Salovey. The Emotionally Intelligent Manager : How to Develop
and Use the Four Key Emotional Skills of Leadership. Published by Jossey-Bass, San
Francisco California. USA, 1995
Lebart, Ludovic, Morineau, Alain & Bécue, Mónica: Système Portable pour l'Analyse des
Données Textualles. SPAD-T. Manuel de l'utilisateur. CISIA, París, 1989.
Pérez C., Técnicas estadísticas con SPSS. Prentice Hall. 2001
Ferrán M., SPSS para Windows: Programación y análisis estadístico. McGrawHill.
México, 1997.
Ian H. Witten & Eiben Frank. Data Mining: Practical Machine Learning Tools and
Techniques (Second Edition). Morgan Kaufmann, 525 pages, ISBN 0-12-088407-0. San
Francisco, CA. USA, June 2005.
Fisher, Douglas H. Knowledge Acquisition Via Incremental Conceptual Clustering. Pages:
139-172 in Machine Learning 2/1987. USA, 1987.
th
Monferrer M. T. & Toledo Lobo F. Topics in Artificial Intelligence. 5 Catalonian
Conference on AI, CCIA, Castellón, Spain ISBN: 3540000119 - Springer. October, 2000.
Vladimir N. Vapnik. The Nature of Statistical Learning Theory. ISBN: 0387987800,
Springer. AT & T Labs. Research, Red Bank, NJ, University of California, Berkeley. USA,
1999.
Springer-Verlang. Artificial Intelligence and Statistical IV, volumen 89, USA, 1994.
R. J. Brachman & T. Anand. The process of knowledge discovery in databases: A human
centered approach. In U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy,
editors, Advances in Knowledge Discovery and Data Mining, chapter 2, pages 37-57.
AAAI/MIT Press, 1996.
S. Watanabe. Pattern Recognition: Human and Mechanical. Wiley, 1985.
Fu K. S. A step toward unification of syntactic and statistical pattern recognition. IEEE
Trnas. Pattern Analysis and Machine Intelligence. 5(2):200-205, 1983.
Bajcsy R. & Kovacic S. Multiresolution elastic matching. Computation Vision Graphics
Image Process., 46:1 -21, 1989.
U. Grenander. General Pattern Theory. Oxford University Press. First Edition. 1993.
Devroye L., Gyorfi L. & Lugosi G. A Probabilistic Theory of Pattern Recognition. SpringerVerlang, Berlin, first edition, 1996.
Duda R.O. & Hart P.E.. Pattern Classification and Scene Analysis. Wiley and Sons., New
York, 1973.
Fu K.S. Syntactic Pattern Recognition and Applications. Prentice-Hall, Englewood Cliffs.
1982.
Pavlidis T. Structural Pattern Recognition. Springer-Verlag., New York. 1977.
Perlovsy L.I. Conundrum of combinatorial complexity. IEEE Trans. Pattern Analysis and
Machine Intelligence. 20:666-670,1998.
Jain A.K., Dubes R.C. & Chen C.C. Bootstrap Techniques for error estimation. IEEE
Trans. Pattern Analysis and Machine Intelligence. 9:628-633, 1987.
Kohonen T. Self-Organizing Maps. Springer Series in Information Sciences, 30, USA,
1995.
Yañez-Márquez C. & Díaz de León J.L. "Lernmatrix de Steinbuch", IT 48 Serie Verde,
CIC-IPN, México, 2001.
Yañez-Márquez C. & Díaz de León J.L. "Linear Associator de Anderson-Kohonen", IT 50
Serie Verde, CIC-IPN, México, 2001.
Castellanos Sánchez C. & Díaz de León J.L. y Sánchez López A. "El Paradigma de las
Redes Neuronales Morfológicas", México, 1999.
[97]
[98]
[99]
[100]
[101]
[102]
[103]
[104]
[105]
[106]
[107]
[108]
[109]
[110]
[111]
[112]
[113]
[114]
[115]
[116]
[117]
[118]
[119]
[120]
[121]
[122]
[123]
[124]
[125]
[126]
[127]
[128]
Yañez-Márquez C. ―Memorias Asociativas Basadas en Relaciones de Orden y
Operadores Binarios‖. Tesis doctoral. CIC-IPN, México, 2003.
Santiago Montero R. ―Clasificador híbrido de patrones basados en la Lernmatrix de
Steinbuch y Linear Associator de Anderson-Kohonen‖. Tesis de Maestría. CIC-IPN. 2003.
Fukunaga K. Introduction to Statistical Pattern Recognition. Academic Press. USA, 1990.
Devijver P.A. & Kittler J. Pattern Recognition: A Statistical Approach. Prentice Hall.
London first edition, 1982.
Bishop C.M. Neural Networks for Pattern Recognition. Clarendon Press, Oxford, firs
edition, 1995.
Ripley B. Pattern Recognition and Neural Networks. Cambridge University Press.,
Cambridge, first edition, 1996.
Schuhfried G. Wiener Test system. Vienna Reaction Unit, Basic Program. Development
and production of scientific equipment. Molding, Austria, 1992.
McLachlan G. Discriminate Analysis and Statistical Pattern Recognition. Wiley and Sons,
New York, first edition, 1992.
Nagy G. State of the art in pattern recognition. Proc. IEEE., 56:836-862, USA, 1968.
Kantrowitz M. Milestones in the Development of Artificial Intelligence 1994. Web, 1994.
Alderfer M.S. & Blashfield R.K. Cluster Analysis. Sage Publication, San Francisco,
California, USA, 1984.
Hartigan J. A. Clustering Algorithms. John Wiley & Sons, London (England), eds., 1968.
Cormack R. A review of classification. In Journal of the Royal Statistical Society (Series
A), pages 134:321-367, 1971.
Gordon A.D. Classification. Chapman & Hall, London, 1890.
Aluja T. Análisis Factoriales Descriptivos con SPAD-N. España, 1996.
Diday E. & Moreau J.V. Learning hierarchical clustering from examples. In N 289 Centre
de Rocquencourt, Rapports de Recherche, editor, INRIA, 1984.
Mamdani E.H. & Gaines G.R. Fuzzy reasoning and its Applications. Mamdani-Gains eds.,
USA, 1981.
Hughes G.E. & Creswell M.J. An Introduction to Modal Logic. London, England, eds.,
1968.
McDermott J. R1: A rule-based configured of computer systems. USA, 1982.
Brachman R. & Anand T. The Process of Knowledge Discovery in Databases: A HumanCentred Approach. In Advances in Knowledge discovery and Data Mining, pages 65-78,
Ed. U. Fayyad, G Piatetsky-Shapiro, P. Smyt, and R. Uthurusamy, AAAI/MIT Press, 1996.
Zadeh L.A. Fuzzy Sets. Information and Control, pages 338-353, USA, 1965.
Vázquez F. & Gibert K. Fundamentos de la Teoría de los Conjuntos Borrosos y la Lógica
Borrosa. Research LSI-02-3-T, Technical University of Catalonia, Barcelona, Spain,
March 2002. [www.lsi.upc.es/dept/techreps/html/R02-28.html].
Mizumoto M. & Zimmermann H.J. Comparison of fuzzy reasoning methods, Great Britain,
first edition, 1982.
Alsina C. & Trillas E., and Valverde L. On some logical connectives for fuzzy set theory.
Math. Anal. Appl., 93:149-163, 1997.
Aguilar J. & Gibert K. Sobre variables lingüísticas, difusas, paradigmas parmenidianos y
lógicas multivaluadas. ESTYLF, 1:185-192., 1991.
Aguilar J., Gilbert K. & Rodriguez. Fuzzy semantic in expert process control. LNAI, 1993.
Dubois D., Prade H., & Bezdek J. Fuzzy sets in approximate reasoning and information
system, volume 1. Kluwer Academic Publishers, 1999.
Pedrycz W. & Gomide F. An Introduction to Fuzzy Sets. The MIT, Press. 1998.
Klir, G.J. & Folger, T.A. Fuzzy Sets, Uncertainty and Information. Englewood Cliffs, NJ:
Prentice Hall. 1988.
Zadeh, L.A. Possibility theory and Soft data analysis. In Mathematical Frontiers of Social
and Policy Sciences, ed. L Cobb and R. Thrall, 69-129. Boulder, CO: Westview Press.
1981.
Dubois D. & Prade H. A Review of fuzzy set aggregation connectives. Information
Sciences, 36:85-121, 1985.
Zadeh L.A. Outline of a new approach to the analysis of complex systems and decision
[129]
[130]
[131]
[132]
[133]
[134]
[135]
[136]
[137]
[138]
[139]
[140]
[141]
[142]
[143]
[144]
[145]
[146]
[147]
[148]
[149]
[150]
[151]
[152]
[153]
processes. IEEE Trans. System. Man Cabernet, pages 28-44, 1973.
Zimmermann, H.J. Fuzzy Set Theory and its Applications, Boston: Kluwer Academic
Publishers, cop.1996.
Zadeh L.A. The role of fuzzy logic and soft computing in the conception and design of
intelligent systems. 8th Austrian Artificial Intelligence Conference, LNAI 695. 695:1-5,
1993.
Cordón, O., M.J. Del Jesús, y F. Herrera. A proposal on reasoning methods in fuzzy rulebased classification system. 1998.
Cordon F. Herrera, and A. Applicability of the fuzzy operators in the design of fuzzy logic.
Controllers. 1997.
Abe S. & Thawonmas R. A fuzzy classifier with ellipsoidal regions. IEEE Trans. on Fuzzy
Systems,, pages 358-368, 1997.
Cordón O., De Jesús M.J., & Herrera F. Completeness and consistency conditions for
learning fuzzy rules, USA, 1999.
Ishibuchi H., Nozaki K., & H. Tanaka. ―Distributed representation of fuzzy rules and its
applications to pattern classification”. Fuzzy Sets Syst. Vol 52, pp 21-32, 1992.
Mandal D.P., Murthy C.A. & S.K. Pal, "Formulation of a Multivalued Recognition System",
IEEE Trans. Syst., Man and Cyberns., vol. 22, pp. 607-620, 1992.
Cordón O., del Jesus M.J., Herrera F. Métodos de Razonamiento Aproximado Basados
en el Concepto de Mayoría Difusa para Sistemas de Clasificación. VIII Congreso Español
sobre Tecnologías y Lógica Fuzzy. Pamplona (Spain), 1998, pp. 399-404.
Cordón O., del Jesus M.J., Herrera F. A Proposal on Reasoning Methods in Fuzzy RuleBased Classification Systems. International Journal of Approximate Reasoning. Vol. 20
(1999), pp. 21-45. (22 pages).
Chi Z., Yan H. & Pham T. Fuzzy algorithms whit applications to image processing and
pattern recognition. World Scientific., pages 101, 105, 1996.
Yager R.R. On ordered weighted averaging aggregation operators in multicriteria decision
making. IEEE Trans. On Systems, Man and Cybernetics. 18:183-190, 1988.
Cordón O., del Jesús M.J. & Herrera F. Analyzing the Reasoning Mechanisms in Fuzzy
Rule-Based Classification Systems. Mathware & Soft Computing. Vol. 5: 2-3 (1998), pp.
321-332.
Yager R.R. Families of OWA operators. Fuzzy Sets and Systems. 59:125-148, 1993.
López de Mántaras. Approximate reasoning models. Ellis Horwood series in AI, 1990.
Font, J.M. & Hájek, P. On Lukasiewicz's four-valued modal logic. Studia Logica. 70. 157–
182, 2002.
Zadeh, L.A. The Concept of a Linguistic and its Application to Approximate Reasoning,
Memorandum Erl-M 411, Berkeley, Octuber 1973
Zadeh, L.A. From Computing with Numbers to Computing with Words from Manipulation
of Measurements to Manipulation of Perceptions, IEEE Trans. On Circuits and System 1:
Fundamental Theory and Applications, 1999
Zadeh, L.A. Toward a Perception Based Theory of Probabilistic Reasoning with Imprecise
Probabilities. Journal of Statistical Planning and Inference (105), 2002
Zadeh, L.A. Toward a Theory of Fuzzy Information Granulation and its Centrality in
Human Reasoning and Fuzzy Logic. Fuzzy Sets and Systems, Vol. 90, 1997
Roda, R., Poch, M., y Sánchez-Marrè, M. Tratamiento de Aguas Residuales. Barcelona.
1995
Peña, D. Estadística, Modelos y Métodos. Modelos lineales y series temporales, volumen
II. Alianza, Madrid, segunda edición, 1989
Walpole, R., Myers, R. y Myers S. Probability and Statistics for Engineers and Scientists,
volume I. Prentice Hall, sixth edition, 1998
Vázquez, F., Gibert, K. Robustness of class prediction depending on references partition
th
in-Ill-Structured Domains. 8 . Iberoamerican Conference on Artificial Intelligence. Sevilla,
España. 2002.
Vázquez F. & Gibert K. Caracterización e Interpretación Automática de Descripciones
Conceptuales en Dominios poco Estructurados usando variables numéricas. Research
LSI-02-51-R,
Technical
University
of
Catalonia,
Barcelona,
Spain,
[154]
[155]
[156]
[157]
[158]
[159]
[160]
[161]
[162]
[163]
[164]
[165]
[166]
[167]
[168]
[169]
[170]
[171]
[172]
[173]
[174]
[175]
[176]
[177]
[178]
[www.lsi.upc.es/dept/techreps/html/02-51-R.html]. Mayo 2002.
Morales
E.,
Descubrimiento
de
conocimientos
en
bases
de
datos,
[w3.mor.itesm.mx/~emorales/Cursos/KDD/node9.html]
[www.lans.ece.utexas.edu/course/ee3801/share/soft/cviz/
manual/cviz.html]
Redes
Neuronales
Artificiales
TREC
Internet
1999,
[electronica.com.mx/neural/informacion/caracteristicas.html].
Ruiz-Shulcloper J. et. al Introducción al Reconocimiento de Patrones. Serie Verde No.
51. Editorial CINVESTAD-IPN
Ruiz-Shulcloper J. y Lazo M. (1990). Modelos matemáticos para el Reconocimiento de
Patrones. Editorial UCLV, Santa Clara, Cuba.
Cheremesina E.N., J. Ruiz-Shulcloper (1992). Cuestiones metodológicas de la aplicación
de modelos matemáticos de Reconocimiento de Patrones en zonas del conocimiento
poco formalizadas. Revista Ciencias Matemáticas, vol. 13, No.2, pp. 93-108, Cuba.
Martínez-Trinidad, J. Fco., Ruiz-Shulcloper J. y Lazo M. ―Structuralization of universes‖.
Fuzzy Sets & Systems 112/3, 2000b, pp 485-500.
Martínez-Trinidad, J. Fco., Guzman-Arenas, A. The logical combinatorial approach to
pattern recognition an overview through selected works, Pattern Recognition, 2001, 34/4
1-11.
Tukey J.W. Exploratory Data Analysis. Addison-Wesley, 1977.
Ruiz-Shulcloper J., Guzman-Arenas, A., Martínez-Trinidad, J. Fco. Enfoque Lógico
Combinatorio al Reconocimiento de Patrones, Cinvestav-IPN, 1999.
MINERÍA DE DATOS, Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de
Información, FACENA – UNNE, Octubre – 2003
Carrión, J. (n/d). Diferencia entre sato, información y conocimiento, 2004
[www.destiondelconocimiento.com]
[exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/
MineriaDatosBressan.htm#Minería%20de%20Datos]
Mitchell, T. M. Machine learning, Boston, McGraw-Hill, 1997.
Stephen Haag et al.. Management Information Systems for the information age, pp. 28.
ISBN 0-07-095569-7.
Xingquan Zhu, Ian Davidson (2007). Knowledge Discovery and Data Mining: Challenges
and Realities. Hershey, New Your, pp. 18. ISBN 978-1-59904-252-7.
Ferreira, 1995; Shaffer, 1998; Milne, 1998.
[www.inta.gov.ar/bariloche/ssd/nqn/queson.htm]
Subsecretaría de Empleo y Productividad Laboral del Estado de Chihuahua, Información
Laboral, Noviembre de 2009 [perfiles.stps.gob.mx/Perfiles/PERFIL%20CHIHUAHUA.PDF]
Soneira Ferrando, María José. Procesado y optimización de espectros raman mediante
técnicas de lógica difusa: aplicación a la identificación de materiales pictóricos.
FORREST, Steven. HOFMEYER, Stephanie. SOMAYAJI, S. A. Computers immunology,
Communications of the ACM, (1996).
TAN, A. GILGERT, C. D. Machine Learning and its Application to Bionformatics: An
Overwiev. Bioinformatics Research Centre. Department of Computing University of
Glasgow G12 8QQ, August 2001.
NILSSON, Nils. Introduction to Learning Machine. An early draft of a proposed textbook.
Robotics Laboratory. Department of Computer Science. Stanford University. September
26. 1996.
U. M. Fayyad, G. Piatetsky-Shapiro, and P. Smyth. The KDD Process for Extracting
Useful Knowledge from Volumes of Data. Communications of the ACM, 2004.
J. Vallejos, Sofia. Universidad Nacional del Nordeste Facultad de Ciencias Exactas,
Naturales y Agrimensura. Trabajo de Adscripción Minería de Datos. 2006.
Descargar