Departamento de Ciencias de la Computación e IA

Anuncio
UNIVERSIDAD DE GRANADA
Escuela Técnica Superior
de Ingeniería Informática
Departamento de
Ciencias de la Computación e Inteligencia Artificial.
Modelización difusa de sistemas
mediante técnicas inductivas
TESIS DOCTORAL
Luis Jiménez Linares
Granada , Julio de 1997
MODELIZACIÓN DIFUSA DE SISTEMAS
MEDIANTE TÉCNICAS INDUCTIVAS
MEMORIA QUE PRESENTA
LUIS JIMÉNEZ LINARES
PARA OPTAR AL GRADO DE DOCTOR EN INFORMÁTICA.
DIRECTORES
MIGUEL DELGADO CALVO-FLORES.
ANTONIO F. GÓMEZ SKARMETA.
ABRIL DE 1997
DEPARTAMENTO DE CIENCIAS DE LA COMPUTACIÓN E INTELIGENCIA ARTIFICIAL.
ESCUELA TÉCNICA SUPERIOR DE INGENIERÍA INFORMÁTICA.
UNIVERSIDAD DE GRANADA.
La memoria titulada “ Modelización difusa de sistemas mediante técnicas
inductivas”, que presenta Luis Jiménez Linares, para optar al grado de DOCTOR, ha
sido realizada en el departamento de Ciencias de la Computación e Inteligencia
Artificial de la Universidad de Granada, bajo la dirección de Dr. D. Miguel Delgado
Calvo-Flores, Catedrático del departamento donde se ha realizado la memoria y Dr. D.
Antonio F. Gómez Skarmeta Titular de Escuela Universitaria del departamento de
Informática y Sistemas de la Universidad de Murcia.
Granada, Abril de 1997.
Fdo : Luis Jiménez Linares
Fdo : Dr. D. Miguel Delgado Clavo-Flores
Fdo : Dr. D. Antonio F. Gómez Skarmeta.
$JUDGHFLPLHQWRV
Mi agradecimiento a quienes, de un modo u otro, han hecho posible la realización de
esta tesis, especialmente a mis directores Dr. D Miguel Delgado Calvo-Flores y Dr. D.
Antonio F. Gómez Skarmeta por su paciencia y aliento durante este tiempo. Mi
agradecimiento también a mis compañeros del Departamento de Informática de la
Universidad de Castilla La Mancha, a la Escuela Universitaria de Informática de Ciudad
Real y en general a la Universidad de Castilla La Mancha por el apoyo y los medios que
me han brindado para poder realizar esta memoria.
Finalmente y no por ello menos importante, he de agradecer a mi familia el interés y
apoyo moral que me han mostrado durante el periodo de realización de este trabajo.
Luis Jiménez Linares
7DEODGHFRQWHQLGR
Introducción ................................................................................................................ 1
Capítulo 1. Modelado Difuso de sistemas. Herramientas.......................................... 8
1.1 Introducción ................................................................................................................. 8
1.2 Sistemas Descritos Mediante Reglas........................................................................ 10
1.2.1 La Idea de Regla Difusa......................................................................................................10
1.2.2 Inferencias en Sistemas descritos mediante Reglas Difusas................................................13
1.2.3 Identificación de Reglas Difusas para el Modelado de Sistemas. .......................................21
1.3 Identificación y Modelado mediante Árboles de Regresión. ................................. 26
1.3.1 Árboles de identificación. ...................................................................................................27
1.3.2 Calidad de los clasificadores...............................................................................................30
1.3.3 Inducción de un árbol de clasificación................................................................................32
1.3.4 Caracterización de las clases...............................................................................................39
1.3.5 Árboles de identificación como mecanismo de aproximación de funciones. ......................41
1.3.6 Inducción de un árbol de regresión. ....................................................................................42
1.4 Empleo de Árboles para la Identificación de Modelos Difusos............................. 46
Capítulo 2. Árboles Difusos de Regresión e Identificación. .................................... 52
2.1 Introducción. .............................................................................................................. 52
2.2 Caracterización del modelo difuso........................................................................... 53
2.2.1 Bondad del modelo. ............................................................................................................56
2.3 Inducción del modelo................................................................................................. 59
2.3.1 Introducción........................................................................................................................59
2.3.2 Caracterización y división de regiones difusas. ..................................................................61
2.3.3 Generación de particiones difusa de conjuntos difusos.......................................................64
2.3.4 Selección de la región a dividir y su partición. ...................................................................69
2.4 Árboles difusos de decisión y regresión. ADRI....................................................... 72
2.4.1 Árboles difusos de decisión. ...............................................................................................72
2.4.2 Árboles difusos de regresión...............................................................................................74
2.5 Base de Reglas difusas asociada a ADRI................................................................. 77
2.5.1 Construcción de un modelo de consecuente puntual...........................................................77
2.5.2 Antecedentes con variables lingüísticas. Descripción del sistema. .....................................81
2.6 Ejemplo de Empleo de ADRI. .................................................................................. 86
Capítulo 3. Aplicación de ADRI al modelado de sistemas económicos. Series
temporales....................................................................................................................... 95
3.1 Introducción. .............................................................................................................. 95
3.2 Series temporales. ...................................................................................................... 99
3.2.1 Modelos funcionales. ..........................................................................................................99
3.2.2 Modelo Difuso. Empleo de ADRI. ...................................................................................104
3.3 ADRI aplicado a varias Series Macroeconómicas................................................ 105
3.3.1 Deflactor del PIB a precio de mercado. ............................................................................105
3.3.2 Consumo nacional privado................................................................................................117
3.3.3 Salarios. ............................................................................................................................130
Conclusiones y Trabajos Futuros. .......................................................................... 142
Apéndice A. Razonamiento Aproximado................................................................ 145
Apéndice B. Tablas de datos.................................................................................... 151
Bibliografía .............................................................................................................. 154
,QWURGXFFLyQ
Introducción.
Un sistema es un modelo que caracteriza un tipo apropiado de relación entre entidades abstractas. El término “relación” es utilizado aquí en general para representar no
sólo el concepto bien definido de relación matemática, sino a una clase más amplia de
ideas tales como restricción, interdependencia, estructura, cohesión y similares. El modelado de sistemas es, en general, el conjunto de actividades, métodos y técnicas mediante las cuales se aborda la construcción de sistemas que sean modelos adecuados de
algún aspecto de la realidad.
Un modelo de un sistema debe contener un conjunto de variables descriptivas, cada
una con valores en un cierto espacio o dominio, junto con un conjunto de relaciones,
que establecen entre otras cosas un conjunto de restricciones que deben cumplirse para
cualquier asignación de valores a la variables descriptivas. Pueden definirse diferentes
modelos de un mismo sistema, cambiando las variables descriptivas, los espacio de valores, y las relaciones involucradas. Cada uno de estos modelos podía representar un
visón distinta del mismo sistema mostrándonos diferentes aspectos del mismo o distintos niveles de abstracción.
Uno de los principios fundamentales que la denominada durante alguna época ciencia
moderna mantenía es que un fenómeno no puede ser juzgado como bien comprendido,
hasta que éste pueda ser modelado o caracterizado en términos cuantitativos. Este principio se pone de manifiesto en las palabras de Lord Kelvin (1883) :
“ En la física un primer paso esencial para aprender cualquier materia es encontrar
los métodos numéricos y prácticos para medir alguna característica relacionada con esta
materia. A menudo suelo decir que si de lo que estás hablando lo puedes medir y expresarlo numéricamente, posees un buen conocimiento de lo dicho ; pero cuando no puedes
medirlo ni expresarlo numéricamente tu conocimiento es pobre e insatisfactorio ...”
Introducción y objetivos
Dada esta veneración por lo preciso, riguroso y cuantitativo en contraposición a lo difuso, inexacto, no riguroso y cualitativo, no ha de sorprender el auge que los computadores han tenido en el uso de los método cuantitativos de la mayoría de las ciencias.
Indiscutiblemente los computadores se han mostrado muy eficientes en relación a los
sistemas mecanicistas, esto es, aquellos sistemas inanimados cuyo comportamiento se
rige por las leyes de la física, mecánica, química y electromagnetismo. Desafortunadamente no se puede decir lo mismo para los sistemas que involucran la actuación de las
personas, los cuales tradicionalmente se resisten al análisis matemático clásico y a la
modelización cuantitativa pues tienen dos características que hacen difícil o simplemente imposible su tratamiento cuantitativo:
a) El razonamiento y la toma de decisiones de las personas se suelen llevar acabo
empleando el lenguaje natural, que juega un papel fundamental como mecanismo
de expresión y definición dentro de las ciencias sociales. Esto aporta una vaguedad o incertidumbre propia del lenguaje natural que los modelos matemáticos no
pueden expresar en toda su plenitud.
b) La complejidad de los sistemas abordados impiden una formulación matemática
exacta. Esta característica viene expresada en el principio de incompatibilidad expresado por Zadeh. Este principio dice que una gran precisión en el modelo de un
sistema es incompatible con su capacidad para manejar una complejidad grande.
En otras palabras, la complejidad de un sistema mantiene una relación inversa con
la exactitud con la que podemos determinar dicho sistema.
Un forma de abordar problemas con estas características es la utilización del denominado Razonamiento Aproximado donde los modelos dejan de ser cuantitativos para
transformase en modelos cualitativos. Estos modelos cualitativos intentan capturar el
razonamiento humano mediante el uso de relaciones causa-efecto expresadas en términos lingüísticos o vagos. La teoría de los conjuntos difusos formulada por Zadeh en su
trabajo “Fuzzy Sets”[105] y posteriormente completada con sus aportaciones del concepto de variable lingüística[107][108][109] es el intento de introducir un marco de tra-
2
Introducción y objetivos
bajo bien definido para el tratamiento de estos modelos cuantitativos en donde los términos difusos, vagos e imprecisos son consustanciales.
En las ultimas décadas el uso de estos modelos ha sufrido un gran auge, debido a los
resultados espectaculares obtenidos en distintos campos de la ciencia. Se ha de destacar
su uso dentro de la ingeniería y más concretamente en el control industrial[36]. Estos
sistemas se han beneficiado del uso del Razonamiento Aproximado permitiendo abordar
el control de sistemas complejos, que tradicionalmente eran tratados de forma exacta
con complejas ecuaciones matemáticas, mediante el uso del conocimiento de expertos
humanos expresado en modelos de razonamiento aproximado.
La idea que subyace en todas estas técnicas consiste en extraer los conocimientos que
el experto posee para identificar una situación concreta del estado del sistema y establecer la acción adecuada que se ha de realizar. Debido a la complejidad de los sistemas
estas situaciones o estados son expresados en términos lingüísticos o vagos. Por esta
razón el uso de los conjuntos difusos, variables lingüísticas y en general los mecanismos
de representación utilizados por el Razonamiento Aproximado se muestran adecuados
para su modelización.
En general la creación de estos modelos difusos se realiza expresando en forma de
regla lingüística el conocimiento deductivo que emplea el experto. Este puede hacerse (y
así se hizo en los comienzos) mediante complicadas técnicas de Ingeniería del Conocimiento pero más modernamente, el uso de los computadores, así como la mejora en la
potencia de cálculo y la cantidad de almacenamiento de datos que éstos han sufrido en
los últimos años, han originado la proliferación de técnicas inductivas para la obtención
de tales modelos de sistemas a partir de datos conocidos (Aprendizaje Inductivo). Este
enfoque inductivo ha posibilitado la creación de modelos para los cuales no es posible
disponer de expertos que nos proporcionen el conocimiento sobre los mismos.
Uno de los aspectos de la ciencia que se han visto más favorecidas por el uso de los
métodos inductivos es la obtención de clasificadores de objetos. El trabajo de éstos consiste en extraer y estructurar un conjunto de características que definen a un determinado
objeto de la realidad, para de esta forma determinar al grupo abstracto de objetos al que
3
Introducción y objetivos
pertenece. Este mecanismo de agrupación de objetos en clases, nos permite olvidar las
características particulares y no relevantes de cada objetos para centrarnos en aquellas
comunes, que nos definan ya no sólo al objeto tratado, sino a un conjunto de objetos
cuyo comportamiento o fisonomía es semejante. Podemos decidir que el trabajo realizado en este campo queda divido en dos grandes grupos :
a) Métodos orientados a la identificación de clases o grupos en conjunto de objetos
conocidos, los cuales son conocidas como métodos de agrupamiento o clustering
de datos.
b) Métodos orientados a la determinación de la pertenencia de un determinado objeto
a una clase o grupo conocido, los cuales genéricamente se denominan clasificadores.
Estas técnicas se emplean en la construcción de modelos, y más concretamente, en la
construcción de modelos difusos o vagos, los cuales son enfocados en el sentido del
razonamiento aproximado y la relación causa-efecto con el objetivo de identificar los
estados del sistema a partir de un conjunto de valores conocidos del mismo.
Las técnicas que más se han tratado para estos objetivos son las técnicas de agrupamiento o clustering, las cuales han sido ampliadas y adaptadas para que pueden servir
como métodos de inducción de modelos difusos de sistemas[33][7]. Sin embargo pocos
esfuerzos se han realizado en la utilización de las técnicas de clasificación para estos
mismos propósitos.
En economía, como en otras ciencias sociales, el uso de modelos matemáticos es defendido por muchos autores a la vez molesta a otros. Estos últimos piensan que la conducta humana es demasiado compleja y sutil como para reducirla a mecánicas fórmulas
matemáticas pero no se cuestionan la posibilidad de comprender el comportamiento
humano, ni la posibilidad de expresar supuestos sobre el mismo. En todo caso es el uso
del formalismo matemático lo que no consideran apropiado para muchos autores, así
como para el gran público. Conceptos y relaciones económicas como la predicción de la
renta de los agricultores de patata en relación a la cosecha obtenida, o el volumen de
4
Introducción y objetivos
desempleo frente a la cantidad de impuestos que hay que pagar, se postulan mediante
teorías expresadas lingüísticamente. Ejemplos de estas formulaciones son la teoría del
comportamiento del mercado que dice “Si la cosecha de patata es relativamente escasa
entonces la renta de los agricultores crecerá”, o la teoría de la renta nacional que dice: “
Una reducción en los impuestos reducirá el volumen de desempleo”. Estos ejemplos
pone de manifiesto como muchos de los conceptos y relaciones tratados por la economía
se expresan en lenguaje natural por su complejidad o imprecisión.
Estas formulaciones imprecisas y vagas han sido frecuentemente desdeñadas en aras
de la exactitud y la precisión, abordándolas mediante modelos matemáticos que intentan
describir la vaguedad e imprecisión inherente a los sistemas económicos por medio de
técnicas de la estadística.
Aunque el uso de los modelos matemáticos proporciona un gran avance dentro de la
economía, es previsible que la utilización de modelos difusos que reflejen el comportamiento vago e impreciso de los sistemas económicos y que faciliten la postulación de
teorías en términos lingüísticos ha de producir un enorme beneficio a la economía.
Objetivos.
El objetivo de este trabajo es el estudio de los mecanismos y técnicas de inducción de
clasificadores clásicos, tales como los árboles de clasificación o identificación, para su
generalización como herramienta en la inducción de modelos difusos de sistemas. Además pretendemos probar la eficacia de estos métodos de identificación contrastándolos
en problemas de regresión de modelos económicos (series temporales).
Para la consecución de dicho objetivo hemos estructurado esta memoria en tres capítulos. En el capítulo primero presentamos los modelos que queremos inducir, mostrando el concepto de regla difusa como elemento fundamental de dichos modelos, sus
tipos y los mecanismos y problemas existentes para su inducción. Como pieza común
en todos los modelos vemos que una regla tiene el sentido de un clasificador, que a un
grupo de elementos de entrada le asigna un determinado valor o clase. La perspectiva de
5
Introducción y objetivos
considerar un conjunto de reglas difusas como un clasificador nos induce al estudio del
problema de la clasificación y los mecanismos utilizados para su resolución. Por su amplia difusión y los buenos resultados que los avalan nos centraremos en los árboles de
clasificación o identificación estudiando su inducción y generalización para la regresión
de funciones. Terminamos el capítulo viendo como estas técnicas de clasificación mediante árboles de regresión y clasificación han sido aplicada por algunos autores para la
identificación de modelos difusos.
En el capítulo segundo introducimos un mecanismo para la inducción de un modelo
difuso fundamentándonos en la filosofía de construcción de los árboles de regresión. En
un primer momento presentamos el modelo difuso como un clasificador donde quedan
definidas las regiones del espacio de definición de las entradas a las cuales se le asignará
un valor de salida. El uso de regiones difusas nos obliga a definir un mecanismo de inducción que generalice el utilizado en la generación de los árboles de regresión; por este
motivo definimos un nuevo criterio de bondad del modelo, un nuevo mecanismo de
partición del espacio de entrada, así como un nuevo mecanismo de asignación del valor
de salida de cada región. La inducción de este modelo nos lleva a establecer una estructura en forma de árbol difuso de decisión que generaliza los árboles de regresión y que
denominamos ADRI (Árboles Difusos de Regresión e Identificación). Estudiamos la
obtención de un conjunto de reglas difusas a partir de un árbol ADRI inducido, tanto en
su aspecto aproximativo como en su aspecto descriptivo, observando los efectos que
sobre el modelo difuso obtenido y su inducción tiene la consideración de tomar los antecedentes de las reglas formados únicamente por valores de variables lingüísticas. El capítulo finaliza aplicando el modelo y el mecanismo de inducción presentado a un ejemplo de una función no lineal.
En el capítulo tercero presentamos la utilización del modelado difuso de sistemas
como herramienta para el análisis y síntesis de modelos dentro de la ciencia de la economía, centrándonos en las de series temporales de variables económicas. Tras una pequeña introducción sobre los distintos modelos que existen para modelar el comportamiento de las series temporales, vemos cómo el uso de las técnicas inductivas de cons-
6
Introducción y objetivos
trucción de modelos difusos y más concretamente ARDI pueden ser utilizadas para la
aproximación de dichas series como un mecanismo uniforme y sistemático.
Finalizamos el trabajo exponiendo las conclusiones a las que hemos llegado tras la
realización del mismo, así como un conjunto de posibles líneas de investigación y estudio que nos han surgido durante la realización de esta memoria.
En el apéndice A presentamos una breve introducción a la teoría de conjuntos difusos
y razonamiento aproximado para que el lector que no esté familiarizado con estos conceptos pueda disponer de una primera y rápida aproximación a los mismos.
7
&DStWXOR
Modelado Difuso de sistemas. Herramientas
1.1 Introducción
Un “sistema” puede visualizarse como el conjunto de "relaciones", en el sentido más
amplio de la palabra, entre unas variables de entrada y otras variables de salida. Estas
relaciones provocan el cambio temporal de los valores de las variables de salida al modificarse los valores de las variables de entrada.
Esquemáticamente (figura 1.1) un sistema se representa mediante una “caja negra”
donde encontramos variables de entrada que introducen sus valores en la misma y variables de salida que toman sus valores de ella.
X
S
ENTRADA
SALIDA
Ξ
SISTEMA
Sistema Ξ (1.1)
Características como el tipo de valores de las variables de entrada y salida, el número
de éstas, su dependencia del tiempo, la retroalimentación de las salidas hacia las entradas, etc ., originan una multitud de clasificaciones de los sistemas. Si nos fijamos en el
número de entradas y de salidas (lo que resulta de interés en nuestros desarrollos futuros) tenemos :
Cap. 1
Modelado Difuso de sistemas. Herramientas
• Sistemas MIMO de múltiples entradas y múltiples salidas.
• Sistemas MISO de múltiples entradas y una única salida.
• Sistemas SIMO de una única entrada y múltiples salidas.
• Sistemas SISO de una única entrada y una única salida.
De igual manera, los valores que toman las variables, tanto las de entrada como las
de salida, pueden clasificarse en dos grandes categorías: cualitativos, cuando los valores
de las variables son numéricos, o cuantitativos cuando los valores de las variables no
son numéricos, que originan nuevas categorías de sistemas.
Un objetivo de la ciencia es la definición de modelos de los sistemas existentes en la
realidad. Un modelo es la abstracción y simplificación de un sistema real, que sintetiza
de alguna forma las variables y sus relaciones más significativas. Este proceso de abstracción que se produce en un modelo se realiza por dos motivos: el primero de ellos es
la comprensión del sistema y de los fenómenos asociados al mismo, el segundo, posibilitar su manipulación para alcanzar algún fin concreto.
Las relaciones que unen las variables de salida con las variables de entrada se pueden
modelar de muy diversas formas; entre ellas destacan aquéllas que utilizan mecanismos
formales para su representación, como pueden ser las funciones matemáticas y lógicas.
Cuando un modelo se expresa mediante una función matemática, lo que se trata de
describir en términos precisos es la relación existente entre los valores de entrada y salida. Si denotamos por Ψ el modelo que describe el sistema Ξ, éste tendrá una apariencia
funcional parecida a Ψ(x1,x2,x3, ... ,xm)=(s1,s2, ... ,sr) donde xi para i=1...m es el conjunto
de variables de entrada que se han tomado y sj para j=1 ... r el conjunto de variables de
salida en las que estamos interesados.
Ψ: X → S
(1.1)
Estos modelos matemáticos han de estar descritos sobre variables con valores cuantitativos, en cuyo caso su interpretación es inmediata. Sin embargo, cuando los valores
de las variables no son numéricos es necesario un proceso de abstracción anterior para
trasladar los valores cualitativos a unos valores cuantitativos.
9
Cap. 1
Modelado Difuso de sistemas. Herramientas
Otra forma de describir un modelo es mediante relaciones lógicas, donde los elementos que utilizamos son proposiciones lógicas que unimos mediante conectivas, para
formar nuevas proposiciones. La interpretación de estos modelos lógicos se enmarca
dentro de la aceptación de un sistema de deducción definido mediante un conjunto de
axiomas . Este tipo de modelo ha tenido un gran auge en los últimos 50 años, años en
que ha proliferado la representación lógica fundamentada en el concepto de regla lógica,
que tiene la forma "Si A entonces B", basada en la interpretación de una implicación que
permite una fácil identificación de una relación causa-efecto de los valores de entrada
sobre los valores de salida del sistema.
En este capítulo, en la sección 1.2, veremos como la idea de regla difusa ha sido utilizada para la modelización de sistemas así como la problemática de la identificación de
modelos difusos. En la mayoría de los mecanismos utilizados para la identificación de
modelos existe un proceso de agrupamiento de los datos conocidos en grupos o clases;
es este proceso el que nos lleva a estudiar en la sección 1.3 el problema de la clasificación, fundamentado en la obtención de agrupamientos de datos pertenecientes a una
determinada clase, centrándonos en uno de los métodos que más éxito ha tenido en el
ámbito no difuso, como son los árboles de identificación, mostrando su mecanismo de
inducción, así como su generalización como aproximadores de funciones. Finalmente en
la sección 1.4 indicaremos cómo han sido utilizadas estas herramientas para la inducción de la estructura de modelos difusos.
1.2 Sistemas Descritos Mediante Reglas
1.2.1 La Idea de Regla Difusa
Mamdani[68][67][51], utilizando los conceptos que aporta la teoría de los conjuntos
difusos de Zadeh[105] y la idea de representar las reglas condicionales como relaciones
difusas del espacio de definición entrada-salida[111], modelizó mediante un conjunto de
reglas difusas las acciones que un experto humano realizaba para controlar un sistema.
Mamdani considera que la función de control que rige el sistema puede ser interpretada como una aplicación de los valores de entrada (puntos de definición de la función)
con los valores que ha de tener la variable de salida (valor de la función). En la teoría de
10
Cap. 1
Modelado Difuso de sistemas. Herramientas
control clásica esta aplicación se describe mediante una función matemática, que normalmente se obtiene como resolución de complejos sistemas de ecuaciones diferenciales.
Este enfoque funcional es trasladado al entorno del razonamiento aproximado, planteando la interpretación de las reglas difusas de forma distinta al concepto de implicación que poseen en la lógica difusa. En esta interpretación, una regla establecerá el valor
que ha de tener la función en un determinado punto del dominio de entrada, realizándose una identificación entre el consecuente de la regla y el valor de la función, así como
entre el antecedente de dicha regla con el punto del dominio de entrada asociado a dicho
valor. Esto nos proporciona la visión de una regla de la forma "Si x es β entonces s es
~
α", siendo x ∈ X=X1xX2x...Xm y s ∈ S, como f (β ) = α , donde β y α ya son conjuntos
difusos definidos sobre el referencial X y en el dominio S de la variable de salida respectivamente. Un conjunto de reglas definen una aplicación entre X e S, es decir,
~ ~
~
~
f : X → S , donde X representa la totalidad de los conjuntos difusos que se pueden de~
finir sobre el referencial X y S la totalidad de los conjuntos difusos que pueden ser definidos sobre el referencial S.
Sea el conjunto de N reglas siguientes:
r1 : Si x1 es A11 y x2 es A21 y ... y xm es Am1 entonces s es B1
r2 : Si x1 es A12 y x2 es A22 y ... y xm es Am2 entonces s es B2
.......................................................................................
rN : Si x1 es A1N y x2 es A2N y ... y xm es AmN entonces s es BN
Conjunto de reglas difusas
donde xi ∈ Xi para i=1 ... m, Aij y Bj son conjuntos difusos definidos respectiva~
mente sobre los referenciales Xi y S. Este conjunto de reglas define la aplicación f ,que
tiene una valor de salida αj=Bj para el punto difuso βj cuya función de pertenencia
m
es β j ( x) = ⊗ Aij ( x i ) , siendo ⊗ una t-norma.
i =1
11
Cap. 1
Modelado Difuso de sistemas. Herramientas
Zadeh[107],[108],[109],[21] observó que las descripciones de términos imprecisos se
establecen normalmente de forma lingüística. Esto quiere decir que, cuando se trata con
un término , como puede ser la altura de una persona, la forma más normal de expresar
dicha característica no es mediante el valor en metros o centímetros de la misma; sino
que, es más habitual expresarla mediante términos lingüísticos. Así se diría: la altura es
baja, la altura es mediana o la altura es alta. Esto lleva al establecimiento de lo que se
denomina variable lingüística, variable que podríamos caracterizar de manera informal
como aquélla que toma valores dentro de un conjunto de etiquetas lingüísticas.
Formalmente podemos definir una variable lingüística como una quíntupla (H, T(H),
V, G, M) donde :
• H es el nombre de la variable lingüística.
• T(H) es el llamado “conjunto de términos de H” o colección de etiquetas lingüísticas
de la variable H.
• V es el dominio de definición de la variable.
• G es una regla sintáctica para asociar los elementos t de T(H).
• M es una regla semántica para asociar a cada elemento t de T(H) un conjunto difuso
M(t) definido sobre el referencial V.
Cabe distinguir entre términos primarios y términos compuestos que son construidos
de acuerdo con la regla sintáctica G. Estos términos compuestos se generan habitualmente a partir de los términos primarios mediante modificadores lingüísticos y conectivas. Semánticamente los términos primarios son distinguibles de los términos compuestos. La diferencia estriba en que éstos poseen un valor semántico propio dependiendo del contexto donde se definan, mientras que los modificadores poseen un significado
independiente del contexto. Ejemplos de términos primarios, si estamos hablando de la
altura, serían {baja, alta}, mientras que posibles modificadores podrían ser {muy, más o
menos, extremadamente...}.
12
Cap. 1
Modelado Difuso de sistemas. Herramientas
1
A
más o menos A
aproximadamente A
0.8
0.6
0.4
0.2
0
0
5
10
15
20
25
30
Modificadores lingüísticos (1.2)
Cualquier expresión de la forma x es A puede ser considerada como la asignación de
una variable lingüística - cuyo dominio de definición es el de x- al valor de la etiqueta
A. Es de este modo como se obtiene un enfoque lingüístico de los sistemas de reglas
difusos.
Desde este enfoque lingüístico podremos hablar de funciones lingüísticas, como
aquellas aplicaciones difusas que están definidas sobre un dominio compuesto de variables lingüísticas.
Presentados los conceptos de aplicación difusa y el caso particular de las funciones
lingüísticas, nos centraremos a continuación en los mecanismos utilizados para inferir,
mediante un conjunto de reglas difusas, el valor de salida de una aplicación difusa asocia a un determinado valor de entrada. Abordaremos este proceso de inferencia partiendo del mecanismo de implicación que poseen las reglas en la lógica difusa y llegaremos
de esta forma a los modelos de razonamiento difuso donde se presenta abiertamente el
carácter funcional de un conjunto de reglas difusas.
1.2.2 Inferencia en Sistemas descritos mediante Reglas Difusas.
El mecanismo general de inferencia utilizado en la lógica difusa es denominado Modus Ponens Generalizado (MPG)[21]. Este mecanismo traslada la regla básica de deducción del cálculo de predicados del mismo nombre al entorno de predicados vagos o
difusos.
13
Cap. 1
Modelado Difuso de sistemas. Herramientas
El Modus Ponens se establece en los siguientes términos: supuesto que la implicación A→B es cierta y dado que ocurre A, entonces se ha de concluir que la proposición
B también es cierta. Esquemáticamente el Modus Ponens se representa como
A →
A
B
(1.2)
B
En términos de predicados difusos 1.2 se puede expresar como
Si x es A entonces s es B
x es A*
(1.3)
s es B*
donde A y A* son propiedades difusas definidas sobre el referencial X, y B y B* son
propiedades difusas definidas sobre el referencial S. Para construir B* Zadeh introdujo la
denomina Regla Composicional de Inferencia. Esta regla resuelve el problema anterior
mediante la introducción de una relación difusa R en el producto cartesiano XxS, estableciendo una función de pertenencia para la misma µR:XxS→[0,1], que queda definida
mediante una función F:XxS→[0,1].
El conjunto difuso B* estará generado por A* sobre el referencial S, a través de R. Por
tanto, podremos considerar B*=A*°F, con lo cual el problema de construir B* se transforma en determinar F y °. Zadeh propone una definición del B* con una función de
pertenencia
{
}
B* ( s) = max ⊗ A* ( x ), R( x , s)
x ∈X
(1.4)
donde la ⊗ es una t-norma y F es una función de implicación. Así pues podemos particularizar considerando la t-norma del mínimo y la función de implicación de Lukasiewicz
B* ( s) = max min( A* ( x ), min(11
, − A( x ) + B( s))) .
x
14
(1.5)
Cap. 1
Modelado Difuso de sistemas. Herramientas
Dependiendo de la t-norma y función de implicación que elijamos, quedará establecida una versión para el MPG que reflejará distintos modos de razonar.
Cuando Mamdani afrontó la utilización de los sistemas de reglas difusas, como representación de la función de control de una planta dinámica[68], se encontró que, aunque las variables lógicas del control podían ser descritas mediante conjuntos difusos, las
variables sobre las que tenía que actuar y aquéllas que tenía que dirigir eran en realidad
representación de magnitudes físicas que toman valores reales. Esto obliga a introducir
unas transformaciones de los valores de las variables que trasladen un valor de X a un
~
~
valor de X y un valor de S a uno de S.
El esquema de inferencia seguido [61][62], denominado modelo Mamdani, podría
reflejarse en tres etapas :
I. Hacer difusas las entradas mediante un mecanismo de fuzzificación.
II. Mediante un conjunto de reglas difusas que definen la función difusa inferir un valor
de salida difuso.
III.Obtener un valor no difuso de la cantidad difusa de salida mediante un mecanismo de
desfuzzificación.
De esta forma se construye una aplicación Ψ mediante la composición de la función
~ ~
~
~
de fuzzificación Ff: X→ X , una aplicación difusa f : X → S y una función de desfuzzi~
ficación Df: S →S, como modelo para el sistema Ξ : X→S. Este tipo de modelo, que
incorpora en su estructura una aplicación difusa descrita mediante un conjunto de reglas
difusas, se denomina modelo difuso Ψ del sistema Ξ.
~
Ψ ≡ Df $ f $ Ff
En la figura 1.3 se ilustra gráficamente un modelo difuso Ψ tal como el anterior.
15
Cap. 1
Modelado Difuso de sistemas. Herramientas
Á M B IT O D IF U S O
Á M B IT O N O D IF U S O
~
X
X
Ff
x
β
Ξ
~
f
Df
s
α
~
S
S
Modelo difuso Ψ de un sistema Ξ Figura (1.3)
La etapa I normalmente se solventa asociando un “ singleton” (conjunto difuso puntual) al valor no difuso de entrada. Supongamos que el valor es x’ ∈ X, entonces definiremos un conjunto difuso asociado con función de pertenencia
1 x = x '
µx ' ( x ) = 
0 x ≠ x '
(1.6)
La etapa III se resuelve de distintas formas, si bien y como es lógico en todos los casos se busca es encontrar un único valor que pueda resumir la información contenida en
dicho conjunto difuso. La solución más extendida es considerar ese valor como el centro gravedad (COA) del conjunto difuso µ, que vendría expresado
∫ µ (s) sds
∫ µ (s) ds
(1.7)
que en caso de una representación discreta de µ(s) toma la forma:
∑ µ ( s) s
.
∑ µ ( s)
s∈S
s∈S
16
(1.8)
Cap. 1
Modelado Difuso de sistemas. Herramientas
Otras posibles alternativas son:
• Criterio del máximo consistente en el valor s’∈S tal que µ(s’) es máximo.
• Criterio de la media de los máximos
∑s
s∈W
w
tal que W={ s / µ(s) es máximo}
En la etapa II, dado un conjunto de valores concreto de entrada (x1’, x2’, ... , xm’), el
conjunto difuso B’ obtenido por Mamdani vendrá definido por la función de pertenencia:
{ {
}}} .
{
B' ( s) = max min B j (s), min Aij ( x 'i )
j =1..N
i =1..m
(1.9)
Aplicando a este conjunto la etapa III, según hemos visto anteriormente, tendremos
que el sistema para una entrada (x1’, x2’, ... , xm’) obtendremos una salida s’ que viene
expresada como
∑ B ' ( s) * s
s' =
∑ B ' ( s)
s∈S
(1.10)
s∈S
Gráficamente la figura 1.4 muestra este mecanismo de inferencia.
A11
B1
A21
A22
A12
x1
x2
B2
B’
Inferencia de tipo Mamdani (1.4)
Si consideramos la regla j, tendremos que el conjunto de entradas pertenecerá al antecedente de dicha regla en el mismo grado que la conjunción de los grados de pertenencia de cada variable al conjunto difuso asociado a dicha variable en el antecedente. En
17
Cap. 1
Modelado Difuso de sistemas. Herramientas
términos generales, esta conjunción vendrá expresada mediante una t-norma. Si llamamos γj al grado de pertenencia de la entrada al antecedente de la regla j tendremos que
m
γ j = ⊗ Ai j ( xi ')
(1.11)
i =1
Considerando que el antecedente de dicha regla no puede pertenecer en grado superior a γj a la salida del sistema, tendremos un conjunto difuso B’j que vendrá caracterizado por la siguiente función de pertenencia
{
B' j ( s) = min B j ( s), s j
}
(1.12)
obteniendo así finalmente una salida expresada como la disyunción de todos los resultados parciales de las N reglas, que puede calcularse mediante la aplicación de una tconorma a los valores de pertenencia de los conjuntos difusos B’j ,obtenidos como las
salidas parciales de cada regla j.
N
B' (s) = ⊕ B' j ( s)
j =1
(1.13)
Con la misma interpretación de un conjunto de reglas como una función difusa y
considerando al igual Mamdani que la salida ha de ser un valor no difuso, Takagi, Sugeno y Kang introducen el denominado modelo TSK[91], que se diferencia del modelo de
Mamdani en la forma de las reglas utilizadas, al cambiar la forma de los valores de los
consecuentes de las reglas. En este modelo los consecuentes, en lugar de estar expresados mediante un conjunto difuso constante, son definidos como una función lineal de
los valores de entrada. El conjunto de reglas en el modelo TSK tendrá una forma como :
18
Cap. 1
Modelado Difuso de sistemas. Herramientas
r1 : Si x1 es A11 y x2 es A21 y ... y xm es Am1 entonces s=b01+x1b11+ x2b21+ ... +xmbm1
r2 : Si x1 es A12 y x2 es A22 y ... y xm es Am2 entonces s=b02+x1b12+ x2b22+ ... +xmbm2
.......................................................................................
rN : Si x1 es A1N y x2 es A2N y ... y xm es AmN entonces s=b0N+x1b1N+ x2b2N+ ... +xmbmN
Conjunto de reglas de modelo TSK (1.5)
a partir del cual se inferirá un valor de salida que vendrá expresado por :
N
s' =
{
}
m
∑ min Aij ( x i ) (b0j + ∑ x i bij )
j =1
m
i =1
i =1
∑ min{A
N
j =1
m
i
i =1
j
}
.
(1.14)
(xi )
Un modelo de inferencia que puede ser considerado entre los modelos de Mamdani y
TSK es el utilizado en el denominado Método Simplificado de Razonamiento Aproximado. Introducido por Mizumoto[72][71], en el se consideran las reglas formadas por
consecuentes puntuales no difusos o, lo que es lo mismo, con funciones constantes; por
este motivo se denomina modelo de consecuente puntual.
Sea un conjunto de reglas del tipo de consecuente puntual como las siguientes
r1 : Si x1 es A11 y x2 es A21 y ... y xm es Am1 entonces s=s1
r2 : Si x1 es A12 y x2 es A22 y ... y xm es Am2 entonces s=s2
.......................................................................................
rN : Si x1 es A1N y x2 es A2N y ... y xm es AmN entonces s=sN
Conjunto de reglas del modelo de consecuente puntual (1.6)
donde los valores sj pueden ser considerados como la desfuzzificación mediante el
valor de su centro de gravedad (COA) de los conjuntos difusos Bj del consecuente de la
j-ésima regla en el modelo Mamdani.
∫ B (s) sds
=
∫ B (s) ds
j
s
j
j
19
(1.15)
Cap. 1
Modelado Difuso de sistemas. Herramientas
Siguiendo el modelo utilizado por Mamdani, y sustituyendo la t-norma del mínimo
por la t-norma del producto en la obtención del valor de la salida de cada regla, así como
la t-conorma de la suma como mecanismo de agregación de las salidas de cada regla,
tendremos que la salida para un punto x viene dada por:
N
s' =
m
{
}
∑ min Aij ( xi ) s j
j =1
N
i =1
∑ min{A ( x )}
j =1
m
i =1
(1.16)
j
i
i
que es una expresión obtenida a partir del modelo de inferencia de Mamdani, análoga
del modelo TSK.
Una generalización del modelo TSK consiste en considerar como salida una función
no lineal. Este tipo de modelos se denominan modelos cuasi-lineales y tienen un conjunto de reglas como el siguiente
r1 : Si x1 es A11 y x2 es A21 y ... y xm es Am1 entonces s=f1(x1,x2, ... ,xm)
r2 : Si x1 es A12 y x2 es A22 y ... y xm es Am2 entonces s=f2(x1,x2, ... ,xm)
.......................................................................................
rN : Si x1 es A1N y x2 es A2N y ... y xm es AmN entonces s=fN(x1,x2, ... ,xm)
Conjunto de reglas del modelo de cuasi-lineal (1.7)
donde fj son funciones definidas sobre el dominio de las variables de entrada X1xX2x
... xXN. Considerando el valor de los consecuentes como conjuntos difusos puntuales,
tendremos que el mecanismo de inferencia es el mismo MPG que el del modelo Mamdani.1
N
B'(s) = ∑ γ j / f j ( x1 ', x 2 ',, x m ') .
(1.17)
j =1
1
Utilizamos la representación discreta de la función de pertenencia µ(x)=µ(x1)/x1 + ... + µ(xs)/xs , que
muestra el valor de pertenencia asociado a cada punto.
20
Cap. 1
Modelado Difuso de sistemas. Herramientas
Aplicando a este conjunto la etapa III del modelo Mamdani, tendremos que el modelo para una entrada (x1’, x2’, ... , xm’) dará una salida s’ que viene expresada como
N
s' =
∑γ
j =1
j
f j ( x1 ', x 2 ', x m ')
.
N
∑γ
(1.18)
j
j =1
Una vez fijados los modelos difusos que mayor desarrollo han tenido (sobre todo
dentro del control de sistemas, dando lugar a lo que se denomina control inteligente o
control difuso) nos centraremos en el proceso de crear o descubrir modelos difusos que
puedan describir los sistemas reales Ξ.
1.2.3 Identificación de Reglas Difusas para el Modelado de Sistemas.
Para la definición de un modelo difuso, como para cualquier otro modelo que es una
abstracción de un sistema real, tendremos que definir el mecanismo para establecer su
estructura y poder luego ajustar sus parámetros[89].
Generalmente, la identificación de la estructura de un sistema lleva consigo dos procesos: el primero de ellos consiste en la determinación de las variables de entrada y de
salida que son relevantes al sistema, mientras que el segundo proceso consiste en fijar el
conjunto de relaciones existentes entre las variables de entrada y las variables de salida.
En un sistema existen habitualmente un número elevado de posibles variables que
pueden ser consideradas como candidatas para variables de entrada. De entre todas, nos
hemos de restringir a un conjunto manejable de ellas. Este proceso de restricción en la
selección de las variables de entrada no puede ser resuelto de forma general. Tal como
ya dijo Newton en su principio del movimiento cinético no existe un proceso sistemático para encontrar las causas de un fenómeno desconocido. Este tipo de identificación
está basado normalmente en métodos heurísticos , en la experiencia o en el propio sentido común, y suele quedar fuera de las especificaciones de los mecanismos de identificación de sistemas.
21
Cap. 1
Modelado Difuso de sistemas. Herramientas
Determinado el conjunto de variables de entrada y salida que van a definir nuestro
sistema, hemos de establecer, fijada una variable de salida, qué variables de entrada interactúan o afectan a dicha variable de salida. En definitiva, tendremos que emparejar
las variables de entrada con aquellas de salida que se vean afectadas por las mismas.
Existen distintos mecanismos sistemáticos para realizar este proceso, destacando entre
ellos el análisis multivariante que es ampliamente utilizado. En la definición de los sistemas como cajas negras, esta identificación no existe explícitamente, prefijándose de
antemano qué variables de entrada afectan a las distintas variables de salida. Hasta este
momento, el proceso de identificación establece qué variables actúan en el sistema, así
como la existencia de relaciones entre las variables de entrada y las de salida; pero no
son fijadas dichas relaciones.
El siguiente paso o etapa para la definición de la estructura del modelo difuso consiste en detectar el tipo de relación que une las entradas con las salidas, que en estos
modelos quedan fijadas mediante el conjunto de reglas difusas que definen el modelo.
Para la creación de este conjunto de reglas es necesario establecer su número (lo que
equivaldría en la teoría clásica de sistemas a determinar el orden el mismo) y, por otro
lado, determinar el aspecto de cada una de ellas, estableciendo la forma que han de tener
los antecedentes, así como sus consecuentes.
Por último, se impone un proceso de ajuste de todos los parámetros que interviene en
la estructura del sistema, tanto de los antecedentes como de los consecuentes.
En resumen, la identificación de un sistema podría venir expresada en el siguiente algoritmo:
22
Cap. 1
Modelado Difuso de sistemas. Herramientas
Identificación de un sistema
1) Establecer la estructura del sistema
Algoritmo 1.1
I) Determinar las variables involucradas
Ia) ¿ Que variables interviene en el sistema ?
Ib) ¿ Que variables de entrada actúan sobre una determinada salida ?
II) Determinar que tipo de relación existe entre las variables de entrada y salida
IIa) ¿ Cuantas reglas componen la BCD ?
IIb) ¿ Que forma tiene los antecedentes y consecuentes de las reglas?
2) Ajustar todos los parámetros del sistema.
Para realizar los procesos que involucran el algoritmo anterior hay dos enfoques distintos. Un primer enfoque, que denominaremos enfoque deductivo, consistiría en deducir el comportamiento de un sistema conocido, por ejemplo, un operador humano, mediante una descripción lingüística del mismo que será transformada en un conjunto de
reglas difusas, mientras que el ajuste, tanto de los conjuntos difusos de salida como de
los conjuntos difusos de las etiquetas lingüísticas de las variables de entrada, se realiza
mediante el mecanismo de prueba y error.
El segundo de los enfoques, que denominaremos enfoque inductivo, es un proceso
que emplea una colección de valores de entradas y salidas conocidas del sistema que se
va a modelar, a partir y mediante procedimientos inductivos[40], extrae el conjunto de
reglas que configuran el modelo (Aprendizaje Automático). Sobre la base de ese conjunto de datos conocidos se establecen los conjuntos difusos que formarán los antecedentes, así como los conjuntos difusos de los consecuentes de cada regla, para finalmente, mediante el conjunto de valores conocidos de entradas y salidas del sistema, establecer un refinamiento de los conjuntos difusos presentes en las reglas, determinando
de esta manera el ajuste del modelo.
El enfoque deductivo es el mecanismo más clásico para la creación de modelos difusos. En él se supone la existencia de un experto que conoce perfectamente el sistema
23
Cap. 1
Modelado Difuso de sistemas. Herramientas
que se va a modelar. Este puede ser interrogado para extraer el conjunto de reglas que
utiliza para definir el sistema. Estas reglas vendrán expresadas generalmente en términos lingüísticos, que posteriormente se trasladan a sus correspondientes variables lingüísticas para configurar el conjunto de reglas que definen un modelo difuso. El proceso
de ajuste se realiza mediante el mecanismo de prueba y error. Establecido el modelo se
prueba; si el resultado no es el deseado, se pasa a modificar la definición de los antecedentes, consecuentes o a introducir o eliminar alguna regla , tras lo cual se vuelve a probar el modelo manteniendo esta dinámica hasta que los resultados sean los deseados.
El enfoque empleo del deductivo impone varios requisitos que no siempre se cumplen o son viables. La suposición de la existencia del experto y de que éste sepa trasladar sus conocimientos del sistema en forma de reglas no siempre es cierta; pero más
dura aún es la necesidad de comprobar el modelo para su ajuste. Son estos los motivos
que propician el enfoque inductivo, cuya única necesidad es que haya la posibilidad de
observar o monitorizar el sistema que se va a modelar, con lo que ya no tendrá que
producirse una extracción de las reglas al experto, eliminando la dificultad que esto
conlleva. Del proceso de observación se extraerá el conjunto de valores de entrada y
salida del sistema que nos servirán posteriormente para establecer y ajustar el conjunto
de reglas que definan el modelo difuso.
Estos dos enfoques no tienen porque ser excluyentes ya que podemos utilizar el enfoque deductivo para el establecimiento de la estructura del modelo y el inductivo para el
ajuste del mismo.
La inducción de la estructura de modelos difusos ha sido tratada desde distintos enfoques o técnicas, A.F. Gomez-Skarmeta[33] realiza una clasificación de estos métodos
en dos grandes categorías :
1.
Métodos orientados a la interpolación de Puntos Difusos, denominación con la
que caracteriza el modelo original de Mamdani y Zadeh original con sus distintas variantes. En éstos se establecen unas relaciones difusas entre las particiones
difusas de los datos de entrada y las particiones difusas de los datos de salida,
con los que describir una función difusa. Dentro de este grupo se pueden considerar dos enfoques :
24
Cap. 1
Modelado Difuso de sistemas. Herramientas
a)
Métodos orientados a la interpolación de grano grueso (ecuaciones relacionales difusas[78][79][77][25][26], ponderación de reglas lingüísticas y
método de Sugeno-Yasukawa[85][89][88]) en los que se intenta agrupar
conjuntos de valores con un comportamiento común mediante etiquetas
lingüísticas o subconjuntos difusos que representan conceptos.
b)
Métodos orientados a la interpolación de grano fino, mediante indistinguibilidad (métodos basados en relaciones de desigualdad e interpolación
mediante semejanzas y ejemplos paradigmáticos) en los que se intentan
establecer los mecanismos de interpolación utilizando cada ejemplo en
particular.
2.
Modelos orientados a la aproximación de funciones parciales, denominación que
corresponde al modelo TSK y sus derivados. En ellos se busca una descripción
funcional del comportamiento de las particiones difusas detectadas en los datos
de muestra. Sobre la base de la función utilizada para la descripción del modelo,
se pueden encontrar dos subcategorias :
a)
Métodos con funciones constantes en el consecuente[72][71] (mediante
técnicas de agrupamientos y/o gradiente descendente, agrupamiento y redes neuronales[47][48]),
llamadas también métodos de consecuente
puntual.
b)
Métodos con consecuentes en forma de función lineal o no lineal[89][91].
En la mayoría de los métodos de inducción anteriores se pueden distinguir claramente las dos etapas de todo proceso de identificación de un modelo difuso (algoritmo
1.1), por una parte la estructura es identificada mediante un proceso de partición del
espacio de definición de la entradas, que es abordado de distintas maneras según el método utilizado. Por otra parte, una vez fijada la estructura de la cual se extraen las reglas
que formaran el modelo, se produce un proceso de ajuste de todos los parámetros que
intervienen.
25
Cap. 1
Modelado Difuso de sistemas. Herramientas
Es esta coincidencia la que nos lleva a fijarnos en las técnicas clásicas para resolver
el problema de la inducción de un clasificador, técnicas que han sido utilizadas con gran
éxito. Uno de estos modelos de clasificadores son los árboles de identificación o clasificación[9]. Estos árboles, estableciendo una partición del dominio de las características
que definen a un objeto, son capaces de realizar la clasificación. Este paralelismo nos
lleva a fijarnos de forma especial en este modelo de clasificadores y sus extensiones con
el fin de utilizarlas como mecanismo de identificación de la estructura y, si es posible,
en el ajuste de un modelo difuso.
En la siguiente sección presentaremos los conceptos básicos sobre clasificación, árboles de identificación y árboles de regresión así como los métodos de inducción de
éstos.
1.3 Identificación y Modelado mediante Árboles de
Regresión.
Sea una colección de objetos O={o1, o2, ..., on} de los cuales destacamos un conjunto
de características observables X={x1, x2, ..., xm} y un grupo de categorías o clases
C={c1, c2, ..., ck}. Se define un clasificador [9]como una función definida sobre X que
tiene como codominio el conjunto C.
CLAS: X → C
(1.19)
Así pues puede caracterizarse la clasificación en términos de la utilización de un clasificador predeterminado en el cual introducimos los valores de (x1, x2, ..., xm) de un
objeto oi devolviéndonos una clase cj.
CLAS( x1 , x m ) = c j
Otro enfoque utilizado en los clasificadores consiste en estructurar el conjunto X mediante una colección de conjuntos A={A1, A2, ..., Ak} donde cada conjunto Aj agrupa
todos los objetos de O que pertenecen a una misma clase c. Podemos definir de nuevo
la función CLAS mediante la composición de dos nuevas funciones.
26
Cap. 1
Modelado Difuso de sistemas. Herramientas
Sea A={A1, A2, ..., Ak} tal que ∀i,j ∈{1,…,k} Ai ∩ Aj =∅ es una k-partición del
conjunto X. Definimos las funciones IDENT y ASIG como
IDENT: X → A
(1.20)
ASIG: A → C
(1.21)
y así un clasificador estaría definido mediante la composición de las funciones IDENT y
ASIG
CLAS ( x ) = ASIG ( IDENT ( x )) 2
(1.22)
C LAS
C
X
ID E N T
A S IG
A
Figura (1.8)
En el caso ideal podemos suponer que todos los objetos que pertenecen a un subconjunto Aj pertenecen a única clase cj , con lo que la función ASIG para cualquier conjunto
Aj sería cj. Con esta premisa el clasificador CLAS quedaría reducido a la función
IDENT.
1.3.1 Árboles de identificación.
Las características que definen un objeto, según los valores que puedan tomar, pueden ser clasificadas en dos grandes categorías:
• Con valores sin orden establecido.
• Con valores con un orden establecido.
Sea xj una característica que puede tomar valores sobre un conjunto Xj, si éste no
posee un orden establecido como por ejemplo, los valores lógicos de {verdad, falsedad},
los colores de un semáforo {rojo, ámbar, verde}, etc., diremos que la característica xj es
27
Cap. 1
Modelado Difuso de sistemas. Herramientas
no ordenada; pero, si los valores que componen Xj son valores de un subconjunto ordenado como el de la recta real, como, por ejemplo, la temperatura, altura, distancia, velocidad y, en general, cualquier magnitud medible, diremos que se trata de una característica ordenada.
Una de las formas para definir los conjuntos que componen la k-partición A de X es
establecer colecciones de subconjuntos sobre cada uno de los dominios de definición de
los elementos de X. Esto es, x ∈ Aj si y solamente si { (x1 ∈ SX1) y … y (xm ∈ SXm)}
donde SXi ⊆ Xi para i=1,…,m.
La manera más habitual de definir los subconjuntos SXi es mediante alguna pregunta
sobre el valor de xi. Estas preguntas han de depender del tipo de característica que sea xi,
pudiendo establecerse dos clases según sean características ordenadas o no ordenadas.
• ¿ xi ≤ c ?
• ¿ xi es igual a c ?
siendo c una constante perteneciente a Xi y las posibles respuestas exclusivamente SI
o NO. Por lo tanto, podemos establecer un elemento Aj de A mediante una secuencia de
preguntas Q={q1, q2, ..., qm} y decir que xi pertenece a Aj si es afirmativa la contestación
a todas las preguntas que definen Aj.
Construyendo los conjuntos de preguntas Qj para j=1,…,k estableceremos la función
IDENT y, en consecuencia, tendremos un clasificador CLAS.
Se pueden estructurar los conjuntos de preguntas mediante una estructura de árbol
binario, donde cada nodo está etiquetado con una pregunta, los arcos que de él parten
con las posibles respuestas SI o NO y los nodos hoja o terminales con un conjunto Aj o,
lo que es lo mismo, con una clase cj. Se denomina árbol de identificación o clasificación a una estructura de árbol como la descrita.
2
El término x representa el vector (x1, …, xm) de todas características de un objeto
28
Cap. 1
Modelado Difuso de sistemas. Herramientas
q0
SI
NO
q1
SI
C1
q2
NO
SI
C2
C3
NO
C1
Árbol de identificación o clasificación (1.9)
En la figura 1.9 podemos observar gráficamente la estructura de un árbol de identificación, que refleja un clasificador donde los qi son preguntas realizadas sobre alguna
característica concreta de un objeto observado y los cj son las posibles clases a las que
cualquier objeto puede pertenecer.
La clasificación se realiza mediante un árbol de identificación comenzando a contestar a la pregunta situada en el nodo raíz del árbol y, dependiendo de la respuesta, se volverá a contestar a la pregunta que corresponda al nodo al que nos lleve el arco etiquetado con la mencionada respuesta. Este proceso se repite hasta llegar a un nodo hoja donde obtendremos la clase asignada al objeto. El mecanismo de clasificación por medio de
un árbol de clasificación T queda reflejado en el siguiente algoritmo.
29
Cap. 1
Modelado Difuso de sistemas. Herramientas
ÁrbolCLAS
Algoritmo 1.2
Entrada : una árbol de identificación T y un objeto o a clasificar
Salida : la clase a la que pertenece o
Sea n un nodo
n := nodo raíz de T
Mientras n no sea un nodo hoja hacer
Contestar a la pregunta del nodo n referente a o
Sea r la respuesta
n := nodo al que apunta el arco de n etiquetado con r
FinMientras
Devolver la clase asociada al nodo n
1.3.2 Calidad de los clasificadores.
Nosotros estamos interesados en construir clasificadores mediante técnicas inductivas, esto es, dado un conjunto de objetos que conocemos, pretendemos definir un clasificador que los clasifique correctamente. Está claro que con estas premisas no existe un
único clasificador. Esto nos obliga a graduar su calidad para poder tener un criterio de
selección. Este criterio no sólo va a permitir rechazar aquellos que no sean lo suficientemente buenos, sino que también servirá de guía para su determinación.
Partamos de una colección de n objetos conocidos o conjunto observado LO={ (x1,
y1), ... ,(xn, cn) } donde cada par (xi, ci) representa un objeto , siendo xi el vector con los
valores de las características relevantes al objeto y ci la clase conocida a la que dicho
objeto pertenece. Para construir el clasificador CLAS utilizaremos un subconjunto L de
LO que denominaremos conjunto de aprendizaje.
Una vez construido CLAS, definamos la función VERDAD de la proposición P como
30
Cap. 1
Modelado Difuso de sistemas. Herramientas
1 Si P es cierto
VERDAD( P) = 
0 Si P es falso
(1.23)
Por tanto, podremos estimar la calidad de nuestro clasificador calculando el promedio de fallos que comete al clasificar los objetos de LO. Llamaremos estimador de resustitución R a
n
R(CLAS) =
∑ VERDAD(CLAS( x
j
) ≠ cj)
j =1
.
n
(1.24)
En este caso hemos considerado que el conjunto de aprendizaje coincide con el observado; pero la utilización del mismo conjunto de datos para la creación del clasificador y para su evaluación puede influir entre si. Para evitar en lo posible esta influencia,
podemos considerar el conjunto de aprendizaje L como un subconjunto propio de LO
sin ser el mismo LO, y dedicar el resto de los objetos observados L’=LO-L como conjunto de prueba o test. Al estimador formado de esta manera se denomina estimador por
un conjunto de test Rst.
st
R (CLAS
( L)
)=
∑ VERDAD(CLAS
( x ,c )∈L '
L'
( L)
( x) ≠ c)
.
(1.25)
Donde CLAS(L) refleja que el clasificador ha sido construido mediante el conjunto L.
El estimador mediante conjunto de test es correcto mientras la cantidad de objetos
observados sea grande. En el caso de tener pocos objetos, necesitamos tomar gran parte
de ellos para la construcción del clasificador, por lo que el conjunto test que quede será
demasiado pequeño para proporcionar un contraste significativo. Ante este tipo de situaciones hay otra estrategia consistente en dividir el conjunto observado LO en una serie
de v subconjuntos con aproximadamente igual número de elementos cada uno, sea {L1,
L2, ..., Lv} y tomar como conjunto de aprendizaje LO-Li y como conjunto de test Li con
lo que tendremos el estimador Rst
31
Cap. 1
Modelado Difuso de sistemas. Herramientas
st
R (CLAS
( LO − Li )
)=
∑ VERDAD(CLAS
( LO − Li )
( x) ≠ c)
( x , y )∈Li
.
Li
(1.26)
A Rcv, que considera la media de los estimadores de conjunto de test para los v subconjunto se denomina estimador de v validaciones cruzadas3.
v
R (CLAS ) =
CV
∑R
st
(CLAS
( LO − L j )
j =1
v
)
.
(1.27)
1.3.3 Inducción de un árbol de clasificación.
Hemos visto cómo podemos medir la calidad de un clasificador por medio de los
errores cometidos al utilizarlo; por lo tanto, podemos decir que un clasificador es mejor
que otro cuando al elegir un estimador obtenemos menores errores frente al mismo
conjunto de aprendizaje. Esto nos lleva a centrarnos en construir (inducir) clasificadores, como los árboles de identificación, que en su proceso de generación contemplen el
valor del estimador que se utilizará para evaluar su calidad.
Supongamos pues que tenemos un conjunto de objetos observado LO. Para que éste
sea representativo de la totalidad de los objetos deberá verificar que la distribución probabilística de las clases existente en la muestra considerada (LO) ha de reflejar la que se
tiene en el universo total de los objetos. Si consideramos X como el dominio de definición de todas las características observables para nuestros objetos podemos decir :
P(CLAS ( x ∈ X ) = c) = P(CLAS ( x ∈ LO) = c) .
(1.28)
La ecuación 1.28 establece que la probabilidad de que un objeto que tiene las características x pertenezca a la clase c es la misma en el conjunto global de todos los objetos
posibles y en el conjunto de los observados. Como el clasificador se va a construir con
un conjunto de aprendizaje L, éste ha de cumplir también esta suposición, obteniéndolo
mediante una extracción aleatoria de LO que permita afirmar que dichas distribuciones
3
Este estimador en la literatura anglosajona se denomina V-Fold Cross-Validation
32
Cap. 1
Modelado Difuso de sistemas. Herramientas
se mantienen. Esto facilita la estimación de las probabilidades de cada una de las clases
c en el conjunto global de objetos a partir de las observadas en L
P(CLAS ( x ∈ L) = c) =
∑VERDAD( y = c)
( x ,c )∈L
L
= P(c / L)
(1.29)
A esta probabilidad de que un elemento de L sea clasificado en la clase c la notarek
∑ P(c
mos como P(c/L) verificándose
j
/ L) = 1 para las k clases posibles.
j =1
Fijadas las probabilidades de las distintas clases dentro del conjunto L, si tenemos
que asignar el conjunto completo a una única clase, es decir, establecer la función ASIG
para el conjunto L, la elección más natural será elegir la clase que menor valor nos dé
para el estimador utilizado en la evaluación del clasificador4. Utilizando el estimador R
tendremos que la clase que nos hace menor su valor es la clase mayoritaria en el conjunto, por lo que la función ASIG queda establecida como
ASIG ( L) = c tal que P(c / L) ≥ P(c j / L) i = 1,, k
(1.30)
la clase con mayor probabilidad dentro del conjunto L.
En el peor de los casos, cuando las clases estén uniformemente distribuidas dentro
del conjunto L, es decir, P(cj/L)=P(ci/L) para cualquier i,j ∈ {1, … , k}, el estimador
dará el mayor valor posible
R(CLAS ) =
L−
L
1
K
(1.31)
Por contra en el caso en que esta distribución de probabilidad de las clases estuviese
sesgada totalmente hacia una determinada clase, P(cj/L)=1 y P(ci/L)=0 para toda i≠j , el
estimador tendría valor mínimo
4
En este trabajo consideraremos el estimador de resustitución R, aunque todo lo aquí expuesto es
trasladable a cualquier otro estimador como Rst y Rcv.
33
Cap. 1
Modelado Difuso de sistemas. Herramientas
R(CLASS ) =
L− L
0
=
=0
L
L
(1.32)
Nota:
Algunos autores plantean de modo general una función de evaluación de la uniformidad de la distribución de las clases dentro del conjunto L, que valore lo “desordenado”
que está el conjunto L, mediante i:[0,1]k→ℜ , que debe cumplir las siguientes propiedades sobre sus valores máximos y mínimos.
1
1
max (i ) = i ( , , )
k
k
min(i ) = i (0, ,1,0)
(1.33)
Una de las funciones muy utilizadas como función i( a partir de los trabajos de
Quinlan[81] sobre su algoritmos ID3) es la función de la entropía o cantidad de información
k
− ∑ log( P(ci / L)) * P(ci / L) .
(1.34)
i =1
No obstante también se emplea la función de estimación R que como ya vimos anteriormente (ecuaciones 1.31 y 1.32) verifica las características de i.
El clasificador descrito hasta este momento es bastante deficiente puesto que no se
aprovecha de ningún metaconocimiento de los datos de entrenamiento. Una forma directa de mejorarlo es ordenando el conjunto L, esto es, dividiendo L en dos subconjuntos disjuntos LD y LI de tal forma que R(CLAS), aplicado al conjunto LD que notaremos
R(LD), y R(CLAS), aplicado al nodo LI, que llamaremos R(LI) sean menores que R(L).
Esta división quedará establecida mediante una pregunta sobre alguna de las característica de los objetos de L. En otras palabras, estamos creando un nodo de un árbol de
identificación.
Dado un conjunto de aprendizaje L, consideraremos como nodo raíz de un árbol de
identificación T, el nodo que posee la primera pregunta que realizamos sobre alguna característica de los objetos. Notaremos como Lt al subconjunto de L sobre el que se rea-
34
Cap. 1
Modelado Difuso de sistemas. Herramientas
liza la pregunta del nodo t y qit a la pregunta sobre la característica i-ésima realizada en
el nodo t. Gráficamente se puede mostrar como en la figura 1.10
L
q Ti
pD SI
NO
LD
pI
LI
División de un nodo (1.10)
siendo pD y pI las proporciones de elementos de L que pertenecen a LD y LI respectivamente, y si notamos i(L) a la función i aplicada sobre la distribución de las clases del
conjunto L, tendremos que, tras la aplicación de la división de L mediante la pregunta
qTi , el valor del estimador R(L) será el máximo entre R(LD) y R(LI), y como estos son
menores que R(L), habremos obtenido una mejora de nuestro clasificador.
Utilizando como el estimador R como función i , esta mejora la podemos formular en
términos de la variación de la función R sobre L, producida como consecuencia de la
división de L, que definimos como
∆R( Lt , qti ) = R( Lt ) − ( p D * R( LD ) + p I * R( LI )) .
(1.35)
El valor de nuestro estimador mejorará más cuanto mayor sea el incremento
∆R(Lt,qti) obtenido tras la división. Esto nos proporciona un mecanismo de selección de
la pregunta más adecuada en cada nodo.
Sea Qit={q1, q2, ..., qs} el conjunto de todas las posibles preguntas que podemos realizar sobre la característica i en un nodo t. Dependiendo del tipo de característica y considerando que para Xi se ha observado en L el siguiente conjunto de valores {v1, v2, ...,
vh}, tendremos que Qit estará formado por las h-1 preguntas de la forma ¿xi ≤
(vj+vj+1)/2 ? para j=1, ... , h-1, si es una característica ordenada ( vi≤vj si i≤j ). En el caso
de que ésta no fuese ordenada tendríamos h preguntas del tipo ¿xi es vj ? para j=1 , ... , h.
35
Cap. 1
Modelado Difuso de sistemas. Herramientas
Del conjunto Qit la pregunta a realizar sobre la característica i, según el criterio anterior,
tendría que ser aquella qit* que verificase
qti = maxi {∆R( Lt , q)} = min{ p D * R( LD ) + p I * R( LI )}
*
q∈Qt
(1.36)
q∈Qti
para finalmente tomar como pregunta a realizar en el nodo t qt aquella sobre la característica que mayor cambio origine en el estimador.
{
*
}
∆R( Lt , qti ) i = 1,, m
qt = max
*
qti
(1.37)
Una vez seleccionada la pregunta y establecida la división del nodo t, podremos aplicar el mismo proceso a cada uno de los subnodos (subconjuntos) obtenidos hasta terminar el proceso cuando no consigamos ninguna mejora del estimador, es decir, que el
valor para los subconjuntos sea menor que un valor que fijemos como suficiente pudiendo llegando al extremo de R(L)=0.
Esta forma de actuar proporciona un algoritmo para la inducción de un clasificador
mediante la construcción sistemática de un árbol de clasificación.
36
Cap. 1
Modelado Difuso de sistemas. Herramientas
Inducción de un árbol de clasificación
Algoritmo 1.3
Entrada : Un conjunto de aprendizaje L
Salida : Un árbol de clasificación T
Sea P ={L}
Crear el nodo raíz de T y denominarlo tL
Mientras P≠∅ hacer
Sea C=e e∈P
P=P-e
Si R(C)≠0
entonces
Construir el conjunto Q de todas las preguntas realizables al conjunto de
objetos C
Mediante las ecuaciones 1.36 y 1.37 seleccionar la pregunta qC
Etiquetar al nodo tC con la pregunta qC
Dividir C mediante la pregunta qC en los subconjuntos CD y CI
Crear sendos nodos tCD y tCI
Crear enlaces etiquetados con SI y NO desde el nodo tC a los nodos tCD y tCI
P=P∪{CD,CI}
sino
Marcar el nodo tC como terminar o nodo hoja.
Asignar la clase ASIG(C) según la ecuación 11.3030 al nodo tC
finSi
FinMientras
37
Cap. 1
Modelado Difuso de sistemas. Herramientas
Quinlan [81][80], con sus trabajos sobre los árboles de clasificación, popularizó la
inducción y usó de éstos como mecanismo de clasificación. En su versión más elemental, el problema que este algoritmo resuelve es la inducción de un árbol de clasificación
donde todas las características asociadas a un objeto son cualitativas. Esto significa que
son no ordenadas y que los posibles valores que pueden tener constituyen un conjunto
finito Xi={x1, x2, ..., xs}.
Ante este tipo especial de características, las preguntas que se han de realizar en un
nodo determinado son reformuladas como: ¿ Qué valor tiene la característica Xi ?. A
esta cuestión cabe contestar con s posibles respuestas, una por cada valor de la característica.
Esto origina un cambio en la estructura vista hasta ahora del árbol de clasificación,
que consiste en la existencia de S subnodos que cuelgan del nodo donde se produce la
pregunta, etiquetando con un valor de Xi el arco que une este nodo con el subnodo correspondiente al conjunto de objetos que posee dicho valor. En definitiva, el árbol de
clasificación obtenido no tiene por qué ser un árbol binario, sino un árbol donde el número de descendientes de cada nodo es el número de valores posibles para la característica cuestionada.
¿Xi ?
xs
x1
x2
xs-1
Figura (1.11)
Otra de las propiedades de este algoritmo es que fija como medida de desorden de los
subconjuntos obtenidos la cantidad de información (ecuación 1.34), al mismo tiempo
que “ventanas” como conjuntos de aprendizaje. Esto consiste en tomar un subconjunto
o “ventana” L de LO como conjunto de aprendizaje e inducir de él un árbol de decisión.
38
Cap. 1
Modelado Difuso de sistemas. Herramientas
Una vez construido el árbol se van clasificando con él los elementos de LO-L. Si todos
han sido bien clasificados, el proceso termina y el árbol de clasificación en curso se da
como definitivo; pero, si hay alguno que está mal clasificado, se introduce en L, aumentando el tamaño de la ventana y comenzado de nuevo a inducir el árbol de clasificación. Experimentalmente se ha observado que con ventanas relativamente pequeñas se
acelera el proceso de inducción del árbol de clasificación y, tras pocos aumentos de las
mismas, se consigue clasificar la totalidad de los objetos observados de LO.
ID3
Entrada : LO conjunto de objetos observados
Algoritmo 1.4
Salida : T árbol de clasificación.
L= subconjunto de LO
Repetir
Obtener T mediante el algoritmo 1.3 a partir de L
Éxito=verdad
R=LO-L
Mientras (R≠∅) y (no Éxito) hacer
tomamos e∈R
R=R-e
Éxito=(T(e)=ye)5
FinMientras
Si no Éxito entonces
L=L∪{e}
FinSi
Hasta Éxito
1.3.4 Caracterización de las clases.
Mediante los procesos anteriores hemos construido los árboles de clasificación T para el conjunto de objetos observados LO, lo que nos permite utilizar T como clasificador
5
Notaremos T() a la función CLAS cuando realicemos la clasificación con el árbol de clasificación T.
ye representa la clase del elemento e.
39
Cap. 1
Modelado Difuso de sistemas. Herramientas
para objetos desconocidos que no pertenecen a LO. Dado un nuevo objeto o, podremos
establecer la clase a la que pertenece mediante T(o)=c; pero, si nos preguntamos por las
características que definen a la clase c, el árbol de clasificación como simple clasificador no aportará nada, mientras que, si nos fijamos en su estructura, veremos cómo podemos extraer esta información.
Estamos interesados en caracterizar la clase c∈C que aparece en algunos nodos hoja
del árbol de clasificación T; nombremos Hc={h1, h2, ..., hr} al conjunto de nodos hoja
que son asignados a la clase c. Para asignar cualquier objeto a la clase c, se ha de llegar
desde el nodo raíz de T hasta algún nodo hoja de Hc . Esto quiere decir que el objeto que
ha llegado al nodo h∈Hc verifica que los valores de las características sobre las que han
sido realizadas las preguntas por cada nodo que ha pasado han de coincidir con los valores de las etiquetas de los arcos por donde ha pasado, por lo cual el camino desde el nodo raíz de T hasta el nodo hoja h, caracteriza a la clase c.
Sea el {t0,t1 ...,tr, h} los nodos que componen el camino desde el nodo raíz t0 al nodo
hoja h, qt la cuestión realizada en el nodo t y ru,v la respuesta que etiqueta el arco del
nodo u al nodo v. Para que un objeto pase del nodo tj al nodo al nodo tj+1 se ha de verificar que “ qtj es rtj,tj+1” para j desde 0 hasta r, con lo que finalmente podremos afirmar que
se ha llegado al nodo h y que, por tanto, pertenece a la clase c. Esto lo podemos expresar
mediante una regla de clasificación que tiene la forma :
Si qt0 es rt0,t1 y qt1 es rt1,t2 y ... y qtr es rtr,h entonces o pertenece a la clase c
Parece obvio establecer que el antecedente identifica un camino que ha de seguir un
objeto por el árbol de clasificación para que el consecuente sea verdadero. Ahora bien,
generalmente hay un conjunto de nodos en Hc que muestran distintos caminos para
identificar una misma clase. Esto obliga a realizar una disyunción de los distintos caminos en la parte del antecedente.
Si (qt0 es ... es rt,h1) o ... o (qt0 es ... es rt,hr) entonces o pertenece a la clase c
La regla obtenida caracteriza totalmente a la clase c. Normalmente la forma disyuntiva del antecedentes es eliminada mediante la introducción de nuevas reglas cuyos ante-
40
Cap. 1
Modelado Difuso de sistemas. Herramientas
cedentes están todos en forma conjuntiva, originando varias reglas para definir una
misma clase.
Si qt0 es rt0,s1 y qs1 es rs1,s2 y ... y qsr es rsr,h1 entonces o pertenece a la clase c
Si qt0 es rt0,r1 y qr1 es rr1,r2 y ... y qrr es rrr,h2 entonces o pertenece a la clase c
................................................................
Si qt0 es rt0,v1 y qv1 es rv1,v2 y ... y qvr es rvr,hr entonces o pertenece a la clase c
Para caracterizar todas las clases posibles tendremos conjuntos de reglas para cada
una de ella. Una colección de reglas de clasificación que verifican que para un cierto
objeto o sólo hay un antecedente válido que origina el disparo de una única regla es
también un clasificador.
1.3.5 Árboles de identificación como mecanismo de aproximación de
funciones.
Partamos de un sistema desconocido Ξ que tiene definidas sus entradas en un conjunto de X ∈ ℜm y sus salidas en S∈ ℜ, de tal forma que pueda considerarse que existe
una relación funcional Ξ:X→S, que estamos interesados en definir mediante un modelo
Ψ:X→S. Al considerar que todo elemento de S representa una clase, estaremos trasladando el problema inicial de una aproximación a la función Ξ a un problema de clasificación que nos permite identificar al modelo buscado Ψ como un clasificador de los
objetos de X en las clases de S[9][59]. En definitiva, se puede plantear que la clasificación es un caso concreto del problema de la aproximación de funciones cuando los valores de la misma están restringidos a un conjunto finito[99].
Esta generalización nos permite utilizar métodos de clasificación tales como los árboles de identificación o clasificación como mecanismos de aproximación de funciones,
con la peculiaridad de sustituir la clase asignada en sus nodos hoja por el valor de salida
para el modelo Ψ. Los árboles de identificación modificados en este sentido se denominan árboles de clasificación y regresión6[9].
Un ejemplo de un árbol de regresión lo tenemos en la figura 1.12
41
Cap. 1
Modelado Difuso de sistemas. Herramientas
x1≤ 9
NO
SI
x2≤ 7
SI
y=15
y=5
NO
y=7
Árbol de regresión y clasificación (1.12)
Mediante el cual la salida asignada a un nuevo dato (7,9) es 7. El árbol de regresión
refleja modeliza el sistema Ξ como la superficie de la figura 1.13
Modelo de Ξ (1.13)
1.3.6 Inducción de un árbol de regresión.
Antes de plantearnos la inducción propia de un árbol de regresión, hemos de cambiar
algunos de los conceptos utilizados por los árboles de clasificación. El primero que tenemos que abordar es el de la especificación de los estimadores de bondad de los árboles de clasificación. Como ya vimos, básicamente podemos considerar tres estimadores :
6
En la literatura anglosajona son denominados CART.
42
Cap. 1
Modelado Difuso de sistemas. Herramientas
resustitución (ecuación 1.24), conjunto de test (ecuación 1.25) y v-validaciones cruzadas
(ecuación 1.27). Todos ellos reflejaban el nivel de fallo que posee nuestro clasificador
frente al conjunto de objetos observados. Éstos se basaban en la función VERDAD
(1.23) que medía el acierto de la clasificación.
En la aproximación de funciones para medir lo acertado de un modelo es necesario
utilizar alguna medida de distancia entre los valores que origina el modelo y los reales ;
si llamamos d a esta función, los estimadores anteriores quedarán definidos como:
R(T ) =
st
R (T
( L)
∑ d(T ( x), s)
( x , s )∈LO
)=
R cv (T ) =
.
LO
(1.38)
∑ d (T ( x), s)
( x , s )∈LO − L
.
LO − L
(1.39)
( )
1 v st ( Li )
∑R T
v i =1
(1.40)
Considerando la función distancia como (s'-s)2 , siendo s' el valor que produce el árbol de regresión y s el que realmente origina el sistema ante una misma entrada x , y
tomando R como el criterio para la estimación de la calidad de nuestro árbol de regresión T, fijaremos la función ASIG de tal forma que haga mínimo el valor de R dentro de
LO
∑ (s'− s)
ASIG ( LO) = s * = min ( x , s )∈LO
s∈R
LO
2
,
(1.41)
valor que corresponde al valor medio de las salidas dentro del conjunto L∈LO,
ASIG ( LO) =
∑s
( x , s )∈L
L
43
.
(1.42)
Cap. 1
Modelado Difuso de sistemas. Herramientas
Debido al carácter real de la variables de salida, evitaremos la disparidad de valores
máximos que podemos obtener para el estimador normalizando sus valores sobre la base
del valor que toma el estimador ante la aproximación más básica que podemos hacer del
conjunto observado LO, es decir, la media de sus salidas. Con esta medida tendremos la
siguiente forma para nuestro estimador normalizado, que denominaremos RN
s=
R( s ) =
∑s
( x , s )∈LO
LO
.
∑ (s − s )
2
( x , s )∈LO
RN (T ) =
LO
.
R(T )
.
R( s )
(1.43)
Esta normalización permite considerar los valores de RN indiferentemente del rango
de valores de S y así calificar la bondad del ajuste.
< 1 Bueno

RN (T ) = = 1 Normal
> 1 Malo

Si el valor de RN(T) es igual a 1, el ajuste será igual al conseguido mediante la aproximación básica de la media de las salidas. Este es el primer ajuste que realizamos en
nuestro esquema y que intentaremos mejorar. Que el valor de RN(T) sea mayor de 1,
quiere decir que R(T)>R( s ), lo que indica que estamos ante una aproximación más pobre que la obtenida inicialmente, mientras que si RN(T)<1 implica que R(T)<R( s ) o lo
que es lo mismo, que mejoramos la primera aproximación. En términos generales
cuanto menor sea el valor de RN(T) tanto mejor será la aproximación.
Una vez establecido el nuevo estimador normalizado construiremos, de igual forma
que en los árboles de identificación, el conjunto de preguntas que divide el espacio de
definición X del sistema. Supongamos que en un nodo t del árbol realizamos la pregunta
qij , siendo esta la pregunta i-ésima para la característica j-ésima de entrada, esto produ44
Cap. 1
Modelado Difuso de sistemas. Herramientas
ce una división del conjunto de datos Lt asociado al nodo t en dos nuevos subconjuntos
LI y LD correspondientes a los elementos de Lt que tienen una respuesta positivas o negativa ante la pregunta qij, asociándolos a sendos nodos I y D.
Esta división actúa variando el estimador sobre el nodo t de la siguiente forma:
 I

D
RN ( D) .
∆RN (t , qij ) = RN (t ) −  RN ( I ) +
L
L

(1.44)
Al igual que en la clasificación tomaremos aquella pregunta q*, entre todas las posibles para cada una de las variables de entrada, que produzca una mayor variación en la
estimación y se le asignará al nodo t,
q * = max ∆RN (t , qij ) ,
i, j
(1.45)
obteniendo un algoritmo análogo al 1.3 de la inducción de un árbol de clasificación.
45
Cap. 1
Modelado Difuso de sistemas. Herramientas
Inducción de un árbol de regresión
Algoritmo 1.5
Entrada : Un conjunto de aprendizaje L y un nivel de error ε
Salida : Un árbol de regresión T
Sea P ={L}
Crear el nodo raíz de T y denominarlo tL
RE(T)=ASIG(L)
Mientras (P≠∅) y (RN(T)>ε) hacer
Sea C=e e∈P
P=P-e
Construir el conjunto Q de todas las preguntas realizables al conjunto de objetos C
Mediante la ecuación 1.45 seleccionar la pregunta qC
Etiquetar al nodo tC con la pregunta qC
Dividir C mediante la pregunta qC en los subconjuntos CD y CI
Crear sendos nodos tCD y tCI
Crear enlaces etiquetados con SI y NO desde el nodo tC a los nodos tCD y tCI
P=P∪{CD,CI}
RN(T)=RN(T)-RN(C)*(|C|/|L|)+(|CD|/|L|)*RN(CD)+(|CI|/|L|)*RN(CI)
finSi
FinMientras
Este algoritmo puede ser modificado introduciendo como salida para cada subconjunto determinado, no un valor constante, como es el caso que nos ha centrado, sino una
función dependiente de las variables de entrada. Utilizando las técnicas clásicas de regresión ceñidas a los elementos que componen un subconjunto concreto se origina un
mayor ajuste de la aproximación.
1.4 Empleo de Árboles para la Identificación de
Modelos Difusos.
Los árboles de decisión son extendidos por Yuan y Sham[104] al ámbito de los conjuntos difusos como mecanismos de clasificación vaga, pero no son utilizados para el
46
Cap. 1
Modelado Difuso de sistemas. Herramientas
establecimiento de modelos generales de sistemas MISO en el sentido de Mamdani o
TSK.
Como hemos visto en la sección referente a los árboles de regresión, estos pueden ser
considerados como modelos de sistemas del tipo Ξ, cuya inducción origina una partición del espacio X de entradas. Esto define, en términos del algoritmo 1.1, la estructura
del sistema, lo cual ha sido utilizado por Roger Jang para establecer un mecanismo de
inducción de la estructura de modelo difuso, que posteriormente es ajustado mediante su
método de ajuste ANFIS[47].
El método de ajuste ANFIS( Artificial Neuronal Fuzzy Inference System) se basa en
los modelos difusos tipo TSK. Consideremos el sistema de reglas TSK de la figura 1.5 y
realicemos las siguientes transformaciones
β =
j
γ
j
.
N
∑γ
(1.46)
j
i =1
El valor de s’ será según 1.14 y 1.46
N
m
j =1
i =1
s' = ∑ β j (b0j + ∑ x i bij ) .
N
(
)
s'= ∑ β j b0j + β j b1j x j ++ β j bmj x m .
j =1
(1.47)
Según 1.14 el método ANFIS crear la siguiente red neuronal con cinco etapas
47
Cap. 1
Modelado Difuso de sistemas. Herramientas
Parámetros de los
antecedentes
Parámetros de las
consecuentes
A11
∏
x1
A2
β1
Ν
1
A12
x2
γ1
β 1 f1
∏
Ν
γ2
A22
Nivel 1
Σ
β 2 f2
Nivel 2
s’
β2
Nivel 4
Nivel 3
Nivel 5
Red ANFIS (1.14)
El primer nivel es el encargado de obtener el grado de pertenecía de cada uno de los
valores de entrada. En esta etapa los valores de las funciones de pertenecía están parametrizados {a, b, c} mediante alguna de las siguientes funciones
µ( x ) =
1
 x − c  2 
1 + 
 
 a  
b
.
(1.48)
o
µ( x ) = e
 x −c 
−

 a 
2
.
(1.49)
El segundo nivel calcula el grado de pertenencia de la entrada a cada uno de los antecedentes de las reglas mediante la t-norma del producto. El tercer nivel implementa la
ecuación 1.46, mientras que el cuarto nivel calcula los productos entre el grado de pertenencia de cada regla y los valores de salida en dicha regla para agregarlos todos mediante su suma en el quinto nivel, obteniendo así finalmente el valor de salida del sistema.
La configuración del sistema de reglas mediante una red neuronal posibilita que se
realicen dos procesos de ajuste: un primer proceso de ajuste que se realiza en el camino
hacia adelante de los datos por la red, donde mediante el algoritmo del filtro de Kalman
se ajustan los parámetros de los consecuentes, y otro proceso de ajuste propio de las
48
Cap. 1
Modelado Difuso de sistemas. Herramientas
redes neuronales, que se realiza mediante el algoritmo de back-propagation, con lo que
se ajustan los parámetros de los antecedentes.
El funcionamiento de una red ANFIS se podría expresar mediante el siguiente algoritmo.
ANFIS
Algoritmo 1.6
Entrada : Red y conjunto de ejemplos (x,y)
Mientras queden ejemplos por analizar hacer
Tomar un ejemplo y aplicar un ajuste mediante el filtro de Kalman
Ajustar la red mediante el algoritmo back-propagation
FinMientras
Salida : La red ajustada.
ANFIS es un método de ajuste de los parámetros ya que no tiene capacidad inicial de
definir la estructura del sistema que se va a modelar; es por eso por lo que toma el algoritmo 1.5 de inducción de un árbol de regresión, con lo que obtiene una partición no
difusa en el espacio de las entradas. Estas particiones están formadas mediante preguntas del tipo ¿x>c?, que a su vez establecen una partición en el dominio de definición de
una variable de entrada. Roger Jang [48], toma esas preguntas y las traslada a conjuntos
difusos que tienen la forma:
0
 1  x − (c − a)  2b
 

a
2
µ x >c ( x) =  
2b
1 − 1  c + a − x 

 2 
a
1
49
x ≤c−a
c−a< x ≤c
(1.50)
c< x ≤c+a
c+a< x
Cap. 1
Modelado Difuso de sistemas. Herramientas
Función de pertenencia de µx>2 (1.15)
y considerando que el valor de un nodo hoja del árbol de regresión inducido se fija
mediante una combinación lineal de los valores de entrada, puede establecer el conjunto
de reglas que define un modelo TSK y ajustarlo posteriormente mediante ANFIS. Lo
que pretende esta modelización es suavizar las zonas que limitan las regiones no difusas
mediante la fuzzificación de las mismas.
Consideremos el árbol de regresión de la figura 1.16, que modela una función definida sobre las variables de entrada x e y, cuyos nodos hojas proporcionan una salida como
combinación lineal de las entradas del tipo fi=b0i+b1ix+b2iy
x>a1
S
N
y>a2
S
N
S
f1
f2
f3
y>a3
N
f4
Árbol de regresión (1.16)
El conjunto de reglas difusas que se extraen del árbol según Roger Jang serán:
50
Cap. 1
Modelado Difuso de sistemas. Herramientas
Si x es µx>a1 y y es µy>a2 entonces f1=b01+b11x+b21y
Si x es µx>a1 y y no es µy>a2 entonces f2=b02+b12x+b22y
Si x no es µx>a1 y y es µy>a3 entonces f3=b03+b13x+b23y
Si x no es µx>a1 y y es no µy>a3 entonces f4=b04+b14x+b24y.
Estas reglas tendrán asociada la red neuronal de la figura 1.17
x
µx>a1
Π
f1
Π
f1
inv
µy>a2
y
inv
Π
f1
inv
Π
f1
µy>a3
Σ
s
Red ANFIS (1.17)
donde inv representa la negación del conjunto difuso y se sustituye la t-norma del
mínimo del modelo TSK por la t-norma del producto.
En la siguiente sección planteamos un modelo difuso fundamentado en la partición
del espacio de definición de las variables de salida y aportamos como mecanismo de
definición del mismo una generalización de los árboles de regresión y clasificación que
establezca regiones difusas directamente de manera que puedan ser trasladadas a un
conjunto de reglas difusas del tipo de consecuente puntual, TSK o su generalización.
51
&DStWXOR
Árboles Difusos de Regresión e
Identificación.
2.1 Introducción.
En este capítulo estableceremos nuestra aportación para la identificación de modelos
difusos de sistemas, mediante técnicas inductivas. En la sección 2.2 definiremos el tipo
sistema que queremos modelar, fijando el modelo difuso desde el punto de vista de las
técnicas de agrupamiento, es decir, definiendo un conjunto de grupos o clases sobre el
dominio de las variables de entrada a las que le asignaremos unos valores de salida, y
fijando un criterio para la estimación del modelo construido.
En la sección 2.3 mostraremos como construir nuestro modelo, mediante técnicas inductivas sobre los datos conocidos del sistema a estudiar. Seguiremos la misma filosofía
empleada en la construcción de los árboles de regresión y clasificación, obteniendo un
mecanismo de jerárquico para la construcción del modelo. Para poder llevar acabo este
objetivo fijaremos la representación de las regiones difusas del modelo, como conjunción de clases establecidas sobre cada una de las variables de entrada obligándonos a
definir en la subsección 2.3.3 un nuevo mecanismo de agrupamiento difuso de un conjunto difuso.
Fijado el modelo y un mecanismo para su construcción, en la sección 2.4 extrapolaremos el modelo a una estructura de árbol. En base a los árboles difusos de decisión
construiremos uno con las características para la inducción de nuestro modelo, que al
estar fundamentado en la metodología de los árboles de regresión y clasificación nos
originará un árbol difuso de regresión e identificación (ADRI), que nos servirá no sólo
para poder representar nuestro modelo, sino también para construir un conjunto de reglas difusas de consecuente puntual como modelo del sistema como mostramos en la
sección 2.5. Finalizaremos el capítulo aplicando ,a un ejemplo de una función no lineal,
lo expuesto en él.
Cap. 2
Árboles Difusos de Regresión e Identificación.
2.2 Caracterización del modelo difuso.
Consideremos un sistema MISO desconocido que llamaremos Ξ, que tiene un conjunto de m variables reales de entrada definidas sobre el dominio X=X1× ... ×Xm ⊂ ℜm,
y una variable real de salida definida el dominio S⊂ℜ,luego el sistema Ξ puede ser descrito como Ξ : X → S. Del sistema Ξ es conocido su comportamiento sólo en un conjunto LO de n puntos de X , de tal forma que consideraremos LO={(x1,s1), ... , (xn,sn)}
donde si=Ξ(xi) para i=1, ... , n. Nuestro objetivo será definir un modelo Ψ del sistema
desconocido Ξ que nos permita generalizar el comportamiento del sistema Ξ lo más
fielmente posible, en el sentido de cometer el menor error posible en dicha generalización.
La estructura que adoptaremos para el modelo Ψ será una análoga a la que posee un
clasificador. El modelo constará de un conjunto de regiones difusas, definidas sobre el
dominio de la entrada del sistemas, a las cuales se le asignará el valor que tomará la variable de salida cuando los valores de entrada queden "dentro" de ellas. En términos
generales el modelo Ψ quedará definido como
Ψ≡
{(µ ( x), s' ) / j = 1 k}
j
j
(2.1)
donde µj(x) es la función de pertenencia de un conjunto difuso definido sobre el referencial X, mientras s’j es el valor asignado como salida para dicha región difusa. La
forma general que puede adoptar s’j es una función gj de la región donde está definida y
de los valores de entrada del sistema
s' j = g j ( µ j , x )
(2.2)
En este trabajo consideraremos la función gj como una función constante, con lo que
la salida de cada región es considerado como un único valor real .
Para asegurarnos que el modelo definido es completo, no puede quedar valores de
entrada sin una respuesta, hemos de fijar la condición de que la colección de conjuntos
difusos que definen las regiones es una partición difusa del dominio de entrada X, por lo
que han de verificar
53
Cap. 2
Árboles Difusos de Regresión e Identificación.
k
∑ µ ( x) = 1
j
(2.3)
j =1
La salida inferida para un valor x de entrada vendrá dada en el modelo Ψ por la relación
k
Ψ( x) = ∑ µ j ( x) s' j
(2.4)
j =1
Quedando definido el siguiente algoritmo de inferencia para nuestro modelo.
Inferencia
Entrada : Un modelo F’ y una valor de entrada x∈X
Algoritmo 2.1
Salida : Un valor real para la salida del sistema F’(x)=s’
s’=0
Para i desde 1 hasta k hacer
s’=s’+µj(x)*s’j
FinPara
Observando la ecuación 2.4 podemos comprobar que Ψ se trata de un modelo difuso
de consecuente puntual, y en el caso de considerar las salidas de cada región no como
valores puntuales s'j sino como funciones gj, nos encontraríamos ante un modelo cuasilineal generalización del modelo TSK.
En el caso concreto donde los conjuntos difusos {µj(x)/ i=1 ... k}, que definen las regiones en que se dividen el dominio de entrada X, tomaran como únicos valores {0,1} ;
estaremos ante una división de X en conjuntos disjuntos no difusos, y el algoritmo 2.1
se comportaría como un mecanismo de clasificación tal como vimos en el capítulo anterior. Por este motivo podemos afirmar que el modelo Ψ adoptado puede ser considerado
como una generalización de un clasificador clásico, al permitir la existencia de regiones,
µj, cuyos límites no están claramente definidos.
Abordado el paralelismo existente entre los clasificadores y la modelización mediante Ψ del sistema Ξ, la primera acción que realicemos será fijar el valor si que tomará
54
Cap. 2
Árboles Difusos de Regresión e Identificación.
Ψ en cada región µi. Tomemos como criterio a seguir el de minimizar el error dentro de
la región considerada. Sea Ej el error cometido al asignar sj' como valor de salida para la
región definida por medio de µj
n
Ej =
∑µ
( x i ) d ( s i , s j ')
j
i =1
(2.5)
n
∑µ
i =1
i
j
(x )
Tomando como función distancia el cuadrado de la diferencia de valores, el valor de
si que hace mínimo el error según la ecuación 2.5 ha de verificar
n
∑ µ (x )
i
∂E j
=
∂s j '
(
∂s j '
j
i =1
)
∂ si − s j '
n
∑ µ (x )
2
=0
(2.6)
i
i =1
j
Operando en la ecuación el valor sj' es
n
s j '=
∑µ
i =1
n
j
∑µ
i =1
(x i )si
(2.7)
i
j
(x )
Como podemos observar cada punto de la región contribuye a la salida global de dicha región, de forma directamente proporcional a su pertenencia a dicha región.
Sea la cardinalidad M de un conjunto difuso µj
definida por Zadeh[109] co-
n
mo M ( µ j ) = ∑ µ j ( x i ) . Reescribiendo la ecuación 2.7 tendremos
i =1
n
∑
i =1
µ j (x i ) i
s
M (µ j )
teniendo en cuenta que se verifica que
55
(2.8)
Cap. 2
Árboles Difusos de Regresión e Identificación.
n
∑µ
(x i )
µ j ( x ) i =1 j
M (µ j )
=
=
=1
∑
M (µ j )
M (µ j )
i =1 M ( µ j )
n
i
podemos considerar que los valores
µ j (x i )
M (µ j )
(2.9)
representan una distribución de proba-
bilidad sobre la variable aleatoria xi , que refleja la probabilidad de que xi pertenezca a
la región µj. Nombrando esa distribución de probabilidad como p(xi,µj) tendremos la
siguiente expresión para el valor de salida sj de dicha región
n
s j ' = ∑ p( x i , µ j ) s i
(2.10)
i =1
Cometiéndose un error local en cada región del modelo Ψ
n
E j = ∑ p( x i , µ j )( s i − s j ') 2
(2.11)
i =1
2.2.1 Bondad del modelo.
Necesitamos ahora un criterio que mida la bondad de nuestro modelo Ψ, es decir su
capacidad para reflejar el sistema Ξ. Ya que Ξ es un sistema MISO con variables de
entrada y salida reales, fijaremos los mismos mecanismo de error que en un proceso de
regresión funcional, quedando definido el error cometido por el modelo Ψ como
E * = ∫ d (Ξ( x) − Ψ ( x)) dx
(2.12)
Para la estimación del error sólo disponemos de los datos del conjunto de puntos conocidos LO, esto nos da la posibilidad de considerar alguno de los tres estimadores como veíamos en el capítulo anterior al estimar la bondad de los árboles de regresión. Tomando el criterio de resustitución, donde se asume que el conjunto de datos de aprendizaje L del modelo es el propio LO, el error queda expresado como
56
Cap. 2
Árboles Difusos de Regresión e Identificación.
∑ (s
n
E=
i
− Ψ( x i )
i =1
)
2
n
(2.13)
Nuestro objetivo es tratar de utilizar el conocimiento de los errores parciales que hemos cometido en la asignación de la salida de cada región, para determinar un estimador
del error global obtenido en el modelo Ψ.
Consideremos R definida como
k
M (µ j )
j =1
L
R=∑
k
E j = ∑ p( µ j ) E j
(2.14)
j =1
donde p(µj) refleja la probabilidad de aparición de la región definida mediante µj en
el conjunto de datos L, como estimador del error del modelo.
Proposición 2.1: El valor de R es una cota superior del error E cometido por el modelo Ψ.
Demostración:
(
) ) =
k
n

Sea R = ∑  p(µ j ) ∑ p ( x i , µ j ) s i − s j '
j =1 
i =1
(
2
k
k

1 n  k
2
i
i2
i
i
(
x
)
s
'
s
(
x
)
2
s
+
−

µ
µ
µ j ( x i ) s j '
∑
∑
∑
∑
j
j
j
n i =1  j =1

j =1
j =1
k
teniendo en cuenta que
∑ µ j (x i ) = 1 y
j =1
k
∑µ
j =1
j
(2.15)
( x i ) s j ' = Ψ( x i )
la ecuación 2.15 se transforma en

2
1 n  k
 ∑ µ j ( x i ) s j ' 2 + s i − 2 s i Ψ ( x i )
∑
n i =1  j =1

(2.16)
Sea cada punto (xi,si) ∈ L una variable aleatoria que puede tomar los valores {s1', s2',
..., sk'} con probabilidades {µ1(xi), µ2(xi), ..., µk(xi)} tendremos las siguientes ecuaciones
para su esperanza E[(xi,si)] y su varianza Var[(xi,si)]
57
Cap. 2
Árboles Difusos de Regresión e Identificación.
[
]
k
E ( x i , s i ) = ∑ µ j ( x i ) s j ' = Ψ( x i )
[
]
(
k
Var ( x i , s i ) = ∑ µ j ( x i ) s i − Ψ ( x i )
j =1
k
∑µ
j =1
(2.17)
j =1
j
)
2
=
( x i ) s j '2 − Ψ( x i ) 2
(2.18)
Tomando la igualdad de la ecuación 2.18 y operando en la ecuación 2.16 tendremos
que
R=
( [(
)]
[(
)]
)
1 n
2
Var x i , s i + Ψ ( x i ) 2 + s i − 2s i Ψ ( x i ) =
∑
n i =1
(
1 n
1 n i
i
i
Var
x
,
s
s − Ψ( x i )
+
∑
∑
n i =1
n i =1
[
)
2
=
]
1 n
Var ( x i , s i ) + E = R
∑
n i =1
(2.19)
Dado que Var[(xi,si)] es siempre mayor que 0, como queríamos demostrar nuestro
estimador R es una cota superior del error global E que comete el modelo Ψ.
La ecuación 2.19 nos pone de manifiesto que el estimador R, así definido, reúne en
un único valor, dos aspectos importantes del modelo. En primer lugar, como ya hemos
demostrado es una cota superior del error de Ψ, lo que nos va a permitir trabajar con él
en lugar de con el error global E del modelo. Este hecho nos proporciona la ventaja de
centrarnos en los errores locales Ej, cuyo cálculo es menos complejo.
El segundo aspecto que integra R, es la valoración del nivel de agrupamiento que tiene el modelo en las distintas regiones que lo forman. Esta característica viene expresada
mediante los términos Var[(xi,si)], los cuales muestran como de compactas o lo bien que
agrupan nuestras regiones a los datos de L.
58
Cap. 2
Árboles Difusos de Regresión e Identificación.
El valor mínimo de R es 0, que correspondería cuando los dos sumandos que lo configuran sean 0. Esto supondría, ya que todas los términos Var[(xi,si)] han de tener el
valor 0, que nos encontrásemos con un modelo donde existen tantas regiones como
puntos conocidos, o que los puntos de cada región tuviesen un único valor de salida común. Si a este hecho, le añadimos que el error E también ha de ser 0 estaremos presentes ante una división no difusa y perfecta del espacio de entradas. En términos generales
esta situación no se dará, lo que nos lleva a considerar un valor mínimo de R mayor que
0.
Definido el modelo difuso a utilizar y un criterio de bondad para el mismo, en lo que
resta de capítulo estudiaremos el mecanismo inductivo de identificación de este modelo.
2.3 Inducción del modelo.
2.3.1 Introducción.
Como ya hemos presentado en la sección anterior, el modelo propuesto Ψ, que aproxima el sistema desconocido Ξ, viene definido por: una partición difusa {µ1, µ2, ..., µk}
del dominio de entrada X, un mecanismo de asignación del valor de salida en cada una
de las regiones y un criterio de bondad del modelo. Una vez establecida la partición del
dominio de entrada el resto de los componentes quedan totalmente fijados mediante las
ecuaciones 2.7 y 2.14, esto pone de manifiesto la necesidad del modelo Ψ de poseer un
mecanismo que sea capaz de construir la partición {µ1, µ2, ..., µk} que lo defina.
Varias son las técnicas que podemos utilizar para este propósito, destacando entre
ellas las técnicas de agrupamiento difuso1[33][7], y técnicas basadas en particiones recurrentes mediante estructuras arbóreas2. Centrándonos en éstas últimas, consideraremos
las técnicas utilizadas en la construcción de árboles de regresión, las cuales extenderemos para trabajar con regiones difusas y así poder para poder inducir Ψ.
En términos generales nosotros buscaremos una sucesión de modelos {Ψ1, Ψ2, ...,
Ψw} verificándose que R(Ψi) >R(Ψi+1)3 para i=1, ... , w-1. Esta sucesión de modelos
1
Fuzzy clustering
Árboles de decisión y regresión en el caso de particiones no difusas.
3
R(Ψi) Representa el valor del criterio de bondad para el modelo Ψi.
2
59
Cap. 2
Árboles Difusos de Regresión e Identificación.
vendrá asociada a una sucesión de particiones {P1, P2, ..., Pw} del dominio de entrada, de
tal forma que |Pi|< |Pi+1|. Es por este motivo que el eje central de la identificación del
modelo, sea la obtención de cada una de las particiones Pi.
En la literatura existen distintos enfoques para la obtención de la sucesión {P1, P2, ...,
Pw}. Uno de estos, consiste en fijar k cantidad de regiones que van a componer la partición, y a partir de este número fijo de regiones procesar el conjunto de datos conocidos
para obtener una partición Pi={µ1, µ2, ..., µk}, que nos identificará al modelo Ψi para
evaluar su criterio de bondad. La partición Pi+1 se obtendrá aumentando el número de
regiones que la compongan, k=k+1, y volviendo a realizar los mismo cálculos sobre el
conjunto de valores conocidos del sistema. En términos generales el objetivo que se
persiguen mediante este tipo de técnicas es determinar y fijar el número de regiones que
mejor identifican al conjunto de valores conocidos. Otro enfoque distinto es el denominado agrupamiento jerárquico, con sus dos vertientes posibles : ascendente o descendente.
En un agrupamiento jerárquico ascendente, se parte de la última partición Pw de P,
que en términos generales queda definida considerando que cada valor conocido del
sistema es en si una región, se establece una medida de distancia o una medida de similitud entre regiones y estas se van agrupando, atendiendo a dicha medida, para formar
nuevas regiones como unión de regiones antiguas. Este proceso concluye cuando se ha
obtenido una única región P0={µ}, que englobará a la totalidad de los valores conocidos
del sistema.
El agrupamiento jerárquico descendente, parte de una primera partición P0 con una
única región que engloba a la totalidad de los datos conocidos, entonces se fija un número de regiones en que se ha de dividir la región µ0, mediante un mecanismo de agrupamiento no jerárquico, y se divide ésta obteniendo una primera partición real del dominio
de entrada. Una vez conseguidas las regiones que componen la primera partición P1, se
selecciona mediante algún tipo de criterio una de ellas, y ésta se vuelve a dividir en varias regiones obteniendo una nueva partición P2, la cual está formada por las regiones
que componían la partición P1, excepto aquella que se ha vuelto ha dividir, más el conjunto de las nuevas que se han creado. El proceso anterior de división, llevado al extre-
60
Cap. 2
Árboles Difusos de Regresión e Identificación.
mo, conseguirá una partición final Pw formada por tantas regiones como elementos conocidos se tengan del sistema Ξ.
El agrupamiento jerárquico puede mostrarse como una estructura arbórea donde el
nodo raíz correspondería al conjunto completo de los datos conocidos, mientras que sus
nodos hoja, en proceso de división descendente llevado a su extremo o en procesos jerárquicos ascendentes, a cada una de los datos conocidos.
En este trabajo estableceremos un método de agrupamiento jerárquico descendente
para construir la sucesión de particiones {P1, P2, ..., Pw} con lo que los sucesivos modelos serán obtenidos mediante el siguiente algoritmo general.
NuevoModelo
Algoritmo 2.2
Entrada : Un modelo Ψi y el conjunto de puntos conocidos L
Salida : Un nuevo modelo Ψi+1
Paso 1 : Seleccionar de Ψi una región µc(x) ∈ {µ1, ... , µk} mediante algún criterio.
Paso 2 : Dividir µc(x) en {µc,1 , ... , µc,r} .
Paso 3 : Ψi+1={(µ1,s1), ... , (µc-1,sc-1), (µc,1,sc,1), ..., (µc,r,sc,r), ... , (µk,sk)}
En el resto del capítulo trataremos de fijar
• Una caracterización de los conjuntos difusos µi(x) que componen la partición difusa del dominio de la entrada al sistema F.
• Un mecanismo de división de dichos conjuntos.
• Una estructura de árbol que sostenga a nuestro modelo difuso Ψ
2.3.2 Caracterización y división de regiones difusas.
Como ya hemos dicho anteriormente la pieza fundamental del modelo difuso Ψ que
planteamos, es la partición difusa {µi(x) / i=1, ... ,k} de X, que caracterizaremos como
una conjunción de conjuntos difusos definidos sobre cada una de la variables de entrada,
formalizando esta conjunción mediante una t-norma ⊗.
Sea el conjunto difuso βj definido sobre el referencial Xj, estableceremos una región
difusa mediante el conjunto difuso µi sobre el referencial X con una función de pertenencia como
61
Cap. 2
Árboles Difusos de Regresión e Identificación.
m
µi ( x ) = ⊗ β j ( x j )
(2.20)
j =1
Tomando la t-norma del mínimo tendremos la función de pertenencia quedará fijada
mediante la siguiente ecuación
µ i ( x1 , x 2 ,, x m ) = min{β1 ( x1 ), β 2 ( x 2 ),, β m ( x m )}
(2.21)
Con esta caracterización de las regiones difusas, el primer modelo Ψ0 que nosotros
creamos a partir de un conjunto de datos conocidos L estará formado por una única región que debe de englobar totalmente al dominio de definición X conocido en L.
 1 k

Ψ0 ≡ (1, ∑ s j ) 
 n j =1 
(2.22)
Los conjuntos definidos sobre cada una de dominios de las variables de entrada son
en este caso conjuntos no difusos, que contienen todos los valores del conjunto L para
las variables de entrada, esto es β0,j(xj)=1 para j=1, ..., m. Este primer modelo Ψ0 tiene
un único valor de salida que corresponde a la media de los valores de salida de L y un
error asociado a el igual a la varianza de los valores de salida de L.
1 n 
1 n 
R(Ψ0 ) = ∑  s j − ∑ s j 
n j =1 
n j =1 
2
(2.23)
Si tenemos en cuenta que este primer modelo Ψ0 es el más pobre de la sucesión de
modelos difusos que vamos a obtener; y para eliminar la dependencia del valor de R de
la magnitud de la variable de salida definiremos un nuevo criterio RN de bondad normalizado del sistema difuso inferido como
RN (Ψ) =
R ( Ψ)
R(Ψ0 )
(2.24)
Gráficamente podemos ver un regiones establecidas en un modelo difuso con dos
variables de entrada como en la figura 2.1
62
Cap. 2
Árboles Difusos de Regresión e Identificación.
X1
µ
β1
β2
X2
Región difusa (2.1)
Fijando una región difusa µi de esta forma, nos obliga a establecer una serie de restricciones sobre los conjuntos difuso definidos en cada una de las variables, para lo cual
vamos a considerar los conceptos de colección disjunta de conjuntos difusos y partición
difusa de un conjunto difuso.
Sea C={A1, A2, ..., Ar} una colección de r conjuntos difusos definidos sobre un mismo referencial X. Diremos que C es una colección de conjuntos difusos disjunta si
verifica para todo x de X, y k=1, …, r-1 que
k A x A x
( ) ⊗ k +1 ( ) < 1
⊕
 i =1 i 
(2.25)
Siendo ⊗ una t-norma y ⊕ una t-conorma.
Sea B un conjunto difuso definido sobre el referencial X, y sea {B1, B2, ..., Br} una
colección disjunta de conjuntos difusos definidos también sobre el mismo referencial X.
Diremos que C es una partición difusa de un conjunto difuso B si verifica que
r
B( x) = ∑ Bi ( x)
(2.26)
i =1
Definiremos el conjunto difuso µi que representa una región difusa dentro del dominio de entrada X del sistema como ya lo hicimos en la ecuación 2.20 donde cada uno de
los conjuntos difusos βj son elementos de una partición difusa definida sobre el referencial Xj.
63
Cap. 2
Árboles Difusos de Regresión e Identificación.
Estableceremos una partición difusa de una región µi, con una función de pertenencia
definida mediante µi(x)=β1(x1) ⊗ β2(x2) ⊗ … ⊗ βm(xm), en r nuevas regiones {µ1,i, µ2,i,
..., µr,i}, por medio de una partición difusa del conjunto difuso βl que la define. Quedando definidas las funciones de pertenencia de los miembros como
µ j ,i ( x) = β1 ( x1 )⊗⊗ β l −1 ( x l −1 ) ⊗ β l , j ( x l ) ⊗ β l +1 ( x l +1 )⊗⊗ β m ( x m )
(2.27)
Tal que {βl,1, βl,2, ..., βl,r} es una partición difusa del conjunto difuso βl definido sobre el referencial Xl, esto nos obliga ha establecer un mecanismo para obtener una partición difusa de un conjunto difuso.
2.3.3 Generación de particiones difusa de conjuntos difusos.
Consideremos una partición difusa P={A1, A2, ..., Ak} de un conjunto difuso A definido sobre un referencial X del cual conocemos un conjunto de puntos {x1, x2, ..., xp}, y
establezcamos que cada conjunto Ar al que se asocia un valor, que llamaremos vr, prototipo del conjunto Ar, que caracteriza a dicho conjunto. Fijada una medida d de distancia entre un elemento x de X y el valor del prototipo del conjunto Ar, que notaremos
d(x,vr), Dimitrescu[27] propone un método, que denomina GFI (Generalized Fuzzy
ISODATA), para la generalización del conocido método ISODATA difuso. El algoritmo
GFI está basado en considerar una medida de distancia di(x,x’) local a cada una de las
regiones Ai(x) definida como
min( Ai ( x ), Ai ( x')) d 2 ( x, x') si Ai ( x ), Ai ( x ') > 0

d 2i ( x, x') =  Ai ( x ) d 2 ( x, x')
si Ai ( x ) > 0
d 2 ( x, x')
si Ai ( x ), Ai ( x ') = 0

(2.28)
Estableciendo la distancia entre x y el prototipo vi local al conjunto Ai como
d i2 ( x, vi ) = ( Ai ( x )) 2 d 2 ( x, vi )
(2.29)
La medida de lo inapropiado de tomar como prototipo el valor vi en el conjunto difuso Ai vendrá expresada como
p
∑d
j =1
p
2
i
( x j , vi ) = ∑ ( Ai ( x j )) 2 d 2 ( x j , vi )
j =1
64
(2.30)
Cap. 2
Árboles Difusos de Regresión e Identificación.
Que proporciona un mecanismo para medir lo no adecuado que resulta dividir el
conjunto difuso A mediante la k-partición fijada, que se expresa como
p
s
∑ ∑ ( A ( x ))
i
2
j
d 2(x j ,v j )
(2.31)
i =1 j = 1
Minimizando la anterior ecuación se obtienen las siguientes relaciones
Ai ( x j ) =
A( x j )
s
d 2 ( x j , vi )
∑
2
t = 1 d ( x j , vt )
(2.32)
p
∑ ( A ( x ))
i
vi =
2
j
xj
j =1
p
∑ ( A ( x ))
i
(2.33)
2
j
j =1
Considerando una función distancia
d ( x j , vr ) =
(x
j
− vr
)
2
(2.34)
En este trabajo proponemos otro mecanismo que denominaremos FCMD (FCM de
conjuntos Difusos) mediante la generalización del conocido algoritmo FCM que extenderemos para considerar a la partición difusa de conjuntos difusos.
Proposición 2.2: Dado un conjunto {x1, x2, ..., xp} de p elementos de X, la partición
difusa {A1, A2, ..., Ak} de un conjunto difuso A que minimize el valor
p
(
k
∑ ∑ A (x
j =1 r =1
r
j
) m d 2 x j , vr
k
s.t
∑ A ( x) = A( x)
r
r =1
donde
65
)
∀x ∈ X
(2.35)
(2.36)
Cap. 2
Árboles Difusos de Regresión e Identificación.
p
vi =
∑ ( A ( x ))
i
j =1
p
m
xj
j
∑ ( A ( x ))
i
(2.37)
m
j
j =1
Si Ixj={i/1≤ i ≤k y (xj-vrl)2=0}=∅ esta formada por los conjuntos difuso cuya función
de pertenencia es
Ac ( x j ) =
A( x j )
 x j − vc 

v
−
r =1
j
r
s
∑  x
2
m −1
(2.38)
o en otro caso Ac(xj)=A(xj)/|Ixj| si Ixj≠∅
Donde m un número real mayor o igual a 1.
Demostración:
Para demostrar la proposición, utilizaremos los multiplicadores de Lagrange para minimizar la ecuación 2.35 sujeta a 2.36, tendremos que hacer mínima
k

 k
W (λ , Ar ( x j )) = ∑ Ar ( x j ) m ( x j − vr ) 2 + λ  ∑ Ar ( x j ) − A( x j )

 r =1
r =1
(2.39)
Derivado e igualando a 0 se tiene
∂W (λ , Ar ( x j ))
= mAr ( x j ) m−1 ( x j − vr ) 2 + λ = 0
∂Ar ( x j )
k
∂W (λ , Ar ( x j ))
Ar ( x j ) − A( x j ) = 0
=
∑
∂λ
r =1
(2.40)
operando tendremos finalmente , como queríamos demostrar, que
Ac ( x j ) =
A( x j )
 x j − vc 

v
−
r =1
j
r
s
∑  x
66
2
m −1
(2.41)
Cap. 2
Árboles Difusos de Regresión e Identificación.
Obteniendo una actualización del valor de pertenencia asignado al elemento xj en el
conjunto Ac , proceso iterativo que una vez concluido nos proporciona la partición buscada del conjunto difuso A.
Como se puede observar la ecuación 2.32 es un caso particular de la ecuación 2.41
obtenida por FCMD que también generaliza la fijada por el método FCM[7] (ecuación
2.42 ) que puede ser considerada como el resultado de aplicar el algoritmo FCMD sobre
un conjunto difuso con una función de pertenencia constante e igual a 1.
1
Ac ( x j ) =
 x j − vc 

r =1
j − vr 
s
∑  x
2
m−1
(2.42)
Quedando establecido de esta forma el algoritmo FCMD como la generalización del
FCM.
FCMD
Algoritmo 2.3
Entrada : Un conjunto difuso A(x) , una colección de puntos C={x1, x2, ..., xp}
Salida : Una partición difusa del conjunto A(x)
Construir P0 como una primera k-partición difusa de A(x)
l=-1
Repetir
l=l+1
Calcular los prototipos vrl mediante la k-partición Pl
Actualizar Pl obteniendo Pl+1 según
Para j desde 1 hasta p hacer
Calcular Ix={i/1≤ i ≤s y (xj-vrl)2=0}
Para r desde 1 hasta s hacer
Si Ix=∅ entonces Actualizar Ar(xj) según 2.41
r ∈{1,, s} − I x
 0
 A( x )
SiNo Ar ( x j ) = 
j
r ∈Ix
 I
x

FinSi
FinPara
FinPara
Hasta || Pl+1-Pl ||<ε
P=Pl+1
Donde ||.|| es una norma que indica la diferencia entre una s-partición Pl y la nueva spartición Pl+1 siguiente. Un ejemplo de norma que se puede ser utilizada
67
Cap. 2
Árboles Difusos de Regresión e Identificación.
P l +1 − P l = max  max Ar ( x j )l +1 − Ar ( x j ) l 
j = 1,, p r = 1,, s
(2.43)
Un ejemplo de la aplicación del algoritmo FCMD se puede ver en la figura 2.2, donde se muestra las distintas 2-particiones que se obtienen para el conjunto difuso A(x)
definido sobre el referencial de los números reales (ecuación 2.44), considerando un
conjunto C de 100 números reales unifórmente distribuidos entre 0 y 20. Sobre la misma
figura se puede observar el efecto que ocasiona en la definición de la partición difusa el
valor de la constante m observando como crece el carácter difuso de las fronteras de las
particiones a medida que aumenta su valor.
x≤0
0
x
0< x <5
5

A( x ) = 1
5 ≤ x ≤ 15
 20 − x 15 < x < 20
 5
0
x ≥ 20
(2.44)
1
m=1
m=1.5
m=1.75
m=2
0.8
0.6
0.4
0.2
0
0
2
4
6
8
10
12
14
16
18
20
2-partición mediante FCMD (2.2)
En este punto han quedado establecidos ya el mecanismo de división del dominio de
entrada en sucesivas particiones difusas, esta sucesión podría mostrarse en el caso de un
dominio de dos variables de entrada según la figura 2.3. Donde podemos ver una posible
evolución de las regiones que definen el modelo. Tras una partición inicial del conjunto
total de datos de entrada se obtiene (b) con dos regiones, de la partición (b) se selecciona
la región R2 que se vuelve a partir obteniendo las regiones de (c), de (c) se divide la re-
68
Cap. 2
Árboles Difusos de Regresión e Identificación.
gión R1 obteniendo (d), en (d) se divide la región R1 obteniendo (e), de (e) se divide la
región R5 para finalmente conseguir una partición (f) del espacio de entrada.
R1
R1
R1
R2
R2
R3
R1
(c)
(b)
(a)
R2
R1
R2
R3
R3
R4
R4
R4
R5
(d)
R3
R2
R1
R5
(e)
R6
(f)
Ejemplo de una sucesión de particiones difusas (2.3)
Como se pone de manifiesto en el algoritmo 2.2 en su primer paso, es necesario establecer un criterio de selección para la región que se ha de dividir. Fijada ésta, se ha de
tener en cuenta todas las formas posibles de particionarla, para finalmente optar por una
concreta y realizar la división definitiva.
2.3.4 Selección de la región a dividir y su partición.
Tomemos un modelo Ψi de la sucesión de modelos que hemos de construir, y sea
Pi={µ1, µ2, ..., µz} la partición difusa que lo define. El valor del error del modelo Ψi según la ecuación 2.14 es la suma de los errores locales a cada una de las regiones, al considerar el valor de prototipo como representante, ponderado por la probabilidad de
existencia de dicha región. Si nuestro objetivo es obtener un nuevo modelo Ψi+1 con un
menor error, tomaremos para dividir aquella región µc∈Pi que más disminuya el valor
del estimador R(Ψi) del modelo actual. Consideremos µc aquella que verifica la ecuación
µc = maxi ( p( µ j ) E J )
µ j ∈P
69
(2.45)
Cap. 2
Árboles Difusos de Regresión e Identificación.
Con esta elección, lo que pretendemos es disminuir el error que se comete en la región del modelo que peor se comporta. Una vez concretada µc como la región a dividir,
determinaremos todas las posibles divisiones de dicha región. Estas vendrán formadas
por todas las particiones posibles que puedan realizarse en cada uno de los conjuntos
difusos definidos sobre las variables de entrada que configuran la región seleccionada.
Fijemos r como el número de regiones en las que vamos a dividir a µc , y teniendo en
cuenta que el número de divisiones posibles |Qc| coincide con el número de variables de
entrada del sistema Xm. Es decir
{ }
Q c = Pjc j = 1 m
(2.46)
donde Pcj representa la r-partición del conjunto difuso βj(xj) sobre el referencial Xj,
que definen a la región µc(x).
{
Pjc = β j ,1 , β j , r
}
(2.47)
Si seleccionamos realizar la partición sobre la variable de entrada e, tendremos que el
nuevo valor para el estimador RN(Ψi+1) normalizado será
r
p(µc ) Ec
+
RN (Ψi +1 ) = RN (Ψi ) −
R(Ψ0 )
∑ p(β
e,l
l =1
) Ec , l
R(Ψ0 )
(2.48)
Luego la variación que sufre RN mediante la partición de la variable e vendrá dada
por
r
p ( µc ) E c
∆RN (Ψi , e) =
−
R(Ψ0 )
∑ p(β
c,l
l =1
) Ec , l
R(Ψ0 )
(2.49)
Expresión que nos servirá para seleccionar la variable que la haga mínima, luego la
variable elegida e para realizar la partición de la región, será aquella que verifique
∆RN (Ψi , e) = max ∆RN (Ψi , j )
j =1 m
70
(2.50)
Cap. 2
Árboles Difusos de Regresión e Identificación.
Como
p(µ c ) Ec
>= 0 y RN(Ψ0) es una constante positiva, la anterior condición tamR(Ψ0 )
bién se puede formular como
r
∆RN (Ψi , e) = min ∑ p(β c ,l ) Ec , l
j =1 m
(2.51)
l =1
La ecuación 2.51 junto con el algoritmo FCMD, ya nos permite podemos definir un
algoritmo para inducir un sistema difuso a partir de un conjunto de valores conocidos.
Inducción de un sistema difuso
Algoritmo 2.4
Entrada : L={(x1,s1), ... ,(xm,sm)} Conjuntos de valores conocidos del sistema Ξ
Salida : Ψ sistema difuso que modela a Ξ
Ψ0={(µ :X→1),v0} siendo v0 el valor de la ecuación 2.7
i=0;
Mientras (RN(Ψi)≥ε) o (no se pueda dividir ninguna región de Ψi) hacer
mediante 2.45 seleccionamos µc como región a dividir
utilizando el algoritmo FCMD 2.3 y el criterio 2.51 realizamos la partición de µc
según 2.27 obtenemos una nueva partición P’ de X
con esta nueva partición P’ definimos el modelo Ψi+1
i=i+1
FinMientras
Ψ=Ψi
El algoritmo 2.4 es un algoritmo de agrupamiento difuso (clustering) jerárquico descendente, en el cual se pueden utilizar cualquiera de los criterios de validación usados
en la literatura como condición de parada del mismo. Ya que el estimador RN considerado, incluye en su formulación aspectos referentes al error del modelo, así como al número de regiones y su distribución de las regiones (clusters) obtenidas, optaremos por
fijar un valor máximo que ha de tener para que podamos considerar terminado el proceso de inducción del modelo.
71
Cap. 2
Árboles Difusos de Regresión e Identificación.
En la siguiente sección, siguiendo la misma idea que en el algoritmo 2.4, construiremos un árbol de regresión donde se considere la existencia de regiones difusas, generalizando de esta forma los árboles de regresión clásicos (CART). Estos árboles difusos de
regresión e identificación representarán al modelo Ψ.
2.4 Árboles difusos de decisión y regresión. ADRI.
2.4.1 Árboles difusos de decisión.
Sea un árbol T, y una función ft : X→[0,1]k definida sobre el conjunto de variables de
entrada X y k≥2, que denominaremos función difusa de decisión del nodo t.
Un árbol difuso de decisión[16], se define como al árbol T cuyos nodos interiores
tienen asociada una función difusa de decisión y los nodos hoja una clase que los representa.
t
0.3
0.5
0.2
t1
t2
t3
C1
C2
C1
Figura (2.4)
En la figura 2.4 se muestra un árbol difuso de decisión cuyo nodo raíz posee una función difusa de decisión ft(x)=[0.3,0.5,0.2] y sus nodos hojas son etiquetados con las clases C1 y C2. Notaremos Valor(t) la clase asignada al nodo hoja t, en el ejemplo tendremos que
Valor (t1 ) = C1
Valor (t2 ) = C2
Valor (t3 ) = C1
Nombraremos como ftt’(x) como la proyección sobre el valor j-ésimo de la función de
decisión ft que etiqueta al arco que une el nodo t con su nodo hijo t’, en el ejemplo anterior
72
Cap. 2
Árboles Difusos de Regresión e Identificación.
f t t1 ( x ) = 0.3
ft t 2 ( x ) = 0.5
f t t 3 ( x ) = 0.2
Se define el valor de decisión v de un nodo t’ de forma recursiva mediante el uso de
una t-norma como
1
t ' es el nodo raiz de T

v(t ') = 
t'
v(t ) ⊗ f t ( x ) t es nodo padre de t'
(2.52)
Sea un árbol de decisión difusa ,dado un valor x∈X y suponiendo que este puede ser
clasificado en un conjunto de clases {C1, C2, ..., Cr} la función de clasificación que implementa este tipo de clasificadores deja de ser determinista, para mostrarnos una distribución de posibilidad sobre las clases donde el valor x puede ser clasificado. Esto es,
que la posibilidad de que x sea clasificado en la clase Cj
Pos( x , C j ) =
⊕
Valor ( t ) = C j
(2.53)
v (t )
Luego un árbol difuso de decisión nos presenta una salida para un valor x de X
{
T ( x ) = Pos( x, C j ) / j = 1 r
}
(2.54)
Como se puede observar los árboles difusos de decisión son una generalización de
los árboles de decisión y clasificación clásicos, ya que estos son una caso particular de
los árboles difusos de decisión donde las únicas funciones difusas de decisión consideradas en sus nodos interiores tiene la forma
f t : X → {0,1}
2
que vienen a representar la posible contestación afirmativa con valor 1, o negativa
con valor 0, a la pregunta realiza en el nodo t.
73
Cap. 2
Árboles Difusos de Regresión e Identificación.
2.4.2 Árboles difusos de regresión.
Consideremos T un árbol de decisión difusa, donde cada uno de sus nodos interiores
viene definido por un conjunto Pt={β1, ... , βm} de conjuntos difusos, establecidos en los
dominios de las variables de entrada, que concretan una región difusa µt sobre la entrada
con una función de pertenencia
m
µt ( x ) = ⊗ βi ( xi )
(2.55)
i =1
Definamos como valor del nodo t
n
∑ µ (x
j
t
Valor (t ) =
)s j
j =1
n
∑ µ (x
(2.56)
j
t
)
j =1
Tomando Praíz={β1 :X1→1, ... , β :Xm→1} como la colección de conjuntos difusos
asociada al nodo raíz de un árbol difuso de regresión, vemos que las ecuaciones que
definen dicho nodo (2.55 y 2.56) corresponden con las ecuaciones (2.20 y 2.7) que
identifican el primer modelo difuso Ψ0 (2.22) de nuestra sucesión de modelos, ya que se
verifica que
n
Valor ( raiz ) =
∑s
j
j =1
n
(2.57)
Luego podemos decir que nuestra primera aproximación al sistema Ξ es el modelo
Ψ0, que coincide con un árbol difuso de decisión T con un único nodo.
El mecanismo de división de las regiones difusas utilizado en el algoritmo 2.4 es el
proceso que utilizaremos para expandir un nodo t del árbol. Para especificarlo más concretamente, tendremos que definir una función difusa de decisión que asociaremos a
dicho nodo.
Sea ft(x)=[β1,r(xr), ... , βk,r(xr)] la función difusa de decisión asociada al nodo t, tal
que βj,r(xr) para j desde 1 hasta k es una k-partición del conjunto difuso βr(xr)∈Pt. Esta
74
Cap. 2
Árboles Difusos de Regresión e Identificación.
función difusa de decisión origina una expansión del nodo t creando k nodos hijos {t1,
t2, ..., tk}, estableciéndose las siguientes colecciones de conjuntos difusos para cada uno
de ellos
Pt i = {β1 ( x1 ),, βr −1 ( xr −1 ), βi , r ( xr ), βr −1 ( xr −1 ),, βm ( xm )} i = 1,, k
t
β1,r(xr)
t1
(2.58)
βk,r(xr)
βj,r(xr)
... ...
tj
tk
Árbol difuso de decisión (2.5)
En la figura 2.5 podemos ver un árbol difuso de decisión donde se ha utilizado una
función difusa de decisión como la expuesta.
Como podemos observar, cada expansión de un nodo t del árbol T cambia el número
de nodos hoja de t |Hojas(T)| a |Hojas(T)|+k-1, y considerando que cada nodo hoja de t
define una región difusa µt(x), podremos pensar que nos encontramos ante un nuevo
modelo Ψi que aproxima al sistema Ξ. Para que esto ocurra sólo hemos de elegir entre
las m funciones difusas de decisión ft , una por cada conjunto difuso definido sobre los
referenciales de entrada, siendo ésta aquella que verifique la condición 2.51 tras efectuar
el algoritmo 2.3 FCMD.
El árbol difuso de decisión T construido de esta forma, lo denominaremos Árbol difuso de regresión e Identificación (ADRI), asociando éste un valor de salida asociado a
un valor de entrada x mediante la expresión
T ( x) =
∑ µ ( x )Valor (t )
∑ µ ( x)
t
t ∈Hojas ( T )
t
t ∈Hojas ( T )
75
(2.59)
Cap. 2
Árboles Difusos de Regresión e Identificación.
ADRI es una generalización de los árboles de regresión CART, ya que estos son árboles ADRI donde las únicas funciones difusas de decisión que son permitidas en cada
nodo son del tipo
f t : X → {0,1}2
(2.60)
Como podemos observar nuestra sucesión de modelos {Ψ0, Ψ1, ... , Ψw} es equivalente a la fase de construcción de ADRI, con lo que podemos establecer como modelo
difuso Ψ del sistema desconocido Ξ, al árbol ADRI T obtenido mediante w expansiones
de sus nodos interiores con los datos conocidos L del sistema Ξ.
El proceso de construcción de ADRI nos puede ayudar a identificar algunas características adicionales, a la propia partición del dominio de entrada del sistema Ξ aproximado.
Una cuestión de intereses cuando se ha de aproximar, mediante un modelo, un sistema que se desconoce, es calificar la importancia de las variables de entrada que vamos a
considerar para modelizar el sistema. Esta importancia puede ser vista como la contestación a la pregunta ¿ hasta que punto esta variable influye en la salida del sistema ?.
Para contestar a la pregunta anterior hemos de fijar que la influencia de una variable
dentro de nuestro modelo será mayor, cuanto mayor sea el decremento del estimador,
que posee nuestra modelo al incorporarla. Viendo la estructura arbórea que define
ADRI, la incorporación de una variable al modelo básicamente viene expresada por la
división realizada mediante dicha variable de un nodo del árbol, cuestión que refleja la
expresión 2.51 donde se selecciona aquella variable de entrada cuya partición va a originar un mayor decremento del estimador del modelo.
Si notamos como Imp(e,t) al beneficio que ocasionaría la división del nodo t de T
mediante la partición del conjunto difuso definido sobre la variable de entrada e, y le
asignamos el valor
k
Imp( e, t ) = ∑ p( β j , e ) E j , e
i =1
76
(2.61)
Cap. 2
Árboles Difusos de Regresión e Identificación.
Siendo {βj,e(xe) /j=1,..., k} la partición del conjunto difuso βe(xe) ∈Pt y Ej,e los errores
locales para cada nuevo nodo que origina la expansión del nodo t mediante la variable e.
Podemos establecer que la importancia que una variable e tiene en el global del árbol
difuso de regresión e identificación es la suma de las importancias relativas a cada nodo
del árbol
Imp(e) =
∑ Imp(e,t)
(2.62)
t ∈T-Hojas(T)
Cuanto mayor se el valor de Imp(e) más beneficios habremos obtenido al incorporar
la variable e al modelo Ψ. Normalizando estos valores podemos establecer un ranking
de la importancia que cada variable de entrada tiene en el modelo Ψ para aproximar la
salida del sistema Ξ
Rank ( e) =
Imp(e)
max Imp( j )
(2.63)
j =1.. m
Este un ranking de variables nos puede servir para comenzar fijando la estructura del
modelo sin ninguna suposición sobre que variables de entrada han de ser la que más
afecten a la salida, ya que podemos considerar un conjunto más amplio que las que
realmente son y mediante el propio mecanismo de inducción de ADRI establecer cuales
de ellas definen realmente a la salida y en que medida.
2.5 Base de Reglas difusas asociada a ADRI.
2.5.1 Construcción de un modelo de consecuente puntual.
Dado un árbol ADRI T, que ha sido inducido a partir de un conjunto de datos conocidos L de un sistema desconocido Ξ, podemos establecer la equivalencia que existe
entre las regiones difusas definidas en el algoritmo 2.4 y las representadas en los nodos
hoja de T mediante los conjuntos difusos µt(x) asociados a dichos nodos. En definitiva
los dos mecanismos establecen una partición difusa del dominio de las entradas, asignando a cada una de las regiones el valor que ha de tomar la salida en dicha región.
Gráficamente este planteamiento se puede ver en siguiente figura 2.6
77
Cap. 2
Árboles Difusos de Regresión e Identificación.
β1
s1
s2
β1,2
R1
s3
β2
β2,2
R2
β1,1
R3
β2,1
Regiones difusas y salidas asociadas (2.6)
Que correspondería al ADRI T siguiente
t
β2,2
β1,2
t1
s1
t’
β1,1
β2,1
t2
t3
s2
s3
ADRI asociado (2.7)
Si tomamos como ejemplo la región R2 y tuviésemos que describirla, ésta vendrá definida por µ2(x)=β2,2(x2)⊗β1,1(x1), expresión que trasladada a términos de lógica difusa
en la siguiente proposición difusa "x2 es β2,2 y x1 es β1,1" , donde los conjuntos difusos
β1,1 y β2,2 son considerados como cualidades difusas definidas sobre los referenciales X1
y X2.
En términos generales si consideramos una región difusa µi definida mediante el
conjunto difuso con una función de pertenencia µi(x)=β1,i(x1)⊗...⊗βm,i(xm) podemos
construir la siguiente proposición de lógica difusa
78
Cap. 2
Árboles Difusos de Regresión e Identificación.
x1 es β1,i y x2 es β2,i y ... y xm es βm,i
(2.64)
La asignación del valor de salida que toma el modelo Ψ depende de la región µi , situación que podremos representar mediante la regla "Si estamos en la región µi entonces
el valor de salida es si" , regla que es descrita de la forma
Si x1 es β1,i y x2 es β2,i y ... y xm es βm,i entonces s es si
(2.65)
Esta representación tanto de los árboles ADRI, como del modelo difuso de aproximación planteados, nos proporciona una un conjunto de reglas difusas formado por tantas reglas como regiones existan en el modelo o nodos hojas en el árbol ADRI ,que nos
va a modelizar al sistema desconocido Ξ.
Como podemos ver el modelo así considerado del conjunto de reglas difusas que obtenemos es del tipo de consecuente puntual. Luego el valor inferido que se obtiene para
un valor determinado x del dominio de entrada es
m
∑  ⊗i=1 β i,l ( x i ) sl
l =1
h
s=
m
∑  ⊗i=1 β i,l ( x i )
l =1
h
h
=
∑ µ ( x) s
l =1
h
l
∑ µ ( x)
l =1
l
h
= ∑ µ l ( x) sl
(2.66)
l =1
l
considerando h regiones definidas mediante sus correspondientes conjuntos difusos
µ(x) y sabiendo que dichas regiones forman una partición difusa del dominio de la enh
trada X, esto es
∑ µ ( x) = 1 .
l =1
l
En las figuras 2.6 y 2.7 también podemos observar que la definición de cada región,
puede llevar la consideración de distintas granularidades o cardinalidad en las particiones de las variables de entrada. Por ejemplo podemos ver como la región R1 (nodo t1)
viene expresada por medio del conjunto difuso µ1(x)=β1,2(x2)⊗β1(x1) lo que supone la
existencia de las siguientes particiones difusas para la variable X1 es {β1(x1)} y para la
variable X2 es {β1,2(x2), β2,2(x2)}; mientras que en la región R2 las particiones de X1 es
{β1,1(x1), β1,2(x1)} y de X2 es {β1,2(x2), β2,2(x2)} que nos define la región
µ2(x)=β2,2(x2)⊗β1,1(x1).
79
Cap. 2
Árboles Difusos de Regresión e Identificación.
Sabemos ,por construcción, que cuando existe distintas granularidades en las regiones, esto se debe a la partición difusa de alguno de los conjuntos que las forman, esto es,
si consideramos P={β1(xc), ... , βk(xc)} y P'={β1(xc), ... , βr,1(xc),...,βr,n(xc), ... , βk(xc)}
como dos particiones difusas de distinta granularidad |P|=|P'|-n+1,esto se debe a que
{βr,1(xc), ... , βr,n(xc)} sea una partición difusa del conjunto difuso βr(xc)∈P o lo que es
lo mismo
n
βr ( xc ) = ∑ βr , j ( xc )
(2.67)
j =1
Expresión que trasladada como una proposición de la lógica difusa será
xc es βr ≡ xc es βr,1 o ... o xc es βr,n
(2.68)
Proposición que nos permite trabajar en conjunto de reglas difusas con las particiones
más finas de cada variable de entrada, transformando los antecedentes de aquellas reglas
donde aparezcan conjuntos difusos, que posteriormente se han dividido, por la conjunción de disyunciones de los conjuntos de la partición.
La configuración de la estructura de nuestro modelo Ψ inducido, como un conjunto
de reglas nos permite la utilización de los métodos para el refinamiento o ajuste de modelos difusos del tipo TSK o de consecuente puntual , procedimientos que mejorarán la
aproximación realizada.
Otra alternativa que podemos plantear al definir el modelo Ψ, es construir el conjunto
de reglas difusas al mismo tiempo lo inducimos mediante la generación de un árbol
ADRI. Esto nos originará una sucesión B0 , B1, ... , Bw de conjuntos de reglas donde en
cada uno de ellos podremos aplicar las técnicas de ajuste de modelos difusos, con la
única restricción de que las regiones definidas por las reglas obtenidas sigan siendo una
partición difusa del dominio de la entrada.
La obtención de Bi+1 a partir de Bi consistiría en seleccionar una regla de Bi mediante
el criterio 2.45, tomar aquel conjunto difuso que verificase 2.51 y establecer su partición
difusa, construyendo Bi+1 con las reglas de Bi menos la que hemos seleccionado para la
división, y añadiendo aquellas nuevas reglas que se han formado para las regiones obtenidas tras la división del conjunto difuso.
80
Cap. 2
Árboles Difusos de Regresión e Identificación.
Como hemos podido ver el mecanismo de inducción del modelo difuso Ψ puede ser
visto desde distintas perspectivas, subdivisión de conjuntos difusos, árboles difusos de
regresión e identificación y directamente desde el conjuntos de reglas que lo forman.
Todos ellos establecen nuestro modelo difusoΨ inducido en base a particiones difusas
de las variables de entrada, estas particiones difusas están formadas por conjuntos difusos que en un principio no tienen asociada ninguna semántica, con lo que nuestro modelo es eficaz como aproximador del sistema, esto es, no nos preocupamos de una descripción semántica del funcionamiento del sistema si no que estamos interesados en
obtener buenas aproximaciones del mismo considerándolo como una caja negra.
Otro enfoque distinto sería cuando nosotros quisiéramos describir el sistema y no
tanto construir un aproximador del mismo. Este enfoque nos obligaría a dotar de semántica las relaciones existentes entre las variables de entrada con las de salida, cuestión que podríamos llevar acabo estableciendo que las variables que interviniesen en su
descripción fueran variables lingüísticas, aspecto que quizás nos obligue a sacrificar la
capacidad de aproximación del modelo inducido por una mayor capacidad de explicación del sistema desconocido a estudiar.
2.5.2 Antecedentes con variables lingüísticas. Descripción del sistema.
Partamos de un conjunto de variables lingüísticas XLi como las m variables de entrada del sistema Xi para i=1 ... m. Sean {e1,i, ... , ek,i} el conjunto de k etiquetas lingüísticas definidas mediante los conjuntos difusos {β1,i(xi), ... , βk,i(xi)} establecidos sobre el
referencial Xi.
Sea B un conjunto de reglas difusas construida a partir del modelo difuso inducido Ψ,
nuestro objetivo será obtener a partir de B un nuevo conjunto de reglas difusas B' donde
las reglas que lo compongan este formadas por antecedentes constituidos exclusivamente por etiquetas lingüísticas de las variables de entrada.
Una primera aproximación del conjunto de reglas difusas B' que buscamos consistirá
en sustituir los conjuntos difusos que forman los antecedentes de las reglas, por la etiquetas que mejor se adecuen a ellos. Esa medida de adecuación puede establecerse mediante la fijación de una medida de similitud[84][102] entre conjuntos difusos. Por lo
tanto una regla como
81
Cap. 2
Árboles Difusos de Regresión e Identificación.
Si x1 es A1 y x2 es A2 y ... y xm es Am entonces s es s'
(2.69)
puede ser sustituida por la regla de B'
Si XL1 es ej,1 y XL2 es ej,2 y ... y XLm es ej,m entonces s es s''
(2.70)
tal que verifique
e j ,i = max sim(β r ,i ( x i ), Ai ( x i ))
r =1..k
(2.71)
considerando una nueva salida correspondiente a la nueva región definida como
n
s' =
m
∑ (⊗ β
l =1
n
i =1
j ,i
(2.72)
m
∑ (⊗ β
l =1
( x il )) s l
i =1
j ,i
l
i
( x ))
Realizando esta sustitución en todas las reglas de B, obtenemos un nuevo conjunto de
reglas difusas B' donde los antecedentes de las reglas están formados exclusivamente
por etiquetas lingüísticas que nos proporcionan un mayor nivel descriptivo del sistema
estudiado que el primitivo B, inducido mediante alguno de los métodos vistos anteriormente en este capítulo.
Esta forma de actuar se podría ver como un ajuste lingüístico del modelo aproximativo que hemos inducido. Las ventaja que incorpora frente a otros mecanismos que estudiaremos posteriormente, es la nula restricción sobre la estructura de etiquetas lingüísticas que definen cada una de las variables de entrada del sistema, aunque posee el inconveniente que es realizada fuera del mecanismo de inducción del propio modelo, con lo
que este puede que no sea el más adecuado para la descripción del mismo, ya que fue
construido para su aproximación.
Otra alternativa para obtener un conjunto de reglas difusas que describa el sistema es
utilizar las variables lingüísticas en el proceso de inducción del modelo, sirviéndonos
los conjuntos de las etiquetas de cada variable para la construcción de las regiones difusas que establezca el modelo.
82
Cap. 2
Árboles Difusos de Regresión e Identificación.
Sea el conjunto de variables lingüísticas consideradas anteriormente, a las cuales
añadimos la restricción de que sus conjuntos de etiquetas han de ser una partición difusa
del dominio de entrada sobre las que están definidas. Tomemos L como el conjunto de n
datos conocidos del sistema desconocido Ξ.
Utilizando la misma filosofía que hemos adoptado para la inducción de nuestro modelo difuso mediante ADRI , nuestro objetivo es obtener una división del dominio de
entrada en regiones difusas, que son creadas a su vez mediante la partición difusa de una
de las variables de entrada.
Definamos una función difusa de decisión asociada al nodo raíz de un árbol ADRI T
de la forma
[
f raiz ( x) = β1,i ( x i ),, β k ,i ( x i )
]
(2.73)
de tal forma que se verifique que
k
min ∑ p(β j ,i ) E j ,i
i =1..m
E j ,i =
(2.74)
j =1


n
l  l
∑ β j ,i ( x i ) s −
l =1



∑ β j ,i ( x ) s 
h=1

n

∑ β j ,i ( xil ) 
h =1
n
l
i
n
∑β
l =1
j ,i
2
l
(2.75)
l
i
(x )
Fijados los dos criterios anteriores estamos optando por dividir el espacio de definición del sistema mediante la variable lingüística cuyo conjunto de etiquetas verifique la
característica anterior.
Este proceso nos origina un árbol ADRI T donde los arcos estarán etiquetados con las
etiquetas de las variables lingüísticas utilizadas para expandir los nodos. Otra de las
características que posee el método anterior, es que los nuevos nodos obtenidos no podrán ser expandidos mediante una nueva división de la misma variable lingüística que
los originó, al estar las regiones ,que las definen, constituidas ya por los conjuntos difusos más pequeños que podemos considerar. Esto origina una estructura del árbol ADRI
83
Cap. 2
Árboles Difusos de Regresión e Identificación.
parecida a los árboles de decisión de Quinlan[81] donde una vez realizada la pregunta
sobre una variable concreta, no se vuelve a preguntar sobre los valores de la misma en el
camino hacia un nodo hoja.
Este proceso nos dirige hacia las regiones difusa más pequeñas que podemos definir
en nuestro modelo, fijando el nivel máximo del árbol obtenido igual al número de variables lingüística que hemos considerado en la entrada. Esto nos impide poder establecer
regiones de mayor tamaño aunque estas se comporten correctamente en nuestro modelo.
Para solucionar este problema hemos de plantear un método que nos permita agrupar
etiquetas lingüísticas de las variables, para así de esta forma poder considerar regiones
más amplias.
Tomemos una variable lingüística XLi que posee un conjunto de etiquetas {e1, e2, ...,
ek}, fijamos dos grupos de etiquetas G1 y G2 como
G1={e1, e2, ..., ej}
(2.76)
G2={ej+1, ... , ek}
(2.77)
que dependen el valor de j que puede tomar los valores desde 1 hasta k-1. Esto nos
proporciona k-1 forma de agrupar las etiquetas lingüísticas en dos conjuntos difusos
definidos a partir de G1 y G2 como {βj,αj}
j
β j ( xi ) = ∑ βl , i ( xi )
(2.78)
l =1
α j ( xi ) =
k
∑β
l ,i
( xi )
(2.79)
l = j +1
A los cuales le podríamos asignar la disyunción de etiquetas lingüísticas que engloban, como una nueva etiqueta lingüística propia a la variable.
e1j= e1 o e2 o ... o ej
e2j= ej+1 o ej+2 o ... o ek
84
Cap. 2
Árboles Difusos de Regresión e Identificación.
Este agrupamiento hace que la partición difusa de la variable lingüística Xli sea en
lugar del conjunto de etiquetas que definen sus posibles valores, sea el par {e1j,e2j} y que
transformemos la función difusa de decisión ft de un nodo t a la siguiente
ft (x)=[βij,αij]
(2.80)
donde los subíndices indican la variable lingüística considerada.
De las m*(k-1) posibles funciones difusas de decisión que podemos definir, consideraremos aquella que cumpla el criterio
(
f t ( x ) = [βch ,α ch ] = min p( βi j ) E ( βi j ) + p(α ij ) E (α ij )
j =1 k − 1
i =1 m
)
(2.81)
Donde E(βij) representa el error local de la región que viene definida por el conjunto
difuso βij.
El proceso anterior nos produce un árbol ADRI donde los arcos están etiquetados
bien con una etiqueta de una variables lingüística o con una disyunción de las mismas,
pudiéndose preguntar por una misma variable durante el recorrido de un camino del
nodo raíz a un nodo hoja, ya que el proceso aplicado al conjunto de etiquetas global de
una variable, se puede volver a aplicar cualquiera de los grupos de etiquetas obtenidos.
Los dos mecanismos anteriores nos proporcionan un árbol difuso de regresión e
identificación a partir de un conjunto de datos L, con la característica común que las
funciones difusas de decisión de los nodos que lo integran, quedan definidos totalmente
en función de las etiquetas de las variables lingüísticas de entrada del sistema, luego al
extraer de ellos el conjunto de reglas que represente estos árboles, éstas estará constituida por reglas cuyos antecedentes están formados exclusivamente por etiquetas, con lo
cual inducimos un modelo Ψ descriptivo del sistema desconocido Ξ.
85
Cap. 2
Árboles Difusos de Regresión e Identificación.
2.6 Un ejemplo de empleo de ADRI.
Para ilustrar el funcionamiento de la inducción de un modelo difuso Ψ mediante la
construcción de un árbol difuso ADRI, tomaremos como ejemplo el sistema no lineal
expresado mediante la ecuación
(
−2
s = 1 + x1 + x 2
)
−1, 5 2
(2.82)
estudiado por Sugeno y Yasukawa[89], del que extraemos como conjunto de datos 100
puntos uniformemente distribuidos en el dominio de entrada [1,5]2. Para comprobar la
capacidad de ADRI para identificar variables relevantes, vamos a perturbar nuestros
datos de entrada suponiendo que se tienen observaciones correspondientes a dos variables x3 y x4 también uniformemente distribuidas en [1,5]. En definitiva utilizaremos
ADRI para el problema de inducir un modelo difuso conociendo 100 muestras de quíntuplas entrada-salida con cuatro variables de entrada, dos de ellas irrelevantes y que por
tanto de deberán afectar al modelo definitivo.
Comenzamos suministrando al algoritmo 2.4 como conjunto de datos de entrada las
cien quíntuplas de la tabla 1. El primer modelo que es generado es Ψ0≡{µ0:[1,5]4→1,
2.1711} según la ecuación 2.22. Este modelo inicial establece el nodo raíz del árbol difuso de regresión e identificación con un valor para el estimador de su bondad
RN=1=0.815038/0.81538 como indica la ecuación 2.24.
Este modelo inicial Ψ0, representado en el nodo raíz nos origina un segundo modelo
Ψ1 que delimita dos regiones en el dominio de las entradas. Estas regiones son construidas y seleccionadas de la forma siguiente:
Considerando la definición de la región que se quiere dividir, en este caso como es el
dominio
completo
de
las
entradas
dicha
región
vendrá
expresada
como
µ0(x)=min{β1(x1), β2(x2), β3(x3), β4(x4)} siendo βi(xi)=1 para todo xi∈[1,5], y para dividirla utilizamos el algoritmo FCMD (2.3) aplicado a cada uno de los conjuntos difuso de
las variables de entrada, dividiéndolos en dos conjuntos difusos originado las siguientes
particiones: el conjunto β1(x) lo divide en los conjuntos difusos trapezoidales cuya fun-
86
Cap. 2
Árboles Difusos de Regresión e Identificación.
ción de pertenencia expresaremos mediante las cuádruplas β1,1(1.12,1.12,2.74,3.32) y
β1,2(2.74,3.32,4.99,4.99) como se muestra en la figura 2.8.
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
1,12
2,74
3,32
4,99
Partición del conjunto difuso µ1 (2.8)
Con los conjuntos difusos de las restantes variables de entrada las divisiones que se
obtienen son las siguientes:
β2 se divide en β2,1(1.1,1.1,2.62,3.29) y β2,2(2.62,3.29,4.96,4.96).
β3 se divide en β3,1(1.02,1.02,2.61,3.28) y β3,2(2.61,3.28,4.96,4.96).
β4 se divide en β4,1(1.01,1.01,2.63,3.32) y β4,2(2.63,3.32,4.94,4.94).
Cada una de la divisiones de los conjuntos difusos de las variables de entrada originan una división de la región original establecida por µ0 en dos regiones nuevas que
dependiendo de la variable que se divida tendremos el valor para ∆RN(Ψ0,xi) según la
ecuación
2.51
tendremos
que :∆RN(Ψ0,x1)=0.6432,
∆RN(Ψ0,x2)=0.5960,
∆RN(Ψ0,x3)=0.8140 y ∆RN(Ψ0,x3)=0.8146. Estos valores nos hacen seleccionar la variable x2 como aquella con la que dividir la región del nodo raíz por la de menor valor.
Una vez seleccionada la variable por la que se ha de dividir la región, se expande el
nodo raíz con dos nuevos hijos (nodos 1 y 2 de la figura 2.9),esto nos configura el nuevo
modelo Ψ1≡{(µ1,2.688),(µ2,1.774)} siendo la definición de µ1 y µ2 según (2.27) :
µ1(x)=min{β1(x1), β2,1(x2), β3(x3), β4(x4)}=β2,1(x2)
µ2(x)=min{β1(x1), β2,2(x2), β3(x3), β4(x4)}=β2,2(x2)
Ahora el modelo Ψ1 tiene establecidas dos regiones difusas, que corresponden a cada
uno de los nodos hoja creados, siguiendo el criterio que nos expone la ecuación 2.45
tomaremos el nodo 2 para expandirlo como ya hemos visto anteriormente con el nodo
87
Cap. 2
Árboles Difusos de Regresión e Identificación.
raíz. Este proceso es repetido hasta alcanzar un valor de RN inferior a 0.25 generándose
una sucesión de 5 modelos que originan el árbol de la figura 2.9 donde en cada nodo
reflejamos la siguiente información :
Número de Nodo: Variable que lo originó
Error local
Porcentaje de ejemplos cubierto
Datos parciales de ADRI Figura (2.9)
Este árbol difuso de regresión e identificación también lo podemos representar como
en la figura 2.10, donde se muestra cada conjunto difuso que origina la división del nodo correspondiente, el tanto por ciento de ejemplos que cubre cada nodo hoja y su salida
asignada (el número que acompaña a cada conjunto difuso corresponde al de nodo).
88
Cap. 2
Árboles Difusos de Regresión e Identificación.
(
−2
ADRI para la función s = 1 + x1 + x 2
) Figura (2.10)
−1, 5 2
Observamos como el árbol obtenido realiza todas las decisiones sobre las variables x1
y x2 para obtener el valor de la ecuación 2.82, despreciando las variables x3 y x4 que
utilizamos para perturbarlo, lo que nos muestra como ADRI se comporta adecuadamente para la identificación de variables relevantes como pretendíamos.
Una vez obtenido el árbol difuso de regresión e identificación ADRI podremos deducir nuevos valores de para la función no lineal. En la figura 2.11 se muestra el proceso
para la obtención del valor de la función en el punto (x1=2,x2=2). Para inferir el valor lo
primero que tendremos que hacer es comprobar el grado de pertenencia que tiene el
punto a los conjuntos difusos que establecen los nodos 1 y 2. Como podemos observar
el valor de x2=2 pertenece completamente al conjunto difuso del nodo 2 (valor de pertenencia igual a 1), esto descarta al nodo 1 (valor de pertenencia igual 0) y a todos sus
descendientes (nodos 7 y 8). Situados sobre el nodo 2 tendremos que el punto pertenece
al nodo 3 en un grado de 0,2413 y al nodo 4 en un grado de 0,7587. En el nodo 4 el valor de la variable x1=2 nos discrimina al nodo 6 con un valor de pertenencia igual a 0
89
Cap. 2
Árboles Difusos de Regresión e Identificación.
frente a un valor de pertenencia de 1 en el nodo 5. Este hecho nos ofrece un valor de
pertenencia al nodo 5 del punto (2,2) igual a min(0.7587,1)=0.7587. Para finalizar los
valores
de
pertenencia
a
los
nodos
9
y
10
son
respectivamente
min(0.7587,0.5172)=0.5172 y min(0.7587,0.4828)=0.4828.
Inferencia para el punto (x1=2,x2=2) Figura (2.11)
Mediante el proceso anterior establecemos una distribución de valores de pertenencia
del punto (2,2) a cada uno de los nodos hoja 3, 6, 7, 8, 9 y 10 con los siguientes valores
0.2413, 0, 0, 0, 0.5172 y 0.4828. Esta distribución origina una salida para el modelo
según la ecuación 2.59 igual a
0.2413 × 1,96108 + 0.5172 × 2.65357 + 0.4828 × 4.04929
= 3,06181
0.2413 + 0.5172 + 0.4828
Construido el árbol podemos extraer como se dice en la sección 2.5 el conjunto de
reglas de consecuente puntual que nos configuraran el modelo difuso inducido. Este
90
Cap. 2
Árboles Difusos de Regresión e Identificación.
conjunto de reglas se muestran en la figura 2.12 donde se encuentra entre paréntesis el
nodo hoja que origina cada regla.
Conjunto de reglas difusas. Figura (2.12)
Como los conjuntos difusos obtenidos para cada una de las variables son trapezoidales el conjunto de reglas anteriores se puede mostrar como una tabla con tres columnas,
donde las dos primeras etiquetan las variables de entrada y la tercera al valor de la función, situando una regla por cada fila de la tabla como se muestra en la figura 2.13
x1
x2
s
(2.74,3.32,4.99,4.99)
(2.62,3.29,4.96,4.96)
1.45011
(1.12,1.12,2.74,3.32)
(2.62,3.39,4.96,4.96)
2.14527
(1.12,1.12,4.99,4.99)
(1.93,2.22,2.62,3.29)
1.966108
(1.85,2.14,2.74,3.3)
(1.1,1.1,1.93,2.22)
2.65537
(1.12,1.12,1.85,2.14)
(1.1,1.1,1.93,2.22)
4.04929
(2.74,3.32,4.99,4.99)
(1.1,1.1,1.93,2.22)
2.6342
Figura (2.13)
91
Cap. 2
Árboles Difusos de Regresión e Identificación.
Para observar la evolución que sufren los distintos modelos Ψ0 hasta el modelo definitivo Ψ5 compuesto por las seis reglas difusas, en la figura 2.14 mostramos las distintas
salidas que nos proporcionan los modelos para el conjunto de datos proporcionado. Para
mostrar gráficamente de estas salidas realizamos una ordenación secuencialmente del
conjunto de los 100 puntos muestra que aparecen en la en la tabla 1, representando mediante unos ejes cartesianos colocando en abscisas el número de orden que ocupa un
punto de la muestra y en ordenadas el valor de la función obtenido para dicho punto.
Salida para el modelo Ψ1
Salida para el modelo Ψ0
Salida para el modelo Ψ3
Salida para el modelo Ψ2
Salida para el modelo Ψ5
Salida para el modelo Ψ4
92
Cap. 2
Árboles Difusos de Regresión e Identificación.
Datos de la tabla 1 versus modelo Ψ5
Evolución del modelo (2.14)
La evolución de los errores, así como las estimaciones de la bondad del modelo se
muestran en las figuras 2.15 y 2.16.
1
0,8
0,6
0,4
0,2
0
1
2
3
4
5
6
100
Evolución del error ∑ (s − Ψ ( x )) (2.15)
2
i
5
i
i =1
100
1
0,5
0
1
2
3
4
5
Evolución del estimador RN (2.16)
Nº Reglas
1
2
3
4
5
6
Error
0,815038
0,570549
0,418789
0,360702
0,279557
0,208361
Estimación
1
0,731306
0,543546
0,481516
0,401243
0,315849
93
6
Cap. 2
Árboles Difusos de Regresión e Identificación.
Como hemos podido ver el modelo inducido Ψ5 posee 6 reglas al igual que el modelo
de Sugeno y Yasukawa[89] para la misma función y con un valor del estimador RN
igual a 0,315849 que nos proporciona un error con valor 0,208361 inferior al error obtenido en el modelo de Sugeno y Yasukawa que era de 0,318.
Para finalizar tomaremos volveremos a tomar los datos de la tabla 1para volver a inducir dos nuevos modelos difusos. Si consideramos ahora un conjunto de etiquetas definidas sobre las variables x1, x2, x3 y x4 , tal como muestra la figura 2.17
1
0,8
0,6
0,4
0,2
0
Aprox 1
Aprox 2
Aprox 3
Aprox 4
Aprox 5
1
2
3
4
5
Etiquetas (2.17)
Tendremos, según no permitamos o permitamos agrupar etiquetas los modelos siguientes: 17 reglas y un error de 0,151809 o 5 reglas con un error de 0,137176, para
unos valores de los estimadores RN de 0,376321 y 0,.308704 respectivamente. Los modelos obtenidos son los siguientes :
Modelo con 17 reglas:
X1\X2
1
2
3
4
5
1
4,500
3,661
2,657
2,812
3,044
2
4,267
2,890
2,288
2,175
2,199
3
1,778
4
2,960
2,066
1,536
1,445
1,3824
5
1,666
En la tabla anterior presentamos el valor de la regla “si x1 es aproximadamente 1 y x2
es aproximadamente 2” en la casilla (1,2).
Modelo con 5 reglas:
Si x1 es aproximadamente 1 y x2 es aproximadamente 1 o 2 entonces s=4.39153
Si x1 es aproximadamente 2 o 3 o 4 o 5 y x2 es aproximadamente 3 o 4 o 5 entonces s=1.63668
Si x1 es aproximadamente 1 y x2 es aproximadamente 3 o 4 o 5 entonces s=2.96548
Si x1 es aproximadamente 2 y x2 es aproximadamente 1 o 2 entonces s=2.93596
Si x1 es aproximadamente 3 o 4 o 5 y x2 es aproximadamente 1 o 2 entonces s=2.41681
94
&DStWXOR
Aplicación de ADRI al modelado
de sistemas económicos. Series
temporales.
3.1 Introducción.
La demanda de toda clase de recursos por parte de los individuos o grupos que componen la sociedad es ilimitada. Por contra, los recursos que pueden ser generados o producidos por esta misma sociedad son escasos y limitados y esto produce una insatisfacción en los individuos que no pueden ver cubiertas sus demandas por los bienes producidos. Para intentar paliar esta insuficiencia y ante la imposibilidad de eliminarla, la
sociedad se ve abocada a la necesidad de optar por intensificar la producción de unos
determinados recursos en decremento de otros[63].
Esta elección se realiza valorando el grado de satisfacción que producirán en el conjunto de la sociedad, intensificando la producción de aquellos recursos que sean mayoritariamente demandados, y disminuyendo o eliminado totalmente la producción de los
recursos menos demandados.
Los problemas derivados de esta elección originada por la escasez de recursos son los
que trata la economía, que en términos generales se define como la ciencia[63] que se
ocupa de:
1) La asignación de los recursos de una sociedad entre sus usos alternativos y la distribución de su producción entre los individuos y grupos que la integran.
2) El modo como la producción y la distribución cambian a lo largo del tiempo.
3) La eficacia o ineficacia del sistema económico.
Estos objetivos obligan a explicar y modelar el comportamiento de la sociedad mediante teorías económicas. El comportamiento de las personas , que en definitiva configuran el comportamiento de una sociedad, es extremadamente complejo e imprevisible.
Delimitar las condiciones que afectan a las decisiones que una persona puede tomar ante
una circunstancia concreta es una tarea muy compleja. Existen multitud de condicio-
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
nantes mentales y socioeconómicos que llevan a que distintas personas ante circunstancias similares actúen de forma distinta estableciendo la imposibilidad de predecir una
actuación concreta.
La necesidad de realizar tratamientos cuantitativos y ante la imposibilidad de realizar
experimentos controlados (lo que de algún modo deja a la economía fuera de las ciencias experimentales), ha obligado a optar por un modelado matemático de sus teorías,
permitiendo que éstas puedan ser contrastadas mediante el uso de la gran cantidad de
datos que la actividad económica genera. El uso de modelos matemáticos basados en
técnicas estadísticas, en los que se intenta reflejar el carácter no determinista del comportamiento humano, determinan el nacimiento de una rama de la economía denominada econometría.
Ejemplo de modelos matemáticos que son empleados en algún estudio econométrico
pueden ser : la curva logística (ecuación 3.1) que analiza el crecimiento para cada momento del tiempo t de una población Yt que se desarrolla en un espacio finito K. El modelo Input-Output (ecuación 3.2) donde A es una matriz de coeficientes técnicos, X es
un vector fila de valores de la producción de cada sector productivo y D es el vector
columna de la demanda final de la correspondiente tabla (I-O). El modelo CobbDouglas (ecuación 3.3) que trata de explicar el volumen de producción X mediante la
cantidad de trabajo W y el stock de bienes de capital, donde w y c son las elasticidades
del trabajo y del capital y T es la tasa anual de crecimiento de la tendencia residual.
Y=
K
1 + eb − at
(3.1)
X = ( I − A) −1 D
(3.2)
X = kW wC c eTt
(3.3)
En términos generales, cualquier modelo econométrico pueden formularse como una
función matemática Ψ que describe la estructura y comportamiento de un sistema real
Ξ que tiene una o varias variables económicas S de salida, en las cuales estamos interesados, mediante otras variables económicas X de entrada
96
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
Ψ( X , P) = S
(3.4)
siendo P un conjunto de parámetros que servirán para ajustar el modelo definido al sistema real Ξ.
Ξ( X ) = S
(3.5)
En esta forma de actuar, a la hora de definir un modelo económico, podemos destacar
los siguientes aspectos que pueden llegar a ser inconvenientes serios en el proceso de
ajuste.
• El comportamiento del sistema se ha de presuponer a priori. Esto quiere decir que
las características de la función matemática se han de fijar fundamentalmente mediante un proceso deductivo, en el cual pueden influir las distintas percepciones
que tengan el investigador que lo realiza. El investigador económico propone una
teoría que explica o justifica un problema económico.
• Los datos que genera la actividad económica referentes al sistema Ξ, son utilizados básicamente para realizar un ajuste de los parámetros que estructuran el modelo, y no interfieren de manera decisiva en su construcción, salvo en algunas ocasiones para descartar la hipótesis iniciales y obligar a rehacer un nuevo modelo o
teoría.
• Los funciones matemáticas como modelo son muy precisas pero poco descriptivas
del sistema que representan en términos generales.
• Las técnicas de ajuste que se han de realizar son muy dependientes del tipo de
función elegida como modelo, lo que obliga en algunas ocasiones a optar por el
empleo modelos fácilmente ajustables aunque éstos no reflejen con gran fidelidad
el sistema real.
Si consideramos una función distancia d que mida el error que cometemos en nuestro
modelo el ajuste se puede formular en términos de encontrar los valores de los parámetros P que verifiquen:
97
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
∂d ( Ψ( X , P), Ξ( X ))
=0
∂P
(3.6)
lo que refleja la dependencia total existente entre la definición del modelo y su mecanismo de ajuste, que dependiendo de Ψ puede llegar a ser muy complejo y costoso.
Como alternativa a esta forma clásica de construcción de y validación de las teorías
econométricas y para paliar sus inconvenientes, parece razonable pedir métodos de
creación y ajuste de modelos que reflejen los las siguientes característica :
1) La estructura del modelo ha de surgir de los datos observado del sistema, mediante un proceso totalmente inductivo.
2) El mecanismo de creación del modelo ha de ser uniforme e independiente de los
diferentes sistemas que se quieran modelar. Ha de ser general.
3) El modelo obtenido debe tener una alta capacidad descriptiva.
4) La utilización del modelo ha de ser simple.
Para conseguirlo, en primer lugar vamos a cambiar de tipo de modelo. Optaremos por
modelos difuso basados en reglas como los expuestos en el primer capítulo de este trabajo. Estos modelos por estar compuestos por reglas, que usualmente tienen una expresión lingüística y por ende semántica en términos reales, son muy descriptivos,
generales y con la propiedad de que fijado un mecanismo de inferencia y un tipo de regla, los modelos de diferentes sistemas únicamente sólo se diferencia en la expresión
concreta de las reglas que lo componen.
Este tipo de modelos difusos basados en un conjunto de reglas han sido estudiados
por Castro[10] y otros autores que los proponen como mecanismos universales de aproximación de funciones, por las características que poseen.
En segundo lugar como mecanismo de inducción de estos modelos difusos postulan
el uso de los árboles difusos de regresión e identificación (ADRI) que describimos en el
capítulo segundo, ya como vimos en el capítulo 2 su proceso de construcción está basa-
98
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
do exclusivamente en los datos conocidos del sistema, permitiéndonos inducir la estructura y ajustar el modelo.
Para ilustrar nuestros desarrollos y comprobar nuestras afirmaciones nos centraremos
en el estudio de series temporales. Este problema ha sido muy estudiado por los economistas debido a la gran dependencia temporal que suelen tener las magnitudes económicas. En la sección siguiente presentaremos los enfoques y modelos básicos que se utilizan en econometría para definir este tipo de modelos, presentando al final del mismo el
uso alternativo de los modelos difusos y más concretamente la inducción de estos modelos mediante el uso de ADRI. Para terminar el capítulo tomaremos algunas series macroeconómicas modelizadas mediante las técnicas clásicas en el modelo MOISEES[12]
de la economía española y presentaremos los resultados de su modelización alternativa a
través de la inducción de modelos difusos .
3.2 Series temporales.
3.2.1 Modelos funcionales.
Uno de los modelos matemáticos que se han utilizado para reflejar el comportamiento de series temporales son los modelos de funciones lineales. Dos clases importantes de los modelos lineales para series temporales son : a) el modelo de medias móviles y b) el modelo autorregresivo. Si et es una serie, donde et refleja el valor de la
magnitud e en el tiempo t, un ejemplo de un modelo de media móvil será
yt = et + c1et −1 + c2 et − 2
(3.7)
que se denota como MA(2), donde el índice 2 indica el retardo en el tiempo que es necesario para la explicación del valor serie yt mediante la serie et. Un ejemplo de un modelo
autorregresivo será
yt = a1 yt −1 + a2 yt − 2 + et
(3.8)
Este modelo se denota como AR(2) donde el índice refleja de nuevo el retraso necesario para valorar la salida en un tiempo. En este caso esta salida es dependiente de la
obtenida en un tiempo anterior, además del de la serie et.
99
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
Un modelo general que agrupa los aspectos de las medias móviles, dependencia en
otros periodos de tiempo de valores de otra serie, y el autorregresivo, dependencia de su
propios valores en otros periodos anteriores, es el denominado ARMA(p,q) que agrupa
en un único modelo a AR(p) y MA(q). Un ejemplo de un modelo ARMA(2,3) será
yt = a1 yt −1 + a2 yt − 2 + et + c1et −1 + c2 et − 2 + c3et − 3
(3.9)
La generalización de este modelo, introduciendo la influencia de otro conjunto de series en distintos momentos de tiempo, se denomina ARMAX será
p
r
q
j =1
j =1
j =1
yt = ∑ a j yt − j + ∑ d j xt − j + ∑ c j et − j + et
(3.10)
donde xt es un vector de otras variables.
Si consideramos problemas multidimensionales donde yt y et son vectores de variables , tendremos el modelo denominado VAR que vendrá expresado como
p
yt = ∑ a j yt − j + et
(3.11)
j =1
donde yt,et son vectores de n componentes y cada aj es una matriz cuadrada de nxn.
La determinación de los parámetros en todos estos modelo lineales se realiza empleando el método de ajuste por mínimos cuadrados que en términos generales consiste
en determinar los valores reales de los parámetros bj j=0...1, que determinan los coeficientes del modelo lineal, que verifiquen la ecuación 3.12.
2
m


∂ ∑  y i − (b0 + ∑ b j x ij )

i =1 
j =1
=0
∂v∂b1∂bm
N
(3.12)
Considerando este mismo problema mediante su formulación matricial tendremos
que Y=XB, tal que
100
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
 b0 
1 x11
 y1 
b 

 
1
Y =   B =   X =  
1 x1N
yN 
 

 
bm 
x1m 


xmN 
(3.13)
Resolviendo la ecuación matricial tendremos la solución clásica para obtener el vector B de parámetros como
(
B = XT X
)
−1
Y
(3.14)
Una solución alternativa consisten en utilizar un proceso iterativo (Filtro de Kalman)
para el cálculo del vector de coeficientes. Notemos como xi el vector fila i-ésimo de la
matriz X e yi al elemento i-ésimo de Y. El procesamiento de i puntos conocidos nos
ofrece un vector de parámetros Bi definido como
B i = B i −1 + K i ( y i − x i B i −1 )
Ki =
P i −1 x i
( )
1 + xi
P i = P i −1 − P i −1
T
P i −1 x i
x i ( x i )T
P i −1
1 + ( x i )T P i − 1 x i
(3.15)
(3.16)
(3.17)
donde B0=0 y P0=Iα siendo α un valor real muy grande.
Los modelos anteriores AR(p) y MA(q) se extienden a esquemas no lineales, permitiendo cualquier tipo de función que relacione su variables. Con esta generalización obtenemos los modelos NLAR(p) ,NLMA(q) y NLARMA(p,q) como combinación de ambos.
NLAR( p ) ≡ yt = f ( yt − j , j = 1 p ) + et
(3.18)
NLMA( q) ≡ yt = g ( et − j , j = 1 q ) + et
(3.19)
NLARMA( p, q) ≡ yt = h( yt − j , et − i , j = 1 p, i = 1 q )
(3.20)
101
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
Como ejemplo concreto de un modelo NLARMA podemos considerar (ecuación
3.21) el modelo bilineal BL(p,q,r,s)
p
q
j =1
i =1
r
s
yt = ∑ a j yt − j + ∑ bi et − i + ∑ ∑ ci , j yt − i et − j + et
(3.21)
i = 1 j =1
Un grupo importante de modelos intentan reflejar la existencia de una memoria lejana en el comportamiento de las series, en términos de la acumulación de los valores de
la serie durante un período de tiempo, denominándose a este tipo de modelos de series
integradas. Consideremos un par de series xt y et que sigue un modelo AR(1) como el
indicado en la ecuación 3.22
xt = axt −1 + et
(3.22)
donde -1< a <1. Las series xt que verifican estas condiciones se dice que son estacionarias. Supongamos que una tercera serie yt es generada por la ecuación 3.23
yt − yt −1 = xt
(3.23)
Entonces la serie yt puede ser reescrita como
t −1
yt = ∑ xt − j + y0
(3.24)
j =0
Como yt esta formada por una sumatoria de términos de la serie xt se le denomina serie integrada. La serie estacionaria xt es obtenida mediante una diferencia entre dos valores consecutivos de yt, característica que hace que la serie yt se nombre como serie integrada de orden uno y se denota por I(1), mientras la serie xt al no está formada por ninguna acumulación sería una serie no integrada o I(0).
La ecuación 3.22 puede ser reescrita como se muestra en la ecuación 3.25
(1 − aL) xt = et
(3.25)
obteniendo la forma que refleja la ecuación 3.26 para la serie integrada de orden uno yt .
(1 − aL)(1 − L) yt = et
102
(3.26)
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
Una extensión importante de esta idea ocurre cuando se tiene un par series y1t e y2t
que son I(1) y una tercera zt que está formada por una combinación lineal ambas y es
I(0) como muestra la ecuación 3.27
zt = y1t − ay2t
(3.27)
Se dicen que las series y1t e y2t son cointegradas[42] si están representadas por los siguientes modelos
y1t = aWt + ~
y 1t
y2 t = Wt + ~
y2 t
(3.28)
donde ~
y1t e ~
y2 t son I(0) y Wt es I(1). El uso de las modelización de series temporales mediante series cointegradas tiene gran difusión entre los econometras debido a los
mecanismos de corrección de errores[42], en los cuales se postula un comportamiento
de la serie en términos generales o tendencia a largo plazo, que es corregida mediante
actuaciones locales o de corto plazo.
La exposición de estos modelos no ha pretendido ser exhaustiva y con ella sólo hemos pretendido introducir el problema de la obtención de modelos que reflejen series
temporales, así como los métodos de trabajo más elementales que se han utilizado para
dicha tarea. La elección de un modelo concreto para un determinado sistema no solamente consiste en adoptar el modelo y pasar a un posterior ajuste, sino que antes es necesario verificar gran cantidad de condiciones, que en algunos casos llegan a ser muy
complejas o de difícil comprobación. Esto obliga a un estudio previo para seleccionar el
modelo que mejor se adecue y posteriormente ajustarlo a los datos. Cuanto mayor sea el
número de modelos que poseamos mayor será el éxito que tengamos ; pero la existencia
de multitud de modelos implica una mayor complejidad en estos por lo que serán más
difíciles de calcular y comprender.
En la siguiente sección planteamos la utilización de un modelo alternativo fundamentado en los modelos difusos de reglas. Este enfoque diferente consistente en la utilización de el método de inducción ADRI, nos va a permitir construir modelos lingüísticos para la representación de series temporales, al mismo tiempo que unificar todos los
modelos en único modelo que sea capaz de tratar todos los aspectos que involucran el
103
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
estudio de series temporales. La unificación en un modelo nos proporcionará la ventaja
de contar con una forma uniforme de tratar todos los problemas.
3.2.2 Modelo Difuso. Empleo de ADRI.
Algunos de estos modelos han sido ampliados permitiendo que los parámetros que lo
definan sean conjuntos difusos, en realidad estas técnicas no proponen un modelo difuso, sino que utilizan la capacidad de representar una cierta incertidumbre y vaguedad
que poseen los conjuntos difusos para establecer los parámetros de los modelos funcionales clásicos. Por contra, nosotros planteamos la utilización de un modelo difuso, basado en un conjunto de reglas difusas de consecuente puntual como modelo general para
la aproximación de series temporales. La estructura y el ajuste del modelo se inducirá
mediante ADRI por medio del conjunto de valores conocidos de las series, tras lo que
extraeremos el conjunto de reglas difusas que nos configurarán un modelo.
El modelo difuso construido de esta forma reflejará el comportamiento de un sistema
MISO (serie temporal), donde la salida del mismo son los valores de la serie estudiada y
las variables de entrada serán el conjunto de series con las que pretendemos justificar el
comportamiento del sistema. Estas variables de entrada pueden ser tanto series contempladas en el mismo tiempo, o en cualquier lapsus de tiempo anterior. Por ejemplo si
consideramos un modelo ARIMAX(p,q) tendremos el conjunto de variables x más et-j
para j=0...q e yt-i para i=1...p como variables de entrada del modelo.
Una de las ventajas que tiene este mecanismo de construcción del modelo mediante
la técnica de ADRI, es que no necesitamos conocer a priori cuales son las variables
exactas que van intervenir en la definición de la serie, ya que el propio mecanismo de
construcción de ADRI nos delimitará cuales son. En este caso sólo nos hemos de preocupar de asegurarnos que éstas estén en el conjunto de variables de entrada.
Este modelo funciona como un aproximador universal de la serie estudiada y por ello
proporciona un mecanismo de interpolación para valores desconocidos de entrada. Estos
valores han de estar comprendidos en los rangos conocidos de las variables de entrada,
ya que al ser construido el modelo de forma inductiva mediante un conjunto de valores
concreto que delimita un espacio de entrada su conocimiento sobre valores fuera de ese
dominio es nulo. Si estamos interesados en construir modelos que no sólo sirvan para la
104
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
interpolación de valores, sino que también puedan actuar con valores fuera de los dominios conocidos, es decir, puedan extrapolar dichos valores, nos hemos de centrar no en
los datos de las series a estudiar sino en la evolución de las mismas. En otras palabras,
las variables del modelo se han de considerar como los incrementos de las series en lugar del valor de las propias series.
Para aplicar y ver el comportamiento de este método de modelado de series temporales hemos tomado varias series macroeconómicas como son el deflactor del PIB a precio de mercado, el consumo nacional privado en España y el salario , descritas en el
modelo MOISEES (modelo econométrico de las series representativas de la macroeconomía española), y hemos aplicado el mecanismo de inducción de ARDI obteniendo
sus modelos difusos. En la sección siguiente presentamos los resultados obtenidos, con
una breve descripción de las series estudiadas y los modelos propuestos por MOISEES,
y los modelos difusos inducidos mediante ADRI, así como las similitudes y discrepancias entre los ambos.
3.3 ADRI aplicado a varias series macro económicas.
3.3.1 Deflactor del PIB a precio de mercado.
3.3.1.1 Deflactor del PIB a precio del mercado en MOISEES.
El deflactor del PIB a precios de mercado se obtiene a partir del deflactor del PIB al
coste de los factores y de los tipos efectivos medios de los impuestos ligados a la producción e importación, así como del correspondiente a las subvenciones de explotación.
Se estima una relación como
(1 − L) log( pt ) = a 0 + a1 (1 − L) log( pcf t ) + a 2 (1 − L) log(1 + Temtp t )
+ a 3 (1 − L) log(1 + Temtmt ) + a 4 (1 − L) log(1 + Temsut ) + U t
(3.29)
donde p es el deflactor del PIB a precios de mercados, pcf es el deflactor del PIB a
coste de los factores y Temtp, Temtm y Temsu son los tipos efectivos medios de los
impuestos ligados a la producción, importación y subvenciones de explotación respectivamente.
El tipo efectivo medio de los impuestos ligados a la producción se define como
105
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
Temtp =
TP
CPN − TP
(3.30)
donde TP son los impuestos ligados a la producción y CPN es el consumo privado
nacional en precios corrientes de cada año.
El tipo efectivo medio de los impuestos ligados a la importación se define igualmente
como
Temtm =
TM
M − TM
(3.31)
donde TM son los impuestos ligados a la importación y M son las importaciones de
bienes y servicios (en terminología del Sistema de Contabilidad Nacional SCN) en precios corrientes.
Por otra parte se define
Temsu =
Sub
CPN − Sub
(3.32)
donde Sub son las subvenciones de explotación.
En base a la relación expresada mediante la ecuación 3.29 y a la característica de que
son series cointegradas[42], se estima un modelo de corrección de error , según los datos
de la tabla 4 ,como el siguiente
(1− L) 2 log( pt ) = b1 (1 − L) 2 log( pcf t ) + b2 (1− L) 2 log(1+ Temtpt ) +
b3 (1− L) 2 log(1+ Temtmt )b4 (1− L) 2 log(1+ Temsut ) + b5 [(1− L)log( pt −1) −
a0 − a1 (1− L)log( pcf t −1) − a2 (1 − L)log(1 + Temtpt −1) − a3 (1− L)log(1 + Temtmt −1) −
a4 (1− L)log(1+ Temsut −1)] + et
con los siguientes valores para los parámetros
106
(3.33)
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
Parámetro
a0
a1
Valor
0,004
0,985
Estadístico "t"
3,9
103,5
a2
a3
a4
b1
b2
b3
b4
b5
0,141
0,240
-0,927
0,969
0,316
0,202
-0,505
-1,049
2,1
5,0
-4,0
45,1
6,2
7,2
-4,6
-6,3
SEE=0.0023
R = 0,991
Como podemos observar la estimación de las segundas diferencias del logaritmo del
deflactor del PIB a precio de mercado (1-L)2log(pt), mediante la técnica de corrección de
errores de series cointegradas, nos proporciona una ecuación 3.33 estructurada en dos
partes: un primer conjunto de sumandos cuyos coeficientes son b1 hasta b4 que reflejan
el comportamiento de la serie a corto plazo, y un segundo conjunto de sumandos con
coeficientes a0 hasta a4 que reflejan el comportamiento a largo plazo.
En otros términos podríamos pensar que el primer grupo de sumando es el ajuste a
corto plazo (o corrección del modelo) que se realiza de la serie, siendo el segundo conjunto una aproximación del comportamiento a largo plazo o tendencia general de dicha
serie. En definitiva se modeliza la serie y el error que se comete con dicho modelo.
Estos lo podemos ver reflejado en las figuras 3.1 y 3.2 donde la función a aproximar
se representa mediante trazo continuo y la aproximación discontinuo.
107
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
0,08
0,06
0,04
0,02
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
-0,02
-0,04
-0,06
Corto plazo Figura(3.1)
0,01
0,008
0,006
0,004
0,002
0
-0,002
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20 21 22 23
-0,004
-0,006
-0,008
-0,01
Serie original menos el ajuste a corto plazo frente al comportamiento a largo plazo Figura (3.2)
Agregando el resultado de las dos aproximaciones, modelo de la serie y modelo del
error cometido, se obtiene el modelo final con corrección de errores como representa la
figura 3.3.
108
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
0,08
0,06
0,04
0,02
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
-0,02
-0,04
-0,06
Modelo con corrección de errores Figura (3.3)
3.3.1.2 Estimación del deflactor del PIB a precio de mercado mediante
ADRI.
En este primer caso, donde el modelo propuesto por MOISEES describe la evolución
de la tendencia del deflactor del PIB a precios de mercado, utilizaremos la capacidad
para la regresión de funciones que ofrece ADRI. Con el objetivo de poder obtener resultados que sean comparables a los expuestos por el modelo de MOISEES, tomaremos
como variables las mismas que intervienen en él. Estas variables nos ofrecen el conjunto
de datos de la tabla 4, que serán los datos de entrada sobre los que induciremos el modelo difuso.
Concretamente en este ejemplo observamos que las series utilizadas por MOISEES
son series cointegradas, característica que es utilizada para abordar el problema de su
ajuste mediante las técnicas de corrección de errores[42] que proporcionan dichas series.
Esta forma de ajuste del modelo nos su la siguiente técnica de actuación:
1. - Inducir un modelo difuso Ψ que exprese el comportamiento de los datos estudiados.
2. - Obtener el error cometido cuando es utilizado el modelo sobre el conjunto de
datos.
3. - Inducir un nuevo modelo difuso ΨE que modele el error que cometemos al utilizar el modelo Ψ.
109
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
4. - Construir mediante la agregación de los modelos Ψ y ΨE un modelo general Ψ'
donde quede reflejado el comportamiento de Ψ considerando los errores cometidos mediante el uso conjunto del modelo ΨE.
Con este método de trabajo, lo primero que hacemos es construir el modelo Ψ mediante la inducción de ADRI. Esto nos proporciona un árbol difuso de regresión e identificación del cual extraemos un conjunto de 12 reglas difusas (tabla 3.4) que configuran
dicho modelo.
110
R1
(1-L)2log(1+Temtpt) -0,04458
-0,00862
0,02852
0,02852
(1-L)2log(1+Temsut) -0,01157
-0,01157
0,01058
0,01058
2
(1-L) log(pfct)
-0,03639
-0,03639
-0,03429
-0,02237
(1-L)log(pt-1)
0,04296
0,04296
0,20841
0,20841
2
(1-L) log(pt)
-0,02939
R2
-0,04458
-0,00862
0,02852
0,02852
-0,01157
-0,01157
0,01058
0,01058
-0,03429
-0,02237
-0,01842
-0,00731
0,04296
0,04296
0,20841
0,20841
-0,02126
R3
-0,04458
-0,04458
0,02852
0,02852
-0,01157
-0,01157
-0,00029
0,00253
-0,01842
-0,00731
-0,00731
-0,00381
0,04296
0,04296
0,10383
0,13258
-0,02324
R4
-0,04458
-0,04458
0,02852
0,02852
-0,01157
-0,01157
-0,00029
0,00253
-0,01842
-0,00731
-0,00731
-0,00381
0,10383
0,13258
0,20841
0,20841
-0,00220
R5
-0,04458
-0,04458
0,02852
0,02852
-0,01157
-0,01157
0,01058
0,01058
0,02987
0,05283
0,05283
0,05823
0,04296
0,04296
0,20841
0,20841
0,03781
R6
-0,04458
-0,04458
0,02852
0,02852
-0,01157
-0,01157
0,01058
0,01058
0,05283
0,05823
0,05823
0,05823
0,04296
0,04296
0,20841
0,20841
0,05553
R7
-0,04458
-0,04458
0,02852
0,02852
-0,00029
0,00253
0,01058
0,01058
-0,01842
-0,00731
-0,00731
-0,00381
0,04296
0,04296
0,20841
0,20841
-0,00622
Conjunto de reglas para el modelo Ψ . Figura (3.4)
R8
-0,04458
-0,04458
0,02852
0,02852
-0,01157
-0,01157
0,01058
0,01058
0,00100
0,01633
0,01810
0,02248
0,04296
0,04296
0,20841
0,20841
0,01472
R9
-0,04458
-0,04458
0,02852
0,02852
-0,01157
-0,01157
0,01058
0,01058
0,01810
0,02248
0,02987
0,05283
0,04296
0,04296
0,20841
0,20841
0,02669
R10
-0,04458
-0,00862
0,02852
0,02852
-0,01157
-0,01157
0,01058
0,01058
-0,03639
-0,03639
-0,01842
-0,00731
0,04296
0,04296
0,20841
0,20841
-0,00933
R11
-0,04458
-0,04458
0,02852
0,02852
-0,01157
-0,01157
0,01058
0,01058
-0,00731
-0,00381
0,00100
0,01633
0,04296
0,04296
0,20841
0,20841
0,00024
R12
-0,04458
-0,04458
-0,04458
-0,00862
-0,01157
-0,01157
0,01058
0,01058
-0,03639
-0,03639
-0,01842
-0,00731
0,04296
0,04296
0,20841
0,20841
-0,04590
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
Utilizando el mismo conjunto de datos podemos ver como se comporta el modelo difuso creado Ψ frente a los valores correctos la tendencia de cambio del deflactor del PIB
a precios de mercado. En la figura 3.5 representamos mediante una línea discontinua los
valores que el modelo difuso Ψ nos ofrece frente a los valores reales que se han querido
modelar.
0,06
0,04
0,02
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20 21 22 23
-0,02
-0,04
-0,06
Aproximación de (1-L)2log(pt) mediante el modelo difuso Ψ. Figura (3.5)
Esta aproximación produce un SEE=√E=0,003986 (error medio) , que es superior al
estimado por el modelo de MOISEES.
Considerando que estamos ante un método con corrección del error, en analogía con
el utilizado las series cointegradas, podremos interpretar el conjunto de reglas obtenido
como el comportamiento del modelo a corto plazo como veíamos en MOISEES (figura
3.1). Si denominamos Ξ a la serie que queremos aproximar, el error que cometeremos
será ERROR(t)=Ξ(t)-Ψ(t). El comportamiento de la función ERROR(t) para nuestro
modelo Ψ se refleja en la figura 3.6.
112
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
0,014
0,012
0,01
0,008
0,006
0,004
0,002
0
-0,002
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
-0,004
-0,006
Error del modelo Ψ Figura. Función ERROR(t) (3.6)
Sea ERROR(t) como un nuevo sistema y construyamos para él un modelo difuso ΨE
utilizando los mismos datos iniciales. Induciendo un nuevo árbol difuso de regresión e
identificación , extraemos el conjunto de 12 reglas (figura 3.7) que configuran el modelo
difuso ΨE. Este modelo proporciona una aproximación al comportamiento del error que
cometemos con la utilización del modelo Ψ.
El modelo ΨE refleja el comportamiento del error cometido (ERROR(t)) con un valor para el error promedio cometido de SEE=0,001655376. En la figura 3.8 mostramos
,mediante una línea discontinua, los valores del modelado del error cometido, modelo
ΨE, al utilizar Ψ frente al error real Ξ-Ψ.
113
R1
(1-L) log(1+Temtmt) -0,0474
-0,0474
0,0416
0,0416
2
(1-L) log(1+Temsut) -0,0116
-0,0116
-0,0003
0,0025
(1-L)2log(pcft)
-0,0364
-0,0364
0,0010
0,0163
(1-L)log(1+Temsut-1) -0,0020
-0,0002
0,0001
0,0017
(1-L)log(pcft-1)
0,0377
0,0377
0,2110
0,2110
ERROR
0,0011
2
R2
-0,0474
-0,0474
0,0416
0,0416
-0,0116
-0,0116
-0,0003
0,0025
0,0010
0,0163
0,0582
0,0582
-0,0020
-0,0002
0,0001
0,0017
0,0377
0,0377
0,2110
0,2110
0,0032
R3
-0,0019
0,0117
0,0416
0,0416
-0,0116
-0,0116
-0,0003
0,0025
-0,0364
-0,0364
0,0582
0,0582
0,0001
0,0017
0,0025
0,0030
0,0377
0,0377
0,1077
0,1329
0,0053
R4
-0,0019
0,0117
0,0416
0,0416
-0,0116
-0,0116
-0,0003
0,0025
-0,0364
-0,0364
0,0582
0,0582
0,0001
0,0017
0,0025
0,0030
0,1077
0,1329
0,2110
0,2110
-0,2239
R5
-0,0474
-0,0474
-0,0019
0,0117
-0,0003
0,0025
0,0106
0,0106
-0,0364
-0,0364
0,0582
0,0582
-0,0066
-0,0066
0,0001
0,0017
0,0377
0,0377
0,2110
0,2110
-0,0032
R6
-0,0474
-0,0474
-0,0019
0,0117
-0,0003
0,0025
0,0106
0,0106
-0,0364
-0,0364
0,0582
0,0582
0,0001
0,0017
0,0083
0,0083
0,0377
0,0377
0,2110
0,2110
-0,0002
R7
-0,0474
-0,0474
0,0416
0,0416
-0,0066
-0,0029
-0,0003
0,0025
-0,0364
-0,0364
0,0582
0,0582
-0,0066
-0,0066
-0,0020
-0,0002
0,0377
0,0377
0,2110
0,2110
0,0123
R8
-0,0474
-0,0474
0,0416
0,0416
-0,0116
-0,0116
-0,0066
-0,0029
-0,0364
-0,0364
0,0582
0,0582
-0,0066
-0,0066
-0,0020
-0,0002
0,0377
0,0377
0,2110
0,2110
0,0130
R9
-0,0019
0,0117
0,0416
0,0416
-0,0116
-0,0116
-0,0003
0,0025
-0,0364
-0,0364
0,0582
0,0582
0,0025
0,0030
0,0030
0,0056
0,0377
0,0377
0,2110
0,2110
-0,0002
Conjunto de reglas difusas del modelo ΨE. Figura (3.7)
R10
-0,0474
-0,0474
-0,0019
0,0117
-0,0116
-0,0116
-0,0003
0,0025
-0,0364
-0,0364
0,0582
0,0582
0,0001
0,0017
0,0030
0,0056
0,0377
0,0377
0,2110
0,2110
-0,0027
R11
-0,0019
0,0117
0,0416
0,0416
-0,0003
0,0025
0,0106
0,0106
-0,0364
-0,0364
0,0582
0,0582
-0,0066
-0,0066
0,0083
0,0083
0,0377
0,0377
0,2110
0,2110
0,0014
R12
-0,0474
-0,0474
0,0416
0,0416
-0,0116
-0,0116
-0,0003
0,0025
-0,0364
-0,0364
0,0582
0,0582
0,0030
0,0056
0,0083
0,0083
0,0377
0,0377
0,2110
0,2110
0,0012
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
0,014
0,012
0,01
0,008
0,006
0,004
0,002
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20 21 22 23
-0,002
-0,004
-0,006
ΨE frente a ERROR Figura (3.8)
Para concluir agregaremos la información que nos proporciona el modelo ΨE al modelo inicial Ψ. El sistema Ξ estudiado puede componerse como la aproximación mediante el modelo difuso Ψ más el error cometido, es decir Ξ(x)=Ψ(x)+ERROR(x). Como hemos estimado el error que produce nuestro modelo inicial Ψ mediante un modelo
difuso ΨE, podremos incorporar la información de los dos modelos para formar un único modelo Ψ' del sistema Ξ
Ψ '(x ) = Ψ (x ) + ΨE (x )
(3.34)
que podríamos representar mediante un diagrama de bloques como en la figura 3.9
X
Ψ
Σ
ΨE
Modelo Ψ' Figura (3.9)
Los resultados de la estimación de (1-L)2log(pt) mediante el modelo difuso Ψ' ofrecen un valor del error promedio cometido de SEE=0,0016537, mejorando sensiblemente
115
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
el valor SEE=0,0023 del modelo de corrección de error (ecuación 3.33) proporcionado
por MOISEES.
En la figura siguiente (3.10) mostramos el comportamiento del modelo difuso Ψ'
obtenido mediante una línea discontinua frente a los datos reales de la tabla 4.
0,06
0,04
0,02
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20 21 22 23
-0,02
-0,04
-0,06
Modelo Ψ' de corrección de error .Figura (3.10)
Los resultados obtenidos nos permiten afirmar que el modelo obtenido es un buen
mecanismo de regresión. También hemos de destacar la incorporación del modelado del
error para conseguir un mayor ajuste sin aumentar la complejidad del sistema, ya que los
dos modelos Ψ y ΨE son de complejidades similares, considerando la complejidad del
modelo difuso en base al número de reglas y variables que lo definen, y la inferencia se
realiza de forma independiente (en paralelo) en cada uno de ellos, por lo que la complejidad global del modelo Ψ' vendrá dada por la mayor de las complejidades de los modelos que lo integran.
La incorporación de un nuevo modelo difuso que nos permite ajustar mejor el modelo inicial tampoco produce una complicación sobre la creación del modelo inicial, ya
que es el mismo método y los mismos datos (salvo los valores de la función que queremos aproximar) los utilizados. Esto nos conduce a afirmar que la inducción mediante
ADRI de los modelos Ψ y ΨE nos proporciona un método simple y general de regresión.
116
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
En relación a los modelos obtenidos, destacamos como nuestro modelo de aproximación Ψ de la serie posee como variables de entrada la mayoría de las variables que definían el ajuste a corto plazo del modelo de MOISEES, mientras que en el modelo del
error ΨE el conjunto de variables que interviene participa de ambos modelos de MOISEES como son variables que definen el modelo a largo plazo ((1-L)log(1+Temsut-1) y
(1-L)log(pcft-1)) como variables de ajuste de corto plazo.
Esta diferencia en el tratamiento a largo plazo o tendencia general de la serie viene
originada en las distintas concepciones de los modelos, mientras en el modelo MOISEES esta se postula en un principio y es corregida por el comportamiento a corto plazo, en el modelo difuso Ψ' al no cuestionarse un modelo inicial del comportamiento de
la tendencia del deflactor del PIB a precios de mercado sólo intenta reflejar lo más fielmente posible los datos referentes a los cambios de esta tendencia.
3.3.2 Consumo Nacional Privado.
3.3.2.1 Consumo nacional privado en MOISEES.
En el modelo MOISEES[1] la especificación de la función de consumo privado nacional se realiza mediante el análisis de la relación a largo plazo entre el consumo y sus
determinantes y, a partir de ella, modeliza el corto plazo como un mecanismo de corrección del error.
En este caso se postula una relación de largo plazo como
Ct = f (Yt , WEt , Zt )
(3.35)
Donde Ct el consumo privado nacional en precios constantes de 1980, Yt es la renta
neta disponible real de las familias, WEt es la riqueza real en manos de los consumidores y Zt es un vector de que incluye otros posibles determinantes del consumo privado
nacional.
La renta neta disponible real de las familias se obtiene deflactando la serie nominal
mediante el deflactor del consumo privado nacional
Yt =
RNDFt
PCt
117
(3.36)
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
Definiendo la riqueza real en manos de los consumidores como
WEt =
ALPt + Bt
+ Kprt
Pt
(3.37)
donde ALPt son los activos líquidos en manos del público, Bt son los bonos en poder
de los consumidores, Pt es el deflactor implícito del PIB a precios de mercado y Kprt es
el stock de capital privado en términos reales.
El vector Zt se considera formado por una serie de variables cuyos efectos sobre el
consumo se consideran a corto plazo: el impuesto inflacionario (ITt), el tipo de interés
real (rt) y la tasa de paro (ut).
Del análisis de integrabilidad de cada una de las variables consideradas y de las posibles relaciones de cointegración entre las mismas, se concluye que no hay evidencia en
contra de que una relación a largo plazo entre el consumo interno nacional, renta neta
disponible de las familias y riqueza real como
log(Ct ) = a0 + a1 log(Yt ) + a 2 log(WEt ) + ut
(3.38)
sea de cointegración y por lo tanto una relación donde las desviaciones del equilibrio
sean transitorias o de corto plazo.
La cointegración entre las variables consideradas en la ecuación 3.38, implica la
existencia de un mecanismo de corrección de errores que proporciona el modelo siguiente para el comportamiento de consumo
(1 − L) log(Ct ) = b1 (1 − L) log(Yt ) + b2 (1 − L) 2 log(WEt ) + b3 (1 − L) 2 log( ITt )
b4 (1 − L)rt + b5 (1 − L) 2 ut + Γ (log(Ct −1 ) − a0 − a1 log(Yt −1 ) − (3.39)
a2 log(WEt −1 )) + ε t
El modelo que refleja la ecuación 3.39 es estimada mediante mínimos cuadrados no
lineales en tres etapas obteniendo los siguientes valores de coeficientes para los coeficientes y estadísticos (datos de la tabla 2)
118
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
Coeficiente
a0
a1
a2
b1
b2
b3
b4
b5
Γ
Valor Estadístico "t"
R 2 = 0,983
0,383
3,1
DW=2,11
0,801
21,6
SEE=0,0035
0,131
5,9
0,494
7,6
0,484
4,6
-0,007
-2,5
-0,151
-5,5
-0,356
-5,9
-0,708
-8,5
3.3.2.2 Modelización del consumo nacional privado mediante ADRI.
Nos encontramos de nuevo ante un modelo de corrección de errores de series cointegradas, por lo que actuaremos de forma análoga al caso anterior del deflactor del PIB a
precios de mercado. Además intentaremos extraer más información del proceso de
construcción de los árboles difusos de regresión e identificación, fijándonos en ellos
antes de construir los conjuntos de reglas que definan los modelos difusos inducidos.
Como podemos observar en el modelo del MOISEES (ecuación 3.39), la estimación
que se busca es la referente a la variación del consumo nacional privado mediante un
mecanismo de corrección de errores de la tesis postulada en la ecuación (3.38) sobre el
comportamiento del consumo.
En esta ocasión en primer lugar utilizaremos la inducción de un modelo difuso Ψ para la variación del consumo, al cual añadiremos otro modelo difuso ΨE que nos refleje
el error cometido con Ψ.
Tomemos como conjunto de datos los valores de las variables que se aparecen en el
ajuste del modelo (3.38) propuesto por MOISEES. Estos datos se extraen de la tabla 2
aplicando sobre dichos valores las transformaciones necesarias para lograr el mismo
conjunto de datos utilizados por MOISEES, más concretamente, estas transformaciones
consisten en considerar los valores de los logaritmos de las series originales de la tabla,
así como sus primeras y segundas diferencias ((1-L) y (1-L)2).
Tras realizar las transformaciones anteriores fijamos un valor máximo del estimador
RN=0,09 e inducimos el árbol difuso de regresión e inducción (figura 3.11) para la
construcción del modelo Ψ de la variación del logaritmo del consumo nacional privado.
119
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
ADRI para la aproximación de DLC Figura (3.11)
120
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
La figura 3.11 representa el árbol ADRI obtenido. En ella representamos los conjuntos difusos que etiquetan cada arco del árbol mostrando en las dos últimas columnas los
valores de salida que tiene el incremento del consumo en cada nodo final u hoja, así
como el tanto por uno de ejemplos que cubre dicho nodo. La notación utilizada para
nombrar las variables tiene el siguiente significado: L significa logaritmo, D significa la
primera diferencia y D2 significa la segunda diferencia de la variable concreta, siendo el
número que acompaña a cada uno de las variables el que identifica al nodo concreto del
árbol.
El árbol obtenido nos refleja de forma explícita el orden en el que las distintas variables han sido consideradas para configurar la salida de cada nodo hoja. En primer lugar
la variable Dlu nos sirve para delimitar dos grandes grupos, aquellos valores correspondientes al nodo 1 y sus descendientes, así como los del nodo 2. Cada uno de estos grupos cubren respectivamente el 42,5% y 57,5% del conjunto de ejemplos. Estos porcentajes nos ayudan a identificar reglas (nodos hojas), que al ser muy pequeño el porcentaje
de datos cubiertos por ellas reflejan aspectos muy particulares que casi podríamos denominar excepciones sobre el comportamiento general.
Un ejemplo de este tipo de efecto lo podemos observar en los nodos hojas etiquetados con los números 16 y 18 donde los porcentajes de cubrimiento de ejemplos de cada
uno de ellos son respectivamente 0,58% y 0,78%. Estos resultados nos pone de manifiesto que la expansión de los nodos 14 y 13 mediante el uso de nuevo de las variables
DLWE y Dlu sólo consiguen identificar pequeñas excepciones no representativas. Por
otra parte observamos que los nodos hoja 9 y 10 cubren respectivamente el 21,8% y
21,8% lo que hace que estos dos nodos solo cubran el 43,6% de todos los ejemplos, reflejando que la casi la mitad de los datos pueden ser tratados en base a los valores de las
variables Dlu y DLWE respectivamente. Esto pone de manifiesto la gran dependencia
de la variación del consumo privado con respecto a los valores de variación de la tasa de
paro (u) y la renta real de las familias (WE).
Una vez estudiadas las características que nos aporta el propio árbol difuso de regresión e identificación, extraemos el conjunto de 10 reglas (figura 3.10) que configuran
nuestro modelo difuso Ψ para la variación del consumo privado nacional.
121
R1
D2LY -0,0499
-0,0499
0,0359
0,0359
DLWE 0,051
0,072
0,1128
0,1128
-0,8122
D2IT
-0,8122
-0,1755
0,0387
0,0059
LU
0,0059
0,2194
0,2194
0,0062
DLU
0,0121
0,0133
0,0165
0,04606
DLC
R2
-0,0499
-0,0499
0,0359
0,0359
0,013
0,013
0,051
0,072
-0,8122
-0,8122
-0,1755
0,0387
0,0059
0,0059
0,2194
0,2194
0,0062
0,0121
0,0133
0,0165
0,01835
R3
-0,0499
-0,0499
0,0359
0,0359
0,013
0,013
0,1128
0,1128
-0,1755
0,0387
1,0711
1,0711
0,0059
0,0059
0,0706
0,1436
0,0062
0,0121
0,0133
0,0165
0,04976
R4
-0,0499
-0,0499
0,0359
0,0359
0,013
0,013
0,1128
0,1128
-0,1755
0,0387
1,0711
1,0711
0,0706
0,1436
0,2194
0,2194
0,0062
0,0121
0,0133
0,0165
0,01756
R5
-0,0147
0,0025
0,0359
0,0359
0,013
0,013
0,051
0,072
-0,8122
-0,8122
1,0711
1,0711
0,0059
0,0059
0,2194
0,2194
-0,0102
-0,0102
0,0062
0,0121
0,04494
R6
-0,0499
-0,0499
-0,0147
0,0025
0,013
0,013
0,051
0,072
-0,8122
-0,8122
1,0711
1,0711
0,0059
0,0059
0,2194
0,2194
-0,0102
-0,0102
0,0062
0,0121
0,01684
R7
-0,0499
-0,0499
0,0359
0,0359
0,051
0,072
0,088
0,095
-0,8122
-0,8122
1,0711
1,0711
0,0059
0,0059
0,2194
0,2194
-0,0102
-0,0102
0,0062
0,0121
0,05027
R8
-0,0499
-0,0499
0,0359
0,0359
0,088
0,095
0,1128
0,1128
-0,8122
-0,8122
1,0711
1,0711
0,0059
0,0059
0,2194
0,2194
-0,0102
-0,0102
0,0062
0,0121
0,06893
R9
-0,0499
-0,0499
0,0359
0,0359
0,013
0,013
0,1128
0,1128
-0,8122
-0,8122
1,0711
1,0711
0,0059
0,0059
0,2194
0,2194
0,0133
0,0165
0,0188
0,0281
0,00735
Conjunto de reglas del aproximador Ψ' (3.12)
R10
-0,0499
-0,0499
0,0359
0,0359
0,013
0,013
0,1128
0,1128
-0,8122
-0,8122
1,0711
1,0711
0,0059
0,0059
0,2194
0,2194
0,0188
0,0281
0,0287
0,0287
0,00121
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
Este conjunto de reglas configura el modelo Ψ con los valores para el estimador del
árbol difuso de regresión e identificación ADRI de RN=0,08852 y con un error promedio de SEE=0,005859. Como se puede observar el SEE obtenido por ADRI es mayor al
obtenido por el modelo de MOISEES (0,0035) . Una vez construido el modelo difuso Ψ
para el comportamiento de la variación del consumo, induciremos el modelo difuso ΨE
que nos proporcione la información del error cometido por Ψ.
En la figura 3.11 podemos observar gráficamente el comportamiento del modelo Ψ
(línea discontinua) frente a los datos originales (línea continua). Esta confrontación nos
origina los datos necesarios para la construcción del modelo del error cometido
ERROR(t)=LDC(t)-Ψ(t).
Comportamiento de Ψ (3.13)
Utilizando los datos de ERROR(t), el modelo ΨE es obtenido mediante ADRI. Del
árbol difuso conseguido extraemos el conjunto de 10 reglas, figura 3.14, que definen a
ΨE.
123
R1
LY
9,0255
9,1878
9,449
9,449
DLWE 0,013
0,013
0,051
0,072
D2LWE -0,005
0,005
0,008
0,0136
D2IT
-0,8122
-0,8122
1,0711
1,0711
DLu
0,0059
0,0059
0,2194
0,2194
ERROR 0,00087881
R2
R3
R4
R5
R6
R7
R8
R9
R10
9,0255
9,1878
9,449
9,449
0,013
0,013
0,051
0,072
-0,005
0,005
0,008
0,0136
-0,8122
-0,8122
1,0711
1,0711
0,0059
0,0059
0,2194
0,2194
0,00301715
9,0255
9,1878
9,449
9,449
0,051
0,072
0,1128
0,1128
-0,005
0,005
0,008
0,0136
-0,8122
-0,8122
1,0711
1,0711
0,0059
0,0059
0,2194
0,2194
0,00534417
8,7672
8,7672
9,449
9,449
0,013
0,013
0,1128
0,1128
-0,021
-0,01
-0,005
0,005
-0,8122
-0,8122
-0,1755
0,0387
0,0059
0,0059
0,0706
0,1436
0,00163222
8,7672
8,7672
9,449
9,449
0,013
0,013
0,1128
0,1128
-0,021
-0,01
-0,005
0,005
-0,1755
0,0387
1,0711
1,0711
0,0059
0,0059
0,0706
0,1436
0,0058899
8,8514
8,9689
9,0255
9,1878
0,013
0,013
0,1128
0,1128
-0,005
0,005
0,021
0,021
-0,8122
-0,8122
1,0711
1,0711
0,0059
0,0059
0,2194
0,2194
0,00135544
8,7672
8,7672
8,8514
8,9689
0,013
0,013
0,1128
0,1128
-0,005
0,005
0,021
0,021
-0,8122
-0,8122
1,0711
1,0711
0,0059
0,0059
0,2194
0,2194
0,00698186
9,0255
9,1878
9,449
9,449
0,013
0,013
0,1128
0,1128
0,008
0,0136
0,021
0,021
-0,8122
-0,8122
1,0711
1,0711
0,0059
0,0059
0,2194
0,2194
0,00874799
8,7672
8,7672
9,449
9,449
0,013
0,013
0,1128
0,1128
-0,0248
-0,0248
-0,021
-0,01
-0,8122
-0,8122
1,0711
1,0711
0,0059
0,0059
0,0706
0,1436
0,00315406
8,7672
8,7672
9,449
9,449
0,013
0,013
0,1128
0,1128
-0,0248
-0,0248
-0,005
0,005
-0,8122
-0,8122
1,0711
1,0711
0,0706
0,1436
0,2194
0,2194
0,00579119
Modelo ΨE .Figura (3.14)
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
El comportamiento de la aproximación que se consigue mediante el modelo ΨE, así
como el error real cometido por el modelo Ψ se muestran gráficamente en la figura 3.16
siguiente.
Finalmente el modelo Ψ', compuesto por la agregación de los modelos difusos Ψ y
ΨE mediante la suma de sus respectivas salidas, queda reflejado en la figura 3.17. En
esta figura representamos los valores que del modelo difuso Ψ inducido nos proporciona con una línea discontinua, frente a la línea continua que nos muestra la evolución de
la variación del consumo privado nacional durante el periodo estudiado.
El valor del error promedio cometido por el modelo difuso Ψ inducido
es de
SEE=0,00264 inferior al valor SEE=0,0035 conseguido por el modelo expresado en la
ecuación 3.39 de MOISEES.
Error frente a ΨE. Figura (3.15)
125
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
Modelo Ψ (3.16)
Una vez estimada la variación del consumo, construiremos un modelo difuso que nos
refleje el propio consumo en lugar de su variación. Para realizar este modelo utilizaremos las variables de la misma tabla 2 utilizada para estimar 3.39 considerando como
variables de entrada LY, LWE, Lr, LTI, Lu que representan los logaritmos de la renta
neta disponible real de las familias, la riqueza real en manos del público, tipo de interés
real, impuesto inflacionario y tasa de paro, en el tiempo t y t-1 (LY1, LWE1, Lr1, LT1,
Lu1), así como el logaritmo del consumo en t-1 (LC1). Esto nos proporciona un sistema
con 11 variables de entrada y una de salida que es el logaritmo del consumo privado
nacional LC.
Tras la aplicación de ARDI obtenemos el siguiente árbol difuso de regresión mostrado en la figura 3.17.
126
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
Inferencia mediante ADRI para el modelo de LC.Figura (3.17)
127
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
La representación que empleamos para mostrar el árbol, está organizada en tres
columnas, en la primera de ellas se muestra la estructura del árbol indicando el número
que identifica cada nodo. En la segunda columna mostramos los conjuntos difusos que
determinan cada nodo hoja y en la tercera columna los valores de salida (valor del consumo) , así como el porcentaje de ejemplos que cubre cada nodo hoja.
La estructura concreta de este árbol nos permite considerar la figura 3.17 como una
tabla de decisión. Esto se manifiesta cuando la utilizamos para realizar la inferencia de
un valor del logaritmo del consumo para un año concreto. Sobre la misma figura realizamos la inferencia del valor del logaritmo del consumo privado nacional en el año
1980.
La primera fila pregunta sobre el valor de Lr de 1980 en el nodo 2, como observamos
este valor tiene un grado de pertenencia 0 al conjunto difuso que define el arco que une
el nodo raíz 0 con el nodo hoja 2. Esto ocasiona que valor pertenezca completamente al
nodo 1, grado de pertenencia 1. En el nodo 1 se nos pregunta por el valor de la variable
LY para poder alcanzar el nodo hoja 3, este valor tiene un grado de pertenencia 0 al
conjunto difuso que etiqueta dicho nodo, lo que implica que el grado de pertenencia al
nodo 4 es total. Continuando de esta forma obtenemos los grados de pertenencia del
valor que queremos inferir a cada uno de los nodos del árbol (en la figura 3.17 estos
valores están situados debajo del número que identifica el nodo), con lo que podemos
realizar la inferencia del logaritmo del consumo para el año 1980 como
9,1922 × 0,6125 + 9,2150 × 0,3855
= 9,182605
0,6125 + 0,3855
(3.40)
El árbol de la figura 3.17 es inducido mediante el algoritmo de ADRI con un valor
límite de la su estimador de 0,035, obteniendo, en concreto, un valor para el estimador
RN= 0.033768, para el promedio de dos errores cuadráticos E=0.00068726 y un error
medio SEE=√E=0,02621.
Del árbol extraemos el conjunto de 10 reglas difusas (figura 3.18) que definen el modelo difuso Ψ del consumo privado nacional. El comportamiento del modelo Ψ frente a
128
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
los datos reales del consumo se muestra en la figura 3.19 donde los valores aportados
por el modelo se representan mediante trazo discontinuo frente al valor real del consumo con trazo continuo.
Lu
Lr
Lr1
LIT1
LY
LY1
LC
R1
0,1624
0,1949
0,2194
0,2194
-1,5600
-0,1175
0,0737
0,0737
-1,5600
-0,1175
0,0737
0,0737
6,4607
7,0665
7,8716
7,8716
8,9689
9,1878
9,4490
9,4490
8,9689
9,1878
9,3997
9,3997
9,2707
R2
0,1624
0,1949
0,2194
0,2194
-1,5600
-0,1175
0,0737
0,0737
-1,5600
-0,1175
0,0737
0,0737
5,3709
5,3709
6,4607
7,0665
8,9689
9,1878
9,4490
9,4490
8,9689
9,1878
9,3997
9,3997
9,3683
R3
0,0706
0,1436
0,1624
0,1949
-1,5600
-0,1175
0,0737
0,0737
-1,5600
-0,1175
0,0737
0,0737
5,3709
5,3709
7,8716
7,8716
8,9689
9,1878
9,4490
9,4490
8,9689
9,1878
9,3997
9,3997
9,2150
R4
0,0234
0,0529
0,0706
0,1436
-1,5600
-0,1175
0,0737
0,0737
-1,5600
-0,1175
0,0737
0,0737
5,3709
5,3709
7,8716
7,8716
8,9689
9,1878
9,4490
9,4490
8,9689
9,1878
9,3997
9,3997
9,1922
R5
0,0059
0,0059
0,0234
0,0529
-1,5600
-0,1175
0,0737
0,0737
-1,5600
-0,1175
0,0737
0,0737
5,3709
5,3709
7,8716
7,8716
8,9689
9,1878
9,4490
9,4490
8,9689
9,1878
9,3997
9,3997
9,0819
R6
0,0059
0,0059
0,2194
0,2194
-1,5600
-0,1175
0,0737
0,0737
-1,5600
-0,1175
0,0737
0,0737
5,3709
5,3709
7,8716
7,8716
8,7981
8,9175
8,9689
9,1878
8,5809
8,5809
9,3997
9,3997
8,8570
R7
0,0059
0,0059
0,2194
0,2194
-1,5600
-0,1175
0,0737
0,0737
-1,5600
-0,1175
0,0737
0,0737
5,3709
5,3709
7,8716
7,8716
8,6864
8,6864
8,7981
8,9175
8,5809
8,5809
9,3997
9,3997
8,7094
Modelo Ψ para el consumo privado nacional. Figura (3.18)
129
R8
0,0059
0,0059
0,2194
0,2194
-1,5600
-0,1175
0,0737
0,0737
-1,5600
-0,1175
0,0737
0,0737
5,3709
5,3709
7,8716
7,8716
8,9689
9,1878
9,4490
9,4490
8,5809
8,5809
8,9689
9,1878
8,9796
R9
0,0059
0,0059
0,2194
0,2194
-1,5600
-0,1175
0,0737
0,0737
-1,5600
-1,5600
-1,5600
-0,1175
5,3709
5,3709
7,8716
7,8716
8,6864
8,6864
9,4490
9,4490
8,5809
8,5809
9,3997
9,3997
8,6208
R10
0,0059
0,0059
0,2194
0,2194
-1,5600
-1,5600
-1,5600
-0,1175
-1,5600
-1,5600
0,0737
0,0737
5,3709
5,3709
7,8716
7,8716
8,6864
8,6864
9,4490
9,4490
8,5809
8,5809
9,3997
9,3997
8,5540
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
Consumo nacional privado versus modelo Ψ(3.19)
Del análisis del modelo Ψ inducido por ARDI podemos establecer la siguiente conclusión:
El consumo actual depende de la actual renta neta disponible de las familias (Yt) , así
como el tipo de interés existente en el año en curso (rt) y en el año anterior (rt-1) , también ser observa una dependencia en menor medida de la tasa de paro (ut), la renta neta
disponible de las familias (Yt-1) y el impuesto inflacionario del año anterior (ITt-1).
El modelo obtenido difiere fundamentalmente del presentado por MOISEES en que
este presenta el consumo como una función de la renta neta disponible real de las familias y la riqueza real en manos del público (WEt), variable que desaparece en el modelo
propuesto mediante ARDI, apareciendo en éste el tipo de interés real como variable clave del modelo, frente a la aceptación de un carácter corrector en MOISEES.
3.3.3 Salarios.
3.3.3.1 Salarios en MOISESS.
El salario nominal de la economía es el resultado de un proceso negociador entre empresas y trabajadores anterior a la realización trabajo que afectará a unos y a otros.
Puesto que el resultado de una negociación depende fundamentalmente del poder de
cada una de las partes la especificación de la ecuación del salarios no debería sobre el
poder del mercado de patronos y trabajadores.
130
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
MOISEES propone el siguiente modelo para la ecuación del salario:
log(W ) = a0 + ai log( P) + a 2 (
K −1
) + a3 log(1 + TECS) − a 4U + a5 Z
L
(3.41)
donde el coste laboral nominal (W) depende del precio (P), la productividad del trabajo
- aproximada mediante el ratio capital instalado - empleo (K-1/L), la tasa de desempleo,
los impuestos sobre el trabajo a cargo de los empleadores (TECS) y un vector de influencias Z que puede afectar a priori bien a la capacidad de presión sindical sobre los
salarios, como a la decisión de participar en el mercado de trabajo. Posibles componentes de Z son los impuestos indirectos y otras variables que incidan sobre el salario real
de consumo, las prestaciones a los desempleados, el salario mínimo, la protección legal
del empleo, etc.
Los resultados de realizar la estimación de la ecuación 3.41 mediante el método de
mínimos cuadrados en tres etapas nos lo ofrece la ecuación 3.42
log( SAL) = b0 + log(1 + T 3) + b1 log(
K
PC
(1 + T 3)) + b2 log −1 + b3U + b4 D
PCF
LD
(3.42)
Siendo las variables:
•CL Coste laboral nominal.
•PCF Deflactor del PIB al coste de los factores.
•TECS Tipo efectivo medio de las cotizaciones sociales a cargo de los empleadores.
Tipo efectivo medio de los impuestos indirectos neto de subvenciones.
•T3
Stock de capital
•K
•LD Empleo
Tasa de paro
•U
0,5 1970

•D=  1 1971
 0 resto

•SAL=CL/PCF(1+TECS)
con valores de los parámetros para el periodo de estimación 1967-1988 (datos de la
tabla 3)
Parámetro
b0
b1
b2
b3
b4
Coeficiente
-0,922
-73
0,688
-1,232
-0,0867
Estadístico "t"
-85,69
8,04
60
-23,22
-10,651
SEE=0,008
R2=0,999
DW=2,05
131
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
3.3.3.2 Modelización de los salarios mediante ADRI.
En esta ocasión nos encontramos con un mecanismo de regresión simple en el modelo propuesto por MOISEES. Esto no lleva a construir el modelo difuso Ψ de la función de salarios mediante la inducción mediante ADRI, tomando como datos de entrada
los correspondientes a la tabla 3 (los valores son logaritmos de las series originales).
Tras la ejecución del algoritmo de ADRI, al cual fijamos como valor máximo del estimador RN=0,01, obtenemos (figura 3.20) el siguiente árbol difuso de regresión e identificación
Árbol difuso de regresión e identificación para la función de salarios .Figura (3.20)
con unos valores de para el estimador RN=0,00987695 y un error promedio
SEE=√E=0.00817058.
Del árbol de la figura 3.20 extraemos el conjunto de 10 reglas (figura 3.21) que define al modelo Ψ de los salarios.
NODO 13 NODO 14 NODO 8
NODO 7 NODO 10
K1
4,09962
4,14689
4,18953
4,31253
4,34364
4,09962
4,18953
4,27449
4,34364
4,45048
4,09962
4,18953
4,31253
4,34364
4,45048
4,14689
4,27449
4,34364
4,45048
4,47849
SAL -0,230239 -0,194816 -0,0156131 -0,0905893 -0,02827
NODO 9 NODO 12 NODO 11
4,45048
4,50269
4,57855
4,47849
4,55521
4,59647
4,50269
4,57855
4,63197
4,55521
4,59647
4,63197
0,024919 0,0756238 0,0963883
Modelo Ψ para los salarios. Figura (3.21)
Destacamos como el modelo difuso Ψ depende exclusivamente de una única variable, que es el stock de capital K1 en un periodo de tiempo anterior al considerado. Esta
132
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
dependencia única hace que el modelo Ψ proyecte sobre el conjunto de datos una partición difusa de 11 subconjuntos. Esta partición nos delimita unos conjuntos difusos sobre
el periodo de tiempo estudiado como muestra la figura 3.22
Recubrimiento de las reglas de salario (3.22)
El comportamiento del modelo difuso Ψ lo podemos ver reflejado en la figura 3.23
donde lo mostramos con línea discontinua frente a los datos reales de salarios con línea
continua.
133
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
Salida del modelo difuso de salarios (3.23)
Esta partición viene origina por la partición difusa inducida por ADRI para la única
variable del modelo log(K-1). Gráficamente en la figura 3.24 mostramos los conjuntos
difusos inducidos sobre los valores de Log(K1) y el valor del salario asignado como salida en cada uno de ellos.
134
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
PARTICION DE LG(K1)
4,63197
4,59647
4,57855
4,55521
4,50269
4,47849
4,45048
4,34364
4,31253
4,27449
4,18953
4,14689
4,09962
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
LOG(K1)
0,1
0,05
0
-0,05
1
2
3
4
5
6
7
8
-0,1
-0,15
-0,2
-0,25
Partición del Log(K-1) y valor de salario asociado (3.24)
A modo de conclusión observando el valor de salida del salario, vemos que este crece
al mismo tiempo que crece el valor del stock de capital, excepto en el periodo central
(Nodo 7) que se produce una bajada en los salarios. Esta regla que englobaría el periodo
desde el año 71 hasta el año 75 se comprueba que el aumento del stock de capital no se
refleja en los salarios. Este efecto se intenta representar mediante la variable ficticia D
del modelo 3.42.
Si estamos interesados en ver como las variables K, T3, U, LD, PCF y CL afectan al
modelo de los salarios, tendremos que forzar el algoritmo para un mayor ajuste del modelo. Esto se consigue fácilmente disminuyendo el valor de parada de RN que utilizamos para general el árbol de ADRI.
En la tabla 3.25 siguiente se muestra cuando aparecen por primera cada una de las
variables, excepto K1 que aparece desde la primera regla, indicando el valor obtenido
135
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
para el estimador RN, el número de reglas que genera el modelo y el número total de
nodos que posee cada árbol difuso de regresión e identificación inducido.
VAR Nº Reglas
K1
8
K
11
T3
13
U
20
LD
22
PCF
27
CL
35
RN Nº Nodos
0,00987
15
0,00624
21
0,00476
25
0,00229
39
0,00208
43
0,00146
53
0,00092
69
Tabla de aparición de variables para el modelo de salarios 3.25
Consideremos la complejidad del modelo dependiente del número total de nodos, y el
error cometido por cada modelo reflejado por el valor del estimador RN. Si normalizamos dichos valores entre 0 y 1, observamos (Figura 3.26) como al disminuir el error que
comete el modelo mediante la incorporación de nuevas variables va aumentando la
complejidad del mismo. Esto nos conduce a considerar el modelo que posea un compromiso entre su complejidad y su corrección, siendo éste aquel modelo formado por un
conjunto de reglas mayor que 13 y menor que 20 (lugar de cruce de las dos líneas). Este
modelo final incorpora las variables K y T3; pero no llega a considerar la variable U.
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
8
11
13
20
22
27
35
Complejidad frente a Error de los modelos. Figura (3.26)
Para finalizar este capítulo, comprobaremos la capacidad descriptiva y predictiva de
los modelos inducidos mediante ADRI, construyendo un modelo lingüístico de la evolu-
136
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
ción del salario para el periodo 1967-1986 y comprobando los resultados que dicho modelo infiere para los años 1987 y 1988.
Tomemos como variables los incrementos que sufren anualmente las variables de la
tabla de datos 3. Esto es, consideremos como datos de entrada al algoritmo ADRI los
valores DCLt= CLt-CLt-1 para t=1967 ... 1986, DPCF, DK1, DK, DU, DT3, DLD y
DSAL. La variable de salida será DSAL que representa el incremento del logaritmo del
salario en cada periodo de tiempo.
Consideremos las variables lingüísticas con valores sobre el conjunto de etiquetas
{muy bajo, bajo, normal, alto, muy alto} definidas como se muestra en la figura 3.27
siguiente :
Conjunto difuso
muy bajo (a,a,a,b)
Función de pertenencia para x

1

(x − a)
1 −
(b − a )


0
x < a
a ≤ x ≤ b
x > b
Representación Gráfica
1
0,5
0
bajo (a,b,b,c)
mediano (b,c,c,d)
alto (c,d,d,e)
muy alto (d,e,e,e)



(x

 (b
 (x
 ( c
0
−
−
−
−



 (x

 (c
 (x
 ( d
a)
a)
b)
b)
0
− c)
− b)
− c)
− c)


0

 (x − c)

 (d − c)
(x − d )
 ( e − d )

 ( x

 (d

0
− d)
− e)
1
x < a o x > c
a ≤ x ≤ b
b< x ≤ c
x < b o x > d
d ≤ x ≤ e
x > e
e
a
b
c
d
e
a
b
c
d
e
a
b
c
d
e
a
b
c
d
e
1
0
x < d
d
0
c < x ≤ d
d < x ≤ e
c
0,5
0,5
c≤ x ≤ d
b
1
b≤ x ≤ c
x < c o x > e
a
1
0,5
0
1
0,5
0
Definición de las etiquetas lingüísticas. Figura (3.27)
De los valores obtenidos a partir de la tabla de datos 3 para los años 1967 hasta 1986,
definimos las siguientes variables lingüísticas :
137
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
DCL=(
MY ALTO(0.0900648,0.10875,0.10875,0.10875),
ALTO(0.0713796,0.0900648,0.0900648,0.10875),
MEDIO(0.0526943,0.0713796,0.0713796,0.0900648),
BAJO(0.0340091,0.0526943,0.0526943,0.0713796),
MUY BAJO(0.0340091,0.0340091,0.0340091,0.0526943)
)
DPCF=(
MY ALTO(0.0728321,0.0916569,0.0916569,0.0916569),
ALTO(0.0540073,0.0728321,0.0728321,0.0916569),
MEDIO(0.0351825,0.0540073,0.0540073,0.0728321),
BAJO(0.0163577,0.0351825,0.0351825,0.0540073),
MUY BAJO(0.0163577,0.0163577,0.0163577,0.0351825)
)
DT3=(
MY ALTO(0.0688396,0.12151,0.12151,0.12151),
ALTO(0.0161692,0.0688396,0.0688396,0.12151),
MEDIO(-0.0365012,0.0161692,0.0161692,0.0688396),
BAJO(-0.0891715,-0.0365012,-0.0365012,0.0161692),
MUY BAJO(-0.0891715,-0.0891715,-0.0891715,-0.0365012)
)
DK1=(
MY ALTO(0.0368394,0.0472704,0.0472704,0.0472704),
ALTO(0.0264084,0.0368394,0.0368394,0.0472704),
MEDIO(0.0159774,0.0264084,0.0264084,0.0368394),
BAJO(0.00554639,0.0159774,0.0159774,0.0264084),
MUY BAJO(0.00554639,0.00554639,0.00554639,0.0159774)
)
DK=(
MY ALTO(0.0337136,0.0431027,0.0431027,0.0431027),
ALTO(0.0243245,0.0337136,0.0337136,0.0431027),
MEDIO(0.0149355,0.0243245,0.0243245,0.0337136),
BAJO(0.00554639,0.0149355,0.0149355,0.0243245),
MUY BAJO(0.00554639,0.00554639,0.00554639,0.0149355)
)
DLD=(
MY ALTO(0.00432018,0.0101351,0.0101351,0.0101351),
ALTO(-0.00149477,0.00432018,0.00432018,0.0101351),
MEDIO(-0.00730972,-0.00149477,-0.00149477,0.00432018),
BAJO(-0.0131247,-0.00730972,-0.00730972,-0.00149477),
MUY BAJO(-0.0131247,-0.0131247,-0.0131247,-0.00730972)
)
DU=(
MY ALTO(0.138004,0.197366,0.197366,0.197366),
ALTO(0.0786415,0.138004,0.138004,0.197366),
MEDIO(0.0192792,0.0786416,0.0786416,0.138004),
BAJO(-0.0400832,0.0192792,0.0192792,0.0786416),
MUY BAJO(-0.0400832,-0.0400832,-0.0400832,0.0192792)
)
Aplicamos ADRI permitiendo el agrupamiento de etiquetas y fijando como valor
máximo del estimador RN=0,023. Tras terminal el algoritmo de ADRI, se tiene que el
valor del estimador RN=0,221092 con valor de SEE=0,00497053.
138
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
Si nombramos la etiqueta MUY BAJO o BAJO o MEDIANO como ≤MEDIANO , y
la etiqueta MEDIANO 0 ALTO o MUY ALTO como ≥MEDIANO, del árbol difuso de
regresión e identificación extraemos el conjunto de 9 reglas (figura 3.28) que nos modela el incremento de los logaritmos del salario para el periodo de 1967 hasta 1986.
MODELO PARA EL INCREMENTO DEL SALARIO
DLC
ES ≥MEDIO
DPCF ES ≤BAJO
DK
ES ≥MEDIO
DU
ES MY ALTO
ENTONCES
DSAL ES 0,0531867
REGLA 2 : SI
DLC
ES ≥MEDIO
Y DPCF ES ≤BAJO
Y DK
ES ≥MEDIO
Y DU
ES ≤ALTO
ENTONCES
DSAL ES 0,0393312
REGLA 3 : SI
DCL
ES BAJO
Y DK
ES ≤BAJO
ENTONCES
DSAL ES 0,0058479
REGLA 4 : SI
DCL
ES MY BAJO
Y DK
ES ≤BAJO
ENTONCES
DSAL ES 0,000960627
REGLA 5 : SI
DCL
ES ≥MEDIO
Y DK
ES ≤BAJO
ENTONCES
DSAL ES 0,0134329
REGLA 6 : SI
DCL
ES ≥MEDIO
Y DPCF ES MEDIO
Y DK
ES ≥MEDIO
ENTONCES
DSAL ES 0,0293189
REGLA 7 : SI
DLC
ES BAJO
Y DPCF ES ≤MEDIO
Y DK
ES ≥MEDIO
ENTONCES
DSAL ES 0,0269954
REGLA 8 : SI
DLC
ES ≥BAJO
Y DPCF ES ≥ALTO
Y DK
ES ≥MEDIO
ENTONCES
DSAL ES 0,022897
REGLA 9 : SI
DLC
ES MUY BAJO
Y DK
ES ≥MEDIO
ENTONCES
DSAL ES 0,0109986
Modelo lingüístico para el incremento del salario .Figura (3.28)
REGLA 1 :
SI
Y
Y
Y
Una vez construido el modelo lingüístico (figura 3.28), comprobamos que el incremento del logaritmo del salario es modelado exclusivamente mediante las variables
DCL, DK, DPCF y DU. En la figura 3.29 mostramos la inferencia de dicho incremento
139
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
para los años 1987 y 1988 mediante una tabla. En la tabla (3.29) reflejamos el conjunto
de reglas que componen el modelo, el valor de pertenencia de los datos referentes a los
años 1986 y 1987 a cada uno de los antecedentes de cada regla, así como el de cada regla (fila del consecuente) para mostrar en las dos últimas filas el valor inferido y el valor
real del incremento del logaritmo del salario.
MODELO PARA EL INCREMENTO DEL SALARIO
DLC
ES ≥MEDIO
DPCF
ES ≤BAJO
DK
ES ≥MEDIO
DU
ES MUY ALTO
ENTONCES
DSAL ES 0,0531867
REGLA 2 :
SI
DLC
ES ≥MEDIO
Y DPCF
ES ≤BAJO
Y DK
ES ≥MEDIO
Y DU
ES ≤ALTO
ENTONCES
DSAL ES 0,0393312
REGLA 3 :
SI
DCL
ES BAJO
Y DK
ES ≤BAJO
ENTONCES
DSAL ES 0,0058479
REGLA 4 :
SI
DCL
ES MUY BAJO
Y DK
ES ≤BAJO
ENTONCES
DSAL ES 0,000960627
REGLA 5 :
SI
DCL
ES ≥MEDIO
Y DK
ES ≤BAJO
ENTONCES
DSAL ES 0,0134329
REGLA 6 :
SI
DCL
ES ≥MEDIO
Y DPCF
ES MEDIO
Y DK
ES ≥MEDIO
ENTONCES
DSAL ES 0,0293189
REGLA 7 :
SI
DLC
ES BAJO
Y DPCF
ES ≤MEDIO
Y DK
ES ≥MEDIO
ENTONCES
DSAL ES 0,0269954
REGLA 8 :
SI
DLC
ES ≥BAJO
Y DPCF
ES ≥ALTO
Y DK
ES ≥MEDIO
ENTONCES
DSAL ES 0,022897
REGLA 9 :
SI
DLC
ES MUY BAJO
Y DK
ES ≥MEDIO
ENTONCES
DSAL ES 0,0109986
Agregación de la aportación de cada regla =
Suma total de los valores de pertenencia de las reglas =
REGLA 1 :
SI
1987
1988
0
1
0
0
0
0
1
0
1
0
0
1
0
1
1
1
0
1
0
0
0
0
0
0
1
0
0
0
0
0
0
1
0
0
0,000960627
1
0
1
0,31766652
0
0,0
0
1
0,31766652
1
0,0
0
0,68233348
0,0
1
0,68233348
0,68233348
0
0,68233348
0,0
0
0
0,31766652
0,0
0
1
0,31766652
0,0
0
0
0,31766652
0,0
1
0,31766652
0,31766652
0,004149355
1
VALOR INFERIDO DEL INCREMENTO DEL SALARIO= 0,000960627
0,004149355
VALOR REAL DE INCREMENTO DEL SALARIO= 0,001172401
0.004444038
Y
Y
Y
Inferencia para los años 1987 y 1988. Figura (3.29)
140
Cap.3
Aplicación de ADRI al modelado de sistemas económicos. Series temporales.
Como hemos podido comprobar, ADRI es un mecanismo correcto para la aproximación de series temporales y su forma de actuar engloba a la mayoría de los modelos clásicos para la modelización de series, tan sólo dependiendo del conjunto de variables de
entrada que le suministremos para comenzar la construcción del árbol. A grandes rasgos
podemos pensar en ADRI como un aproximador universal en sentido expuesto por Castro[10]
141
&RQFOXVLRQHV
En esta memoria hemos analizado el empleo de las técnicas clásicas de clasificación
como herramienta para el aprendizaje inductivo no supervisado de modelos difusos de
sistemas, que pueden actuar como aproximadores generales considerándolos como mecanismos de regresión general en el sentido de J. L Castro[10]. La conjunción de considerar estos modelos como clasificadores y como mecanismo de aproximación de funciones, lo que nos ha permitido establecer un modelo difuso basado en la partición recurrente del dominio de sus entradas, lo que ha originado la definición de ADRI, que generaliza toda la potencia de los árboles de regresión CART para la inducción de modelos difusos. La definición de las regiones que fijamos nos conduce a tener que realizar
una partición de conjuntos difusos, cuestión que resolvemos mediante una generalización realizada “ex profeso” del algoritmo de clustering difuso FCM que hemos denominado FCMD .
El modelo difuso y su mecanismo de inducción, lo aplicamos dentro del campo de la
economía, y más concretamente en el estudio de series temporales de variables económicas. Las ventajas más sobresalientes que obtenemos con la utilización de ADRI para
el estudio de estas series, son las siguientes: Es un método general, lo que nos permite
centrarnos en la interpretación de los resultados que al estar descritos en forma de conjunto de reglas resulta más intuitivo que complicadas ecuaciones matemáticas, es en este
aspecto donde obtenemos la gran ventaja de los modelos difusos donde el tratamiento de
la incertidumbre existente en los sistemas queda reflejada en la estructura de las propias
reglas. La selección de las variables que ADRI realiza para modelizar el comportamiento de las series es obtenida de los propios valores que conocemos de las variables,
esto es, la definición de la estructura del modelo surge de los propios datos, extrayendo
del conjunto total de variables que le proporcionamos aquellas que mejor puedan describir el comportamiento global de la serie, sin necesidad de determinarlas a priori. La
precisión del método, en términos de aproximación de funciones, llega en términos generales a ser tan buena como los métodos clásicos y en algunas ocasiones los mejora
como hemos comprobado con el esquema de corrección de errores para estimar el deflactor del PIB a precios de mercado. Además el propio modelo puede se mejorado pues
142
al estar éste fundamentado en una construcción recurrente podremos emplear en cualquier paso de nuevo el mecanismo de partición para mejorar la partición en curso. También es posible mejorar los resultados que se obtienen mediante los procesos de ajuste
de modelos difusos existentes en la literatura ( filtro de Kalman[30], ANFIS[47] o mediante algoritmos genéticos[38]).
7UDEDMRVIXWXURV
La inducción de un árbol difuso de regresión e identificación (ADRI), está fundamentada sobre la partición recurrente del espacio de definición de las variables de entrada. Esta partición se realiza mediante sucesivas divisiones de cada uno de los dominios
de las variables de entrada mediante el algoritmo FCMD, que está dirigido por el comportamiento de una función distancia fijada. Es interesante comprobar que dos sistemas
definidos por el mismo conjunto de valores de entrada, nos van a originar unas divisiones del espacio de entrada iguales, debido a la definición de la función de distancia utilizada en FCMD donde sólo intervienen los valores de una de las variables para realizar
la partición. Un campo de interés será el estudio de nuevas funciones de distancia que
consideren no sólo los valores de las variables de entrada, sino también los valores de
las variables de salida. Es decir una función distancia d:XxS→ℜ+ .
Otro de los aspectos que merecen ser trabajados en el futuro es el efecto que originaría en ADRI la utilización de mecanismo de ajuste de reglas difusas en cada uno de los
modelos intermedios que se van originando. La inducción de ADRI nos proporciona una
sucesión de modelos cada uno de los cuales origina un conjunto de reglas difusas del
tipo de consecuente puntual, para los cuales existen técnicas de ajuste de parámetros que
mejoran su comportamiento. Este ajuste lo planteamos al final del proceso de inducción
de ADRI con lo que tras obtener el modelo aplicaríamos estas técnicas para mejorar el
comportamiento del mismo. La utilización de estas técnicas dentro del mismo proceso
de inducción del modelo originan un cambio en el mismo, no sólo en sus parámetros
sino también en su propia estructura y por ello nos proponemos estudiar los efectos que
las diversas técnicas de ajuste, aplicadas a los distintos modelos intermedios, pueden
ocasionar en la inducción del modelo final obtenido por ADRI.
143
Otro de los campos que pueden ser investigados es el uso de ADRI como mecanismo
de identificación de modelos iniciales para las técnicas de identificación de modelos
mediante agrupamiento. Al ser ADRI un mecanismo no supervisado de inducción de
modelos difusos, puede ser utilizado en aquellas técnicas de identificación de modelos
donde se ha de partir de un primer modelo que posteriormente se ajuste o modifique. Un
caso particular de estas técnicas son aquellas que utilizan el agrupamiento o los mecanismos genéticos, donde ADRI les puede proporcionar un primer modelo lo que acelerará los algoritmos.
144
$SpQGLFH$
Razonamiento Aproximado.
Conceptos básicos sobre conjuntos difusos
Un conjunto difuso se modela mediante una función característica, aquella que puede
tomar cualquier valor entre 0 y 1, siendo 0 en el caso de una no pertenencia absoluta y 1
en un pertenencia total. Esto da un grado de pertenencia de un elemento al conjunto difuso, más formalmente podemos definir un conjunto difuso A, establecido sobre un
conjunto de objetos X, que llamaremos referencial del conjunto A, y que posee una
función de pertenencia µA :X→[0,1] como
A = { X , µ A : X → [0,1]}
(A.1)
Tres conjuntos difusos ALTO, MEDIANO y BAJO definidos sobre un mismo referencial X={A,B,C,D} quedando establecidos totalmente de la forma
• ALTO={[A,B,C,D],[µALTO(A)=1, µALTO(B)=0, µALTO(C)=0, µALTO(D)=0.6]}
• MEDIANO={[A,B,C,D],[µMEDIANO(A)=0,
µMEDIANO(B)=1,
µMEDIANO(C)=0,
µMEDIANO (D)=0.4]}
• BAJO={[A,B,C,D],[µBAJO(A)=0, µBAJO(B)=0, µBAJO(C)=1, µBAJO(D)=0]}
Con lo que reflejaríamos el caso del individuo D que es más alto que mediano pero
pertenece a las dos categorías. En la literatura sobre conjuntos difusos, es habitual referirse a los mismo exclusivamente mediante su función de pertenencia, notación que utilizaremos a partir de este momento, donde si A es un conjunto difuso A(x) denotará su
función característica.
Algunas características básicas de los conjuntos difusos son :
Definición A.1: Soporte de un conjunto difuso A definido sobre el referencial X que
denominaremos Sop(A) es el conjunto de elementos de X que pertenecen en algún grado
a A.
Apéndice A
Razonamiento Aproximado
Sop( A) = {x ∈ X / A( x ) > 0}
(A.2)
El conjunto difuso A definido sobre el referencial X, diremos que es un conjunto difuso normalizado, si existe algún elemento de X que pertenezca totalmente a A
∃x ∈ X
A( x ) = 1
(A.3)
Definición A.2: Conjunto difuso vacío ∅ definido sobre un referencial X es aquel
que verifica que ningún elemento de x pertenece en algún grado al conjunto.
∅( x ) = 0 ∀x ∈ X
(A.4)
Operaciones de conjuntos con conjuntos difusos.
Las relaciones y operaciones más elementales que se pueden definir sobre conjuntos
son : la inclusión, la unión, intersección y complementación de conjuntos. Estas operaciones fueron definidas originalmente por Zadeh del siguiente modo:
A ⊆ B ⇔ A( x ) ≤ B( x ) ∀x ∈ X
(A.5)
µ A∪ B ( x ) = max{µ A ( x ), µ B ( x )}
(A.6)
µ A∩ B ( x ) = min{µ A ( x ), µ B ( x )}
(A.7)
µ¬ A ( x ) = 1 − µ A ( x )
(A.8)
Conectivas Difusas.
Esta definición para la unión de conjuntos difusos (A.6) ha sido generalizada mediante el uso de t-conormas. Una función ⊕ :[0,1]x[0,1]→[0,1] se dice que es una tconorma si verifica para todo x,y,z ∈ [0,1] las siguientes propiedades :
I. ⊕(x,0)=x
II. Si x≤x’ entonces ⊕(x,y)≤⊕(x’,y)
III. ⊕(x,y)=⊕(y,x)
146
Apéndice A
Razonamiento Aproximado
IV.⊕(x,⊕(y,z))=⊕(⊕(x,y),z)
Ejemplos de t-conormas son:
•Máximo : Max(x,y)=máximo{x,y}
•Producto : π*(x,y)=x+y-x*y
•Lukasiewicz : W*(x,y)=Min{x+y,1}
 x Si y = 1

• Z * ( x , y ) =  y Si x = 1
1 en otro caso

Luego la unión de dos conjuntos difusos A y B definidos sobre un mismo referencial
X quedará definida en función de las respectivas funciones características µA(x) y µB(x)
como
µ A∪ B ( x ) = ⊕( µ A ( x ), µ B ( x ))
(A.9)
De igual forma que generalizamos la definición de la unión de conjuntos difusos, generalizaremos su intersección (A.7) mediante el uso de una t-norma. Una t-norma
⊗ :[0,1]x[0,1]→[0,1] es una función que verifica las siguientes propiedades para todo x,
y, z ∈ [0,1]:
I.⊗(x,1)=x
II.Si x≤x’ entonces ⊗(x,y)≤⊗(x’,y)
III.⊗(x,y)=⊗(y,x)
IV.⊗(x,⊗(y,z))=⊗(⊗(x,y),z)
Ejemplos de t-normas son :
•Mínimo : Min(x,y)=mínimo{x,y}
•Producto : π(x,y)=xy
147
Apéndice A
Razonamiento Aproximado
•Lukasiewicz : W(x,y)=max{x+y-1,0}
 x Si y = 1

• Z ( x, y ) =  y Si x = 1
0 En otro caso

Con lo cual la intersección de dos conjuntos difusos A y B, definidos sobre el mismo
referencial X, quedaría establecida en función de las respectivas funciones de pertenencia de cada conjunto difuso µA(x) y µB(x) como :
µ A∩ B ( x ) = ⊗( µ A ( x ), µ B ( x ))
(A.10)
Fundamentada en la teoría de los conjuntos difusos, la interpretación de una proposición sobre un término impreciso podría ser considerada, como el grado de pertenencia
de un objeto a un conjunto difuso. Sea “x es ALTO” una proposición difusa, envuelve el
concepto impreciso ALTO, su interpretación sería el grado de pertenencia de x al conjunto difuso ALTO, o lo que es lo mismo µALTO(x).
Establecido el concepto de proposición difusa, podremos establecer las interpretaciones para las conectivas lógicas más habituales, estableciendo una relación entre éstas y
las operaciones con conjuntos difusos definidas en 0 según la tabla siguiente
Operaciones con conjuntos Conectivas lógicas
Unión
Disyunción (∨)
Intersección
Conjunción (∧)
complementación
Negación (¬)
La conectiva de implicación ha sido determinada de muy diversas formas, estableciéndose que para considerar una función I :[0,1]x[0,1]→[0,1] como función de implicación, que establezca el grado de verdad de A→B, es decir I(A,B), ha de verificar para
todo x, x’, y, y’ ∈ [0,1] las siguientes propiedades:
Si y≤y’ entonces I(x,y) ≤ I(x,y’)
I(0,x)=1 (Principio de falsedad).
I(1,x)=x (Principio de neutralidad)
148
Apéndice A
Razonamiento Aproximado
Otros dos nuevas propiedades son usualmente añadidas
Si x ≤ x’ entonces I(x,y) ≥ I(x’,y)
I(x,I(y,z)) = I(y,I(x,z)) (Principio de intercambio)
Se han considerado tradicionalmente tres grandes familias de funciones de implicación que son: las S-Implicaciones, las R-Implicaciones y las T-normas Implicaciones.
Un camino tomado para establecer el valor de I es el tomado por la familia de funciones S-implicaciones o implicaciones fuertes, que abordan la definición de I(A,B) en
base a la igualdad de la lógica de proposiciones clásica, donde A→B posee la misma
interpretación que ¬A ∨ B. Estas implicaciones verifican las propiedades I, II, III y IV
teniendo la expresión general
I ( A, B) = ⊕( ¬A, B)
(A.11)
Ejemplos de S-implicaciones son :
1) Mínimo : I(x,y)=max(1-x,y)
2) Producto : I(x,y)=1-x+xy
3) Lukasiewicz : I(x,y)=min(1-x+y, 1)
El segundo grupo de funciones de implicación son las R-Implicaciones, que reflejan
el formalismo de la lógica intuitiva, relajando las S-Implicaciones y verificando las propiedades I, II, III, IV y V , teniendo una expresión general
I ( x , y ) = sup{c ∈[0,1] / ⊗( x , y ) ≤ y}
Ejemplos de R-Implicaciones son:
1) Lukasiewicz: I(x,y)=min(1-x+y,1)
x≤y
1
2) Gödel-Brower I ( x , y ) = 
 x otro caso
149
(A.12)
Apéndice A
Razonamiento Aproximado
1

3) Menger-Goguen I ( x , y ) =  x
 y
x≤y
otro caso
La última clase de funciones de implicación son las T-normas implicaciones que verifican las propiedades I, II y III; mientras que las propiedades IV y V no son verificadas.
Este tipo de implicación es ampliamente utilizada en muchas de las aplicaciones del
razonamiento aproximado sobre todo en el control difusos. Ejemplos de T-normas implicaciones son:
1)Implicación de Mandani: I(x,y)=min(x,y).
2)Implicación del Producto: I(x,y)=x*y
150
$SpQGLFH%
x1
2.53
4.54
4.45
1.13
2.14
2.49
2.70
4.96
3.82
2.20
1.30
2.95
1.16
1.40
4.24
4.02
3.21
4.88
4.22
1.46
4.95
3.00
1.15
3.34
1.80
2.20
4.62
3.07
4.16
3.48
4.40
1.87
3.83
4.91
4.99
3.30
4.59
4.13
4.06
3.71
4.65
4.87
2.98
2.81
3.16
3.41
1.33
2.08
2.74
3.09
x2
1.40
4.83
1.55
1.66
2.37
2.42
2.22
2.03
4.27
4.00
1.79
3.04
1.92
2.03
3.90
3.51
3.85
3.75
2.05
1.24
4.70
3.70
4.19
1.61
1.82
4.21
1.16
2.03
3.70
3.89
3.23
4.44
2.50
2.14
4.58
3.82
2.55
3.66
3.80
4.72
4.82
2.93
4.40
1.67
3.47
4.72
3.30
3.80
2.32
4.59
x3
3.39
1.06
1.98
1.88
3.21
4.64
4.90
4.81
4.89
2.41
1.26
2.49
1.02
4.10
1.34
1.69
3.22
3.12
1.71
4.05
4.62
2.96
3.69
4.57
2.34
3.78
3.84
2.17
4.02
4.87
4.49
2.12
2.32
3.14
4.24
2.61
1.38
3.63
4.44
1.17
3.38
2.02
3.67
1.25
2.97
3.14
4.32
2.66
1.84
3.41
Tablas de datos
x4
4.60
2.63
1.18
1.07
2.43
2.86
4.23
1.21
2.87
4.10
2.43
4.94
4.70
3.72
1.53
2.62
1.72
4.19
4.47
3.95
3.18
1.58
3.93
2.51
2.30
2.09
2.81
4.21
4.79
2.47
2.76
3.81
1.34
2.63
4.63
1.44
4.11
2.03
1.01
3.07
3.23
4.27
4.71
1.02
3.32
1.53
1.26
2.46
3.96
3.09
y
3.09
1.31
2.45
5.08
2.23
2.04
2.07
1.93
1.40
1.77
4.04
1.70
4.47
3.44
1.41
1.47
1.51
1.39
1.95
4.82
1.30
1.57
3.50
2.50
2.94
1.75
3.43
2.11
1.44
1.47
1.50
1.94
1.74
1.85
1.30
1.50
1.67
1.44
1.43
1.37
1.30
1.54
1.49
2.53
1.57
1.40
3.00
1.86
2.01
1.46
x1
3.36
3.37
3.92
4.86
4.53
3.32
3.71
1.69
2.00
3.90
2.04
1.17
1.12
2.89
4.29
3.92
1.93
4.41
3.80
2.15
1.67
1.38
4.34
2.14
1.27
2.06
2.63
2.73
3.88
4.51
2.84
1.85
1.30
3.13
3.07
2.98
4.57
3.13
1.89
1.69
2.40
3.03
4.80
4.08
3.70
1.18
2.73
1.38
4.08
2.27
x2
3.34
3.24
3.35
1.38
1.76
3.66
3.19
1.74
2.73
4.80
1.67
4.59
1.82
2.91
2.24
1.65
2.53
3.29
4.55
1.93
4.76
4.78
4.90
4.21
1.33
4.24
4.74
1.58
2.47
1.10
3.21
1.91
4.34
1.81
1.61
4.37
1.48
4.37
3.87
3.90
3.39
2.80
1.14
3.74
2.95
3.68
4.18
3.93
4.96
2.62
Función no lineal Tabla 1
x3
2.99
4.10
3.18
1.43
1.06
1.65
2.18
4.41
3.18
3.28
4.54
2.68
3.73
3.34
4.96
4.23
1.36
1.06
1.68
1.17
1.49
3.05
2.90
4.23
2.77
1.80
1.38
1.30
3.64
2.21
4.83
3.89
4.78
4.03
2.53
1.62
3.62
4.40
3.72
4.79
4.86
4.36
4.16
2.78
2.97
3.31
4.63
2.66
4.65
1.54
x4
1.44
1.92
4.23
3.85
1.74
1.78
3.16
4.79
4.87
4.76
4.28
1.51
4.28
2.45
4.09
4.70
4.65
3.77
4.54
4.66
2.37
3.52
1.61
3.78
2.06
2.82
1.70
1.06
1.08
1.66
2.22
4.60
2.01
3.38
4.06
4.10
1.15
3.17
4.07
3.37
1.03
4.57
3.57
4.81
2.92
3.97
4.89
1.92
3.29
3.12
y
1.57
1.59
1.51
2.75
2.18
1.52
1.56
3.18
2.16
1.35
2.91
3.37
4.86
1.74
1.83
2.36
2.30
1.49
1.37
2.53
2.12
2.62
1.31
1.78
5.16
1.82
1.54
2.68
1.75
3.66
1.68
2.79
2.89
2.28
2.55
1.49
2.56
1.47
1.99
2.20
1.78
1.75
3.49
1.44
1.61
3.44
1.56
2.73
1.32
2.04
AÑO
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
Y
WE
IT
r
u
C
5328,8994
14177,3372
260,812
1,019
1,0129
4865,8661
5921,8253
15726,4612
461,6006
0,2101 1,0124
5186,9441
6420,1708
17330,0973
362,6362
1,0133 1,0059
5545,8213
6621,6509
18918,584
307,4154
1,0319 1,0074
5878,1655
6984,16
20935,4673
289,8026
1,0429 1,0074
6249,1454
7461,4124
23435,3302
215,0563
1,066
1,0068
6674,8366
7854,9564
25591,1022
465,7737
1,0048 1,0079
6980,6687
8312,3696
27694,8014
639,5086
1,0358 1,0125
7333,4401
9003,7821
30485,3037
716,0142
1,0295 1,0188
7941,0437
9777,1176
33523,4341
1194,162
0,9932 1,0203
8557,8135
10255,8136 36026,1377 1946,1338 0,9511 1,0237
8991,1856
10406,6468 37911,1294 1733,6772 0,9791 1,0361
9152,6616
10742,8962 39695,7735 1874,6926 0,9608 1,0471
9660,4934
10854,1199 40700,6768
9805,5124
11157,866
2621,757
0,8891 1,0543
41814,5649 2079,5359 0,9492 1,0732
1,091
9898,1188
11106,6577 43174,2702 1851,7752
0,984
10023,6241
10974,1743 44533,6339 1912,3727
0,986
1,1224 10080,9219
10932,5516 45798,1969 1732,4641
1,01
1,1544 10019,6155
11017,0571 46957,5838 1824,9356 1,0145 1,1763 10038,6709
10976,3693 48050,1242 1612,9176 1,0473 1,1941 10072,8604
10885,6425 48678,8537
1481,781
1,057
1,2288 10033,6528
11190,2708 49711,9189 1172,0387 1,0528 1,2453 10273,2633
11548,3748 50513,7068 1272,5779 1,0264 1,2397 10644,5148
12084,7548
52417,721
837,1473
1,0765 1,2277 11225,0145
12695,4635 54720,8453
838,0686
1,0688 1,2152 11752,2501
Consumo Tabla 2
AÑO
CL
PCF
T3
K1
K
LD
U
SAL
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
-1,01853477
-0,95988048
-0,92587137
-0,87707017
-0,83769553
-0,80061237
-0,71665806
-0,63926651
-0,55505318
-0,46742014
-0,37525909
-0,26650902
-0,16992997
-0,09492819
-0,02618429
0,03572464
0,09137323
0,1474735
0,18877245
0,22792268
0,26751785
0,29438399
0,32088417
-0,71554219
-0,68530504
-0,66032799
-0,64397032
-0,61785143
-0,58464097
-0,5509955
-0,50437519
-0,4348112
-0,36639421
-0,30002447
-0,20836759
-0,12513682
-0,05771111
0
0,04845812
0,10477859
0,1515727
0,19519314
0,23081587
0,27068093
0,29565483
0,31897481
-0,93859901
-0,94278205
-0,9723115
-0,91684536
-0,92366064
-0,95897706
-0,94473647
-0,91569638
-0,99740674
-1,05105981
-1,06161942
-1,06298369
-1,15215523
-1,12388192
-1,13085979
-1,06482906
-1,06890688
-1,00780768
-0,97502652
-0,91960496
-0,79809498
-0,80434027
-0,82923281
4,09962464
4,14689506
4,18952666
4,23138609
4,27448876
4,31253462
4,34363759
4,37818269
4,41515052
4,4504775
4,47848835
4,50269091
4,52369387
4,54126059
4,5552117
4,56810686
4,5785531
4,58833401
4,59647178
4,60201817
4,60860393
4,61809391
4,63196647
4,14689506
4,18952666
4,23138609
4,27448876
4,31253462
4,34363759
4,37818269
4,41515052
4,4504775
4,47848835
4,50269091
4,52369387
4,54126059
4,5552117
4,56810686
4,5785531
4,58833401
4,59647178
4,60201817
4,60860393
4,61809391
4,63196647
4,64988454
4,08362444
4,08629575
4,08836647
4,09108986
4,09098773
4,09436979
4,10210426
4,10976073
4,11533421
4,10798964
4,09993603
4,09974278
4,09248905
4,08542973
4,07230505
4,05963157
4,05531334
4,05228215
4,03960842
4,03562583
4,04576097
4,05888892
4,07116741
-2,22709181
-2,1315319
-2,12971317
-2,1697964
-2,10380459
-1,90643824
-1,7300903
-1,69613465
-1,63037602
-1,44951482
-1,3370062
-1,27633913
-1,15094316
-1,05949846
-0,93759854
-0,84281229
-0,78938189
-0,75101701
-0,68603581
-0,65880891
-0,66787879
-0,68801105
-0,71014805
-0,24570883
-0,2151101
-0,20639439
-0,17353947
-0,15858997
-0,15368055
-0,10049381
-0,06656628
-0,05057351
-0,02129312
0,00663453
0,02908328
0,04414874
0,05441929
0,0677257
0,08369785
0,08393768
0,09491223
0,09016191
0,09698108
0,0968523
0,0980247
0,10246874
Salarios Tabla 3
152
AÑO (1-L)2log(1+Temtpt) (1-L)2log(1+Temsut) (1-L)2log(1+Temtmt) (1-L)2log(pfct) (1-L)log(1+Temtpt-1) (1-L)log(1+Temsut-1) (1-L)log(1+Temtmt-1) (1-L)log(pt-1) (1-L)log(pcft-1) (1-L)2log(pt)
1966
-0,000594325
0,02532449
-0,00293128
-0,02223289
0,000291154
-0,009183794
0,00075638
0,090116978 0,092733979
-0,01258802
1967
0,006638729
-0,020902401
0,00382553
-0,000877142
-0,000303172
0,016140699
-0,0021749
0,077528954 0,070501089 -0,003593922
1968
-0,008624621
-0,0307022
-0,0011461
-0,0121119
0,006335557
-0,004761696
0,00165063
0,073935032 0,069623947 -0,025422091
1969
0,01003545
0,037232399
-0,00246087
-0,019847039
-0,002289064
-0,035463899
0,00050453
0,048512939 0,057512049 -0,005557898
1970
-0,006406077
-0,005239711
0,00448306
0,02247596
0,007746384
0,0017685
-0,00195634
0,042955041 0,037665009
1971
-0,003427334
-0,002810984
-1,81789E-05
0,016327981
0,001340307
-0,003471211
0,00252672
0,066017993 0,060140971
0,01021599
1972
0,000573643
0,0157273
-0,002668952
0,001003139
-0,002087027
-0,006282195
0,002508541
0,076233983 0,076468952
0,006476998
1973
0,003579773
-0,006795198
-0,001273628
0,029874809
-0,001513384
0,009445101
-0,000160411
0,082710981 0,077472091
0,03027102
1974
-0,01729417
-0,0474157
0,001536538
0,052830201
0,002066389
0,002649903
-0,001434039
0,112981997
0,037809901
0,1073469
0,02306295
1975
0,01231855
0,041581299
0,00293519
-0,002641097
-0,01522778
-0,0447658
0,000102499
0,150791898 0,160177097
0,004099697
1976
0,003797471
-0,001985192
-0,000855898
-0,004713893
-0,002909228
-0,003184505
0,003037689
0,154891595
-0,002014488
1977
-0,001716942
0,0267152
-0,00029142
0,058225591
0,000888243
-0,005169697
0,002181791
0,152877107 0,152822107
1978
0,000658408
-0,0329188
0,006149199
-0,019401791
-0,000828698
0,0215455
0,001890371
0,208410904 0,211047694 -0,021038311
1979
0,001924842
0,005075101
-0,0115714
-0,036392409
-0,00017029
-0,0113733
0,00803957
0,187372595 0,191645905 -0,029389801
1980
0,000620857
-0,006756501
0,009086512
-0,0223688
0,001754552
-0,006298199
-0,00353183
0,157982796
1981
0,007656681
0,000439229
-0,007691114
-0,021305799
0,002375409
-0,0130547
0,005554682
0,132582098 0,132884696
-0,0194213
1982
-0,005157169
0,020770909
0,01043442
0,01810381
0,01003209
-0,01261547
-0,002136432
0,113160796 0,111578897
0,0160385
1983
0,007069548
-0,00959637
-0,006554931
-0,0219352
0,004874922
0,008155443
0,008297991
0,129199296 0,129682705 -0,019300301
1984
0,00152243
-0,003860325
0,002527661
-0,007307805
0,01194447
-0,001440927
0,00174306
0,109898999 0,107747503 -0,006067097
1985
-0,004854304
0,01166209
-0,006620094
-0,018415259
0,0134669
-0,005301252
0,004270721
0,103831902 0,100439698 -0,021807499
1986
0,028521789
-0,02386272
-0,004290637
0,00976827
0,008612596
0,006360836
-0,002349373
0,082024403 0,082024433
1987
-0,04457809
0,020520329
0,00464876
-0,03428822
0,03713439
-0,017501879
-0,00664001
0,103627399 0,091792703 -0,046123099
1988
0,007033303
-0,001911476
0,0105755
-0,00380826
-0,007443696
0,003018446
-0,00199125
Deflactor del PIB a precio de mercado Tabla 4
0,0575043
0,157536
0,1552535
0,057504479
0,0555338
-0,0254007
0,021602999
-0,0038082
%LEOLRJUDItD
[1]
Andrés J., MolinaC. s y Taguas D., Una función de consumo privado para la economía
española, La economía española. Una perspectiva macroecómica, Instituto de estudios
fiscales, Antoni Bosch. 50-100, 1991,
[2]
Angel Alcaide y Nelson Alvarez, Econometría, ISBN 84-300-4244 X.1982.
[3]
Araki S., Nomura H., Hayashi I. and Wakami N., "A self-generating method of fuzzy
inference rules", Fuzzy Engineering toward Human Friendly Systems, IFES'91 , 10471059, 1991.
[4]
Aurrand-Lions J. P., Fournier L., Jarri P., M. de Saint Blancard and Sanchez E.,
"Application of fuzzy control for ISIS vehicle braking", Fuzzy and Neuronal Systems, and
Vehicle applications'91, 1991.
[5]
Bárdossy A. and Duckstein L., "The use of fuzzy rules for the description of natural systems.", Proceeding EUIF'93, 1380-1385, 1993.
[6]
Bartolini G., Casalino G., Davoli F., Mastretta M., Minciardi R., Morten E.,
"Development of performance adaptive fuzzy controllers with application to continuos
casting plants", Cybernetics and System research, 721-728, 1982.
[7]
Bezdeck J. C., "Pattern recognition with fuzzy objective function algorithms", Plenum
Press, New York, 1981.
[8]
Bezdek J. C. and Castelaz P. F., "Prototype classification and feature selection with fuzzy
sets", IEEE Transaction on Systems, Man and Cybernetics, vol SMC-7, no 2, 87-92,
1977.
[9]
Breiman L., Friedman, J. Olshen, R. and Stone, C., "Classification and regression tree",
Monterey, Ca.:Wadsworth, 1984.
[10] Castro J. L., "Fuzzy Logic Controllers Are Universal Approximators", IEEE Transactions
on Systems, Man and Cybernetics, vol. 25-4, 629-635. 1995 .
[11] Celal Batur and Vicken Kasparian, "Predictive fuzzy expert controllers", Computer ind.
Engng, vol 20, no 2, 199-209, 1991.
Bibliografía
[12] Cesar Molinas, Fernado-Carlos Ballabriga, Eudald Canadell, Alvaro Escribano, Elías
López, Luis Manzanedo, Ricardo Mestre, Miguel Sebastián y David Taguas, MOISEES.
Un modelo de investigación y simulación de la economía española, Instituto de estudios
fiscales. Antonio Bosch.1991.
[13] Clark and Niblett, "The CN2 Induction Algorithm", Machine Learning, 3, 261-283, 1989.
[14] Clive W. J. Granger and Timo Teräsvirta, Modelling nolinear economic relationships,
Oxford University Press.1993.
[15] Chang R.L and Paulidis T., "Fuzzy decision tree algorithms", IEEE on Syst Man, Cyber
28-34, 1977.
[16] Chang R.L and Paulidis T., "Fuzzy decision tree", IEEE Conf. on Syst Man, Cyber,
Washingston DC, 564-567, 1976.
[17] De Campos L. M. and González A., "A fuzzy inference model based on an uncertainty
forward propagation approach", DECSAI technical report 91-1-6. Universidad de
Granada, 1991.
[18] De Campos L. M. and Moral S., "Learning rules for a fuzzy inference model", Fuzzy Sets
and Systems, 59, 247-257, 1993.
[19] De Campos L. M. and Moral S., "Propagating uncertain information forward", International Journal of Intelligent Systems 7, 15-24, 1992.
[20] Delgado M. and González A., "A Frequency model in a fuzzy environment", International
Journal of Approximate Reasoning, 11, 159-174, 1994.
[21] Delgado M., "Razonamiento aproximado", Algunos aspectos del tratamiento de la
información en inteligencia artificial, Universidad de Granada, Dep. de Ciencias de la
Computación e Inteligencia Artificial, pp.113-133, 1991.
[22] Delgado M., Gómez Skarmeta A. F. and Jiménez L., "Regression by fuzzy knowledge
bases", Proc. EUFIT'96 , 2, 1170-1176, 1996 .
[23] Delgado M., Gómez Skarmeta A. F. y Jiménez L., "Árboles difusos de clasificación y
regresión", Proc. VI Congreso español sobre tecnología y lógica fuzzy, 101-106, 1996 .
155
Bibliografía
[24] Devi B. B. and Sarma V. V. S., "A fuzzy approximation schema for sequential learning in
patter recognition.", IEEE Transaction on Systems, Man and Cybernetics, vol SMC-16,
no 5, 668-679, 1986.
[25] Di Nola A. and Sessa S., "Modus Ponen for fuzzy data realized via equations with
equality operators", International Journal of Intelligent Systems, vol. 5.1-14, 1990
[26] Di Nola A., Sessa S. and Pedrycz W., "A study on approximate reasoning mechanisms
via fuzzy relation equations", International Journal of Approximate Reasoning, 6.33-44,
1992
[27] Diminitrescu D., "Hierarchical Patter Classification", Fuzzy Set and Systems 28, 145162, 1988.
[28] Dubois D. and Prade H., "Possibility theory an approach to computerised processing of
uncertan", Plenum Press, 1988.
[29] Dunn J. C, , "A graph theoretic analysis of pattern classification via Tamura's fuzzy
relation", IEEE Transaction on Systems, Man and Cybernetics, vol SMC-4, no 3, 310313, 1974.
[30] Eduard J. Bomhoff, Financial forecasting for business and economics, The Dryden
Press.1994.
[31] Fuller R. and Werners B., "The compositional rule on inference: introduction, theoretical
considerations, and exact calculation formulas", Working Paper 91/07, 1991.
[32] Gaines B. R., "Stochastic and fuzzy logic", Electr. Letter, vol 11, 188-189, 1975.
[33] Gómez Skarmeta A. F., "Modelado difuso de sistemas mediante aprendizaje por
clasificación con técnicas de agrupamiento (clustering)", Tesis Doctoral. Departamento
de Informática y Sistemas. Universidad de Murcia.1995.
[34] González A. and Vila M., "An interval-based approach for working with fuzzy numbers",
Lecture notes in computer Sciencies 521, B. Buchon, R. R. Yager and L. A. Zadeh (Eds).
Uncertainty in knowledge, 193-202, 1991.
[35] Gupta M. M. and Knopf G. K., "Dynamic neuronal network for fuzzy inference",
Conference Paper in Journal, v. 2061, 488-501, 1993.
156
Bibliografía
[36] Harris C. J., Moore C. G. and Brown M., "Intelligent Control. Aspects of fuzzy logic and
neural nets.", World Scientific Publishing.1993
[37] Heckenthaler T. and Engell S., "Approximately time-optimal fuzzy control of a two-tanks
System", IEEE Controls Systems, vol 14, no 3, 24-30, 1994.
[38] Herrera F., Lozano M. and Verdegay J. L., "Generating Fuzzy Rules From Examples
Using Genetic Algorithms", Techical Report #DECSAI-93115.1993.
[39] Herrera F., Lozano M., and Verdegay J. L., "Tuning Fuzzy Logic Controllers by Genetic
Algorithms", International Journal of Approximate Reasoning, 11, 2-158. 1994.
[40] Holland J. H., Holyoak K. J., Nisbett R. E. and Thagard P. R., "INDUCTION. Processes
of inference, Learning, and Discovery", The MIT Press.1986.
[41] Ishibuchi H., Nozaki K. and Tanaka H., "Efficient fuzzy partition of space for
classification problems", Proc. of IIZUKA’92, 671-674, 1992.
[42] James D. Hamilton, Times series analysis, Princeton University Press.1994.
[43] James J. Buckley and Yoichi Hayashi, "Fuzzy input-output controllers are universal
approximators", Fuzzy Sets and Systems, 58, 273-278, 1993.
[44] Javier Iraburu, Macroeconomía. Introducción a la economía descriptiva., Ediciones
Universidad de Navarra, S. A. Pamplona..1975.
[45] Josep Aguilar- Martín, "Grado de recubrimiento de particiones borrosas", Tercer
Congreso Español sobre Tecnología y Lógica Fuzzy, Santiago de Compostela, 137-144,
1993.
[46] Jung S. W., Bae S. W., Park G. T., "A design schema for hierarchical fuzzy pattern
matching classifier and its application to the tire tread pattern recognition", Fuzzy Sets
and Sytems, 65, 311-322, 1994.
[47] Jyh-Shing Roger Jang, "ANFIS: Adaptive-Network-Based Fuzzy Inference System",
Transactions on systems , Man, and Cybernetics. vol 23 no 3, 665-685, 1993.
[48] Jyh-Shing Roger Jang, "Structure determination in fuzzy Modelling: A Fuzzy CART
Approach", Information Science, 89, 275-296, 1996.
157
Bibliografía
[49] Keller J. M., M. R. Gray and James A. Givens, JR., "A Fuzzy K-Nearest Neighbour
Algorithm", IEEE Transaction on Sytems, Man and Cybernetics, vol SMC-15, no 4, 580585, 1985.
[50] Khedkar P. S. and Heshav S., "Fuzzy prediction of time series", POR DETERMINAR.
[51] Kickert W.J.M., Mamdani E.H, "Analysis of a fuzzy logic controller", Fuzzy Set and
System, vol 1, pp. 29-44, 1978.
[52] Klawonn F., Gebhardt J., Kruse R., "Equality relations as basis for fuzzy control", Fuzzy
Sets and Systems, 54, 147-156, 1993.
[53] Klee G. I. and Folger T. A., "Fuzzy sets, uncertainty and information", Prentice Hall,
1988.
[54] Kóczy L. T. and Hirota K., "Approximate reasoning by linear rule interpolation and general approximation", International Journal of Approximate Reasoning, 9, 197-225,
1993.
[55] Kóczy L. T. and Hirota K., "Ordering, distance and closeness of fuzzy sets", Fuzzy Sets
and Systems, 59, 281-293, 1993.
[56] Kwok D. P., Wang P. and Li C. K., "A combined fuzzy and classical PID controller",
Microprocessing and Microprogramming, 32, 701-708, 1991.
[57] Landajo M., "Some Alternative approach to fuzzy linear regression", ITHURS'96.
[58] Larkin L. I., "A fuzzy logic controller for aircraft flight control", Industrial Applications
of Fuzzy Control, 87-138, 1985.
[59] Lebowitz, M., "Categorising numerical information for generalisation", Cognitive
Science, 9, 285-386, 1985.
[60] Lee C. C., "A self-learning rule-based controller employing approximate reasoning and
neural net concepts", International Journal of Intelligent Systems, vol 6, 71-93, 1991.
[61] Lee C. C., "Fuzzy logic in control system: Fuzzy logic controller - Part I", IEEE
Transactions on Systems, Man, and Cybernetics, vol 20, no 2, 404-418, 1990.
158
Bibliografía
[62] Lee C. C., "Fuzzy logic in control systems: Fuzzy logic controller -Part II", IEEE
Transactions on Systems, Man, and Cybernetics, vol 20, no 2, 419-435, 1990.
[63] Lipsey R. G. , “Introducción a la economía descriptiva”, Vicens-Vives , 1985.
[64] Magrez P. and Smets P., "Fuzzy modus ponens: a new model suitable for applications in
knowledge-base systems", International Journal of Intelligent Systems, 4, 181-200, 1989.
[65] Mamdani E. H, , and Assilian S.., "An experiment in linguistic synthesis with a fuzzy
logic controller.", Int. J. Man-Machine Studies, 7, 1-13, 1975.
[66] Mamdani E. H, and Sembi B. S., "Process control using fuzzy logic", Industrial Applications of fuzzy control, 249-265, 1985.
[67] Mamdani E.H, Assilian S., "An experiment in linguistic synthesis with a fuzzy logic
controller", Int. J. Man-Mach, Studies, 7, pp. 1-13, 1975.
[68] Mamdani E.H., "Applications of fuzzy algorithms for control of simple dynamic plant",
Proc. IEEE, 121, pp. 1585-1588, 1974.
[69] Marinos P. N., "Fuzzy logic an its application to switching systems", IEEE Transactions
on Computers, vol c-18, no 14, 343-348, 1969.
[70] Martin Larsen P., "Industrial applications of fuzzy logic control", Int. J. Man-Machine
Studies, 12, 3-10, 1980.
[71] Mizumoto M., "Improvement Methods of Fuzzy Controls", Proc. of 3rd IFSA Congress,
Seattle.1989, 60-62
[72] Mizumoto M., "Method of Fuzzy Inference suitable for Fuzzy Control", J. Soc.
Instrument and Control Engrs, 58.1989, 959-963
[73] Murakami S. and Maeda M., "Automobile speed control system using a fuzzy logic
controller", Industrial Applications of Fuzzy Control, 105-123, 1985.
[74] NomurH. a, Hayashi I. and Wakami N., "A learning method of fuzzy inference rules by
descent method", Proceeding of the IEEE Int. Conf. on Fuzzy Systems, 203-210, 1992.
159
Bibliografía
[75] Pal S. K. and Chakraborty B., "Fuzzy set theoretic measure for automatic feature
evaluation", IEEE Transaction on Systems, Man and Cybernetic, vol SMC-16, no 5, 754760, 1986.
[76] Pappis C. P. and Mandani E. H., "A fuzzy logic controller for a traffic junction", IEEE
Transactions on Systems, Man, and Cybernetics, vol smc-7, no 10, 707-717, 1977.
[77] Pedrycz W., "An identification algorithm in fuzzy relational system", Fuzzy Sets and
Systems,13,153-167, 1984
[78] Pedrycz W., "Fuzzy relational equation", Fuzzy Sets and Systems, 59.189-195, 1993
[79] Pedrycz W., "Numerical and applicational aspects of fuzzy relational system", Fuzzy
Sets and System, 1-15, 1983
[80] Quinlan J. R. , "Simplifying decision tree", International Journal of Man-Machine
Studies, 27, 221-234, 1987.
[81] Quinlan J. R., "Induction of decision tree", Machine Learning, 1, 81-106.
[82] Safavian S. R. and Landgrebe D., "A survey of decision tree classifier methodology",
IEEE Transactions on system, man and cybernetics, vol 21, no 3, 660-673, 1991.
[83] Sestito S. and Dillon T., "Using single-layered neural networks for the extraction of
cojuntive rules and hierarchical classifications", Journal of Applied Intelligence, 1, 157173, 1991.
[84] Sudkamp T., "Similarity, interpolation, and fuzzy rule construction", Fuzzy Sets and
Systems, 58, 73-86, 1993.
[85] Sugeno M. and Kang G.T., "Structure Identification of Fuzzy Model", Fuzzy Sets and
Systems, 28, 15-33, 1988.
[86] Sugeno M. and Murakami K., "An experimental study on fuzzy parking control using a
model car", Industrial Applications of Fuzzy Control, 125-137, 1985.
[87] Sugeno M. and Tanaka K., "Successive identification of a fuzzy model and its application
to prediction of a complex system", Fuzzy Sets and Systems, 42, 315-334, 1991.
160
Bibliografía
[88] Sugeno M. and Tanaka K., "Successive identification of a fuzzy model and its
applications to prediction of complex system", Fuzzy Sets and Systems, 42, 315-334,
1991.
[89] Sugeno M. and Yasukawa T., "A fuzzy-logic-based approach to qualitative modelling",
IEEE Transactions on Fuzzy Systems, vol 1, no1, 7-31, 1993.
[90] Sun C. T., "Rule-base structure identification in an adaptive-network-based fuzzy
inference system", IEEE Transaction on Fuzzy Systems, vol 2, no 1, 64-73, 1994.
[91] Takagi T. and Sugeno M., "Fuzzy identification of systems and its applications to
modelling control", IEEE Transactions on Systems, Man , and Cybernetics, vol smc-15,
no 1, 116-132, 1985.
[92] Tamura S., Higuchi S. and Tanaka K., "Pattern classification based on fuzzy relations",
IEEE Transaction on Systems, Man and Cybernetics, vol SMC-1, no 1, 61-66, 1971.
[93] Thomas Frederick Dernburg y Judith Ducler Dernburg, Análisis macroeconómico,
Ediciones Universidad de Navarra S. A..1976.
[94] Turksen J. B. and Zhong Z., "An approximate analogical reasoning schema based on
similarity measures and interval-valued fuzzy sets", Fuzzy Sets and Systems, 34, 323346, 1990.
[95] Uchino E., Yamakawa T., Miki T. and Nakamura S., "Fuzzy rule-based simple interpolation algorithm for discrete signal", Fuzzy Sets and Systems, 59, 259-270, 1993.
[96] Umano M., Okamoto H., Hatono I., Tamura H., Kawachi F., Umedzu S., Kinoshita J.,
"Fuzzy decision tree by fuzzy ID3 algorithm an its application to diagnosis systems",
Proc. of FUZZ-IEEE’94, 3, 2113-2118, 1994.
[97] Watada J. and Yubuuchi Y., "Fuzzy robust regression analysis", Proceedings
FUZZ/IEEE'94, 1370-1376, 1994.
[98] Watanabe M., Kuwata K. and Katyama R., "Adaptive tree-structured sef-generating
radial basic function network and its performance evaluation", International Journal of
Approximate Reasoning, 13, 303-326, 1995.
161
Bibliografía
[99] Weiss S. M. and Indurkhay N., "Rule-based regression", Proc. of IJCAI’93, 2, 10721078, 1993.
[100] Weiss S. M. and Indurkhya N., "Reduced Complexity Rule Induction", Proceedings of
IJCAI-91, Sydney, 678-684, 1991.
[101] Windham M. P., "Geometrical fuzzy clustering algorithms", Fuzzy Sets and Systems, 10,
271-279, 1983.
[102] Yager R. R, "On a hierarchical structure for fuzzy modelling and control", IEEE
Transaction on Systems, Man and Cybernetics, vol. 23, no 4, 1189-1197, 1993.
[103] Yager R. R., "The representation of fuzzy relational production rules", Journal of
Applied Intelligence, 1, 35-42, 1991.
[104] Yuan Y., Shaw M. J., "Induction of fuzzy decision trees", Fuzzy Sets and Systems 69,
125-139, 1995.
[105] Zadeh L. A., "Fuzzy Set", Information and Control, vol. 8, pp.338-353, 1965.
[106] Zadeh L. A., "Fuzzy sets as basis for a theory of possibility", Fuzzy Sets and Systems, 1,
2-38, 1978.
[107] Zadeh L. A., "The concept of a linguistic variable and its applications to Approximate
reasoning. Part I", Information Sciences, vol 8, pp. 199-249, 1975.
[108] Zadeh L. A., "The concept of a linguistic variable and its applications to Approximate
reasoning. Part II", Information Sciences, vol 8, pp. 301-357, 1975.
[109] Zadeh L. A., "The concept of a linguistic variable and its applications to Approximate
reasoning. Part III", Information Sciences, vol 9, pp. 43-80, 1975.
[110] Zadeh L. A., "The role of fuzzy logic in the management of uncertainty in expert
systems", Selected paper by L. A. Zadeh, 413-441, 1975.
[111] Zadeh L. A., “Outline of a New Approach to the Analysis of Complex System”, IEEE
Trans. on System Man and Cybernetics, SMC-1, pp. 28-44, 1973.
162
Descargar