Consenso y clasificación para matrices de datos

Anuncio
Consenso y clasificación para matrices de datos
Vicenç Torra
Dpt. d'enginyeria informática
Escola Tècnica Superior d'Enginyeria (ETSE)
Universitat Rovira i Virgili
Carretera de Salou, s/n
E-43007 Tarragona (Spain)
E-mail: [email protected]
Ulises Cortés
Departament de Llenguatges i Sistemes Informàtics
Universitat Politècnica de Catalunya
c./ Pau Gargallo, 5
E-08028 Barcelona (spain)
E-mail: [email protected]
Palabras clave: Adquisición de conocimiento, Aprendizaje, Sistemas de fusión de información.
RESUMEN
En este trabajo comparamos los resultados obtenidos por dos métodos de síntesis de
información diferentes. Los dos métodos se aplican al mismo conjunto de datos: seis matrices de
valores para los pares (objeto, atributo) y se obtienen en los dos casos un árbol de clasificación
consenso. El primer método de consenso es el presentado por (V. Torra y U. Cortés, 1992) para
consensuar matrices, aplicando después un método de clasificación por agregación. El segundo método
aplica primero una clasificación a cada matriz, y aplica luego el procedimiento del medio para
consensuar los diferentes árboles en uno solo.
ABSTRACT
In this work we compare two different methods of information synthesis. Both methods are
applied to a set with six matrices of values, in order to obtain a hierarchical classification. The first
method, studied in (V. Torra y U. Cortés, 1992), builds an agreed data matrix, and from it a
classification is inferred through an agglomerative method. The second one applies the classifier to each
matrix and then the classifications obtained are aggregated.
1.- INTRODUCCIÓN
En los diferentes campos que abarca la inteligencia artificial es de vital importancia la
adquisición del conocimiento. Las diferentes técnicas usadas hasta ahora extraían la información
primordialmente de una sola fuente (fuera ésta un sensor midiendo el valor de una variable en un
entorno, o fuera ésta un experto de un determinado dominio), pero cada vez resulta más necesario que
un sistema basado en el conocimiento sea capaz de combinar la información procedente de distintas
fuentes.
La combinación de información es necesaria debido a que a menudo la que procede de una
única fuente no abarca todo el dominio de interés, o no es suficientemente fiable. Pero si la información
procedente de una única fuente provoca problemas, también los provoca la procedente de distintas
fuentes. En este caso podemos tener divergencia en los datos.
Por ejemplo, cuando queremos construir un sistema experto basándonos en la información de
un solo experto, tenemos que exigir del experto un buen conocimiento de todo el dominio en el que
trabajará el sistema. Introduciendo más expertos no hace falta tanta pericia, pero al disponer de más
información la construcción del sistema se complica. Al disponer de información procedente de
distintos expertos se puede tener disparidad de opiniones, y esta diferencia de opinión puede no ser
fácil de resolver. Como ejemplo de dificultad en la agregación de opiniones tenemos los teoremas de
imposibilidad de Arrow, (Arrow, 1963) referentes a la síntesis de preferencias.
Cuando los datos provienen de sensores que captan la información procedente del medio, la
información tiene asociada una cierta incertidumbre (que no siempre es posible calcular). Con la
captación de información con varios sensores, y la posterior combinación de los datos es posible
reducir la incertidumbre, con lo cual ganaremos en fiabilidad. Dentro del consenso de datos
procedentes de distintos sensores encontramos los trabajos de J.A. Benediktsson y P.H. Swain (1992)
y el de K-C. Ng y B. Abramson, (1992). El primero agregando datos geográficos procedentes de
distintos satélites, y el segundo simulando datos de distintas fuentes. También tenemos el trabajo de S.
Deveughele y B. Dubuisson (1993) en visión.
Los métodos de consenso se aplican a distintos tipos de objetos, relaciones de preferencia
qualitativas (Arrow, 1963) y quantitativas (Kacprzyk y Yager (1985), y Kacprzyk y Fedrizzi (1990)),
conjuntos difusos (M. Roubens (1991), D. Dubois and J-L. Koning (1991), Dubois and Prade (1992),
Torra (1993)), lógica (J.Agustí et al. (1991)), matrices de datos (V.Torra y U.Cortés, 1992),
clasificaciones (A. Ferligoj, V. Batagelj (1992), W.H.E. Day (1988), Journal of Classification, special
issue editado por W.H.E. Day (1986)).
Dentro de los métodos para síntesis de información podemos destacar los métodos basados en
equaciones funcionales, entre ellos destacamos los trabajos de J. Aczél y C. Alsina (1986), A.A.J
Marley (1992), F.S. Roberts (1991), y los basados en técnicas estadísticas donde encontramos los
trabajos ya citados de R.C. Luo, M.G. Kay (1989), A.A.J. Marley (1992), K-C. Ng y B. Abramson
(1992) y J.A. Benediktson y P.H. Swain (1992).
En este trabajo presentamos una implementación del método de la regla de mayoría y la
aplicamos a un conjunto de árboles resultado de la clasificación de una serie de matrices. Comparamos
el resultado del consenso de los árboles con la clasificación resultante del consenso de las matrices de
acuerdo con el trabajo presentado en (V.Torra y U.Cortés, 1992). Para otros métodos de consenso
de árboles, ver por ejemplo D.A. Neuman y V.T. Norton (1986).
Este trabajo se encuentra enmarcado en un sistema para la adquisición automática de
conocimiento. El sistema a partir de una matriz de datos definida por un experto construye una
clasificación y a partir de ésta se extraeran reglas de forma automática. Incorporando técnicas de
consenso es posible tratar matrices de diferentes expertos, con lo que se obtiene un sistema que
sintetiza la información que contienen las diferentes matrices. De esta manera el sistema experto final
será más fiable que el construido a partir de cualquiera de las matrices de los diferentes expertos.
El trabajo presentado aquí está dividido de la forma siguiente: En la sección segunda
presentamos el procedimiento del medio y la regla de mayoría, después en la sección tercera
comentamos el método de trabajo, pasando en la cuarta sección a comentar los resultados obtenidos.
2.- PROCEDIMIENTO DEL MEDIO Y REGLA DE LA MAYORÍA
A continuación presentamos la definición de árbol n-ário, que junto con la definición de
partición, y de partición compatible permite definir dos funciones de consenso de árboles y enunciar el
lema de Barthélemy y McMorris que relaciona ambas funciones.
Definición
Sea S = {O 1, ..., On } un conjunto de objetos, y sea 2S el conjunto de todos los subconjuntos
de S.
Un árbol n-árioT es un subconjunto de 2S que satisface las condiciones siguientes:
1. S T, ø T
2. {O i} T, ∀Oi S
3. A ↔B
{ø, A, B} ∀A,B T
Se llamará partición de un árbol T a un subconjunto de 2S que pertenezca aT. Se llamará árbol
trivial, y se denotará Tø = {S, {O 1}, ... ,{O n }} al árbol formado sólo por las particiones S y {O i} ∀Oi
S.
Definición
Llamamos una partición A∏S compatible con un árbol T, si y solo si;
A↔X {ø,A,X}
∀X T
Esto es, que añadiendo la partición en el árbol, continuamos teniendo un n-árbol.
Definimos a continuación las funciones de consenso, en ellas denotamos el conjunto de todos
los árboles posibles T.
Definición
La función CMF (Complete Multiconsensus Function de acuerdo con J.P.Barthélemy y
F.R.McMorris) se define como la función que dados k árboles devuelve un conjunto de uno o más
árboles de consenso. Esto es:
C:Tk------> T+
donde T+ es un conjunto con uno o más árboles.
Definición
El procedimiento del medio M es una CMF que dados k árboles obtiene el conjunto de árboles
que minimizan la distancia a los dados. Esto es:
M(T1, ..., Tk) = {T T | ? ik d(T,Ti) es mínima}
La distancia entre dos árboles d(Ti,Tj) se define como el número de particiones que aparecen
en cualquiera de los árboles, pero no en el otro. Esto es, el número de clusters en total, menos aquellos
que aparecen en los dos árboles:
d(T,T') = | T ≈ T'| - | T ↔ T'|
Definición
La función Maj de consenso de la regla de la mayoría de Tk en T se define como:
Maj(T1, ... ,Tk) = {A: γP(A) > 1/2}
A 2S, Ti T
donde
γ P(Α) =
|{i | A ∈ Ti}|
k
Definimos de esta forma el árbol consenso como el árbol formado por aquellas particiones de
2S que aparecen en más de la mitad de los k árboles a consensuar.
Se demuestra (Margush y McMorris, 1981) que el procedimiento del medio y la regla de la
mayoría estan relacionadas, en particular tenemos que Ma(P) M(P), ∀P Tk, y que que cuando n es
impar se satisface M(P) = {Maj(P)}. Para el caso general tenemos el siguiente resultado debido a J.P.
Barthélemy y F.R. McMorris (1986):
Lema
Sea P Tk. Entonces M(P) es el conjunto de todos los n-árboles de la forma:
Maj(P) ≈ {A1, ... , Am}
tales que para 1=l=m, la partición Al es compatible con Maj(P) ≈ {A1, ... , Al-1} y
γP(Al) = 1/2.
Este lema permite construir los árboles del procedimiento del medio a partir de los resultados
de la regla de la mayoría. Este ha sido el método empleado para calcular los resultados de la sección
cuarta.
3.- EXPERIENCIAS
Hemos provado el consenso de clasificaciones basado en la mayority rule con un conjunto de
seis n-árboles. Árboles correspondientes a las seis matrices estudiadas en (V.Torra y U.Cortés, 1992).
El estudio se ha realizado con seis matrices sobre lenguajes de programación de 13 objetos y 8
atributos cada una. Las matrices fueron rellenadas por profesores del departamento de Lenguajes y
Sistemas Informáticos de la Universidad Politécnica de Cataluña. Los 13 lenguajes y los 8 atributos
fueron fijados de antemano, no así su tipo (quantitativo o qualitativo) ni el dominio que se dejó libertad
al experto. Los 13 lenguajes estudiados son {Lisp, C, Pascal, Scheme, Fortran, Prolog, ML, Modula2, Basic, FP, Asembler, Ada, Cobol}, y los 8 atributos son {claridad, compacidad, potencia,
comprensión, estructuras, modularidad, facilidad, tipo}.
Una vez los expertos rellenaron las matrices (Mi es la matriz correspondiente al experto iésimo), en el trabajo precedente se sintetizaron las matrices construyendo a partir de las seis matrices
una de consensuada (matriz que aquí llamaremos Mc). Esta matriz, que sintetiza la información de las
matrices originales, tiene definido su propio dominio para los atributos.
En este trabajo se ha construido a partir de cada matriz Mi una clasificación Ai de acuerdo con
un método de agregación basado en la distancia entre los prototipos de las clases (sus centros). (Ver
Gordon (1981) y (1987) para métodos de clasificación). Una vez construídas las clasificaciones,
representadas mediante árboles jerárquicos, se procede al consenso de las mismas mediante la regla de
la mayoría. Obtenemos así una clasificación consensuada Ac.
Una vez obtenida la clasificación resultante del consenso (Ac) se la compara con la clasificación
obtenida a partir de la matriz consenso (Mc). Los resultados obtenidos son comentados a continuación.
En la figura 3.1 observamos las distintas fases del proceso.
Mi
Consenso matrices
Mc
Clasificar
Ai
Clasificar
consenso
de arboles
figura 3.1
Ac / Ac'
4.- RESULTADOS Y CONCLUSIONES
Hemos observado que en la clasificación consenso conseguida a partir de la regla de la mayoría
el árbol consenso es casi trivial:
Tø ≈ { {scheme, lisp}}
Mientras que el árbol jerárquico obtenido a partir de la matriz consensuada es:
Ada M-2 Pas. Sch. Lisp ML FP Prol. Cob. Ass. Bas. For. C
Este resultado negativo es debido a la gran divergencia entre los árboles de clasificación
formados a partir de las matrices de los expertos. Los árboles de los distintos expertos, aparte de los
nodos triviales, sólo coinciden en la presencia del nodo {scheme, lisp}.
De acuerdo con el lema de Barthélemy y McMorris enunciado en la sección segunda, hemos
estudiado el conjunto de los árboles que resultan del procedimiento del medio. Los árboles de este
conjunto, como se ha dicho, son el resultado de añadir al árbol resultante de la regla de la mayoría, los
nodos Ai con γP(Ai) = 1/2 compatibles con los ya añadidos. En el ejemplo estudiado, solo hay dos
nodos que cumplen la condición del lema, y por no haber incompatibilidad entre ellos es posible añadir
los dos para formar uno de los árboles del conjunto resultante del CMF medio.
Tø ≈ { {scheme, lisp}, {FP, ML}, {modula-2, pascal} }
Comparando estos resultados con el árbol construido a partir de la matriz consensuada,
observamos que de los tres nodos considerados en el árbol construido, sólo encontramos {scheme,
lisp}, no apareciendo los otros dos. Considerando el árbol resultado del consenso, vemos que aunque
el nodo {modula-2, pascal} no existe, encontramos uno de bajo nivel que lo contiene: {modula-2,
pascal, ada}. No sucede en cambio con {FP, ML} que solo se encuentran juntos en nodos de nivel
alto (con muchos objetos). De todos modos, aunque ambos métodos no den los mismos resultados, se
puede apreciar que el consenso de árboles es una aproximación al resultado de clasificar la matriz
consensuada. A continuación se estudian las causas de la diferencia de resultados.
El resultado divergente de los dos métodos de consenso lo atribuimos a las dos razones
siguientes:
• Construyendo primero la clasificación y luego agregando los n-árboles perdemos
información que puede ser información correcta y relevante. Clasificando primero, el error en
la matriz de cada experto se propaga magnificado en el n-árbol correspondiente. El consenso
posterior trabajará con árboles con elevado error.
En cambio, cuando primero consensuamos las matrices, generamos una matriz que
habrá reducido el error. Aplicando después la clasificación generaremos un árbol teniendo en
cuenta toda la información disponible, este árbol tendrá generalmente menos error asociado.
• La segunda razón son las propiedades que satisface el procedimiento del medio. De
acuerdo con el teorema presentado por J.P. Barthélemy y F.R. McMorris (1986), el CMF
medio es el único CMF que es eficiente, estable en las particiones, consistente, simétrico y
casi-condorcet.
De acuerdo con el ser estable en las particiones, la pertenencia de un conjunto X en el
árbol consensuado sólo depende de su presencia o ausencia en los diferentes árboles Ai, y
no de la presencia de otros nodos. Consensuando primero las matrices y clasificando
después conseguimos un árbol que no satisface esta condición.
Podemos concluir, por tanto que lo resultados obtenidos con los dos métodos no son
equivalentes. Vemos la regla de la mayoría y el procedimiento del medio como una forma de conseguir
un esqueleto mínimo del árbol de consenso. Clasificando la matriz consensuada, en cambio
conseguimos un árbol jerárquico, pero este no satisface el esqueleto mínimo. Consideramos esta
diferencia debida fundamentalmente a la propagación del error y para ello hemos diseñado un test. Éste
consiste en aplicar ambos métodos a un conjunto de n matrices. Empezaremos con las n matrices
iguales, con lo cual los resultados de ambos métodos coincidiran. Introduciremos después error en las
matrices del conjunto, y aplicaremos los dos métodos.
5.- REFERENCIAS
[Abidi, Gonzalez, 92]
Abidi, M.A., Gonzalez, R.C., (Eds) "Data Fusion in Robotics and machine Intelligence",
Academic Press, 1992.
[Aczél, Alsina, 86]
Aczél,J., Alsina,C. "On synthesis of Judgements", Socio-Econom Plann. Sci, 1986
[Agustí, et al., 91]
Agustí, J., Esteva, F., Garcia, P., Godó, Ll., Sierra, C., "Combining Multiple-valued logics in
modular expert systems" Proc 7th conference on uncertainty in A.I., Los Angeles, July 1991
[Arrow, 63]
Arrow,K.J., "Social Choice and Individual Values", New York, Wiley, 1963 (2nd edition).
[Barthélemy, McMorris, 86] Barthélemy, J.P., McMorris, F.R., "The median procedure for n-trees", Journal of
Classification 3, pp 329-334, 1986
[Benediktsson, Swain, 92] Benediktsson, J.A., Swain, P.H., "Consensus theoretic classification methods". IEEE
Trans. on systems, man and cybernetics, Vol.22, No.4, July/August 1992
[Day, 86]
Day, W.H.E. Special issue on comparison and consensus of classifications, Journal of
Classification, N.3, 1986
[Day, 88]
Day, W.H.E. "Consensus methods as tools for data analysis". In "Classification and
related methods of data analysis". H.H. Bock (Ed.), pp.317-324. Amsterdam, Elsevier, 1988.
[Deveughele, Dubuisson, 93] Deveughele, S., Dubuisson, B., "Possibility theory: A convenient framework to handle
conflicts in artificial vision", Quardet-93 (Qualitative Reasoning and Decision Technologies), N. Piera, M.G.
Singh (Eds), Barcelona, 1993.
[Dubois, Koning, 91]
Dubois, D., Koning, J-L., "Social choice axioms for fuzzy set aggregation", Fuzzy sets and
systems, No 43 (1991), pp 257-274.
[Dubois, Prade, 92]
Dubois, D., Prade, H., "Combination of Information in the framework of possibility theory",
in "Data Fusion in Robotics and machine Intelligence" (Al Abidi, M., Gonzalez, R.C., Eds), Academic Press,
1992, pp 481-505
[Ferligoj, Batagelj, 92]
Ferligoj, A. Batagelj, V. "Direct Multicriteria Clustering Algorithms", Journal of
Classification, 9, pp43-61, 1992
[Gordon, 81]
Gordon,A.D. "Classification: Methods for the exploratory analysis of multivariate data".
London: Chapman and Hall, 1981.
[Gordon, 87]
Gordon,A.D., "A review of Hierarchical Classification", Journal of the Royal Statis tical
Society. A, 150, part 2, pp.119-137, 1987.
[Kacprzyk, Yager, 85]
Kacprzyk, J., Yager, R.R. (Ed.), "Managemenet decision support systems using fuzzy sets
and possibility theory". Verlag TÜV Rheinland GmbH, Köln 1985
[Kacprzyk, Fedrizzi, 90]
Kacprzyk, Fedrizzi,M. (Ed.), "Multiperson Decision Making Models Using Fuzzy Sets and
Possibility Theory", Kluwer Academic Publishers, 1990
[Luo, Kay, 89]
Luo, R.C., Kay, M.G., "Multisensor integration and fusion in intelligent systems", IEEE
Trans SMC, vol 19 pp 901-931, 1989
[Margush, McMorris, 81] Margush, T., McMorris, F.R., "Consensus n-Trees", Bulletin of Mathematical Biology, 43,
pp 239-244, 1981
[Marley, 92]
Marley, A.A.J. "A selective review of recent characterizations of stochastic choice models
using distribution and functional equation techniques", Mathematical Social Sciences, 23, pp.5-29, 1992
Neuman, Norton, 86]
Neuman, D. A., Norton, V.T. (jr). "on lattice consensus methods", Journal of
Classification, No 3, pp 225-255, (1986)
[Ng, Abramson, 92]
Ng, K-C., Abramson, B. "Consensus diagnosis: A simulation study" IEEE Trans. on
systems, man, and cybernetics, vol 22, No.5, September/October 1992
[Roubens, 91]
Roubens, M., Fuzzy sets and systems, special issue: Aggregation and best choices of
imprecise opinions, No 43, pp: 255-336, 1991
[Roberts, 91]
Roberts, F.S. "On the indicator function of the plurality function", Mathematical Social
Sciences, 22, pp 163-174, 1991
[Torra, Cortés, 92]
Torra, V., Cortés, U. "EGAC: Automatic consensus generator tool", Proceedings of the 5th
International Symposium on Knowledge Engineering, Sevilla, 1992, pp.88-92
[Torra, 93]
Torra, V., "Consenso de funciones de pertenencia triangulares", III congreso español
sobre tecnologias y lógica fuzzy, Santiago de Compostela, 1993
Descargar