Consenso y clasificación para matrices de datos Vicenç Torra Dpt. d'enginyeria informática Escola Tècnica Superior d'Enginyeria (ETSE) Universitat Rovira i Virgili Carretera de Salou, s/n E-43007 Tarragona (Spain) E-mail: [email protected] Ulises Cortés Departament de Llenguatges i Sistemes Informàtics Universitat Politècnica de Catalunya c./ Pau Gargallo, 5 E-08028 Barcelona (spain) E-mail: [email protected] Palabras clave: Adquisición de conocimiento, Aprendizaje, Sistemas de fusión de información. RESUMEN En este trabajo comparamos los resultados obtenidos por dos métodos de síntesis de información diferentes. Los dos métodos se aplican al mismo conjunto de datos: seis matrices de valores para los pares (objeto, atributo) y se obtienen en los dos casos un árbol de clasificación consenso. El primer método de consenso es el presentado por (V. Torra y U. Cortés, 1992) para consensuar matrices, aplicando después un método de clasificación por agregación. El segundo método aplica primero una clasificación a cada matriz, y aplica luego el procedimiento del medio para consensuar los diferentes árboles en uno solo. ABSTRACT In this work we compare two different methods of information synthesis. Both methods are applied to a set with six matrices of values, in order to obtain a hierarchical classification. The first method, studied in (V. Torra y U. Cortés, 1992), builds an agreed data matrix, and from it a classification is inferred through an agglomerative method. The second one applies the classifier to each matrix and then the classifications obtained are aggregated. 1.- INTRODUCCIÓN En los diferentes campos que abarca la inteligencia artificial es de vital importancia la adquisición del conocimiento. Las diferentes técnicas usadas hasta ahora extraían la información primordialmente de una sola fuente (fuera ésta un sensor midiendo el valor de una variable en un entorno, o fuera ésta un experto de un determinado dominio), pero cada vez resulta más necesario que un sistema basado en el conocimiento sea capaz de combinar la información procedente de distintas fuentes. La combinación de información es necesaria debido a que a menudo la que procede de una única fuente no abarca todo el dominio de interés, o no es suficientemente fiable. Pero si la información procedente de una única fuente provoca problemas, también los provoca la procedente de distintas fuentes. En este caso podemos tener divergencia en los datos. Por ejemplo, cuando queremos construir un sistema experto basándonos en la información de un solo experto, tenemos que exigir del experto un buen conocimiento de todo el dominio en el que trabajará el sistema. Introduciendo más expertos no hace falta tanta pericia, pero al disponer de más información la construcción del sistema se complica. Al disponer de información procedente de distintos expertos se puede tener disparidad de opiniones, y esta diferencia de opinión puede no ser fácil de resolver. Como ejemplo de dificultad en la agregación de opiniones tenemos los teoremas de imposibilidad de Arrow, (Arrow, 1963) referentes a la síntesis de preferencias. Cuando los datos provienen de sensores que captan la información procedente del medio, la información tiene asociada una cierta incertidumbre (que no siempre es posible calcular). Con la captación de información con varios sensores, y la posterior combinación de los datos es posible reducir la incertidumbre, con lo cual ganaremos en fiabilidad. Dentro del consenso de datos procedentes de distintos sensores encontramos los trabajos de J.A. Benediktsson y P.H. Swain (1992) y el de K-C. Ng y B. Abramson, (1992). El primero agregando datos geográficos procedentes de distintos satélites, y el segundo simulando datos de distintas fuentes. También tenemos el trabajo de S. Deveughele y B. Dubuisson (1993) en visión. Los métodos de consenso se aplican a distintos tipos de objetos, relaciones de preferencia qualitativas (Arrow, 1963) y quantitativas (Kacprzyk y Yager (1985), y Kacprzyk y Fedrizzi (1990)), conjuntos difusos (M. Roubens (1991), D. Dubois and J-L. Koning (1991), Dubois and Prade (1992), Torra (1993)), lógica (J.Agustí et al. (1991)), matrices de datos (V.Torra y U.Cortés, 1992), clasificaciones (A. Ferligoj, V. Batagelj (1992), W.H.E. Day (1988), Journal of Classification, special issue editado por W.H.E. Day (1986)). Dentro de los métodos para síntesis de información podemos destacar los métodos basados en equaciones funcionales, entre ellos destacamos los trabajos de J. Aczél y C. Alsina (1986), A.A.J Marley (1992), F.S. Roberts (1991), y los basados en técnicas estadísticas donde encontramos los trabajos ya citados de R.C. Luo, M.G. Kay (1989), A.A.J. Marley (1992), K-C. Ng y B. Abramson (1992) y J.A. Benediktson y P.H. Swain (1992). En este trabajo presentamos una implementación del método de la regla de mayoría y la aplicamos a un conjunto de árboles resultado de la clasificación de una serie de matrices. Comparamos el resultado del consenso de los árboles con la clasificación resultante del consenso de las matrices de acuerdo con el trabajo presentado en (V.Torra y U.Cortés, 1992). Para otros métodos de consenso de árboles, ver por ejemplo D.A. Neuman y V.T. Norton (1986). Este trabajo se encuentra enmarcado en un sistema para la adquisición automática de conocimiento. El sistema a partir de una matriz de datos definida por un experto construye una clasificación y a partir de ésta se extraeran reglas de forma automática. Incorporando técnicas de consenso es posible tratar matrices de diferentes expertos, con lo que se obtiene un sistema que sintetiza la información que contienen las diferentes matrices. De esta manera el sistema experto final será más fiable que el construido a partir de cualquiera de las matrices de los diferentes expertos. El trabajo presentado aquí está dividido de la forma siguiente: En la sección segunda presentamos el procedimiento del medio y la regla de mayoría, después en la sección tercera comentamos el método de trabajo, pasando en la cuarta sección a comentar los resultados obtenidos. 2.- PROCEDIMIENTO DEL MEDIO Y REGLA DE LA MAYORÍA A continuación presentamos la definición de árbol n-ário, que junto con la definición de partición, y de partición compatible permite definir dos funciones de consenso de árboles y enunciar el lema de Barthélemy y McMorris que relaciona ambas funciones. Definición Sea S = {O 1, ..., On } un conjunto de objetos, y sea 2S el conjunto de todos los subconjuntos de S. Un árbol n-árioT es un subconjunto de 2S que satisface las condiciones siguientes: 1. S T, ø T 2. {O i} T, ∀Oi S 3. A ↔B {ø, A, B} ∀A,B T Se llamará partición de un árbol T a un subconjunto de 2S que pertenezca aT. Se llamará árbol trivial, y se denotará Tø = {S, {O 1}, ... ,{O n }} al árbol formado sólo por las particiones S y {O i} ∀Oi S. Definición Llamamos una partición A∏S compatible con un árbol T, si y solo si; A↔X {ø,A,X} ∀X T Esto es, que añadiendo la partición en el árbol, continuamos teniendo un n-árbol. Definimos a continuación las funciones de consenso, en ellas denotamos el conjunto de todos los árboles posibles T. Definición La función CMF (Complete Multiconsensus Function de acuerdo con J.P.Barthélemy y F.R.McMorris) se define como la función que dados k árboles devuelve un conjunto de uno o más árboles de consenso. Esto es: C:Tk------> T+ donde T+ es un conjunto con uno o más árboles. Definición El procedimiento del medio M es una CMF que dados k árboles obtiene el conjunto de árboles que minimizan la distancia a los dados. Esto es: M(T1, ..., Tk) = {T T | ? ik d(T,Ti) es mínima} La distancia entre dos árboles d(Ti,Tj) se define como el número de particiones que aparecen en cualquiera de los árboles, pero no en el otro. Esto es, el número de clusters en total, menos aquellos que aparecen en los dos árboles: d(T,T') = | T ≈ T'| - | T ↔ T'| Definición La función Maj de consenso de la regla de la mayoría de Tk en T se define como: Maj(T1, ... ,Tk) = {A: γP(A) > 1/2} A 2S, Ti T donde γ P(Α) = |{i | A ∈ Ti}| k Definimos de esta forma el árbol consenso como el árbol formado por aquellas particiones de 2S que aparecen en más de la mitad de los k árboles a consensuar. Se demuestra (Margush y McMorris, 1981) que el procedimiento del medio y la regla de la mayoría estan relacionadas, en particular tenemos que Ma(P) M(P), ∀P Tk, y que que cuando n es impar se satisface M(P) = {Maj(P)}. Para el caso general tenemos el siguiente resultado debido a J.P. Barthélemy y F.R. McMorris (1986): Lema Sea P Tk. Entonces M(P) es el conjunto de todos los n-árboles de la forma: Maj(P) ≈ {A1, ... , Am} tales que para 1=l=m, la partición Al es compatible con Maj(P) ≈ {A1, ... , Al-1} y γP(Al) = 1/2. Este lema permite construir los árboles del procedimiento del medio a partir de los resultados de la regla de la mayoría. Este ha sido el método empleado para calcular los resultados de la sección cuarta. 3.- EXPERIENCIAS Hemos provado el consenso de clasificaciones basado en la mayority rule con un conjunto de seis n-árboles. Árboles correspondientes a las seis matrices estudiadas en (V.Torra y U.Cortés, 1992). El estudio se ha realizado con seis matrices sobre lenguajes de programación de 13 objetos y 8 atributos cada una. Las matrices fueron rellenadas por profesores del departamento de Lenguajes y Sistemas Informáticos de la Universidad Politécnica de Cataluña. Los 13 lenguajes y los 8 atributos fueron fijados de antemano, no así su tipo (quantitativo o qualitativo) ni el dominio que se dejó libertad al experto. Los 13 lenguajes estudiados son {Lisp, C, Pascal, Scheme, Fortran, Prolog, ML, Modula2, Basic, FP, Asembler, Ada, Cobol}, y los 8 atributos son {claridad, compacidad, potencia, comprensión, estructuras, modularidad, facilidad, tipo}. Una vez los expertos rellenaron las matrices (Mi es la matriz correspondiente al experto iésimo), en el trabajo precedente se sintetizaron las matrices construyendo a partir de las seis matrices una de consensuada (matriz que aquí llamaremos Mc). Esta matriz, que sintetiza la información de las matrices originales, tiene definido su propio dominio para los atributos. En este trabajo se ha construido a partir de cada matriz Mi una clasificación Ai de acuerdo con un método de agregación basado en la distancia entre los prototipos de las clases (sus centros). (Ver Gordon (1981) y (1987) para métodos de clasificación). Una vez construídas las clasificaciones, representadas mediante árboles jerárquicos, se procede al consenso de las mismas mediante la regla de la mayoría. Obtenemos así una clasificación consensuada Ac. Una vez obtenida la clasificación resultante del consenso (Ac) se la compara con la clasificación obtenida a partir de la matriz consenso (Mc). Los resultados obtenidos son comentados a continuación. En la figura 3.1 observamos las distintas fases del proceso. Mi Consenso matrices Mc Clasificar Ai Clasificar consenso de arboles figura 3.1 Ac / Ac' 4.- RESULTADOS Y CONCLUSIONES Hemos observado que en la clasificación consenso conseguida a partir de la regla de la mayoría el árbol consenso es casi trivial: Tø ≈ { {scheme, lisp}} Mientras que el árbol jerárquico obtenido a partir de la matriz consensuada es: Ada M-2 Pas. Sch. Lisp ML FP Prol. Cob. Ass. Bas. For. C Este resultado negativo es debido a la gran divergencia entre los árboles de clasificación formados a partir de las matrices de los expertos. Los árboles de los distintos expertos, aparte de los nodos triviales, sólo coinciden en la presencia del nodo {scheme, lisp}. De acuerdo con el lema de Barthélemy y McMorris enunciado en la sección segunda, hemos estudiado el conjunto de los árboles que resultan del procedimiento del medio. Los árboles de este conjunto, como se ha dicho, son el resultado de añadir al árbol resultante de la regla de la mayoría, los nodos Ai con γP(Ai) = 1/2 compatibles con los ya añadidos. En el ejemplo estudiado, solo hay dos nodos que cumplen la condición del lema, y por no haber incompatibilidad entre ellos es posible añadir los dos para formar uno de los árboles del conjunto resultante del CMF medio. Tø ≈ { {scheme, lisp}, {FP, ML}, {modula-2, pascal} } Comparando estos resultados con el árbol construido a partir de la matriz consensuada, observamos que de los tres nodos considerados en el árbol construido, sólo encontramos {scheme, lisp}, no apareciendo los otros dos. Considerando el árbol resultado del consenso, vemos que aunque el nodo {modula-2, pascal} no existe, encontramos uno de bajo nivel que lo contiene: {modula-2, pascal, ada}. No sucede en cambio con {FP, ML} que solo se encuentran juntos en nodos de nivel alto (con muchos objetos). De todos modos, aunque ambos métodos no den los mismos resultados, se puede apreciar que el consenso de árboles es una aproximación al resultado de clasificar la matriz consensuada. A continuación se estudian las causas de la diferencia de resultados. El resultado divergente de los dos métodos de consenso lo atribuimos a las dos razones siguientes: • Construyendo primero la clasificación y luego agregando los n-árboles perdemos información que puede ser información correcta y relevante. Clasificando primero, el error en la matriz de cada experto se propaga magnificado en el n-árbol correspondiente. El consenso posterior trabajará con árboles con elevado error. En cambio, cuando primero consensuamos las matrices, generamos una matriz que habrá reducido el error. Aplicando después la clasificación generaremos un árbol teniendo en cuenta toda la información disponible, este árbol tendrá generalmente menos error asociado. • La segunda razón son las propiedades que satisface el procedimiento del medio. De acuerdo con el teorema presentado por J.P. Barthélemy y F.R. McMorris (1986), el CMF medio es el único CMF que es eficiente, estable en las particiones, consistente, simétrico y casi-condorcet. De acuerdo con el ser estable en las particiones, la pertenencia de un conjunto X en el árbol consensuado sólo depende de su presencia o ausencia en los diferentes árboles Ai, y no de la presencia de otros nodos. Consensuando primero las matrices y clasificando después conseguimos un árbol que no satisface esta condición. Podemos concluir, por tanto que lo resultados obtenidos con los dos métodos no son equivalentes. Vemos la regla de la mayoría y el procedimiento del medio como una forma de conseguir un esqueleto mínimo del árbol de consenso. Clasificando la matriz consensuada, en cambio conseguimos un árbol jerárquico, pero este no satisface el esqueleto mínimo. Consideramos esta diferencia debida fundamentalmente a la propagación del error y para ello hemos diseñado un test. Éste consiste en aplicar ambos métodos a un conjunto de n matrices. Empezaremos con las n matrices iguales, con lo cual los resultados de ambos métodos coincidiran. Introduciremos después error en las matrices del conjunto, y aplicaremos los dos métodos. 5.- REFERENCIAS [Abidi, Gonzalez, 92] Abidi, M.A., Gonzalez, R.C., (Eds) "Data Fusion in Robotics and machine Intelligence", Academic Press, 1992. [Aczél, Alsina, 86] Aczél,J., Alsina,C. "On synthesis of Judgements", Socio-Econom Plann. Sci, 1986 [Agustí, et al., 91] Agustí, J., Esteva, F., Garcia, P., Godó, Ll., Sierra, C., "Combining Multiple-valued logics in modular expert systems" Proc 7th conference on uncertainty in A.I., Los Angeles, July 1991 [Arrow, 63] Arrow,K.J., "Social Choice and Individual Values", New York, Wiley, 1963 (2nd edition). [Barthélemy, McMorris, 86] Barthélemy, J.P., McMorris, F.R., "The median procedure for n-trees", Journal of Classification 3, pp 329-334, 1986 [Benediktsson, Swain, 92] Benediktsson, J.A., Swain, P.H., "Consensus theoretic classification methods". IEEE Trans. on systems, man and cybernetics, Vol.22, No.4, July/August 1992 [Day, 86] Day, W.H.E. Special issue on comparison and consensus of classifications, Journal of Classification, N.3, 1986 [Day, 88] Day, W.H.E. "Consensus methods as tools for data analysis". In "Classification and related methods of data analysis". H.H. Bock (Ed.), pp.317-324. Amsterdam, Elsevier, 1988. [Deveughele, Dubuisson, 93] Deveughele, S., Dubuisson, B., "Possibility theory: A convenient framework to handle conflicts in artificial vision", Quardet-93 (Qualitative Reasoning and Decision Technologies), N. Piera, M.G. Singh (Eds), Barcelona, 1993. [Dubois, Koning, 91] Dubois, D., Koning, J-L., "Social choice axioms for fuzzy set aggregation", Fuzzy sets and systems, No 43 (1991), pp 257-274. [Dubois, Prade, 92] Dubois, D., Prade, H., "Combination of Information in the framework of possibility theory", in "Data Fusion in Robotics and machine Intelligence" (Al Abidi, M., Gonzalez, R.C., Eds), Academic Press, 1992, pp 481-505 [Ferligoj, Batagelj, 92] Ferligoj, A. Batagelj, V. "Direct Multicriteria Clustering Algorithms", Journal of Classification, 9, pp43-61, 1992 [Gordon, 81] Gordon,A.D. "Classification: Methods for the exploratory analysis of multivariate data". London: Chapman and Hall, 1981. [Gordon, 87] Gordon,A.D., "A review of Hierarchical Classification", Journal of the Royal Statis tical Society. A, 150, part 2, pp.119-137, 1987. [Kacprzyk, Yager, 85] Kacprzyk, J., Yager, R.R. (Ed.), "Managemenet decision support systems using fuzzy sets and possibility theory". Verlag TÜV Rheinland GmbH, Köln 1985 [Kacprzyk, Fedrizzi, 90] Kacprzyk, Fedrizzi,M. (Ed.), "Multiperson Decision Making Models Using Fuzzy Sets and Possibility Theory", Kluwer Academic Publishers, 1990 [Luo, Kay, 89] Luo, R.C., Kay, M.G., "Multisensor integration and fusion in intelligent systems", IEEE Trans SMC, vol 19 pp 901-931, 1989 [Margush, McMorris, 81] Margush, T., McMorris, F.R., "Consensus n-Trees", Bulletin of Mathematical Biology, 43, pp 239-244, 1981 [Marley, 92] Marley, A.A.J. "A selective review of recent characterizations of stochastic choice models using distribution and functional equation techniques", Mathematical Social Sciences, 23, pp.5-29, 1992 Neuman, Norton, 86] Neuman, D. A., Norton, V.T. (jr). "on lattice consensus methods", Journal of Classification, No 3, pp 225-255, (1986) [Ng, Abramson, 92] Ng, K-C., Abramson, B. "Consensus diagnosis: A simulation study" IEEE Trans. on systems, man, and cybernetics, vol 22, No.5, September/October 1992 [Roubens, 91] Roubens, M., Fuzzy sets and systems, special issue: Aggregation and best choices of imprecise opinions, No 43, pp: 255-336, 1991 [Roberts, 91] Roberts, F.S. "On the indicator function of the plurality function", Mathematical Social Sciences, 22, pp 163-174, 1991 [Torra, Cortés, 92] Torra, V., Cortés, U. "EGAC: Automatic consensus generator tool", Proceedings of the 5th International Symposium on Knowledge Engineering, Sevilla, 1992, pp.88-92 [Torra, 93] Torra, V., "Consenso de funciones de pertenencia triangulares", III congreso español sobre tecnologias y lógica fuzzy, Santiago de Compostela, 1993