Instituto Politécnico Nacional Escuela Superior de F´ısica y

Instituto Politécnico Nacional Escuela Superior de Fı́sica y Matemáticas C s c c c CC scs ESFM Departamento de Matemáticas Reconocimiento de Patrones, el enfoque Lógico Combinatorio Tesis que para obtener el tı́tulo de Ingeniero Matemático Presenta: Luis Eduardo Quintos Vázquez1 Director de Tesis: Dr. César Alberto Escobar Gracia 1 Esta tesis forma parte del proyecto de investigación SIP 20091395 , con apoyo parcial de CONACyT y COFAA Agradecimientos Primero que nada agradezco a Dios por el gran tesoro que me dio, que son: mi familia y todas las personas que me quieren. A mi Profesor y Gran Amigo César por lo mucho que me a dado en tan poco tiempo y que espero retribuirselo algún dia. A mis amigos, (principalmente una personita que esta conmigo, no pongo nombres por que son muchos y ya saben quienes son) por todos los momentos que me regalaron y siguen regalando. A los profesores: Adrián Alcantar Torres, Miguel Abel León Hernandez, Julio César Salas Torres y José Antonio Peralta, por haber revisado mi tesis y por sus valiosas sugerencias. Febrero de 2009 Ciudad de México Luis Eduardo Quintos Vázquez iv Agradecimientos Dedicatoria A mis padres y hermana: Ana, Luis y Lilia Por ser el pilar más grande y fuerte de mi vida, a quienes amo por sobre todas las cosas, por apoyarme y comprenderme, por ayudarme a ser quien soy, por amarme como me aman y por hacer cada dia de mi existencia especial. También a mi cuñado por ofrecerme todo lo que estuvo a su alcance, que sé, fué de corazón y por amar tanto a mi hermana y finalmente a mi sobrina por el simple hecho de ya existir. A mi hermosa familia, muchas GRACIAS. Luis Eduardo Quintos Vázquez Febrero de 2009 Ciudad de México vi Dedicatoria Resumen Objetivo: Esta tesis tiene como objetivo el mostrar las herramientas matemáticas que se me han proporcionado durante mis estudios correspondientes a la ingenierı́a con el mismo nombre, en este caso implementados en un enfoque con el cual se realiza una clasificación de una determinada muestra. Este enfoque puede ser utilizado en múltiples campos de estudio. El contenido de la tesis se desarrollará de la siguiente manera: En el primer capı́tulo se dará una perspectiva general de lo que se estudia dentro del reconocimiento de patrones. En el capı́tulo dos se pretende intoducir el objeto de estudio general, explicando en que consiste la clasificación y el reconocimiento de patrones, además de introducir los conceptos básicos para abordar dicho problema. Por otra parte en los siguientes dos capı́tulos se desarrollan dos enfoques distintos en como se puede abordar el problema de la clasificación y reconocimiento de patrones proponiendo algoritmos que realizan el agrupamiento de los elementos de la muestra, aclaremos aquı́ que como se explica antes (capı́tulo 1) estos sólo son dos enfoques de otros tantos existentes, y que nos enfocaremos en el Lógico - Combinatorio. viii Resumen Contenido Agradecimientos iii Dedicatoria v Resumen vii 1 Introducción 1.1 Objetivo de la CSA . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Paradigmas de la CSA. . . . . . . . . . . . . . . . . . . . . . . 2 Conceptos básicos 2.1 Distancia . . . . . . . . . . . . . . . . . 2.2 Distancia entre conjuntos . . . . . . . . . 2.3 Planteamiento formal del problema. . . . 2.4 El espacio de representación inicial (ERI) 2.5 Medidas de (divergencia) similitud . . . 3 Enfoque métrico: ERI=Rn ó 2n 3.1 Estrategias de agrupamiento . 3.2 Técnicas de reagrupamiento . 3.3 Algoritmo c-means. . . . . . . 3.4 Algoritmo ISODATA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Enfoque Lógico - combinatorio 4.1 Criterios agrupacionales. . . . . . . . . . . . . . 4.2 Relaciones entre criterios agrupacionales . . . . 4.3 Algoritmo CLASS . . . . . . . . . . . . . . . . . 4.4 Creación de la matriz de aprendizaje utilizando agrupamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . algoritmos . . . . . . . . . . . . . . . 1 2 2 . . . . . 5 5 12 14 16 17 . . . . 21 22 24 28 33 . . . . . . de . . 37 37 48 55 60 x CONTENIDO 4.5 Algoritmo HOLOTIPO . . . . . . . . . . . . . . . . . . . . . . 63 5 Conclusiones 73 Bibliografı́a 75 Capı́tulo 1 Introducción El reconocimiento de patrones se podrı́a decir que es una de las primeras actividades que aprende el ser humano, ya que lo utiliza algunas veces para la toma de desiciones sin entender realmente lo que esta haciendo. El reconocimiento de patrones mediante la clasificación se puede percibir y realizar en todas partes, desde la forma en que se clasifica a la raza humana por el color de piel (negra, blanca, amarilla, etc.), la religión (católicos, cristianos, ortodoxos, musulmanes, etc.), la posición social (baja, media, alta, etc.) y hasta las preferencias sexuales (heterosexual, bisexual, homosexual, etc.), o para cosas mucho mas especializadas que requieren un modelo matemático para representar la semejanza entre los elementos en estudio. Esta clasificación la podemos realizar mediante distintos enfoques, en este trabajo, en particular usaremos un enfoque Lógico-Combinatorio. En este enfoque la clasificación se realiza formando agrupamientos de los elementos de la muestra de acuerdo a la semejanza que existe entre ellos. Dando un valor especifico a cada uno de los rasgos que distingan a los elementos y de acuerdo con esos valores se estudia la semejanza entre ellos. Este enfoque puede ayudar a tomar desiciones, como por ejemplo, al formar grupos con los contactos del correo electrónico de acuerdo a la importancia que tenga cada uno para el usuario o para selecionar los correos no deseados, en este caso serı́a hacer un filtro para los niños en el cual, todos los correos que contengan palabras como: sexo, porno, chicas, etc.(estos son los rasgos de los elementos, dandoles un valor numérico ya que tal vez pueda variar un poco la palabra con el fin de confundir al usuario; por ejemplo en lugar de poner sexo, ponen seixo), sean metidos en un agrupamiento para posteriormente ser eliminados. Gracias a esta forma de organizar se puede evitar que traten de 2 Introducción engañar con solo cambiar una(s) letra(s) ya que de acuerdo al valor numérico que se asigne éste formará parte del mismo agrupamiento. 1.1 Objetivo de la CSA El objetivo de la CSA (clasificación sin aprendizaje) es resolver un problema que consiste en esencia, en hallar la estructura interna de un conjunto de descripciones de objetos en el espacio de representación. Esta estructura interna obviamente depende, en primera instancia, de la selección del propio espacio de representación y de la forma en que los objetos se comparen, es decir del concepto de similaridad que se utilice y de la forma en que éste se emplee. De dicha estructuración, en términos generales pudiéramos decir que: 1. Se sabe o se desea que se realice un número dado de agrupaciones. 2. Se desconoce en cuántas agrupaciones se estructurará el conjunto de objetos una vez definidos el espacio de representación y los conceptos de similaridad y la forma de usarlos. En cualquiera de los dos casos, un problema de clasificación sin aprendizaje consiste en hallar un procedimiento por el cual se pueda conocer la estructura interna del conjunto de descripciones de objetos dado. Para encontrar esa estructura existen tres formas generales de hacerlo, a saber: 1. El paradigma del conjunto cociente. 2. El paradigma del solapamiento. 3. El paradigma difuso. 1.2 Paradigmas de la CSA. A continuación describiremos en queconsiste cada uno de estos paradigmas. El paradigma del conjunto cociente, consiste en la formación de una partición del conjunto de objetos dado, bajo el supuesto que los mismos serán conjuntos en el sentido clásico de la Teorı́a de conjuntos. En otras palabras, 1.2 Paradigmas de la CSA. 3 de lo que se trata es de hallar el conjunto cociente del conjunto inicial en el espacio de representación en cuestión. Esto supone que los agrupamientos serán ajenos. Aquı́ las propiedades que caracterizan a un agrupamiento establecido contradicen las propiedades que caracterizan a cualquier otro de los restantes agrupamientos obtenidos. El paradigma del solapamiento permite que las agrupaciones tengan elementos comunes; es decir, se trata de hallar un cubrimiento del conjunto de descripciones de objetos representado por subconjuntos (también en el sentido clásico) no necesariamente ajenos. Las propiedades que caracterizan a un agrupamiento dado pudieran ser satisfechas por otro de los agrupamientos restantes. El paradigma difuso, sin embargo, parte de una suposición conceptual diferente: de los objetos no podemos afirmar categóricamente que pertenecen o no a un conjunto, sólo podemos hablar de grados de pertenencia. En todos estos paradigmas hay factores comunes. Uno de ellos esencial para la solución del problema de la clasificación sin aprendizaje, es la selección del criterio de agrupamiento. La selección de un criterio de agrupamiento (se definirá mas adelante con precisión) se puede realizar de maneras diferentes. Se llega al criterio de agrupamiento mediante la modelación matemática del problema y por la misma vı́a se llega al enfoque de realización de la estructuración del conjunto de objetos. Suponemos el enfoque, es decir, lo imponemos, y condicionamos el criterio de agrupamiento de modo tal que resulte una estructura acorde con el enfoque seleccionado. El estudio de todos estos enfoques se puede hacer bajo dos ópticas, que aunque muy relacionadas poseen diferencias, en apariencia sutiles, consideradas de suma importancia para los análisis posteriores. Nos referimos a lo que pudiéramos denominar una óptica clasificatoria y una óptica conjuntual. En el enfoque clasificatorio se tiene un universo de objetos y se necesita agruparlos de modo tal que los objetos del mismo agrupamiento se parezcan más entre sı́ que con objetos de otros agrupamientos. En el enfoque conjuntual se tiene un universo de objetos y se necesita agruparlos de modo tal que los objetos que estén en el mismo agrupamiento cumplan (en cierto grado) la propiedad que caracteriza al agrupamiento (como conjunto en su determinación intencional). El objetivo fundamental del problema de clasificación sin aprendizaje es el de conocer la estructura interna de una población de objetos dada. Esa población pudiera ser una clase de objetos en un problema de clasificación con 4 Introducción aprendizaje o con aprendizaje parcial. El interés en lograr esa estructura puede ser porque se desea posteriormente clasificar nuevos objetos ya que la ”población” a la que se está haciendo referencia no es todo el universo de objetos de un problema en cuestión. Capı́tulo 2 Conceptos básicos El concepto de distancia es uno de los conceptos que manejamos casi todos los seres humanos desde una edad muy temprana, gracias a él logramos distinguir y resolver varios problemas cotidianos que se nos presentan a diarı́o, sin embargo, pocos manejamos de manera formal el concepto, como veremos en éste capı́tulo su estudio y formalización puede ir más allá de lo que el concepto de distancia intuitiva significa para la mayorı́a de las personas. Ası́mismo introduciremos la manera formal de plantear un problema de clsificación. 2.1 Distancia De manera intuitiva, espacio métrico lo podemos definir como un conjunto en el que se puede hablar de distancia entre sus elementos. Sin embargo, esta definición requiere conocer lo que es distancia, la cual muchas veces se define como una función que asocia un número real positivo a todo par de elementos de un conjunto. En seguida se presenta de manera formal la definición de distancia. Definición 2.1.1 Una métrica (distancia) es una función d:E×E →R que posee las siguientes propiedades: 6 Conceptos básicos 1. ∀ x, y ∈ E : d (x,y)≥ 0 2. Para x, y ∈ E : d (x,y) = 0 ⇔ x = y. 3. ∀ x, y∈ E : d (x,y) = d (y,x ) (simetrı́a). 4. ∀ x, y, z ∈ E : d (x, y) ≤ d (x, z ) + d (y, z ) (desigualdad triangular). Definición 2.1.2 Un espacio métrico es un par (E, d) constituido por el conjunto E y una métrica d definida sobre E. Debemos mencionar que se pueden definir más de una métrica sobre un mismo espacio lo que nos lleva a obtener diferentes espacios métricos. El siguiente lema es un resultado de las propiedades que definen una métrica y que será de mucha utilidad en aplicaciones posteriores. Lema 2.1.3 En un espacio métrico (E, d) se verifica ∀ x, y, z, t ∈ E : |d(x, y) − d(z, t)| ≤ d(x, z) + d(y, t). En particular: ∀ x, y, z ∈ E : |d(x, z) − d(y, z)| ≤ d(x, y). Demostración: Sean x, y, z, t ∈ E y considerando que d es una métrica entonces se cumple: d(x, y) ≤ d(x, z) + d(y, z) ≤ d(x, z) + d(y, t) + d(z, t) luego, d(x, y) − d(z, t) ≤ d(x, z) + d(y, t)...........(1) Por otro lado: 2.1 Distancia 7 d(z, t) ≤ d(z, x) + d(t, x) = d(x, z) + d(t, x) ≤ d(x, z) + d(t, y) + d(x, y) = d(x, z) + d(y, t) + d(x, y) de donde −d(x, z) − d(y, t) ≤ d(x, y) − d(z, t) −(d(x, z) + d(y, t)) ≤ d(x, y) − d(z, t)..............(2) Por las desigualdades (1) y (2) y las propiedades de valor absoluto obtenemos: |d(x, y) − d(z, t)| ≤ d(x, z) + d(y, t) Ejemplos Ejemplo 1. Sea E un conjunto cualquiera no vacı́o. Definamos la función d:E×E →R tal que: ∀ x, y ∈ E : d(x, y) = 1, si x 6= y; d(x, y) = 0, si x = y. Demostrar que la función d es una métrica en E. En efecto, veamos que para x 6= y la función d = 1 > 0 y para x = y se tiene d =0 por lo tanto las propiedades 1.1.1.1 y 1.1.1.2 se satisfacen, respectivamente. Es fácil ver que la propiedad de simetrı́a también se cumple. Según la definición de la función d se cumple que d(y, x) = 1, si y 6= x ; d(y, x) = 0, si y = x. 8 Conceptos básicos La última propiedad, la desigualdad triangular, se verifica de la siguiente manera: Considere x, y, z ∈ E, entonces 0 ≤ d(x, y) ≤ 1 0 ≤ d(x, z) ≤ 1 0 ≤ d(y, z) ≤ 1 es decir, que pueden ser cero o uno. De ahı́ se sigue que d(x, z) + d(y, z) ≤ 2 lo que nos indica que lo mı́nimo que puede valer la suma es 0 y esto pasa para cuando los tres elementos de E son iguales y entonces se satisface la desigualdad triangular. Cuando la suma es uno se cumple para x =z o y=z. Si consideramos x =z se tiene d(x, z) + d(y, z) = 0 + d(y, x) lo que satisface que d(x, y) ≤ d(x, z) + d(y, z) = 0 + d(y, x) Algo similar pasa si consideramos y=z. Y para cuando la suma es igual a dos entonces la desigualdad triangular también se cumple. Ası́ vemos que la desigualdad triangular se cumple para todos los elementos de E y finalmente se concluye que d definida como d(y, x) = 1, si y 6= x ; d(y, x) = 0, si y = x es una métrica. Ejemplo 2. Consideremos el conjunto R de los números reales y la función d(x, y)=|x − y| con x, y en R, verificar que d es una métrica. Por definición de valor absoluto se sabe que 2.1 Distancia 9 |x − y| ≥ 0 para todo número real, y la igualdad se cumple para x =y con lo que se afirma que se d satisface las dos primeras propiedades de una métrica. Utilizando las propiedades de valor absoluto se puede mostrar que se cumple con la propiedad de simetrı́a como sigue: d(x, y) = |x − y| = | − (y − x)| = |y − x| = d(y, x) Para verificar que la función d también satisface la desigualdad triangular veamos que dados x, y, z ∈ R entonces se cumple que −|x − y| ≤ x − y ≤ |x − y| y −|y − z| ≤ y − z ≤ |y − z| luego entonces −|x − y| − |y − z| ≤ (x − y) + (y − z) ≤ |x − y| + |y − z| −(|x − y| + |y − z|) ≤ x − z ≤ |x − y| + |y − z| |x − z| ≤ ||x − y| + |y − z|| |x − z| ≤ |x − y| + |y − z| |x − z| ≤ |x − y| + |z − y| d(x, z) ≤ d(x, y) + d(z, y) Como la función d cumple con las propiedades de una métrica entonces decimos que d definida como d (x,y)=|x − y| es una métrica. 10 Conceptos básicos Ejemplo 3. Sea d((x1 , y1 ), (x2 , y2 )) = max{|x1 − x2 |, |y1 − y2 |} una función definida sobre R2 . Se quiere verificar que la función d es una métrica, a la cual se le conoce comúnmente como distancia del camión. Las dos primeras propiedades de una métrica se satisfacen ya que el valor de d es una valor positivo siempre que x 6= y o es igual a cero para x =y. Luego veamos que dados dos números reales se tiene que |x1 − x2 | = |x2 − x1 | ası́ que d((x1 , y1 ), (x2 , y2 )) = max{|x1 − x2 |, |y1 − y2 |} = max{|x2 − x1 |, |y2 − y1 |} = d((x2 , y2 ), (x1 , y1 )) entonces se satisface la propiedad de simetrı́a. Ejemplo 4. Consideremos el conjunto R2 y la función d((x1 , y1 ), (x2 , y2 )) = |x1 − x2 | + |y1 − y2 | definida en el conjunto. Dado que |x1 − x2 | ≥ 0 y |y1 − y2 | ≥ 0 y la igualdad se cumple para x1 = x2 y y1 = y2 entonces d((x1 , y1 ), (x2 , y2 )) cumple con las dos primeras condiciones de una métrica. Ahora observemos que: d((x1 , y1 ), (x2 , y2 )) = |x1 − x2 | + |y1 − y2 | = |x2 − x1 | + |y2 − y1 | = d((x2 , y2 ), (x1 , y1 )) por lo tanto se cumple la propiedad de simetrı́a de una métrica. Otro concepto de suma importancia para el estudio que nos ocupa en esta tesis es el de norma y espacio normado. Definición 2.1.4 Sea V un espacio vectorial definido sobre el conjunto de los números reales R. Entonces, una norma en V es una función de V en R que poseen las propiedades siguientes (se denotará por kxk a la norma de x): 1. ∀ x ∈ V : kxk ≥ 0 2.1 Distancia 11 2. kxk = 0 ⇔ x = θ; en donde θ es el vector nulo en V, o elemento neutro respecto a la suma en V. 3. ∀ x ∈ V, ∀ λ ∈ R: kλxk = |λ| ||x|| 4. ∀ x, y ∈ V: kx + yk ≤ kxk + kyk (desigualdad triangular de la norma). Una norma se puede considerar de manera intuitiva como la longitud de un vector. De forma semejante de la definición de espacio métrico definimos un espacio normado. Definición 2.1.5 Un espacio normado es un par (V, kk) donde el espacio vectorial V está provisto de una norma. A partir de un espacio vectorial V podemos originar diferentes espacios normados con solo definir diversas normas en el espacio. Un hecho de importancia es demostrar que un espacio normado es metri-zable; es decir, que se puede definir una métrica inducida por la norma en el espacio. Definamos la función d:V ×V →R tal que ∀ x, y ∈ V d(x, y) =k x − y k Ahora queremos verificar que d es realmente una métrica en V . Para ello veamos que por las propiedades de una norma k x − y k≥ 0 y que la igualdad se cumple para el caso en que x − y = θ, donde θ es el vector nulo, entonces x = y con lo que se verifica que la función d cumple con las primeras dos propiedades de una métrica. Por otro lado, observemos, por las propiedades de una norma, que: d(x, y) = = = = = kx−y k k (−1)(y − x) k | −1 |k y − x k ky−xk d(y, x) entonces d cumple con la propiedad de simetrı́a. Finalmente verifiquemos que d también satisface la desigualdad triangular. consideremos x, y, z ∈ R y hagamos 12 Conceptos básicos d(x, y) = k x − y k = k (x − z) + (z − y) k y por las propiedades de una norma tenemos que k (x − z) + (z − y) k ≤ k x − z k + k z − y k = d(x, z) + d(z, y) finalmente se tiene d(x, y) ≤ d(x, z) + d(z, y) = d(x, z) + d(y, z) por lo tanto se concluye que d es una métrica en V inducida por la norma y por lo tanto el espacio normado es metrizable. 2.2 Distancia entre conjuntos Dado un espacio métrico (E, d), fijemos un punto x0 ∈ E y un conjunto no vacı́o A ⊂ E. Luego, designemos por {d(x0 , x)}x∈A al conjunto de las distancias de x0 a todos los elementos de A. Observemos que el conjunto está acotado inferiormente por 0. Adoptemos la notación d(x0 , A) = inf{d(x0 , x)}x∈A Definición 2.2.1 La distancia de x0 al conjunto A está dado por el número d(x0 , A). Definición 2.2.2 Dados dos conjuntos no vacı́os A, B ⊂ E designemos por d(x, y)x∈A, y∈B al conjunto de los números reales constituidos por todas las distancias entre un punto de A y un punto de B. Entonces, la distancia entre el conjunto A y el conjunto B está definido por el número d(A, B) = inf{d(x, y)}x∈A, y∈B 2.2 Distancia entre conjuntos 13 Nuevamente, vemos que existe la cota inferior del conjunto d(x, y)x∈A, y∈B y es más, existe el infimo ya que el valor mı́nimo posible en este conjunto es cero. Es importante mencionar que si x0 ∈ A entonces d(x0 , A) = 0 pero el recı́proco no siempre se cumple. De igual forma veamos que ... Lema 2.2.3 Si A y B son conjuntos no vacı́os en un espacio métrico (E, d) se tiene: d(x, y) = inf{d(x, B)}x∈A = inf{d(y, A)}y∈B Demostración: Sea x cualquier elemento en A, entonces por definición de distancia entre conjuntos se tiene d(A, B) ≤ d(x, y) ∀y ∈ B lo que indica que d(A, B) es cota inferior del conjunto {d(x, y)}y∈B . Luego d(A, B) ≤ d(x, B) = inf{d(x, y)}y∈B para un x en A. Y como x es arbitrario entonces se sigue que d (A, B) es cota inferior del conjunto {d(x, B)}x∈A , ası́: d(A, B) ≤ inf{d(x, B)}x∈A Luego, existen x ∈ A y y ∈ B tales que: d(A, B) ≤ d(x, y) ≤ d(A, B) + ε con ε > 0 número real, entonces d(A, B) + ε no es cota inferior del conjunto {d(x, B)}x∈A por lo tanto se tiene: inf{d(x, B)}x∈A < d(A, B) + ε ⇒ inf{d(x, B)}x∈A − d(A, B) < ε Por otro lado: d(A, B) ≤ inf{d(x, B)}x∈A ⇒ 0 ≤ inf{d(x, B)}x∈A − d(A, B) 14 Conceptos básicos ası́ 0 ≤ inf{d(x, B)}x∈A − d(A, B) ≤ ε.....(1) Se asegura que inf{d(x, B)}x∈A − d(A, B) = 0 Para justificarlo se supone inf{d(x, B)}x∈A − d(A, B) = ε0 con ε0 > 0 número real entonces ya que la expresión (1) se debe cumplir para cualquier ε > 0 número real se toma ε0 = 21 ε con lo que se llega a una contradicción. 1 0 ≤ ε0 ≤ ε0 ⇒ 0 ≤ 2 ≤ 1 2 Ası́ que se debe cumplir que inf{d(x, B)}x∈A = d(A, B) 2.3 Planteamiento formal del problema. Dadas las descripciones I(Oj ) = (x1 (Oj ), ..., xn (Oj )) de los objetos O1 , ..., Om de un universo dado U . Cada xi tiene asociado un conjunto de valores admisibles Mi , i = 1, ..., n. Sobre Mi se define un criterio de comparación de valores de dicha variable Ci : Mi × Mi → ∆, donde ∆ es un conjunto dado que pudiera ser {0, 1}; {0, 1, ..}; un subconjunto de R, etc. En dependencia de lo cual los criterios de comparación, recibirán diferentes denominaciones. Entre las descripciones de los objetos se define una función de semejanza β: n Y Mi × n Y i=1 en donde Mi −→ ∆ i=1 n Y Mi i=1 denota el producto cartesiano de los conjuntos de valores admisibles de los rasgos indicados y ∆ es como antes. El problema de la clasificación sin aprendizaje, desde elQpunto de vista formal, consiste en determinar un criterio de agrupamiento , tal que se puede 2.3 Planteamiento formal del problema. 15 obtener la estructura interna del conjunto de objetos U , las relaciones entre los objetos y las agrupaciones de los objetos. Es inmediato que el criterio de agruQ pamiento buscado tendrá Q que ser una función de la función de semejanza β. Cuando este criterio y la medida de similaridad entre los objetos β, son obtenidos por medio de un proceso de modelación matemática se tiene una garantı́a o al menos una mayor certeza de que la estructuración obtenida ”es natural”. En la medida que esos parámetros del problema reflejen adecuadamente la realidad que pretenden modelar, en esa medida pudiéramos hablar de ”una estructuración natural” del universo de objetos sujeto a estudio. Resumiendo pudiéramos decir que en un problema de clasificación sin aprendizaje los tres elementos esenciales lo constituyen: • El espacio de representación de los objetos (ERI) • La medida de similaridad (β, función de semejanza, no necesariamente una distancia) y Q • El criterio de agrupamiento Es decir, la manera en que será utilizada la similaridad para la solución del problema planteado. En otras palabras, resolver un problema de clasificación sin aprendizaje (no supervisada) consiste en hallar un algoritmo A(U, β, Y ) En términos generales, se puede considerar que existen dos tendencias fundamentales en la solución de problemas de clasificación sin aprendizaje: una basada en la función de semejanza, que denominaremos clasificatoria, cuyo objetivo central consiste en encontrar los elementos que, dadas sus relaciones de semejanza, deben estar en un mismo agrupamiento y una segunda, que denominamos conceptual, cuyo interés básico es hallar la determinación intencional de los conjuntos que formarán la estructuración final. En el primer caso se tiene un universo de objetos y es necesario agruparlos de modo tal que los objetos que estén en el mismo agrupamiento se parezcan (se asemejen) más entre sı́ que con objetos de otros agrupamientos. En el segundo caso, tenemos un universo de objetos y necesitamos formar agrupamientos de modo tal que los objetos que estén en el mismo agrupamiento cumplan (satisfagan en cierto grado equivalente entre ellos) la propiedad que caracteriza al agrupamiento como conjunto, en su determinación intencional. 16 Conceptos básicos Las técnicas para la solución del problema por una u otra vı́a son variadas y en esta tesis sólo se abordaran algunas de ellas. Es natural pensar que las mismas estarán en fuerte dependencia de las caracterı́sticas del problema, en especial del espacio de representación inicial de los objetos sujetos a estudio. 2.4 El espacio de representación inicial (ERI) (Rn , 2n y E1 × ... × En ) En el proceso de modelación matemática debe obtenerse la información necesaria para poder determinar las caracterı́sticas del ERI. Esto suele violentarse, el área de aplicación de una técnica estará determinada por las caracterı́sticas del ERI. Desde el punto de vista de las herramientas matemáticas que se emplean para la solución de un problema de clasificación sin aprendizaje y de los supuestos que las mismas conllevan, existen diferentes enfoques. En el enfoque estadı́stico se asume una distribución de los valores, se suponen caracterı́sticas sobre el ERI y se aplican las técnicas. Por lo general nos encontraremos ERI’s que están definidos sobre Rn , el espacio de los números reales (n-dimensional) o el 2n , el booleano n-dimensional. Ambos proveerán al problema de la posibilidad de definir una métrica sobre el mismo, por lo que las ideas centrales se moverán en el entorno de agrupar a los objetos en la medida de la distancia a la que éstos se encuentran unos de otros, siguiendo la idea básica de que los objetos de un mismo agrupamiento estarán más cerca entre sı́ que lo que están respecto a otros en agrupamientos diferentes. Esta idea estará presente también en otros enfoques. En el enfoque lógico combinatorio, la filosofı́a es totalmente a la inversa, no se partirá de asumirle al ERI propiedades que no sean aquellas que han sido formalizadas a partir de un proceso de modelación matemática. Por lo general en este enfoque nos encontraremos con ERI que son simplemente productos cartesianos de los conjuntos de valores admisibles de las variables en términos de las cuales se describen todos los objetos. Para las técnicas basadas en el enfoque estadı́stico la forma más obvia de medir la similitud o divergencia entre dos muestras es la distancia entre ambos conjuntos, análogamente entre objetos. Veamos algunos de los ejemplos más usados de estas medidas 2.5 Medidas de (divergencia) similitud 2.5 17 Medidas de (divergencia) similitud Veamos ejemplos y algunas caracterı́sticas de las medidas de similaridad más usadas en este enfoque: Sean dadas las descripciones de dos objetos I(Oi ) = (x1 (Oi ), ..., xn (Oi )) y I(Oj ) = (x1 (Oj ), ..., xn (Oj )) Sea D2 una función que denominaremos divergencia D2 : Rn → R tal que i) Será positiva para dos objetos distintos, es decir, D2 (I(O), I(O0 )) > 0 ii) La divergencia de un objeto con sigo mismo es nula, esto es D2 (I(O), I(O)) = 0 . iii) No debe estar afectada por la denominación de los objetos, D2 (I(O), I(O0 )) = D2 (I(O0 ), I(O)) iv) La divergencia debe ser aditiva para caracterı́sticas independientes, esto es n X D2 (I(O), I(O0 )) = D2 (xi (O), xi (O0 )) i=1 suponiendo que los rasgos son independientes. v) D2 (I(O), I(O0 )) no debe crecer al aumentar el número de rasgos. vi) Debe ser invariante ante traslaciones y rotaciones. 18 Conceptos básicos vii) Debe tener en cuenta la interdependencia de los rasgos en el agrupamiento en que se hayan ubicado los objetos viii) Debe ser sensible a las diferentes ponderaciones a introducir en la cuantificación de la divergencia de cada caracterı́stica, de acuerdo con su mayor o menor importancia informacional en la discriminación de los objetos Ejemplos. 1. Distancia Euclideana 0 2 D (I(O), I(O )) = n X (xi (O) − xi (O0 ))2 i=1 Esta D2 no satisface las propiedades (vi) ni (vii) 2. Distancia Euclideana normalizada 0 2 D (I(O), I(O )) = n X ((xi (O) − xi (O0 ))Si )2 i=1 siendo Si la desviación tı́pica de xi . 3. Distancia de Mahalanobis D2 (I(O), I(O0 )) = (x1 (O), ..., xn (O))t · (x1 (O0 ), ..., xn (O0 )) I(O)t · I(O) + I(O0 )t I(O) − I(O)t I(O0 ) siendo I(O) = (x1 (O), ..., xn (O)) Supongamos que las variables sean booleanas y denotemos por: (1,1) η ij : el número de unos coincidentes entre los objetos Oi , Oj . (0,0) η ij : el número de ceros coincidentes entre los objetos Oi , Oj . (1,0) η ij : el número de unos en Oi coincidentes con ceros de Oj . (0,1) η ij : el número de ceros en Oi coincidentes con unos de Oj . ρij : el número de rasgos coincidentes entre Oi y Oj , es decir (1,1) ρij = η ij (0,0) + η ij 2.5 Medidas de (divergencia) similitud 19 θij : el número de rasgos no coincidentes entre Oi y Oj , es decir (0,1) θij = η ij (1,0) + η ij n : el número total de variables en términos de las cuales se describen los objetos (1) (1) (0) (1) η i , η j : el número de unos en Oi (respectivamente en Oj ) η i , η j : el número de ceros en Oi (respectivamente en Oj ) 4. Promedio de rasgos coincidentes: Sij = ρij m siendo 0 ≤ Sij ≤ 1. Se aplica cuando el cero y el uno aportan información. 5. Coeficiente de Rao: (1,1) η ij Sij = m siendo 0 ≤ Sij ≤ 1 6. Coeficiente Hamman: ρij − θij m se aplica cuando ρij ≥ θij , esto es, Sij ≥ 0 Sij = 7. Coeficiente de Rodgers y Tanimoto: (1,1) Sij = η ij (1) (1) (1,1) η i η j − η ij siendo 0 ≤ Sij ≤ 1 8. Coeficiente de Gekard: (1,1) Sij = siendo 0 ≤ Sij ≤ 1 η ij (1,1) η ij − θij 20 Conceptos básicos 9. Coeficiente Dake (1,1) Sij = 2η ij (1,1) 2η ij + θij siendo 0 ≤ Sij ≤ 1 10. (1,1) Sij = η ij (1,1) η ij + 2θij siendo 0 ≤ Sij ≤ 1 11. Sij = ρij ρij = 2m − θij m + θij Nota: Todos los coeficientes de semejanza ( para variables booleanas ) pueden ser extendidos al caso de variables cualesquiera, con la única restricción que todos los criterios de comparación de valores de las variables sean booleanos. Capı́tulo 3 Enfoque métrico: ERI=Rn ó 2n En el enfoque estadı́stico ante un problema de clasificación sin aprendizaje, en la mayorı́a de las situaciones se asume una distribución dada de los datos y posteriormente se aplican las técnicas adecuadas para estas suposiciones. Por ejemplo, si los objetos se distribuyen en el espacio de representación (que se asume normado) según una única distribución normal, entonces ”lo máximo que se puede obtener de los datos está contenido en los parámetros que definen la distribución del vector de los promedios y la matriz de covarianzas de la muestra” afirma Laureano Escudero [2]. Y continua ”El vector de los promedios localiza el centro de gravedad de la nube de puntos. Puede considerarse como el patrón prototipo X que mejor representa a todos los patrones de la muestra, en el sentido de minimizar la suma de los cuadrados de las distancias de los demás patrones con respecto a si mismo. La matriz de covarianzas de la muestra indica el grado de representatividad con que el vector de los promedios representa al conjunto de patrones que la componen”. Aunque es de señalar que el patrón pudiera no existir, es decir, puede no ser un elemento de la muestra dada (el universo U ). ”Si los patrones de la nube de objetos siguen una distribución normal, el vector de los promedios tiende a encuadrarse en la región en que la muestra está más densamente concentrada. Si la muestra no está normalmente distribuida, promedio y covarianzas pueden dar una errónea distribución de los datos”. Por otro lado debemos de añadir que el vector de los promedios y la matriz de covarianza son insuficientes para describir totalmente un conjunto arbitrario de datos. Volviendo sobre el concepto de ”naturalidad”, Laureano Escudero dice ”Para llegar a agrupar los patrones en clases ”naturales” el análisis cluster Enfoque métrico: ERI=Rn ó 2n 22 utiliza el criterio de minimizar la desviación interna de los patrones de un mismo grupo y por lo tanto maximizar la distancia entre los diversos grupos”, lo que es sin lugar a dudas una de las ideas intuitivamente más inmediata ante un problema de clasificación sin aprendizaje. Es muy frecuente en este enfoque plantear las cosas del siguiente modo: ERI = Rn ; β = distancia sobre Rn ; y como criterio de agrupamiento condiciones de optimalidad sobre la base de la distancia definida. En ocasiones ERI = 2n , es decir, el booleano n-dimensional sobre el que se define alguna distancia. Esto bajo el supuesto de que todas las variables que describen a los objetos son booleanas. Estos planteamientos se sostienen sobre la base de la afirmación ”la forma más obvia de medir la similitud o divergencia entre dos muestras es la distancia entre ambos conjuntos.” 3.1 Estrategias de agrupamiento Con base en lo expuesto en la sección anterior, se puede decir que en el enfoque métrico se consideran las siguientes estrategias para la formación de agrupamientos: 1. Métodos de reagrupamiento y jerárquicos . Un método de reagrupamiento es aquel en el que habiendo determinado el número c de agrupamientos a formar, el problema consiste en distribuir los objetos de universo en ciertos c agrupamientos de tal forma que se maximice alguna medida de similitud (prefijada) entre los objetos del mismo agrupamiento. Los métodos jerárquicos tienen por objetivo agrupar a agrupamientos (cada agrupamiento de objetos se trata como si fuera un objeto de un nuevo universo) para formar uno nuevo , aquı́ se tiende hacia un nivel de mayor generalización o bien separar agrupamientos formando nuevos agrupamientos llamados subagrupamientos, es decir, aquı́ se tiende hacia un nivel de mayor particularización. 2. Métodos aglomerativos y divisivos. Los métodos jerárquicos se subdividen en aglomerativos (en los que se parte de c agrupamientos hasta llegar al universo, en cada nivel se procede a fusionar agrupamientos que sean similares (este concepto hay que definirlo en cada caso)). 3.1 Estrategias de agrupamiento 23 Los métodos divisivos son aquellos en los que se parte del universo y se van obteniendo en cada nivel dos agrupamientos repartidos de modo tal que se maximice una medida de divergencia preestablecida. 3. Método tipológico. Los métodos tipológicos, aunque también son jerárquicos, se diferencian de éstos en que los jerárquicos contemplan simultáneamente las n caracterı́sticas de cada objeto para formar los agrupamientos o separarlos en nuevos agrupamientos, según se observe una mayor similitud o divergencia, respectivamente. En cambio los métodos tipológicos tienen en cuenta una caracterı́stica en la agrupación o separación de los objetos, de tal forma que si el método es, por ejemplo, tipológico divisivo se comienzan a separar los objetos seleccionados con la caracterı́stica de mayor efecto discriminante (¿cómo se puede lograr esto?). Una vez formados los dos nuevos agrupamientos de objetos se estudia, independientemente a cada uno de ellos, los dos nuevos estratos de objetos que se pueden formar con la influencia de la caracterı́stica que más discrimina. Éstas se obtienen sobre la base de maximizar la homogeneidad interna (entre los objetos del mismo agrupamiento) y por tanto maximizar la heterogeneidad entre los estratos. Cuando no se puede seguir subdividiendo con la variable más discriminante, se continúa el proceso con la siguiente variable en orden de importancia discriminatorio y ası́ sucesivamente. Si atendemos a las relaciones entre los conjuntos que se forman en la estructuración del universo. 4. Métodos generadores de agrupamientos solapados y ajenos. En los métodos que generan agrupamientos solapados se admite que un objeto pueda formar parte simultáneamente de más de un agrupamiento. Por su parte en los generadores de agrupamientos ajenos (exclusivos) si un objeto pertenece a un agrupamiento no puede pertenecer a otro. Es valioso apuntar aquı́, aunque después retomemos esta idea, que en primer caso la propiedad que caracteriza a los agrupamientos (considerados como conjuntos) no excluye a otras, mientras que en el caso de los agrupamientos exclusivos sı́ ocurre. Análogamente, si se toma en cuenta la naturaleza de dichos conjuntos, es decir si son conjuntos duros (de la Teorı́a Clásica De Conjuntos) o difusos (Teorı́a de los Subconjuntos Difusos[3]), aparecerı́an nuevas subdivisiones Enfoque métrico: ERI=Rn ó 2n 24 para los métodos generadores de agrupamientos difusos considerando los diferentes conceptos de cubrimientos y particiones difusas[4]. Considerando la forma en que se obtienen dichos agrupamientos. 5. Métodos directos e iterativos. Los métodos directos se caracterizan por utilizar algoritmos que operan de modo tal que una vez que se asigna un objeto a un agrupamiento no lo remueve del mismo. Los iterativos por su parte, corrigen sus propias asignaciones sobre la base de volver a comprobar en subsiguientes iteraciones si la asignación de la muestra total es óptima. Si no lo fuese, estos métodos efectúan un nuevo agrupamiento. 6. Métodos secuenciales y simultáneos. Los métodos secuenciales se caracterizan por aplicar la misma serie recursiva de operaciones a cada agrupamiento (por ejemplo los métodos de reagrupamiento). Mientras, los simultáneos son aquellos que de una vez provocan los agrupamientos de una muestra. 7. Métodos adaptativos y no adaptativos. Se trata de métodos que ”aprenden” en su ejecución, de la conformación de los agrupamientos que están fusionando de manera tal que, según sea la fusión ası́ cambian de medida de similitud (divergencia) o del criterio a optimizar. Los métodos no adaptativos (que son mayorı́a) son aquellos en que el algoritmo se encamina directa o iterativamente a la solución sin variar los parámetros esenciales del método, el cual está predeterminado. La estructuración de los métodos de agrupamiento antes expuesta no pretende otra cosa que no sea dar una idea global de las formas en que puede ser abordada la solución del problema que nos ocupa. Solo referiré a una de esas familias y dentro de ellas a un procedimiento especı́fico, que contiene en esencia una de las ideas más importantes para la realización de agrupamientos, para la solución del problema de clasificación sin aprendizaje. 3.2 Técnicas de reagrupamiento Sobre la base de conceptos de similaridad como los ejemplificados a través de las medidas de divergencia anteriores, se realiza el proceso de agrupamiento del universo en cuestión siguiendo los pasos siguientes: 3.2 Técnicas de reagrupamiento 25 a) Dado un universo U , se conoce el número c de agrupamientos que se desean obtener, en los que U debe estructurarse, de modo tal que se optimice un criterio. b) Los criterios por lo general estarán dirigidos a optimizar una cierta medida del grado de homogeneidad interna de los agrupamientos o de heterogeneidad entre los mismos. Ejemplos de estos criterios pueden ser: Jc = tr (SB ) = ni c X X kI(Oji ) − mi kn i=1 j=1 Donde mi es el vector de los n promedios de los valores de las variables en el i-ésimo agrupamiento.; ni la cantidad de objetos en dicho agrupamiento; tr denota la traza de la matriz, es decir, la suma de los elementos de su diagonal y SB esta dado por SB = c X ni (mi − m)(mi − m)t i=1 que es una matriz que recoge la suma ponderada de las desviaciones de cada agrupamiento respecto al objeto prototipo, promedio m de la muestra total. Si bien esta medida es simple, en particular por su cálculo, y por ser invariante ante transformaciones lineales (cambio de escala) siempre y cuando se normalicen las variables, tiene el inconveniente de que no es sensible a la relación de dependencia de las variables. Lo que sı́ se tiene en cuenta en el siguiente ejemplo. JM = ni c X X −1 (I(Oj ) − mi )t S (i) (I(Oj ) − mi ) i=1 j=1 que se conoce con el nombre de suma de las desviaciones de Mahalanobis, donde ni X (i) S = (I(Oji ) − mi )(I(Oji ) − mi )t j=1 es la matriz asociada al agrupamiento i-ésimo que nos da una medida de la variación de las descripciones de los objetos del i-ésimo agrupamiento respecto al vector de los promedios del mismo agrupamiento. Enfoque métrico: ERI=Rn ó 2n 26 Una vez determinado el criterio a optimizar, se procede de manera iterativa; en el caso que, por ejemplo las variables no tienen mayor relación de dependencia, se trabaja en la optimización del criterio Jc , si por el contrario los objetos estarán correlacionados, entonces se utiliza JM . Veamos un ejemplo de como funcionarı́a este proceso: Supongamos que se decidió trabajar con el criterio de la traza de la matriz SB , es decir, con distancia euclideana. paso 1.- Se considera que hay una solución inicial previa para la estructuración de los objetos del universo U en c agrupamientos. Ésta pudo haber sido obtenida de manera aleatoria o por vı́a del criterio de los expertos del área en cuestión. Se inicializa la variable TOTAL en cero. paso 2.- Se calcula la diagonal de la matriz de covarianzas S de la muestra U de objetos, misma que viene dada por S = kSpf knxn siendo Pm − x̄p )(xf (Oi ) − x̄f ) m−1 en la cual x̄p es el promedio de los valores de dicha variable en toda la muestra, m el tamaño de la misma. Spf = i=1 (xp (Oi ) paso 3.- Normalización del valor xf (Oi ) de la variable en el objeto en cuestión, para cada una de n las variables y para los m objetos de la muestra por medio de p xf (Oi )/ Sf f paso 4.- Obtención de la suma total del cuadrado del error de las desviaciones de los objetos con respecto a su propio promedio según la ecuación Jc = tr (SB ) = ni c X X kI(Oji ) − mi k2 i=1 j=1 paso 5.- Selección del próximo objeto. En este paso se selecciona al azar el objeto I(Oj ) del i-ésimo agrupamiento Ki , sobre el que se va a efectuar el estudio sobre el efecto que causa sobre el criterio a optimizar su traslado 3.2 Técnicas de reagrupamiento 27 del i-ésimo agrupamiento al k-ésimo, con i 6= j. Si ni = 1 y ya se ha seleccionado T OT AL = M − 1 objetos desde el último traslado, se termina el programa ya que este serı́a el agrupamiento óptimo. Si ni = 1 y T OT AL < (m − 1), se actualiza el ı́ndice de T OT AL y se selecciona un nuevo objeto. paso 6.- Se calcula el valor de ρt asociado a cada agrupamiento de Kt mediante las expresiones ρk = nk kI(Oji ) − mk k2 nk + 1 ρk = nk kI(Oji ) − mk k2 nk − 1 para k 6= i para k = i que recoge para cada k 6= i el incremento de la desviación que supondrı́a si el objeto señalado se traslada del i-ésimo agrupamiento al k-ésimo, para k = i la expresión nos dice el decremento que se producirá en la desviación en el i-ésimo agrupamiento al quitar dicho objeto. paso 7.- Obtención del ρt : menor incremento en las desviaciones asociadas a cada agrupamiento al que fue llevado el objeto que se quitó del i-ésimo agrupamiento, siendo t el ı́ndice del agrupamiento en que se produjo el menor incidente. paso 8.- Si ρi > ρk se efectúa el traslado del objeto desde el i-ésimo agrupamiento al k-ésimo. Se actualizan las magnitudes de las desviaciones asociadas a cada agrupamiento. Con lo cual se obtiene un nuevo valor para Jc . Ası́ mismo se actualizan los nuevos vectores promedio de cada agrupamiento, los nuevos tamaños de cada uno de ellos, el ı́ndice TOTAL se inicializa en cero nuevamente y se regresa al paso 4. paso 9.- Si ρi ≤ ρk no se debe efectuar el traslado del objeto desde el i-ésimo agrupamiento al k-ésimo ya que se incrementarı́a el valor del funcional Jc . Se actualiza TOTAL incrementándolo en una unidad. Si T OT AL = m, el tamaño de la muestra, significará que se han efectuado m iteraciones desde el paso 4 sin que se haya logrado mejorı́a alguna en el valor del funcional, por tanto se ha alcanzado un óptimo local del funcional con la distribución de los objetos en c agrupamientos. Si T OT AL < m Enfoque métrico: ERI=Rn ó 2n 28 todavı́a no se han seleccionado todos los objetos desde el último traslado de agrupamiento efectuado y por tanto se regresa al paso 4. 3.3 Algoritmo c-means. El algoritmo c-means es uno de los procedimientos de reagrupamiento más conocidos y se basa sobre la idea de minimizar el cuadrado de las distancias de todos los elementos del agrupamiento al centro del mismo. Esta es una de las formas de maximizar la homogeneidad de cada uno de los agrupamientos, maximizando por ende la heterogeneidad entre los mismos. Paso 1.- Seleccionemos en la primera iteración, c centros y denotemoslos por z1 (1), z2 (1), ..., zc (1) para los agrupamientos a formar, la primera estructuración propuesta, se realiza de manera arbitraria, aleatoriamente, o siguiendo el criterio de los expertos*. Paso 2.- En el k-ésimo paso de la iteración del algoritmo, distribuyamos los elementos de la muestra en los c agrupamientos siguiendo el siguiente criterio: O ∈ Sj (k) si kI(O) − zj (k)k < kI(O) − zi (k)k (3.1) para todo i = 1, ..., c; i 6= j, donde S − j(k) denota el agrupamiento del cual zj (k) es el centro. Observe que la expresión (1) significa que un elemento del universo se ubica en el agrupamiento cuyo centro se encuentra más cercano a dicho elemento. Paso 3.- A partir de los resultados obtenidos en el paso anterior se calcula los nuevos centros zj (k + 1), j = 1, ..., c, de manera tal que la suma de los cuadrados de las distancias de cualquier punto de Sj (k) al nuevo centro de ese agrupamiento sea mı́nima. Esto es, el nuevo agrupamiento con centro zj (k + 1) se determina de modo tal que el parámetro Jj = X O∈sj (k) kI(O) − zj (k + 1)k2 con j = 1, ..., c (3.2) 3.3 Algoritmo c-means. 29 sea minimizado, El zj (k + 1) que minimiza la expresión (2.2) es el valor medio del conjunto Sj (k). De esta forma el centro del nuevo agrupamiento viene dado por la expresión zj (k + 1) = 1 X I(O) Nj (3.3) O∈Sj (k) donde Nj = kSj (k)k El nombre del algoritmo, c-means, obedece a la manera en que se van calculando secuencialmente los centros de los nuevos agrupamientos. Paso 4.- Si zj (k + 1) = zj (k) para todo j = 1, ..., c, termina el procedimiento con la propuesta de estructuración del universo, de lo contrario se regresa al paso 2. Antes de hacer algunos comentarios acerca de los supuestos sobre los que se ha elaborado este algoritmo, veamos un ejemplo numérico en el plano* . Sea U un universo dado por la siguiente tabla: Objeto O1 O2 O3 O4 O5 O6 O7 O8 O9 O10 x1 , x2 0,0 1,0 0,1 1,1 2,1 1,2 2,2 3,2 6,6 7,6 Objeto O11 O12 O13 O14 O15 O16 O17 O18 O19 O20 x1 , x2 8,6 6,7 7,7 8,7 9,7 7,8 8,8 9,8 8,9 9,9 Paso 1.- Sea c = 2. Tomemos como distribución inicial de los centros la siguiente: z1 (1) = I(O1 ) = (0, 0), z2 (1) = I(O2 ) = (1, 0) Paso 2.- Como kI(O1 ) − z1 (1)k < kI(O1 ) − zi (1)k Enfoque métrico: ERI=Rn ó 2n 30 y kI(O3 ) − z1 (1)k < kI(O3 ) − zi (1)k para i = 2; y para los restantes objetos de la muestra se cumple que kI(Op ) − z2 (1)k < kI(Op ) − zi (1)k para p = 2, 4, 5, ..., 20; i = 1, tenemos que: S1 (1) = {O1 , O3 }, y S2 (1) = {O2 , O4 , O5 , ..., O20 }. De esta manera tenemos la primera iteración, es decir la primera propuesta de estructuración para el universo dado. Paso 3.- Determinemos los nuevos centros para los agrupamientos calculados verificando que éstos satisfagan la expresión a (2). Para ello haremos uso de la expresión (3): z1 (2) = 1 1 X I(O) = (I(O1 ), I(O3 )) = (0, 0.5) N1 2 O∈S1 (1) z2 (2) = 1 X 1 I(O) = (I(O2 ), I(O4 ), I(O5 ), ..., I(O20 )) N2 18 O∈S2 (1) = (5.67, 5.33) Paso 4.- Como quiera que zj (2) 6= zj (1) para j=1,2, es decir, como los nuevos centros calculados son diferentes a los iniciales, regresamos al paso 2. Paso 2(A).- A partir de los nuevos centros, haciendo uso de la expresión (1), distribuimos los elementos del universo en una nueva estructuración dado que: kI(Op ) − z1 (2)k ≤ kI(Op ) − z2 (2)k para p = 1, 2, ..., 8 y kI(Op ) − z2 (2)k ≤ kI(Op ) − z1 (2)k para p = 9, 10, ..., 20 formamos los nuevos agrupamientos: S1 (2) = {O1 , ..., O8 } y Vamos al paso 3 S2 (2) = {O9 , ..., O20 } 3.3 Algoritmo c-means. 31 Paso 3.- De nuevo determinamos los nuevos centros haciendo uso de la expresión (2): z1 (3) = 1 1 X I(O) = (I(O1 ) + I(O2 ) + ... + I(O8 )) = (1.25, 1.13) N1 8 O∈S1 (2) z2 (3) = 1 X 1 I(O) = (I(O9 ) + ... + I(O20 )) = (7.67, 7.33) N2 12 O∈S2 (2) Paso 4.- Se nos presenta la misma situación anterior que zj (3) 6= zj (2) para j = 1, 2; por lo que regresaremos al paso 2. Paso 2.- Al calcular los nuevos agrupamientos resulta que Sj (4) = SJ (3) para j = 1, 2. Vamos al paso 3 Paso 3.- Como era de esperar aquı́ también obtenemos los mismos centros que en la iteración anterior. Paso 4.- Y como zj (4) = zj (3) para j = 1, 2; el algoritmo termina Si observa la representación geométrica de los puntos dados en el plano, corroborará que la estructuración obtenida es la que razonablemente se esperarı́a. Es importante que subrayemos que el comportamiento del algoritmo, su aplicabilidad y efectividad práctica depende de los siguientes supuestos: X Se debe conocer la cantidad c de agrupamientos a formar. X Se tienen que seleccionar, entre los objetos del universo a estructurar, los c centros (semillas), siguiendo criterios de expertos, de manera aleatoria o por medio de una heurı́stica. X El ERI tiene que ser al menos métrico. Esto descarta la posibilidad de aplicarlo en problemas donde aparezcan mezcladas variables cuantitativas y cualitativas. En los problemas que aparezcan sólo variables cuantitativas o cualitativas, no puede haber ausencia de información en la descripción de objeto alguno. X La expresión (1) garantiza que los agrupamientos elaborados formen una partición, luego sólo se obtendrán estructuraciones de este tipo. 32 Enfoque métrico: ERI=Rn ó 2n X El algoritmo, como otros de este tipo y enfoque, supone que homogeneidad (en el sentido del cumplimiento de la(s) propiedad(es) que caracteriza(n) a los objetos de un mismo agrupamiento) es equivalente a cercanı́a (En el sentido de la distancia que se defina sobre el ERI). Eso conlleva a la estrecha vinculación de dependencia entre la selección del ERI, la distancia definida y la calidad real de la solución propuesta. X La expresión (3) puede llevar a un centro que no pertenezca a la muestra de estudio. Esto puede tener diferentes lecturas, algúnas en las que no se le de mucha importancia al asunto y otras en las que se llegue a desconfiar totalmente de la estructuración propuesta. Una ”solución” a este hecho puede venir dada por la decisión de tomar como centro al objeto de la muestra más cercano al centro virtual calculado y radio igual al mı́nimo de las distancias de éste a los objetos de la muestra dada. Esto lleva a estructuraciones diferentes, ¿cuál de ellas es la buscada?. Por otro lado está suponiendo que dicho centro es un valor central, ya que lo determina mediante el promedio de los valores, y como ya sabemos esto es cierto siempre y cuando la distribución de datos en la muestra sea al menos simétrica. 3.4 Algoritmo ISODATA. 33 X No es difı́cil apreciar que la velocidad con que se alcance la solución estará en dependencia de la geometrı́a de los datos, siendo más factible alcanzar respuestas rápidas y relativamente confiables en los casos en que las descripciones de los objetos queden como empaquetadas en el ERI respecto a la distancia seleccionada. X El algoritmo no establece qué hacer cuando un objeto equidiste de más de uno de los centros en una iteración cualquiera. En términos de la expresión(1) no se puede decidir la ubicación de dicho elemento. X No hay un teorema que garantice en el caso general la convergencia del algoritmo. 3.4 Algoritmo ISODATA. ISODATA (Iterative Self-Organizing Data Analysis Techniques, la A es para que resulte pronunciable) es también un algoritmo de la familia de técnicas de reagrupamiento, muy parecido al c-means, en particular a lo referente a la determinación de los centros de los agrupamientos, pero presenta interesantes heurı́sticas que pueden ser de mucha utilidad práctica. En especial la de cambiar el número de centros con la idea de mejorar los agrupamientos, es decir la estructuración del universo de objetos en estudio. Este algoritmo, supone que se trabajan con descripciones de objetos que están en un espacio métrico, por lo que se utilizarán también métricas para la comparación entre los objetos. Se supone además que se tiene una solución inicial para el conjunto de Nc centros, es decir, se parte de una estructuración en torno a cada uno de los centros. No necesariamente el número de centros será igual al número de centros deseados. Los centros iniciales podrán ser seleccionados entre los m objetos en estudio. El algoritmo puede ser descrito como sigue: Paso 1.- Determinación de los parámetros: • K = número de centros deseados; • θN = número mı́nimo de objetos deseados; • θs = parámetro de desviación estándar; • θc = parámetro de aglomeración; Enfoque métrico: ERI=Rn ó 2n 34 • L = número máximo de centros que pueden ser aglutinados; • I = número máximo de iteraciones; Paso 2.- Distribuir todos los objetos entre los centros actuales usando los siguientes criterios: O ∈ Sj si kI(O) − zj k < kI(O) − zi k para i = 1, ..., Nc , i 6= j, donde Sj representa el subconjunto de los objetos asociados al centro zj Paso 3.- Se descartan los subconjuntos cuyo cardinal sea menor que θN y por cada subconjunto descartado, reducir Nc en uno Paso 4.- Actualizar todos los centros zj con j=1,...,Nc usando el vector promedio de cada subconjunto, es decir, zj = 1 X I(O) |Sj | O∈S j para j = 1, ..., Nc Paso 5.- Calcular los la distancia promedio de los objetos de un agrupamiento a su centro correspondiente usando: Dj = 1 X kI(O) − zj k, |Sj | O∈S j para j = 1, ..., Nc Paso 6.- Calcular el promedio general de las distancias de los objetos a sus respectivos centros, usando la relación: Nc 1 X D= |Sj |Dj N j=1 Paso 7.- a) Si esta es la última iteración, hacer θc = 0 (para forzar que no se genere un aglutinamiento de agrupamientos) e ir al paso 11. b) Si Nc ≤ K2 , ir al paso 8 (lo que permite la división de agrupamientos si hubiese unos pocos). 3.4 Algoritmo ISODATA. 35 c) Si esta es una iteración de número par o si Nc ≥ 2K, ir al Paso 11 (lo que permite el aglutinamiento de agrupamientos en el caso de que estos sean muchos), de lo contrario continuar. Paso 8.- Encontrar el factor desviación estándar σ i = (σ 1j , ..., σ nj ) para cada subconjunto Sj aplicando la relación: 1 1 X kXi (Ok ) − zij k2 ) 2 σ ij = ( |Sj | O∈S j donde Xi (Ok ) es la i-ésima coordenada del k-ésimo objeto y zij es la i-ésima coordenada del j-ésimo centro. Paso 9.- Encontrar la máxima coordenada de cada σ j , j = 1, ..., Nc y denótese por σ j max Paso 10.- Si para cualquier σ j max , j = 1, ..., Nc , se tiene que σ j max ≥ θs y se cumple una de las siguientes condiciones: a) Dj > D y Nj > 2(θN + 1) b) Nc ≤ K 2 Entonces a partir de zj crear dos nuevos centros zj+ y zj− e incrementar Nc en uno. El centro zj+ se construye sumando una cantidad dada γ a la componente de zj que corresponde al ı́ndice de la máxima componente de σ j . zj− se forma de manera análoga, pero restando γ. El requerimiento básico de escoger γ es que sea suficiente para proveer de una diferencia detectable entre la distancia de un objeto arbitrario a los nuevos centros, pero no tan grande que transforme apreciablemente la estructura general de todos los agrupamientos. Si se hizo una división de algún agrupamiento. ir al Paso 2, de otra forma, continuar. Paso 11.- Calcular las distancia a pares, entre centros de agrupamientos diferentes: Dij = kzi − zj k con i = 1, ..., Nc−1 , j = 1, ..., Nc , j > i Paso 12.- Compárense las distancia Dij con el parámetro θc para ordenar en forma ascendente las L distancias más pequeñas que sean menores o iguales a θc 36 Enfoque métrico: ERI=Rn ó 2n Paso 13.- Con cada distancia Dil jl hay un par de centros asociados zil , zjl . Empezando con la más pequeña de estas distancias, llevar acabo el aglutinamiento por pares, siguiendo la siguiente regla. Para l = 1, ..., L si ninguno de los zil o zjl ha sido utilizado para un aglutinamiento en esta iteración, unir este par de centros utilizando la fórmula: 1 (|Sil |zil + |Sjl |zjl ) zl∗ = |Sil | + |Sjl | (que constituye un promedio pesado). Al unirlos borrar zil y zjl reduciendo Nc en uno. Paso 14.- Si esta es la última iteración, se terminará el proceso; de otra manera ir al paso 1 si alguno de los parámetros del proceso requiere cambios a discreción del usuario o ir al Paso 2, para conservar los parámetros como están. Se cuenta una iteración cada vez que se regresa al paso 1 o al 2. Resumiendo se puede decir que este algoritmo supone el conocimiento de una serie de parámetros, tales como: el número de agrupamientos a formar, (aunque a diferencia del c-means pudiera iniciar el trabajo por un número menor que el deseado); la cantidad mı́nima de objetos que debe tener cada agrupamiento ; qué tan aglutinados estarán los objetos de un agrupamiento; qué tan alejados deben estar los agrupamientos ; la ubicación de los centros iniciales que se hace de manera análoga al cmeans; la expresión del paso 2 garantiza la formación de agrupamientos disjuntos, ya que la misma no preveé que un objeto esté a igual distancia de dos centros dados; se supone que los agrupamientos son más homogéneos en la medida que sus objetos están más cercanos, por lo que este hecho depende de la métrica que se utilice y por supuesto del ERI seleccionado; el paso 4 puede darnos como centro un objeto que no está en la muestra y presupone que el centro está dado por el valor central del agrupamiento, lo cual es cierto si la distribución de los objetos es simétrica. Capı́tulo 4 Enfoque Lógico - combinatorio 4.1 Criterios agrupacionales. El problema de reconocimiento de patrones sin aprendizaje consiste en: Dado un conjunto de objetos (muestra inicial) M I, subconjunto de un universo U y β una función de semejanza entre los objetos, identificar a éstos en diferentes agrupaciones las cuales se generan (responden) de manera ”natural” según el comportamiento global o particular de las semejanzas entre los objetos o atendiendo al cumplimiento de una cierta propiedad. Se puede plantear entonces que este problema consiste en la búsqueda de estructuras en un subconjunto del espacio de representación por lo que también se le ha denominado estructuración de universos. No se tiene a priori ninguna información al respecto de las agrupaciones o estructuras, por lo que el PCSA, inicia con ciertas suposiciones o criterios que nos describan cómo o qué es una agrupación que responde de manera natural al comportamiento, digamos por caso, de las semejanzas entre los objetos, o en otras palabras, cómo son los agrupamientos que estamos buscando. Se parte del hecho de que se cuenta con M I = {I(O1 ), ..., I(Om )} un subconjunto de descripciones de los objetos O1 , ..., Om , de un universo U , dadas como I(Oi ) = (x1 (Oi ), ..., xn (Oi )). Para cada xi se tiene asociado un conjunto de valores admisible Mi , i = 1, ..., n, consecuentemente el ERI de los objetos, no es otra cosa que M1 × · · · × Mn , el producto cartesiano de los conjuntos admisibles de valores de los rasgos x1 , ..., xn . Sobre Mi se define un criterio de comparación de valores Ci : M i×Mi −→ ∆, donde ∆ es un conjunto dado (∆ = [0, 1], ∆ = {0, 1}, ∆ = 1, ..., k, u otros). Entre las descripciones de 38 Enfoque Lógico - combinatorio objetos se define una función de semejanza β = (M1 × · · · × Mn )2 −→ ∆. Por ejemplo: | d(Oi , Oj ) | max | d(Oi , Oj ) | A partir de M I y β se puede construir una matriz que refleje las relaciones de semejanza entre todos los objetos sujetos a estudio. A esta matriz la llamaremos matriz de semejanza y será: β(Oi , Oj ) = 1 − M S = kβ(I(Oi ), I(Oj ))km×m M S es simétrica y β(I(Oi ), I(Oi )) = 1, i = 1, ..., m Definición 4.1.1 La magnitud β 0 ∈ ∆ la denominaremos umbral de semejanza y puede ser calculada, por ejemplo, de la siguiente manera: a) m−1 m X X 2 β(I(Oi ), I(Oj )) β0 = m(m − 1) i=1 j=i+1 b) m β0 = 1 X max {β(I(Oi ), I(Oj ))} m i=1 j=1,...,m i6=j c) β0 = min { min i=1,...,m−1 j=i+1,...,m i6=j {β(I(Oi ), I(Oj ))}} Veamos un ejemplo numérico en el plano*. Sea U un universo dado por la siguiente tabla: Objeto O1 O2 O3 O4 O5 O6 O7 O8 x1 , x2 0,1 1,1 1,2 2,2 4,5 5,5 5,6 6,7 4.1 Criterios agrupacionales. 39 Utilizando la distancia entre cada punto calculamos la MI: MI O1 O2 O3 O4 O5 O6 O7 O8 O1 0.0 1.0 2.0 3.0 8.0 9.0 10.0 12.0 O2 1.0 0.0 1.0 2.0 7.0 8.0 9.0 11.0 O3 2.0 1.0 0.0 1.0 6.0 7.0 8.0 10.0 O4 3.0 2.0 1.0 0.0 5.0 6.0 7.0 9.0 O5 8.0 7.0 6.0 5.0 0.0 1.0 2.0 4.0 O6 O7 O8 9.0 10.0 12.0 8.0 9.0 11.0 7.0 8.0 10.0 6.0 7.0 9.0 1.0 2.0 4.0 0.0 1.0 3.0 1.0 0.0 2.0 3.0 2.0 0.0 Utilizando la función de semejanza β(Oi , Oj ) = 1 − MS: MS O1 O2 O3 O4 O5 O6 O7 O8 O1 1.0 .92 .83 .75 .67 .25 .17 0.0 O2 .92 1.0 .92 .83 .42 .33 .25 .08 O3 .83 .92 1.0 .92 .5 .42 .33 .17 O4 .75 .83 .92 1.0 .58 .5 .42 .25 O5 .67 .42 .5 .58 1.0 .92 .83 .67 O6 .25 .33 .42 .5 .92 1.0 .92 .75 |d(Oi ,Oj )| , max|d(Oi ,Oj )| O7 .17 .25 .33 .42 .83 .92 1.0 .83 calculamos O8 0.0 .08 .17 .25 .67 .75 .83 1.0 Definición 4.1.2 Dos descripciones ( objetos ) I(Oi ), I(Oj ) se denominan β 0 -semejantes si β(I(Oi ), I(Oj )) ≥ β 0 . Sea un espacio de representación Φ = {E, β}, sea dado un conjunto de descripciones de objetos: M I = {I(O1 ), ..., I(Om )}, Una función de semejanza β : M I × M I −→ δ y un umbral β 0 ∈ δ que define la β 0 -semejanza entre los elementos de MI. De aquı́ en adelante por comodidad, no se hará distinción entre objetos y descripciones de objetos, por lo que se usará Γ(Oi , Oj ) en lugar de Γ(I(Oi ), I(Oj )) 40 Enfoque Lógico - combinatorio Definición 4.1.3 Entenderemos como un criterio agrupacional duro sobre Φ(E, β), Π(M I, β, β 0 ) a un conjunto de proposiciones con parámetros MI, β, β 0 que: 1. Genera una familia τ = {N U1 , ..., N Uc } de subconjuntos de MI (agrupaciones duras) que cumplen: (a) N U = 6 ∅, ∀ N U ∈ τ . S (b) NU = MI N U ∈τ k S (c) k∃ N Ur , N Uj1 , ..., N Ujk ∈ τ tales que N Ur ⊆ N U jt t=1 jt 6=r 2. Define una relación RΠ ⊆ M I × M I × p(M I) ( donde p(M I) es el conjunto potencia de M I) que cumple ∀ Oi , Oj ∈ M I, ∃ N U ∈ τ con Oi , Oj ∈ N U ⇔ ∃ S ⊆ M I tal que Rπ (Oi , Oj , S) A cada N Ur ∈ τ lo denominaremos núcleo. La relación Rπ es en sı́ la representación matemática de las proposiciones de π, y por ello Rπ genera a la familia τ en el mismo sentido en que una relación de equivalencia genera una partición, es decir, nos define cuándo dos objetos Oi y Oj están en una misma estructura. Los argumentos de Rπ son tales que la razón por la cual dos objetos pertenecen o no a un mismo agrupamiento puede ser dependiente del comportamiento global de las semejanzas entre otros objetos además de ellos mismos. Ese conjunto de otros objetos es S, y por esto, Rπ representa que de acuerdo a: • El comportamiento entre las semejanzas de los objetos de S ⊆ M I entre sı́, • La semejanza entre Oi y Oj • Y las semejanzas de éstos con los elementos de S, se dará el que Oi y Oj pertenezcan a un mismo agrupamiento o no. 4.1 Criterios agrupacionales. 41 El criterio agrupacional unido a Γ y a la existencia de otros objetos es la razón por la cual un objeto va a pertenecer a un agrupamiento o el por qué dos objetos pertenecerán a una misma agrupación. La selección del criterio a usar es crucial en la calidad de la solución del PCSA. Se observa que la definición del criterio debe estar basada en el conocimiento que se tenga al respecto del problema en concreto que se está tratando, para poder definir ası́ el tipo de comportamiento entre los objetos a partir de sus semejanzas que resulte, según el problema en particular, significativo. Al seleccionar un criterio, dado un conjunto de objetos y la función de semejanza, hemos ya definido indirectamente la familia de agrupaciones, es decir, la estructura del universo ha sido conformada. Definición 4.1.4 Diremos que C ⊆ M I, C 6= 0 es una componente β 0 -conexa si : a) ∀ Oi , Oj ∈ C ∃ Oi1 , ..., Oiq ∈ C tales que Oi = Oi1 , Oj = Oiq y ∀ p ∈ {1, ..., q − 1} se tiene β(Oip , Oip+1 ) ≥ β 0 b) ∀ Oi ∈ M I, si Oj ∈ C y β(Oi , Oj ) ≥ β 0 entonces Oi ∈ C c) Todo elemento β 0 -aislado es una componente β 0 -conexa (degenerada) La condición a) significa que para cualquier par de elementos de C existe una sucesión de elementos de C, que empieza en Oi y termina en Oj tales que uno es β 0 -semejante al siguiente, b) significa que no existe fuera de C un elemento β 0 -semejante a un elemento de C. Definición 4.1.5 Diremos que B ⊆ M I, B 6= ∅ es un conjunto β 0 -compacto si: a) ∀ Oj ∈ M I si Oi ∈ B y max {β(Oi , Ot )} = β(Oi , Oj ) ≥ β 0 entonces Ot ∈M I Ot 6=Oi Oj ∈ B b) Si max {β(Op , Oi )} = β(Op , Ot ) ≥ β 0 y Ot ∈ B entonces Op ∈ B Oi ∈M I Oi 6=Op c) |B| es la mı́nima 42 Enfoque Lógico - combinatorio d) Todo elemento β 0 -aislado constituye un conjunto β 0 -compacto ( degenerado ) La condición a) dice que todo elemento de B tiene en B al elemento que más se le parece que es β 0 -semejante con él. La condición b) dice que no existe fuera de B un elemento cuyo elemento más parecido que sea β 0 -semejante esté en B, la tercera condición c) dice que B debe ser el conjunto más pequeño de cardinalidad mayor que 1. Los conceptos de componentes β 0 -conexa y conjunto β 0 -compacto en ocasiones coinciden y en otras no. Por ejemplo, consideremos las siguientes M S: MS O1 O2 O3 O4 O5 O1 1 0.8 0.5 0.6 0.7 O2 O3 O4 O5 0.8 0.5 0.6 0.7 1 0.7 0.6 0.5 0.7 1 0.7 0.9 0.6 0.7 1 0.8 0.5 0.9 0.8 1 Sea β 0 = 0, 8, si formamos las componentes conexas, estas serán: 1 2 4 3 5 Es decir, hay dos componentes conexas, que coinciden con los únicos conjuntos compactos, definiciones 4 y 5, se pueden formar en la M S dada. Sin embargo, si consideramos β 0 = 0.7 y la siguiente M S: MS O1 O2 O3 O4 O5 O1 1 0.8 0.7 0.6 0.6 O2 O3 O4 O5 0.8 0.7 0.6 0.6 1 0.3 0.4 0.5 0.3 1 0.1 0.9 0.4 0.1 1 0.1 0.5 0.9 0.1 1 4.1 Criterios agrupacionales. 43 Si formamos en este nuevo caso las componentes β 0 -conexas, estas serán: 1 2 4 5 3 mientras que los conjuntos β 0 -compactos que se forman son: 1 2 4 3 5 De este último ejemplo puede surgir la idea de que si variamos β 0 siempre pudiéramos hacer coincidir las componentes β 0 -conexas y los conjuntos β 0 compactos. Sin embargo en general esto no se cumple, es decir, existe M S tal que no existe β 0 ∈ [0, 1] y que la componentes β 0 -conexas para (M S, β 0 ) coincidan con los conjuntos β 0 -compactos de M S. Definición 4.1.6 Diremos que B (conjunto β 0 -compacto) es un conjunto β 0 homogéneo si y sólo si: ∀ Oi , Oj ∈ B, β(Oi , Oj ) ≥ β 0 . Por definición, todo conjunto β 0 -aislado es β 0 -homogéneo. 44 Enfoque Lógico - combinatorio Definición 4.1.7 Diremos que F ⊆ M I, F 6= ∅ es β 0 -fuertemente compacto, si y sólo si: a) ∀ Oj ∈ M I si Oi ∈ F y max {β(Oi , O)}=β(Oi , Oj ) ≥ β 0 entonces Oj ∈ F O∈M I O6=Oi b) ∃ Oi ∈ F tal que ∀ Oj ∈ F ∃n Oi1 , ..., Oiq ∈ F que cumplen: Oi = Oi1 , Oj = Oiq y ∀ p < q se tiene max {β(Oip , O)} = β(Oip , Oip+1 ) ≥ β 0 O∈M I O6=Oip c) No existe F 0 que cumpla a) y b) tal que F ⊂ F 0 d) Todo elemento β 0 -aislado constituye un conjunto fuertemente β 0 -compacto (degenerado). La condición a) expresa que todo elemento de F tiene en F al elemento que más se le parece que es β 0 -semejante con él. La condición b) significa que en F existe un elemento tal que para cualquier otro que pertenezca a F existe una sucesión de elementos de F tales que uno es más parecido a β 0 -semejante al siguiente y por último la condición c) dice que F es el más grande. Definición 4.1.8 Un conjunto ` ⊂ M I, ` 6= ∅, es un conjunto β 0 -completo maximal si y sólo si: a) ∀ Oi , Oj ∈ ` β(Oi , Oj ) ≥ β 0 b) ∀ Oi ∈ M I, (∀ Oj ∈ ` β(Oi , Oj ) ≥ β 0 ) =⇒ Oi ∈ ` c) Todo elemento β 0 -aislado constituye un conjunto β 0 -completo maximal (degenerado) La condición a) dice que para cualquier par de elementos de ` que se tomen, estos deben ser β 0 -semejantes y la condición b) dice que ` debe ser el conjunto más grande. 4.1 Criterios agrupacionales. 45 A continuación presentamos unos ejemplos de la aplicación de estos criterios a un conjunto de datos de una matriz de semejanza {β ij }, donde β ij = β(Oi , Oj ), ∆ = [0, 1] y β 0 = 0.80 MS O1 O2 O3 O4 O5 O6 O7 O8 O9 O10 O11 O12 O1 1.0 .85 .75 .78 .63 .70 .51 .38 .43 .27 .22 .13 O2 .85 1.0 .90 .90 .76 .62 .58 .45 .56 .38 .36 .27 O3 .75 .90 1.0 .88 .83 .50 .60 .47 .65 .47 .47 .33 O4 .78 .90 .88 1.0 .85 .58 .68 .55 .63 .45 .42 .30 O5 O6 .63 .70 .76 .62 .83 .50 .85 .58 100 .48 .48 100 .73 .51 .65 .36 .80 .27 .65 .11 .58 .05 .50 0.0 O7 O8 O9 O10 .51 .38 .43 .27 .58 .45 .56 .38 .60 .47 .65 .47 .68 .55 .63 .45 .73 .65 .80 .65 .51 .36 .27 .11 1.0 .83 .66 .58 .83 1.0 .66 .63 .66 .66 1.0 .83 .58 .63 .83 1.0 .48 .53 .80 .88 .51 .61 .70 .85 O11 .22 .36 .47 .42 .58 .05 .48 .53 .80 .88 1.0 .80 O12 .13 .27 .33 .30 .50 0.0 .51 .61 .70 .85 .80 1.0 A continuación veremos los graficos de como quedarı́an los objetos de acuerdo a las definiciones dadas anteriormente. O11 * * O12 * * O*3 O9 O10 * O5 * O7 * O2 * O1 * O4 *O6 * O8 M I = {O1 , O2 , O3 , O4 , O5 , O6 , O7 , O8 , O9 , O10 , O11 , O12 } 46 Enfoque Lógico - combinatorio * O11 * O12 * Núcleo 1 O*3 O9 * * O5 O10 * O7 * Núcleo 2 O8 * O2 * O1 * O4 *O6 Núcleo 3 Familia de componentes β 0 -conexas: τ = {{O1 , O2 , O3 , O4 , O5 , O9 , O10 , O11 , O12 }, {O7 , O8 , }, {O6 }}. Núcleos del criterio β 0 -conexo Núcleo 2 * O11 * O12 * * O*3 O9 * O5 O10 * O7 Núcleo 1 O 2 * * O4 * O1 *O6 Núcleo 4 * Núcleo 3 O8 Familia de conjuntos β 0 -compactos: τ = {{O1 , O2 , O3 , O4 , O5 }, {O9 , O10 , O11 , O12 }, {O7 , O8 , }, {O6 }}. Núcleos del criterio β 0 -compacto 4.1 Criterios agrupacionales. 47 ' Núcleo $ Núcleo 3 ' $1 ' $ O*3 * O2 O9 * O11 * O1 * O4 * % & & % * O5 O12 O# 10 Núcleo 2 * % * & * 6 *O Núcleo 4 O7 Núcleo 6 5 * Núcleo " ! O8 Familia de conjuntos β 0 -fuertemente compactos: τ = {{O1 , O2 , O3 , O4 }, {O2 , O3 , O4 , O5 }, {O9 , O10 , O11 }, {O10 , O11 , O12 }, {O7 , O8 , }, {O6 }}. Núcleos del criterio β 0 -fuertemente compacto Núcleo 3 Núcleo 2 Núcleo '5 $ '$ * O11 * O9 '$ O*3 Núcleo *4O5 O10 * * & % * & % O7 Núcleo 6 * O8 Núcleo 7 * O2 Núcleo 1 * O4&% * O1 O12 k *O6 Núcleo 8 Familia de conjuntos β 0 -completo maximal: τ = {{O1 , O2 }, {O2 , O3 , O4 }, {O3 , O4 , O5 }, {O5 , O9 }, {O9 , O10 , O11 }, {O10 , O11 , O12 }, {O7 , O8 , }, {O6 }}. Núcleos del criterio β 0 -completo maximal 48 Enfoque Lógico - combinatorio 4.2 Relaciones entre criterios agrupacionales A continuación realizaremos un sstudio entre los diferentes criterios agrupacionales del enfoque lógico-combinatorio: Definición 4.2.1 Sea P ⊂M I, definamos DP y TP como sigue: DP = {Oi ∈ M I | β(O, Oi ) = max {β(O, Oj ) ≥ β 0 }; O ∈ P} Oj ∈M I Oj 6=O TP = {Oi ∈ M I | Γ(Oi , O) = max {β(Oi , Oj ) ≥ β 0 }; O ∈ P} Oj ∈M I Oj 6=Oi Lema 4.2.2 Sea C una componente β 0 -conexa en MI, P ⊂ C entonces se tiene que DP ⊂ C y TP ⊂ C. Demostración : Es inmediata a partir de la definición de componente β 0 conexa ya que en DP están los elementos que son los más parecidos β 0 semejantes a O ∈ P ⊂ C; y sabemos que si un elemento es β 0 -semejante a otro que está en la componente β 0 -conexa el también esta en la componente β 0 -conexa por lo que DP ⊂ C. Por otro lado en TP están los elementos que tienen como elementos más parecidos β 0 -semejantes a O ∈ P ⊂ C también por definición tenemos que estos elementos están en la componente β 0 -conexa por lo que TP ⊂ C 2 Proposición 4.2.3 En toda componente β 0 -conexa, existe al menos un subconjunto β 0 -compacto. Demostración : Sea C una componente β 0 -conexa, construyamos un conjunto β 0 -compacto en C. Si C es degenerada, la demostración es inmediata. En otro caso se O1 ∈ C recursivamente tenemos lo siguiente; P0 = {O1 } calculemos DP0 y TP0 y S formemos P1 = DP0 TP0 (P1 ⊂ C por el lema anterior), puede suceder que S P0 6= P1 ; en cuyo caso calculemos DP1 y TP1 y formemos P2 = DP1 TP1 (P2 ⊂ C por el lema anterior), nuevamente puede suceder que P1 6= P2 ; en cuyo caso calculemos DP2 y TP2 , como C es finita en algún momento sucederá que Ps−1 6= Ps y el conjunto ası́ construido es un conjunto β 0 -compacto, la condición de minimalidad se da también por la construcción 2 Proposición 4.2.4 Toda componente β 0 -conexa es la unión finita de conjuntos β 0 -compactos. 4.2 Relaciones entre criterios agrupacionales 49 Demostración : Sea C una componente β 0 -conexa, por la proposición anterior podemos construir un conjunto β 0 -compacto en C. Si C es degenerada la demostración es inmediata. En otro caso denotemos B(Oi ) al conjunto β 0 -compacto generado a partir de Oi , puede suceder que B(Oi ) = B(Oj ) para Oi 6= Oj , lo que significa que Oi y Oj generan el mismo conjunto β 0 compacto además como |C| < ∞ entonces podemos afirmar que el número de conjuntos β 0 -compactos generados a partir de cada elemento de C es finito, simbólicamente tenemos: |{B(Oi )}Oi ∈C | < ∞ y por como se construyeron los conjuntos β 0 -compactos concluimos que C= [ B(Oi ), Oi ∈C es decir, que toda componente β 0 -conexa es la unión finita de conjuntos β 0 compactos 2 Proposición 4.2.5 Si B es un conjunto β 0 -compacto. Entonces ∀ Oi ∈ B B\{Oi } no es un conjunto β 0 -compacto. Demostración : Es evidente a partir de la condición c) de minimalidad de la definición de β 0 -compacto 2 Proposición 4.2.6 Si B es un conjunto β 0 -compacto en MI, entonces no necesariamente B es componente β 0 -conexa de MI. Demostración : Por la definición de β 0 -compacidad lo que garantizamos es la existencia en B dado Oi de un Oj tal que max {Γ(Oi , O)} = Γ(Oi , Oj ) ≥ β 0 O∈M I O6=Oi y no se garantiza que otros elementos, digamos Oq tal que Γ(Oi , Oq ) ≥ β 0 =⇒ Oq ∈ B 2 Proposición 4.2.7 Sea C un conjunto β 0 -compacto con Oi ,Oj ∈ C, y sea Oi ∈ M I entonces max β(Op , Oi ) = β(Oi , Oi1 ) ≥ β 0 Op ∈M I Op 6=Oi 50 Enfoque Lógico - combinatorio Demostración : Si Oi1 no existe Oi es aislado, contradiciendo la minimalidad de C ∴ ∃Oi1 . Si Oi1 =Oj ya acabamos. ( Nota: Oi1 ∈ C ) Si no, sea Oi2 ∈ M I entonces max β(Op , Oi1 ) = β(Oi1 , Oi2 ) ≥ β 0 (Nota Op ∈M I Op 6=Oi1 β(Oi , Oi1 ) ≥ β 0 ) y por la compacidad necesitamos Oi2 ∈ C. Si Oi2 =Oj ya acabamos . Si Oi2 =Oi , entonces C1 ={ Oi , Oi2 } es compacto y C1 ⊆ C ]c la minimalidad. Sea ahora Oi3 el más β 0 -semejante a Oi2 ,...,Oin como C es finito se tendrá que cumplir. 2 Corolario 4.2.8 Una condición necesaria y suficiente para que una componente β 0 -conexa C sea un conjunto β 0 -compacto B es que exista O ∈ C tal que B(O)=C. Proposición 4.2.9 En toda componente β 0 -conexa existe al menos un conjunto β 0 -fuertemente compacto. Demostración : Sea C una componente β 0 -conexa, construyamos un conjunto β 0 -fuertemente compacto en C. Si C es degenerada, la demostración es inmediata. En otro S caso sea O1 ∈ C, tomemos P0 = {O1 }, calculemos DP0 y formemos P1 = P0 DP0 (P1 ⊂ C por el lema anterior), puede S suceder que P0 6= P1 , en este caso calculamos DP1 y formamos P2 = P1 DP1 (P2 ⊂ C por el lema anterior), como C es finita en algún momento tendremos que Pr = Pr−1 , hagamos F0 = Pr−1 . Ahora calculamos Q0 = TP0 y formemos R0 = Q0 \F0 , puede suceder que R0 6= ∅ entonces tomemos Ot ∈ R0 , hagamos P00 = {Ot } y aplique0 mos el mismo proceso que para Oi hasta tener Pr0 = Pr−1 sólo que ahora S 0 0 Pi0 = Pi−1 (DP 0 \F0 ) (Pr−1 ⊂ C por el lema anterior). Formemos F1 = i−1 S 0 F0 Pr−1 y calculamos Q1 = TP00 pongamos R1 = Q1 \F1 nuevamente puede suceder que R1 6= ∅ entonces repetimos el mismo procedimiento. Como C es finita en algún momento tendremos que Rs = ∅ y entonces el conjunto Fs es β 0 -fuertemente compacto ya que para cualquier elemento de él, éste tiene al (o los) elemento(s) más parecido(s) β 0 -semejante(s) y además existe un elemento Oi ∈ Rs−1 (u Oi ∈ P0 ) tal que: ∀ Oj ∈ Fs−1 ∃Oi1 , ..., Oiq ∈ Fs−1 con 4.2 Relaciones entre criterios agrupacionales Oi1 = Oi , Oiq = Oj y ∀ p < q max O∈M IO6=Oip 51 {Γ(Oip , O)} = Γ(Oip , Oip+1 ) ≥ β 0 y por construcción Fs−1 es maximal 2 Proposición 4.2.10 Toda componente β 0 -conexa es la unión finita de conjuntos β 0 -fuertemente compactos. Demostración : Sea C una componente β 0 -conexa, por la proposición anterior podemos construir un conjunto fuertemente β 0 -compacto en C. Si C es degenerada la demostración en inmediata. En otro caso denotemos como F(Oi ) al conjunto β 0 -fuertemente compacto generado a partir de Oi , puede suceder que F(Oi ) = F(Oj ) Oi 6= Oj lo que significa que Oi y Oj generan el mismo conjunto β 0 -fuertemente compacto, además como | C |< ∞ entonces podemos afirmar que el número de conjuntos β 0 -fuertemente compactos generados a partir de cada elemento de C es finito. Simbólicamente tenemos: | {F(Oi )}Oi ∈C |< ∞ y por como se construyeron los conjuntos β 0 -fuertemente compactos podemos S concluir que C = F(Oi ) es decir que toda componente β 0 -conexa es la Oi ∈C unión finita de conjuntos β 0 -fuertemente compactos 2 Lema 4.2.11 Sea B un conjunto β 0 -compacto, P ⊂B, sean Dp y Tp como antes, entonces se tiene que Dp ⊂ B y Tp ⊂ B. Demostración : Es inmediata a partir de la definición de conjunto β 0 compacto ya que en Dp están los elementos que son los más parecidos β 0 semejantes a O ∈ P ⊂ B y por definición éstos están en B por lo tanto Dp ⊂ B. Por otra parte en Tp están los elementos que tienen como elementos más parecidos a los O ∈ P ⊂ B, también por definición tenemos que estos elementos están en B, por lo tanto Tp ⊂ B 2 Proposición 4.2.12 En todo conjunto β 0 -compacto existe al menos un subconjunto β 0 -fuertemente compacto. 52 Enfoque Lógico - combinatorio Demostración : Sea B un conjunto β 0 -compacto, construyamos un conjunto β 0 -fuertemente compacto en B. Si B es degenerado la demostración es inmediata. En otro caso sea O1 ∈ B tomemos P0 = {O1 }, calculemos DP0 y formemos P1 = P0 ∪ DP0 (P1 ⊂ C por el lema anterior), puede suceder que P0 6= P1 , en ese caso calculamos DP1 y formamos P2 = P1 ∪DP1 (P2 ⊂ C por el lema anterior), como B es finito en algún momento tendremos que Pr = Pr−1 , hagamos F0 = Pr−1 . Ahora calculemos Q0 = FP0 y formemos R0 = Q0 \ F0 , puede suceder que R1 = ∅ entonces tomemos Ot ∈ R0 , hagamos P00 = {Ot } y apliquemos 0 sólo que ahora Pi0 = el mismo proceso para que O1 hasta tener Pr0 = Pr−1 0 0 0 0 ⊂ B por el lema anterior). Formemos F1 = F0 ∪ Pr−1 \ F0 ) (Pr−1 ∪ (DPi−1 Pi−1 y calculamos Q1 = TP00 , pongamos R1 = Q1 \ F1 nuevamente puede suceder que R1 6= ∅ entonces repetimos el mismo procedimiento. Como B es finito en algún momento tendremos que Rs = ∅ y entonces el conjunto Fs es un conjunto β 0 -fuertemente compacto ya que para cualquier elemento de él, éste tiene al (o los) elemento(s) más parecidos β 0 -semejante(s) y además existe un elemento Oi ∈ RS−1 (o Oi ∈ P0 si Q0 = ∅) tal que: ∀ Oj ∈ FS−1 ∃n Oi1 , ..., Oiq ∈ FS−1 con Oi1 = Oi, Oiq = Oj y ∀ p < q max {Γ(Oip , O)} = Γ(Oip , Oip+1 ) ≥ β 0 O∈M I O6=OiP y por construcción de FS−1 es maximal 2 Proposición 4.2.13 Todo conjunto β 0 -compacto es la unión finita de conjuntos -fuertemente compactos. Demostración : Sea B un conjunto β 0 -compacto, en la proposición anterior se da el proceso para construir un conjunto β 0 -fuertemente compacto F en un conjunto β 0 -compacto a partir de un elemento Oi ∈ B. Si B es degenerado la demostración es inmediata. En otro caso sea F (Oi ) al conjunto β 0 -fuertemente compacto generado a partir de Oi . Podemos aplicar este proceso para cada elemento de B, puede ocurrir que F (Oi ) = F (Oj ) para Oi 6= Oj , lo que significa que Oi y Oj generan el mismo 4.2 Relaciones entre criterios agrupacionales 53 conjunto β 0 -fuertemente compacto además como | C |< ∞ entonces podemos afirmar que el número de conjuntos β 0 -fuertemente compactos generados a partir de cada elemento de B es finito, simbólicamente tenemos: | {F (Oi )}Oi ∈B |< ∞ y por como e construyeron los conjuntos β 0 -fuertemente compactos tenemos que B = ∪ F (Oi ), es decir que un conjunto β 0 -compacto es la unión finita Oi ∈B de conjuntos β 0 -fuertemente compactos 2 Proposición 4.2.14 En toda componente β 0 -conexa existe al menos un conjunto β 0 -completo maximal. Demostración : Sea C una componente β 0 -conexa, construyamos un conjunto β 0 -completo maximal en C. Si C es degenerada la demostración es inmediata. En otro caso sea O1 ∈ C, entonces por la definición de componente β 0 -conexa existe O2 ∈ C O2 6= O1 tal que β(O1 , O2 ) ≥ β 0 . Pueden suceder dos casos: 1) {O1 , O2 } es un conjunto β 0 -completo maximal 2) {O1 , O2 } NO es un conjunto β 0 -completo maximal Para el primer caso hemos terminado y hemos encontrado un conjunto β 0 completo maximal. En el segundo caso como el conjunto no lo es, entonces existe O3 ∈ C , O3 6= O1 , O3 6= O2 tal que β(O2 , O3 ) ≥ β 0 y β(O1 , O3 ) ≥ β 0 ahora nuevamente pueden suceder dos casos 1) {O1 , O2 , O3 } es un conjunto β 0 -completo maximal 2) {O1 , O2 , O3 } NO es un conjunto β 0 -completo maximal Como C es finita en algún momento se termina el proceso y habremos encontrado un conjunto β 0 -completo maximal 2 Proposición 4.2.15 Toda componente β 0 -conexa, es la unión finita de conjuntos β 0 -completos maximales. Demostración : Sea C una componente β 0 -conexa, en la proposición anterior se da el proceso para construir un conjunto β 0 -completo maximal en una componente β 0 -conexa a partir de un elemento Oi ∈ C . Si C es degenerada la demostración es inmediata. En otro caso sea ϑ(O1 ) el conjunto completo maximal generado por el procedimiento anterior a partir de 54 Enfoque Lógico - combinatorio O1 . El proceso anterior puede aplicarse a partir de cualquier O ∈ C, entonces se puede dar el caso de que ϑ(Oi ) = ϑ(Oj ) para Oi 6= Oj , es decir, que dos objetos diferentes generen el mismo conjunto β 0 -completo maximal y ademas como C es finita podemos afirmar que el número de conjuntos β 0 -completos maximales es finito, simbólicamente tenemos: | {ϑ(Oi )}Oi ∈C |< ∞ y por construcción se tiene que C = ∪ ϑ(Oi ), es decir, que toda componente Oi ∈C β 0 -conexa es la unión finita de conjuntos β 0 -completos maximales 2 Puesto que la estructura de un universo está formada por los agrupamientos encontrados al aplicar un criterio agrupacional, entonces se tienen diferentes maneras de estructurar a los objetos y obviamente cada criterio dará una estructuración diferente, pero si hacemos uso de las proposiciones demostradas anteriormente nos damos cuenta que agrupamientos formados por un criterio Π resultan ser unión de agrupamientos formados por otro criterio Π0 los cual nos da la posibilidad de hallar una estructuración más fina del universo y establecer comparaciones del cumplimiento o no de propiedades diferentes entre los objetos. Estos últimos resultados tienen importancia práctica ya que permite realizar diferentes agrupamientos de objetos conociendo el nivel de exigencia con el cual se forman dichos grupos. Esos resultados, sometidos al análisis, digamos 4.3 Algoritmo CLASS 55 por caso, en el contexto de un modelo geólogo-geofı́sico con vistas a la determinación de perspectivas de cualquier materia prima mineral, arroja información valiosa para los objetivos mencionados [6]. 4.3 Algoritmo CLASS Vamos a considerar a continuación el algoritmo CLASS [7] elaborado por la especialista soviética Susana Valeroanovna Sirotinskaia. Este algoritmo fue elaborado bajo las motivaciones de la prospección geológica y forma parte de una extensa colección de trabajos dedicados al desarrollo de los métodos lógicos del análisis de la información geológica, unas de las lı́neas de investigaciones aplicadas en las que mayor éxito han alcanzado los métodos lógicocombinatorios. Este algoritmo usa como concepto fundamental un análogo al conjunto β 0 -compacto. En su versión original contenı́a algunas restricciones que aquı́ fueron eliminadas. ALGORITMO CLASS Paso 1.- Se calculan los valores de Γ(Oi , Oj ) para todos los pares posibles de MI, es decir, se forma MS. Paso 2.- Se calcula β 0 . En el caso del original CLASS, Sirotinskaia usa la variante a) de la definición 1. Estos dos primeros pasos del algoritmo descansan sobre el proceso de formalización del concepto de analogı́a implı́citos en el problema en cuestión, es decir después de ejecutados los dos primeros pasos se tiene la matriz MS y el umbral de semejanza, con lo cual se puede determinar si dos descripciones son o no β 0 -semejantes. Paso 3.- Se obtiene β ∗i = max {Γ(Oi , Oj )}. Aquı́ i recorre las filas y j j=1,..,m las columnas de la matriz MS, i = 1, ..., m, j 6= i. Paso 4.- La magnitud β ∗i se compara con β 0 , si β ∗i < β 0 , entonces el objeto Oi se considera ”aislado” y conforma un conjunto unitario. Si si β ∗i ≥ β 0 se va al paso 5. Paso 5.- Se determinan los ı́ndices t = t∗i tales que β(I(Oi ), I(Ot )) = β ∗i . 56 Enfoque Lógico - combinatorio Paso 6.- Para cada fila i, i = 1, .., m se forman r vectores del siguiente tipo β S = (t∗S , iS1 , .., iS1S ) s = 1, ..., r, donde r es el número de valores diferentes de las columnas t∗i y tS1 , ..., tS1S , los ı́ndices de las filas que contienen valores maximales iguales a β ∗i en la columna de ı́ndice t∗S . Paso 7.- El vector B1 , empezando por el segundo elemento, es decir, i11 , se compara con los elementos t∗2 , ..., t∗r de los vectores B2 , ..., Br . Si para algún vector Bv , 2 ≤ v ≤ r, i11 = t∗v , entonces se forma un nuevo vector B11 = B1 ∪ Bv que tiene la siguiente forma: B11 = (t∗1 , i11 , .., i11 , iv1 , ..., iv1v ) Paso 8.- El vector B11 (o al B1 si es que en el Paso 7 no se le incluyó elemento alguno) se pone al final de la lista y se renumera la misma (pasando ahora a encabezarla el vector B2 , si es que este no fue eliminado en el Paso 7). Ahora se aplica al Paso 7 para el nuevo primer vector de la lista. Los Pasos 7 y 8 se repiten hasta obtener r∗ vectores BS∗ para los cuales t∗s 6= ikµ ; s, k = 1, ..., lk . Los elementos de los vectores ası́ obtenidos, serán los ı́ndices de los objetos de MI que conforman los subconjuntos compactos buscados As . En el caso de que todos los vectores B1 , ..., Br se unan (r∗ = 1), esto querrá decir que todo el conjunto MI forma un compacto y el procedimiento de estructuración de MI termina. Sin embargo, en el caso en que r∗ > 1 se va al Paso 9. PROCEDIMIENTO JERÁRQUICO Paso 9.- Se calculan las medidas de semejanza entre todos los pares posibles de subconjuntos A1 , ..., As y se conforma una nueva matriz de semejanza (ahora entre subconjuntos compactos de MI) que denotaremos MS’ formada por los valores m Dsv m s X v 1 X = β(I(Ot ), I(Oq )) ms mv t=1 q=1 donde Ot ∈ As , Oq ∈ Av , ms = |As |, mv = |Av | y β(I(Ot ), I(Oq )) se calculo en el Paso 1. Paso 10.- En la matriz de semejanza de compactos MS’ se obtiene Ds∗ = max Dsv . Después se repiten los Pasos 4 a 8 para estos elemento. Como v = 1, ...r s 6= v 4.3 Algoritmo CLASS 57 resultado de estas operaciones vamos a obtener nuevas agrupaciones de objetos (un nivel superior al anterior, más débil si se quiere) para los cuales también se pueden repetir los Pasos del 9 al 10. La estructuración (jerárquica) del conjunto de objetos MI en grupos de semejanza se considerará concluida si en el Paso 4 para cualquier s = 1, ..., r∗ , Ds∗ < β 0 o si en el Paso 8 todos los grupos se unen. Observación 4.3.1 Es importante señalar que la idea de asociar a MS su grafo de semejanza GS y en él buscar los compactos o la agrupación jerárquica deseada no es mero ejercicio intelectual. Se trata que para, digamos, el geólogo; poder ver esa estructura de su MI en un grafo en el que las longitudes de las aristas son inversamente proporcionales al grado de semejanza entre los objetos que representan los vértices que esta une, tiene valor incalculable en el proceso de investigación, en la toma de decisiones que no son de carácter matemático, es decir, intrı́nsecas al modelo. En resumen, el algoritmo permite: 1. Resolver el problema del agrupamiento de los objetos MI sobre la base de los criterios de semejanza definidos, en particular, cuando los objetos están descritos en términos de un gran número (más de 100) rasgos. 2. No es necesario previamente establecer el número de agrupamientos en los que hay que estructurar a MI; 3. La estructuración de MI no depende del orden en que se escojan los objetos para agruparlos, Dado β 0 , la agrupación es única a cada nivel; 4. El método nos permite obtener una estructuración jerárquica de MI; 5. Los resultados expresados en forma de grafo reflejan la dirección del cambio de las propiedades de los objetos de uno a otro. El siguiente ejemplo de aplicación del CLASS es tomado de la autora del algoritmo en su versión original [7]: MI O1 O2 O3 O4 O5 O6 O7 O8 O9 O10 O11 O12 x1 0 0 0 0 0 0 0 1 1 1 0 0 x2 0 1 0 0 0 0 0 0 0 1 0 0 x3 0 1 0 0 0 0 0 1 1 0 0 0 x4 0 0 0 1 1 0 0 1 1 0 1 1 x5 0 1 0 1 0 0 0 0 0 1 0 0 x6 1 1 1 0 1 1 1 0 0 1 1 0 x7 1 1 1 0 0 0 1 0 0 1 1 0 x8 1 0 1 1 1 1 0 1 1 1 0 1 x9 0 0 0 1 0 0 0 0 0 0 0 1 x10 0 0 0 1 1 1 1 0 0 1 1 1 x11 0 0 0 1 0 0 1 1 0 1 0 1 x12 1 1 1 0 1 0 1 0 0 1 1 0 x13 1 1 0 0 0 0 0 0 0 0 0 0 x14 0 0 0 0 0 0 0 0 1 0 0 0 x15 0 1 1 0 0 0 1 1 0 1 1 1 x16 1 0 0 1 1 1 0 0 0 0 0 0 58 Enfoque Lógico - combinatorio Para el cálculo de MS de utilizó como función de semejanza entre los vectores I(Oi ), I(Ot ) ∈ M I: n P Γ(I(Oi ), I(Ot )) = cos(I(Oi ), I(Ot )) = Xp (Oi )Xp (Ot ) p=1 s n P Xp2 (Oi ) n P Xp2 (Oi ) p=1 p=1 i, j = 1, ..., m propuestas por R.M Konstantinov [8] para el análisis de la semejanza entre yacimientos de minerales. MS O1 O2 O3 O4 O5 O6 O7 O8 O9 O10 O11 O12 O1 100 58 73 31 67 61 50 17 18 51 50 17 O2 58 100 63 13 29 18 58 29 16 67 58 14 O3 73 63 100 17 55 45 73 36 20 70 73 36 O4 31 13 17 100 62 57 31 46 34 48 31 77 O5 67 29 55 62 100 82 50 33 36 51 67 50 O6 61 18 45 57 82 100 41 20 22 47 41 41 O7 50 58 73 31 50 41 100 33 0 77 83 50 O8 17 29 36 46 33 20 33 100 73 51 33 67 O9 18 16 20 34 36 22 0 73 100 28 18 36 O10 51 67 70 48 51 47 77 51 28 100 64 51 O11 50 58 73 31 67 41 83 33 18 64 100 50 O12 17 14 36 77 50 41 50 67 36 51 50 100 Por comodidad los valores de la medida de semejanza los hemos puesto en la tabla multiplicados por 100. Hemos subrayado los β ∗i , i = 1, ..., 12. Los resultados del CLASS en forma de tabla son los siguientes: Primer nivel de agrupamiento. (β 0 como a) de la definición 3.1.1) I = {O7 , O3 , O1 , O10 , O2 , O11 } II = {O5 , O6 } III = {O4 , O12 } IV = {O8 , O9 } Como antes los valores de la semejanza entre sub-conjuntos compactos están multiplicados por 100 MS’ I I 100 II 48 III 33 IV 25 II III 48 33 100 53 53 100 28 46 IV 25 28 46 100 4.3 Algoritmo CLASS 59 Segundo nivel de agrupamiento (β 0 como b) de la definición 3.1.1) I = {O7 , O3 , O1 , O10 , O2 , O11 } II 0 = {O5 , O6 , O4 , O12 } III 0 = {O8 , O9 } MS’ I I 100 II’ 40 III’ 25 II’ III’ 40 25 100 37 37 100 Tercer nivel de agrupamiento (β 0 como a)de la definición 3.1.1 ) I = {O1 , ..., O12 } En forma de grafos nos queda como el cuadro de la parte superior. Más adelante veremos otro algoritmo, diseñado fundamentalmente con el objetivo de resolver el problema de reconocimiento de patrones a partir de 60 Enfoque Lógico - combinatorio una matriz de aprendizaje con una sola clase (el problema tiene por supuesto más de una) y que en su primera parte puede realizar funciones análogas al CLASS, con la diferencia que el HOLOTIPO, al cual hacemos referencia, usa como concepto básico el de la componente conexa, a su vez hablaremos de una adaptación del CLASS para usarlo en la solución del problema citado. Es necesario decir antes de continuar que una gran cantidad de trabajos abordan estas cuestiones desde un enfoque métrico. Resulta para muchos autores natural el considerar distancias entre las representaciones de los objetos MI y sobre esa base confirmar los grupos. 4.4 Creación de la matriz de aprendizaje utilizando algoritmos de agrupamiento No hay que olvidar, que uno de los intereses fundamentales en la teorı́a de reconocimiento de patrones es la clasificación de nuevos objetos. Esto es, el no disponer de matriz de aprendizaje no nos hace disentir del propósito de elaborarla, en caso que el especialista no pueda darla, y a partir de esa estructuración obtenida, iniciar un proceso de clasificación de nuevos objetos. Más de un autor considera, en tales casos, la conveniencia que el proceso de formación de las clases (más bien los grupos, que a su vez pudieran ser considerados ”subclases”) lo hagamos independientemente del proceso posterior de reconocimiento. Esto es debemos considerar que en el caso que tengamos un problema de reconocimiento de patrones, sin matriz de aprendizaje, es decir, descripciones de objetos sin los tuplos informacionales verdaderos, esto es, las relaciones verdaderas entre los objetos y todas las clases, el proceso para resolver el problema tiene dos partes: la formación de las clases y la clasificación de nuevos objetos. Con esta filosofı́a de trabajo en el laboratorio de Reconocimiento de Patrones del centro de Cálculo de la academia de Rusia se ha desarrollado un procedimiento que consiste en lo siguiente: Supongamos seleccionado un algoritmo AT que divide al conjunto MI de 0 0 las descripciones de los objetos O1 , ..., Om en clases disjuntas K1 , ..., Kl para cada Oi , i = 1, ..., m se resuelve el problema de reconocimiento del objeto Oi con respecto a MI\{I(Oi )} (cuyos objetos se distribuyen en las citadas l clases según AT ) haciendo uso del algoritmo de reconocimiento AT . Para cada Oi puede ocurrir: 4.4 Creación de la matriz de aprendizaje utilizando algoritmos de agrupamiento 61 1. Ar relaciona a Oi con la misma clase en que lo puso AT . Si eso ocurre en todos los objetos de MI (según el procedimiento anterior), el proceso termina. por eso hay que entender una especie de ”armonı́a” entre AT y Ar ; 2. Ar relaciona a Oi con una clase diferente a la hallada por AT . en este caso Oi se pasa para la clase en que Ar lo ubicó. Esto debemos de interpretarlo como una prioridad entre las decisiones de AT y Ar . Este proceso se repite tantas veces como sea necesario para lograr que Ar relacione a cada Oi con la clase en la que fue ubicado en el paso anterior (bien por AT o por Ar ) 3. El algoritmo Ar se abstiene de clasificar a Oi . Si el problema admite cualquier número de clases, estos elementos sobre los que Ar se abstiene, conforman la clase Kl+1 , de lo contrario es necesario ajustar Ar para que no se abstenga. En principio puede o no compartirse la idea de armonizar AT y Ar , como presuponen los especialistas del mencionado laboratorio. En cualquier caso, recordamos recordando lo estudiado anteriormente, cabe preguntarse: (a) ¿Son los criterios de semejanza (para las variables y las descripciones) reflejos adecuados de la realidad? (b) En caso afirmativo ¿AT realiza adecuadamente estos criterios de modo tal que los agrupamientos alcanzados son, ”naturales” (Laureano Escudero [2])? (c) En caso afirmativo ¿Qué sentido tiene armonizar AT con Ar dándole prioridad a las decisiones de este último algoritmo?, ¿No serı́a acaso más consecuente que nosotros ajustáramos Ar , para que su ”conducta” fuera la que AT le indique?. Cuando existe MA y buscamos un Ar , claro disponemos de un MC, ¿no ajustamos el comportamiento de Ar a lo que indica MA y MC (sobre la base del funcional de calidad seleccionado)? Este es un aspecto de este procedimiento sobre el que debemos pensar. No obstante veamos un poco más en detalle, en qué consiste el procedimiento. Sea M I = {I(O1 ), ..., I(Om )} el conjunto inicial de las descripciones de los objetos en términos de los rasgos x1 , ..., xn , con conjuntos de valores admisibles 62 Enfoque Lógico - combinatorio M I, i = 1, ..., n, en los que han sido definidas métricas ϕi , consideremos los parámetros numéricos P = (P (x1 ), ..., P (xn )) y ε = (ε1 , ..., εn ) respectivamente iguales al peso informacional de los rasgos y a los umbrales de exactitud de cada uno de ellos, como sabemos, 0 ≤ P (xi ) ≤ 1, εi ≥ 0. Para cuales quiera dos objetos de M I, Op y Oq definimos una medida de semejanza (criterio de comparación de valores) rj (Op , Oq ) con respecto al j-esimo rasgo de xj del siguiente modo 0 si ϕj (xj (Op ), xj (Oq )) > εj rj (Op , Oq ) = (4.1) P (αj ) si ϕj (xj (Op ), xj (Oq )) ≤ εj (esto es, si los valores son semejantes, se le asigna el peso informacional del rasgo). Sobre la base de (4) definimos una distancia entre los tuplos I(Op ) e I(Oq ) como sigue R(I(Op ), I(Oq )) = R(p, q) = N −1 n X rj (Op , Oq ) (4.2) j=1 donde N es un parámetro de normalización, es decir 0 ≤ R(p, q) ≤ 1 Sobre la base de distancia definida en (5) introducimos una función booleana de semejanza Γ(Op , Oq ) de la siguiente manera: 0 si R(p, q) > δ 1 Γ(Op , Oq ) = 1 si R(p, q) ≤ δ 1 en donde δ 1 es un parámetro numérico 0 ≤ δ 1 ≤ 1 que funcionará como una evaluación de umbral. Como ya hemos dicho anteriormente la distancia y la semejanza son inversamente proporcionales. Dado un objeto Op , I(Op ) ∈ M I una distancia del mismo a la clase Kj se define por medio de la expresión: −1 D(Op , Kj ) = k(j) k(j) X Γ(Op , Ot ) t=1 0 0 en donde I(Ot ) ∈ Kj , k(j) = |Kj |. Análogamente introducimos otra función boolena de semejanza: 0 si D(Op , Kj )>δ 2 G(Op , Kj ) = 1 si D(Op , Kj ) ≤ δ 2 4.5 Algoritmo HOLOTIPO 63 en donde δ 2 es un parámetro numérico 0 ≤ δ 2 ≤ 1 que será también una evaluación del umbral. Diremos que ”Op ∈ Kj ” para los umbrales ε, δ 1 , δ 2 si G(Op , Kj ) = 1. En caso contrario ”Op ∈ / Kj ”. Con estas definiciones previas se propone el siguiente funcionamiento entre AT y Ar : Algoritmo AT : El objeto O1 de la muestra inicial se pone en K1 . Para los restantes objetos se calcula G(Oi , K1 ) = Γ(Oi , O1 ). Entre los restantes Oi se separa el objeto con orden (ı́ndice) minimal (¿no serı́a más pertinente tomar el Oj tal que R(Oj , O1 ) = max R(t, 1)?) y se pone en K2 . Después de t=1,...,m manera análoga a como se formó K1 se forma la clase K2 y ası́ sucesivamente. Obviamente, el proceso es finito. Algoritmo Ar : el algoritmo AT formó una matriz de aprendizaje Tmnl análoga a la que habı́amos considerado en los problemas con aprendizaje. Dado un nuevo objeto admisible O se calculan las magnitudes D(O, Kj ), j = 1, .., l posteriormente se pueden tomar diferentes formas de regla de solución, por ejemplo O ∈Kj si D(O, Kj ) = max D(O, Kt ) (si el máximo es único) y t=1,...,l G(O, Kj ) ≤ δ 2 ; en caso contrario Ar se abstiene. Aquı́ se supone que Ar y AT 0 00 0 han sido ”armonizados” tomando O = Op ∈ Kj y Kj = Kj \ {Oj } y operando Ar como aquı́ se indica. En ocasiones se usa para clasificar a los nuevos objetos el propio AT ajustado mediante una regla de solución igual al criterio de clasificación usado para elaborar las clases y estas como MA. Este tema es uno en los que aún hay mucho por hacer, de hecho sus vı́nculos con el problema ”intermedio” que a continuación analizaremos son grandes. 4.5 Algoritmo HOLOTIPO El algoritmo HOLOTIPO fue desarrollado inicialmente para resolver problemas de reconocimiento de patrones con aprendizaje, número de clases l ≥ 2 y se extendió al caso l = 1. Nos ocuparemos de la parte del algoritmo que tiene que ver con l ≤ 1, ya que como veremos, el caso l = 0 está relacionado, según nuestro criterio, de manera interesante, complementaria en cierto sentido, con las ideas del algoritmo CLASS (que es posterior al HOLOTIPO). La idea general del HOLOTIPO se resume desde el punto de vista geométrico y haciendo uso del concepto de componente conexa, a construir un 64 Enfoque Lógico - combinatorio recubrimiento por hiperesferas de una cierta región n-dimensional de forma compleja. En el centro de cada hiperesfera se ubicará un objeto (denominado ”holotipo”) el cual en medida, será el objeto que más se parece a los restantes del mismo grupo, de l hiperesfera que se construye. Para los casos que nos interesa, l ≥ 1, el algoritmo, como veremos más adelante nos permite: 1. Estructurar la MA dada, agrupando sus objetos al estilo como lo hace el CLASS pero en base a la componente conexa en lugar de los conjuntos compactos. 2. Construir una regla de solución sobre la base del sistema de hiperesferas que construye, que nos permite decidir si un objeto pertenece a la clase dada en MA. 3. Establecer un orden entre los objetos que el algoritmo considera que no pertenecen a la clase dada, de modo tal que permite establecer el grado en el que dichos objetos ”se alejan” de las descripciones que caracterizan a la muestra de la clase dada. Observación 4.5.1 A groso modo podemos decir que el problema que queremos resolver es un problema de reconocimiento de patrones con dos clases del cual tenemos una muestra de aprendizaje de una de las clases. Más compleja, pero aplicable, lo que aquı́ haremos es la situación en la que el problema de reconocimiento de es de l clases y las muestras que disponemos son l−s clases. Algoritmo HOLOTIPO. Paso 1.- Se construye una matriz de semejanza para cada uno de los rasgos x1 , ..., xn en términos de los cuales se describen los objetos admisibles. Como criterio de comparación de los valores de las variables, de los indicadores del algoritmo consideraron: |xk (Oi ) − xk (Oj )| (4.3) ∆xk siendo ∆xk = max {xk (O)}− min {xk (O)}, para el caso de rasgos aritméticos O∈M A O∈M A y 1 si xk (Oi ) = xk (Oj ) Ck (Oi , Oj ) = 0 en otro caso Ck (Oi , Oj ) = l − 4.5 Algoritmo HOLOTIPO 65 para las variantes de rasgos lógicos, k = 1, ..., n; i, j = 1, ..., m En general no tenemos que restringirnos a un criterio particular, por muy socorrido que este sea en un área de conocimientos dados. Entre otras razones porque aquı́ pueden predominar criterios matemáticos apriorı́sticos en el momento de la modelación matemática de dichos problemas. Obviamente las matrices M S(xk ) calculadas en este paso son cuadradas, de orden m × m, simétricas, l en la diagonal principal y valores del intervalo [0,1] en el resto. Paso 2.- Como quiera que los rasgos x1 , ..., xn pueden tener valores asociados que reflejen su heterogeneidad informacional, consideraremos δ k , k = 1, ..., n valores de pesos asociados a cada xk . En cualquier caso, se construye la matriz de semejanza MS, haciendo n P MS = δ k MS(xk ) k=1 Como ya vimos anteriormente de (7) sólo necesitamos del triángulo superior. Paso 3.-Determinación del umbral β 0 para la agrupación de objetos dentro del MA. El valor β 0 se determina por cualquiera de las variantes de la definición 1. Paso 4.- Determinación de los subgrupos dentro de la clase dada en MA haciendo uso del concepto de componente conexa. Sean G1 , ..., Gr los subgrupos formados, r ≥ 1. Observación 4.5.2 El resultado de estos primeros pasos es análogo al que obtiene CLASS después de ejecutados sus primeros 8 pasos. Ambos logran agrupamientos de objetos pero, como analizamos anteriormente componentes β 0 − conexas y conjuntos β 0 − compactos, no siempre coinciden y justo esos casos de no coincidencias suelen ser muy informativos en el proceso de modelación matemática. Ası́ las cosas, a partir de este punto pudiéramos continuar con los pasos del 9 al 10 haciendo los ajustes pertinentes, es decir, en lugar de agrupar según la definición de conjunto compacto, hacerlo utilizando la de componente conexa. A continuación para el siguiente ejemplo se toma la misma MI utilizada en el algoritmo ClASS: 66 Enfoque Lógico - combinatorio MI O1 O2 O3 O4 O5 O6 O7 O8 O9 O10 O11 O12 x1 0 0 0 0 0 0 0 1 1 1 0 0 x2 0 1 0 0 0 0 0 0 0 1 0 0 x3 0 1 0 0 0 0 0 1 1 0 0 0 x4 0 0 0 1 1 0 0 1 1 0 1 1 x5 0 1 0 1 0 0 0 0 0 1 0 0 x6 1 1 1 0 1 1 1 0 0 1 1 0 x7 1 1 1 0 0 0 1 0 0 1 1 0 x8 1 0 1 1 1 1 0 1 1 1 0 1 x9 0 0 0 1 0 0 0 0 0 0 0 1 x10 0 0 0 1 1 1 1 0 0 1 1 1 x11 0 0 0 1 0 0 1 1 0 1 0 1 x12 1 1 1 0 1 0 1 0 0 1 1 0 x13 1 1 0 0 0 0 0 0 0 0 0 0 x14 0 0 0 0 0 0 0 0 1 0 0 0 x15 0 1 1 0 0 0 1 1 0 1 1 1 x16 1 0 0 1 1 1 0 0 0 0 0 0 Dada la MI se construye una matriz de semejanza para cada de los ras1 siuno xk (Oi )=xk (Oj ) gos xk utilizando como criterio de comparación Ck (Oi , Oj ) = 0 , en otro caso esto nos da las siguientes matrices: M S(x1 ) O1 O2 O3 O4 O5 O6 O7 O8 O9 O10 O11 O12 O1 1 1 1 1 1 1 1 0 0 0 1 1 O2 1 1 1 1 1 1 1 0 0 0 1 1 O3 1 1 1 1 1 1 1 0 0 0 1 1 O4 1 1 1 1 1 1 1 0 0 0 1 1 O5 1 1 1 1 1 1 1 0 0 0 1 1 O6 1 1 1 1 1 1 1 0 0 0 1 1 O7 1 1 1 1 1 1 1 0 0 0 1 1 O8 0 0 0 0 0 0 0 1 1 1 0 0 O9 0 0 0 0 0 0 0 1 1 1 0 0 O10 0 0 0 0 0 0 0 1 1 1 0 0 O11 1 1 1 1 1 1 1 0 0 0 1 1 O12 1 1 1 1 1 1 1 0 0 0 1 1 M S(x2 ) O1 O2 O3 O4 O5 O6 O7 O8 O9 O10 O11 O12 O1 1 0 1 1 1 1 1 1 1 0 1 1 O2 0 1 0 0 0 0 0 0 0 1 0 0 O3 1 0 1 1 1 1 1 1 1 0 1 1 O4 1 0 1 1 1 1 1 1 1 0 1 1 O5 1 0 1 1 1 1 1 1 1 0 1 1 O6 1 0 1 1 1 1 1 1 1 0 1 1 O7 1 0 1 1 1 1 1 1 1 0 1 1 O8 1 0 1 1 1 1 1 1 1 0 1 1 O9 1 0 1 1 1 1 1 1 1 0 1 1 O10 0 1 0 0 0 0 0 0 0 1 0 0 O11 1 0 1 1 1 1 1 1 1 0 1 1 O12 1 0 1 1 1 1 1 1 1 0 1 1 4.5 Algoritmo HOLOTIPO M S(x3 ) O1 O2 O3 O4 O5 O6 O7 O8 O9 O10 O11 O12 O1 1 0 1 1 1 1 1 0 0 1 1 1 O2 0 1 0 0 0 0 0 1 1 0 0 0 O3 1 0 1 1 1 1 1 0 0 1 1 1 O4 1 0 1 1 1 1 1 0 0 1 1 1 67 O5 1 0 1 1 1 1 1 0 0 1 1 1 O6 1 0 1 1 1 1 1 0 0 1 1 1 O7 1 0 1 1 1 1 1 0 0 1 1 1 O8 0 1 0 0 0 0 0 1 1 0 0 0 O9 0 1 0 0 0 0 0 1 1 0 0 0 O10 1 0 1 1 1 1 1 0 0 1 1 1 O11 1 0 1 1 1 1 1 0 0 1 1 1 O12 1 0 1 1 1 1 1 0 0 1 1 1 O7 0 1 1 0 0 0 1 1 0 1 1 1 O8 0 1 1 0 0 0 1 1 0 1 1 1 O9 1 0 0 1 1 1 0 0 1 0 0 0 O10 0 1 1 0 0 0 1 1 0 1 1 1 O11 0 1 1 0 0 0 1 1 0 1 1 1 O12 0 1 1 0 0 0 1 1 0 1 1 1 .. . M S(x15 ) O1 O2 O3 O4 O5 O6 O7 O8 O9 O10 O11 O12 O1 1 0 0 1 1 1 0 0 1 0 0 0 O2 0 1 1 0 0 0 1 1 0 1 1 1 O3 0 1 1 0 0 0 1 1 0 1 1 1 O4 1 0 0 1 1 1 0 0 1 0 0 0 O5 1 0 0 1 1 1 0 0 1 0 0 0 O6 1 0 0 1 1 1 0 0 1 0 0 0 68 Enfoque Lógico - combinatorio O1 1 0 0 1 1 1 0 0 0 0 0 0 M S(x16 ) O1 O2 O3 O4 O5 O6 O7 O8 O9 O10 O11 O12 O2 0 1 1 0 0 0 1 1 1 1 1 1 O3 0 1 1 0 0 0 1 1 1 1 1 1 O4 1 0 0 1 1 1 0 0 0 0 0 0 O5 1 0 0 1 1 1 0 0 0 0 0 0 O6 1 0 0 1 1 1 0 0 0 0 0 0 O7 0 1 1 0 0 0 1 1 1 1 1 1 O8 0 1 1 0 0 0 1 1 1 1 1 1 O9 0 1 1 0 0 0 1 1 1 1 1 1 O10 0 1 1 0 0 0 1 1 1 1 1 1 O11 0 1 1 0 0 0 1 1 1 1 1 1 O12 0 1 1 0 0 0 1 1 1 1 1 1 A continuación se construye la matriz de semejanza MS, haciendo MS = n P δ k MS(xk ), dados los δ k siguientes: k=1 δ 1 = 0.25, δ 2 = 0.166, δ 3 = 0.25, δ 5 = 0.25, δ 6 = 0.66, δ 7 = 0.5, δ 4 = 0.5 δ 8 = 0.75 δ 9 = 0.16, δ 10 = 0.58, δ 11 = 0.41, δ 12 = 0.58 δ 13 = 0.16, δ 14 = 0.08, δ 15 = 0.58, δ 16 = 0.33 lo que nos da: MS O1 O2 O3 O4 O5 O6 O7 O8 O9 O10 O11 O12 O1 6.25 3.91 5.16 2.42 4.50 4.41 3.41 2.00 2.91 3.50 3.33 1.75 O2 3.91 6.25 4.67 0.58 2.16 2.08 4.41 2.00 1.75 3.83 4.33 1.25 O3 5.16 4.67 6.25 1.67 3.75 3.67 4.50 3.08 2.83 4.58 4.41 2.83 O4 2.42 0.58 1.67 6.25 4.16 4.25 1.91 3.83 3.91 2.50 2.00 5.08 O5 4.50 2.16 3.75 4.16 6.25 5.16 3.16 2.58 3.50 3.25 4.08 3.50 O6 4.41 2.08 3.67 4.25 5.16 6.25 3.08 2.67 3.58 3.16 3.00 3.58 O7 3.41 4.41 4.50 1.91 3.16 3.08 6.25 2.16 1.08 4.83 5.33 3.08 O8 2.00 2.00 3.08 3.83 2.58 2.67 2.16 6.25 5.17 2.75 2.25 5.00 O9 2.91 1.75 2.83 3.91 3.50 3.58 1.08 5.17 6.25 1.67 2.00 3.92 O10 3.50 3.83 4.58 2.50 3.25 3.16 4.83 2.75 1.67 6.25 3.91 3.16 O11 3.33 4.33 4.41 2.00 4.08 3.00 5.33 2.25 2.00 3.91 6.25 3.16 O12 1.75 1.25 2.83 5.08 3.50 3.58 3.08 5.00 3.92 3.16 3.16 6.25 4.5 Algoritmo HOLOTIPO 69 Ahora se calcula el umbral β 0 por cualquier variante de la definición 1 para la agrupación de objetos en este caso es m 1 X max {β(I(Oi ), I(Oj ))} = 5.11 β0 = m i=1 j=1,...,m i6=j . Después se hace la agrupación haciendo uso del concepto de componente conexa lo que nos da: I = {1, 3} V = {7, 11} II = {2} V I = {8, 9} III = {4} V II = {10} IV = {5, 6} V III = {12} Para optimizar y no hacer tan tedioso el calculo de las matrices se hace el siguiente programa: #include<conio.h> #include<stdio.h> #include<math.h> main() { int k,i,j,h,l; float MI[12][16]= {{0,0,0,0,0,1,1,1,0,0,0,1,1,0,0,1},{0,1,1,0,1,1,1,0,0,0,0,1,1,0,1,0}, {0,0,0,0,0,1,1,1,0,0,0,1,0,0,1,0},{0,0,0,1,1,0,0,1,1,1,1,0,0,0,0,1}, {0,0,0,1,0,1,0,1,0,1,0,1,0,0,0,1},{0,0,0,0,0,1,0,1,0,1,0,0,0,0,0,1}, {0,0,0,0,0,1,1,0,0,1,1,1,0,0,1,0},{1,0,1,1,0,0,0,1,0,0,1,0,0,0,1,0}, {1,0,1,1,0,0,0,1,0,0,0,0,0,1,0,0},{1,1,0,0,1,1,1,1,0,1,1,1,0,0,1,0}, {0,0,0,1,0,1,1,0,0,1,0,1,0,0,1,0},{0,0,0,1,0,0,0,1,1,1,1,0,0,0,1,0}}; float MS[12][12]; int MSA[12][12]; float delta[16]={0.25,0.1666,0.25,0.5,0.25,0.666,0.5,0.75,0.1666,0.5833, 0.4166,0.5833,0.1666,0.0833,0.5833,0.333}; for(i=0;i<12;i++) for(j=0;j<12;j++) 70 Enfoque Lógico - combinatorio MS[i][j]=0; for(k=0;k<16;k++) for(i=0;i<12;i++) for(j=0;j<12;j++) if(MI[i][k]==MI[j][k]) MS[i][j]=delta[k]+MS[i][j]; for(i=0; i<12; i++) { for(j=0;j<12;j++) printf(" %2.2f ",MS[i][j]); printf("\n"); } float beta=0; for(i=0;i<11;i++) for(j=i+1;j<12;j++) beta=beta+MS[i][j]; beta=beta/66; printf("el beta es %2.2f",beta); beta=5.11; for(i=0;i<12;i++) for(j=0;j<12;j++) if(MS[i][j]>beta) MSA[i][j]=1; else MSA[i][j]=0; int total=12; printf("\n"); for(i=0;i<12;i++) { for(j=0;j<total;j++) printf("%d ",MSA[j][i]); printf("\n"); } 4.5 Algoritmo HOLOTIPO for(i=0;i<total;i++) for(j=i+1;j<total;j++) for(l=0;l<12;l++) if(MSA[i][l]==MSA[j][l]&&(MSA[i][l]==1)) { for(k=0;k<12;k++) MSA[i][k]=MSA[i][k]||MSA[j][k]; for(k=j;k<total;k++) for(h=0;h<12;h++) MSA[k][h]=MSA[k+1][h]; total--; } printf(" %d",total); for(i=0;i<12;i++) {for(j=0;j<total;j++) printf("%d ",MSA[j][i]); printf("\n"); } for(i=0;i<total;i++) { for(j=0;j<12;j++) if (MSA[i][j]==1) printf(" %d, ",j+1); printf("\n"); } getch(); } 71 72 Enfoque Lógico - combinatorio Capı́tulo 5 Conclusiones El enfoque Lógico-Combinatorio desarrollado en este trabajo de tesis se basa principalmente en el estudio de dos algoritmos, el CLASS y Holotipo. El primero utiliza una función de semejanza (habiendo construido previamente un modelo) que se le aplica a una muestra inicial dada para formar la matriz de semejanza (MS)que no es mas que la representación de la relación existente entre los objetos, posteriormente se calcula el umbral de semejanza utilizando cualquier variante de la definición (este valor, es el promedio de los valores de la MS) que nos permitira saber si los objetos son semejantes. Obtenidos los datos anteriores se procede a utilizar herramientas algebraı́cas para la aplicación de la definición de conjunto compacto. El segundo utiliza un criterio de comparación (este depende de la forma de las variantes(rasgos lógicos o aritméticos)) aplicado a la muestra inicial formando con el una matriz de semejanza (MS) para cada uno de los rasgos, la cual representa en cada vector la semejanza existente entre los objetos con respecto a ese rasgo. Después se le da un valor que otorgue a cada rasgo la importancia que se le quiera dar, para posteriormente formar una matriz de semejanza general , que no es mas que la suma de los productos de la matriz de cada rasgo con el valor de importancia que se le dio. Luego se calcula el umbral de semejanza utlizando alguna variante de la definición para después operar con los datos obtenidos y utilizar, la definición de componente conexa para la formación de agrupamientos. Al ya conocer el algoritmo se pueden mencionar algunas ventajas y desventajas. Algunas ventajas podrı́an ser que es muy sencillo de utilizar, ya que las operaciones utilizadas son fáciles de usar, también esto ayuda a que el costo computacional sea poco y fácil de programar ademas garantiza que todos los elementos van a estar agrupados; algunas desventajas podrı́an ser que se nece- 74 Conclusiones sita hacer un modelo matemático para poder estudiar la semejanza entre los objetos y esto requiere de un conocimiento especializado. Estas son solo algunas de las ventajas y deventajas que se podrian encontrar en el manejo del algoritmo. Bibliografı́a [1] Ruiz Shulcloper, José y Lazo Cortés, Manuel (1995). Introducción al Reconocimiento de Patrones: enfoque lógico combinatorio. Serie Verde No. 51, CINVESTAV-IPN. México. [2] Escudero, Laureano (1977). Reconocimiento de Patrones. Paraninfo. Madrid. [3] Zadeh, L.A. Fuzzy Sets. Information and Control, No. 8, pp. 338356. [4] Ruiz Shulcloper, José y Montellano Ballesteros, Juan José (1995). A new approach to fuzzy clustering. Proceedings of the EUFIT’95, Aachen, pp. Alemania. [5] Tou, J.J. and González, R.C. (1974). Pattern Recognition Principles. Addison-Wesley P.C. [6] Gómez Herrera, Julio et al. (1994). Pronóstico gasopetrolı́fero en la asociación ofiolı́tica cubana aplicando modelación matemática. Revista Geofı́sica Internacional, vol.33, No. 3, pp 447-467. México. [7] Sirotinskaia, S.V.(1986). Métodos lógicos de análisis de la información gelógica (en ruso). Nedra. [8] Konstantinov, R.M. and Koroliova, Z.E. (1973). Aplicación de los algoritmos de test a problemas del pronóstico geológico. Reconocimiento de Patrones, pp.194-199. En ruso. [9] Voronin, Yu.A.; Karataeva, G.N.; Epshtein, E.N. et al. (1968). Programas HOLOTIPO para la soluci‘’on de problemas de reconocimiento de partrones(en ruso). Alma Atá. 76 BIBLIOGRAFÍA [10] Michalski, R. S. and Stepp, R. Reveling conceptual sructure in data by inductive inference; en Macine Intelligence ]10 pp 173-198, USA. [11] Gotlieb, C.C. and Kumar, S. (1968). Semantic clustering of index terms. Journal of the Association for Computing Machinary, Vol. 15, No. 4, october , pp. 493-513. [12] Ruiz Shulcloper, José et al. (1992). PROGNOSIS y sus aplicaciones a las geociencias. Proceedings del Congreso Iberoamericano de Inteligencia Artificial IBERAMIA’92; febrero de 1992, La Habana, pp 561-586, Cuba. [13] Tamura, S. et al. (1971). Pattern Clasification Based on Fuzzy Relations. IEEE Transaction on Systems, Man and Cybernetics, Vol. SMC-1, No. 1, pp 61-66, january. [14] Ruspini, E. R. A New Approach to Clustering. Information and Control, Tomo 15, pp 22-32, (1969). [15] Bezdek, J.C. (1973). Fuzzy Mathematics in Pattern Classification. Ph. D. Thesis; Applied Math. Center, Cornell Univ. Ithaca. [16] Montellano Ballesteros, Juan José (1994). Agrupaciones en gráficas difusas. Tesis en opción al grado de Maestro en Ciencias. UNAM, México. [17] Ignacio L. Iribarren, Topologı́a de espacios métricos, 1973, Limusa, primera edición.

Instituto Politécnico Nacional Escuela Superior de F´ısica y

Documentos relacionados

Productos

Apoyo

Instituto Politécnico Nacional Escuela Superior de F´ısica y

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib