Luis Valencia Cabrera [email protected] (http://www.cs.us.es/~lvalencia) Ciencias de la Computacion e IA (http://www.cs.us.es/) Universidad de Sevilla Sistemas Expertos basados en probabilidad (2010/2011) Introducción a los Sistemas Expertos Basados en Probabilidad Núcleo de los SE basados en reglas En los SE probabilísticos reglas que describen las relaciones entre los objetos (variables) las relaciones entre las variables las describe su función de probabilidad conjunta. la función de probabilidad conjunta forma parte del conocimiento. Se ilustrará con el ejemplo de diagnóstico médico, aunque los conceptos descritos se aplican a otros muchos campos. El diagnóstico médico es una de las áreas de mayor aplicación de los Sistemas Expertos Probabilísticos Algunos modelos de SE probabilísticos fueron desarrollados para resolver problemas con la estructura “síntomasenfermedad”. Diagnóstico médico Partimos de una BD con información sobre N pacientes. Un paciente puede tener una y sólo una de m enfermedades (e1, . . . , em) Puede tener ninguno, uno, o más de n síntomas S1, . . . , Sn. La variable aleatoria enfermedad, E, toma como valores las enfermedades e1, . . . , em. Los síntomas son variables binarias, (1 si está presente, 0 si no). Cualquier variable aleatoria en el conjunto {E,S1, . . . , Sn} define una partición del conjunto universal de pacientes en una clase disjunta y exhaustiva de conjuntos. Diagnóstico médico Combinando las enfermedades y los síntomas, cada paciente puede clasificarse en una y sólo una región. Los objetos o variables son: La función de probabilidad conjunta de (E,S1, . . . , Sn) está dada por las frecuencias (nº de pacientes en cada región). Notación: la enfermedad E los síntomas S1, . . . , Sn. Una variable se representa con mayúsculas Los valores de la variable con minúsculas La enfermedad E toma m valores posibles y los síntomas se suponen binarios. (Los posibles valores de E son e1, . . . , em, y los valores posibles de la variable Sj son 1 (presente) ´o 0 (ausente). Las probabilidades asociadas a la enfermedad E pueden ser estimadas por: N: nº total de pacientes de la BD card(E = e): nº de pacientes con E = e. Por ejemplo: p(E = e) ≈ card(E = e)/N, (3.18) Enfermedad e1 presente: p(E = e1) ≈ card(E = e1)/N, Enfermedad e1 ausente: p(E ≠ e1) ≈ card(E ≠ e1)/N. Diagnóstico médico Problema frecuente: Cuestión a abordar: Sólo se observan un subconjunto de síntomas, y con los síntomas observados, se desea diagnosticar con un grado de certeza razonable la enfermedad que da lugar a los síntomas. Dado que un paciente presenta un subconjunto de síntomas S1=s1,. . . Sk=sk, ¿qué enfermedad tiene el paciente? El problema consiste en calcular la probabilidad de que el paciente tenga la enfermedad ei, dado el conjunto de valores s1, . . . , sk de los síntomas S1, . . . , Sk. Es decir, para i = 1, . . . , m, se desean calcular las probabilidades condicionales: p(E = ei|S1 = s1, . . . , Sk = sk). Se trata de un problema de clasificación generalizado: Un paciente puede ser clasificado en uno o más grupos (enfermedades). Se pueden obtener las probabilidades de la tabla. Diagnóstico médico 1. 2. Los sistemas expertos probabilísticos pueden utilizarse para resolver éstos y otros problemas. Por ejemplo: Pueden memorizar información. Uno puede almacenar y recuperar información de la BD. Las enfermedades y los síntomas son variables categóricas (binarias o multinomiales). Por ejemplo, información de una BD con diez pacientes para el problema de diagnóstico con cinco enfermedades binarias y tres síntomas. Pueden contar o calcular las frecuencias absolutas y relativas de cualquier subconjunto de variables a partir de la BD. Estas frecuencias pueden utilizarse para calcular las probabilidades condicionales p(ei|s1, . . . , sk) Diagnóstico médico Esta probabilidad puede ser estimada mediante donde card(ei, s1, . . . , sk) es la frecuencia de aparición en la BD de los pacientes con los valores indicados de las variables. Se pueden calcular las frecuencias asociadas a cualquier combinación de valores de síntomas y enfermedades contando el nº de casos de la base de datos que coinciden con la evidencia. Por ejemplo, card(E ≠ e1|S1 = 1, S2 = 1) = 2 puesto que hay dos pacientes (los pacientes 1 y 3) que no presentan la enfermedad e1 pero muestran los síntomas S1 y S2. Similarmente, card(E = e1|S1 = 1, S2 = 1) = 3, card(S1 = 1, S2 = 1) = 5, etc. Entonces, ésta puede calcularse usando (3.3), las probabilidades condicionales asociadas a una enfermedad dada y un conjunto de s´ıntomas. Por ejemplo: Los sistemas expertos pueden aprender de la experiencia. Tan pronto como un nuevo paciente es examinado y diagnosticado, se añade la nueva información a la BD y se cambian las frecuencias como corresponda. Por ejemplo, si un nuevo paciente que presenta los síntomas S1 = 1, S2 = 1 y S3 = 0 se sabe que tiene la enfermedad e1, se puede actualizar la base de datos con esta nueva información sin más que incluir un caso más. Los sistemas expertos pueden tomar (o ayudar a los expertos humanos a tomar) decisiones tales como: ¿se tiene suficiente información como para diagnosticar la enfermedad? ¿se necesitan nuevas pruebas clínicas? y si la respuesta es positiva, ¿qué prueba o pruebas suministran la máxima información sobre la enfermedad que se sospecha tiene el paciente? La Base de Conocimiento La base de conocimiento (BC) de un sistema experto (SE) basado en reglas consta de: La BC de un SE probabilístico: el conjunto de objetos (variables) y el conjunto de reglas conjunto de variables, {X1, . . . , Xn}, y función de probabilidad conjunta definida sobre ellas, p(x1, . . . , xn). Construir la BC de un SE probabilístico definir la función de probabilidad conjunta de las variables. Primera aproximación establecer la función de probabilidad conjunta, asignando un valor de probabilidad para cada combinación de valores de las variables. Problema: inviable ya que necesita una cantidad exponencial de espacio Ejemplo: con n variables binarias, la función de probabilidad conjunta más general tiene 2n parámetros (p(x1, . . . , xn) para toda realización {x1, . . . , xn} de las variables) Es peor aún si no conocemos todos los valores {x1, . . . , xn}, lo que suele ser usual Simplificaciones para resolver el problema La primera aproximación anterior provocó muchas críticas al uso de la probabilidad en los SSEE. Sin embargo, en la mayoría de situaciones prácticas, muchos subconjuntos de variables pueden ser independientes o condicionalmente independientes. Se pueden obtener simplificaciones del modelo general teniendo en cuenta la estructura de independencia de las variables. Simplificaciones: 1. 2. 3. 4. Reducción importante del nº parámetros. Modelo de Síntomas Dependientes (MSD). Modelo de Síntomas Independientes (MSI). Modelo de Síntomas Relevantes Independientes (MSRI). Modelo de Síntomas Relevantes Dependientes (MSRD). Estos son modelos ad hoc que se aplican principalmente en el campo médico Hay otros más generales y potentes (redes de Markov, redes Bayesianas, y modelos especificados condicionalmente). Los veremos más adelante. Retomando ejemplo diagnóstico médico Tenemos n síntomas S1, S2, …, Sn Una variable aleatoria E, enfermedad que puede tomar valores e1, …, em. Problema: diagnosticar presencia de enfermedad e, dado los síntomas s1, …, sn. Se tiene la función de probabilidad conjunta p(e,s1,…,sn). La forma más general implica demasiados parámetros. Para reducirlos Imponer hipótesis (restricciones) entre ellos. Hacemos uso de los modelos mencionados Modelo de Síntomas Dependientes Se suponen los síntomas dependientes. Enfermedades independientes entre sí, dados los síntomas. Como vemos en la figura, en el modelo MSD todo síntoma se conecta con los demás síntomas y con todo valor posible de E. Así, la función de probabilidad conjunta se escribe como: p(ei, s1, . . . , sn) = p(s1, . . . , sn)p(ei|s1, . . . , sn). Modelo de Síntomas Dependientes La ecuación se obtiene de «p(x, y) = p(x)p(y).», con X = {E} e Y = {S1, . . ., Sn}. Ahora, p(ei|s1, . . . , sn) puede expresarse como: Sólo incluye probabilidades “a priori” y verosimilitudes (probabilidades condicionales de los síntomas para cada enfermedad). Estos valores pueden estimarse a partir de la información objetiva dada por las frecuencias de enfermedades y síntomas en la población. Los parámetros necesarios para la base de conocimiento del MSD son: Las probabilidades marginales p(ei), para todos los valores posibles de E. Las verosimilitudes p(s1, . . . , sn|ei), para todas las combinaciones de síntomas y enfermedades. Complejidad Computacional para el Modelo MSD Para m enfermedades y n síntomas binarios, la función de probabilidad marginal de E, p(ei), depende de m − 1 parámetros (los m parámetros deben sumar uno). Se necesita especificar m − 1 parámetros para la función de probabilidad marginal de E. Para las verosimilitudes p(s1, . . . , sn|ei), se necesita especificar (2n−1) parámetros (para n síntomas binarios hay 2n parámetros, uno por cada combinación de síntomas, que deben sumar 1) para cada valor posible de E, un total de m(2n−1) parámetros. Por ello, el MSD requiere un total de: m − 1 + m(2n − 1) = m2n − 1 parámetros. Ejemplo uso Modelo de síntomas dependientes (MSD) Partimos del ejemplo del adenocarcinoma, interesándonos la enfermedad G, que puede tomar valor 𝑔 o 𝑔. Hay tres síntomas binarios: D, P, V. Conviene utilizar 1 (presencia del síntoma) y 0 (ausencia). Para definir el MSD, se necesita conocer: Función de probabilidad marginal Funciones de probabilidad condicional de los síntomas dada la enfermedad: p(ei) p(d, v, p|ei) Se requieren 2·23 − 1=15 parámetros (𝑝 𝑔 , 𝑝 𝑑 = 0, 𝑣 = 0, 𝑝 = 0 𝐸 = 𝑔 𝑦 𝑝 𝑑 = 0, 𝑣 = 0, 𝑝 = 0 𝐸 = 𝑔 ) son redudantes) Ejemplo uso Modelo de síntomas dependientes A partir de lo anterior se puede calcular la probabilidad de cualquier enfermedad dada cualquier combinación de síntomas. Por ejemplo, la función de probabilidad condicionada de la enfermedad dado que estén presentes los tres síntomas se calcula como sigue: Dividiendo ahora por la constante de normalización 0.2198 + 0.0039=0.2237, se obtiene: Modelo de Síntomas Dependientes. Limitaciones El principal problema del MSD es que requiere un nº muy alto de parámetros. Especificar las frecuencias para todas esas combinaciones es muy difícil. Se hace imposible al crecer los nºs de las enfermedades y síntomas. Por ejemplo, con 100 enfermedades y 200 síntomas, el nº de frecuencias (parámetros) necesarios es mayor que 1062. El caso estudiado supone síntomas binarios (sólo dos posibles opciones, tales como fiebre, no fiebre; dolor, no dolor; etc.). Las dificultades se incrementan notablemente en el MSD en casos en los que se tengan síntomas con múltiples opciones o niveles (ej: fiebre alta, fiebre media, fiebre baja y no fiebre). Modelo de Síntomas Independientes Las limitaciones comentadas imposibilitan trabajar con el modelo MSD en muchos casos prácticos resulta necesario simplificar el modelo. Una simplificación posible: suponer que, para una enfermedad dada, los síntomas son condicionalmente independientes entre sí. Los síntomas no están ligados, para indicar la independencia. Como los síntomas condicionalmente independientes: Modelo de Síntomas Independientes En base a lo anterior, se puede escribir la función de probabilidad conjunta de la enfermedad E dados los síntomas s1, . . . , sn como: La hipótesis de independencia modifica las probabilidades de todas las enfermedades cuando se conocen nuevos síntomas. La probabilidad inicial de la enfermedad ei es p(ei), pero tras conocer los síntomas sj , para j = 1, . . . , k, resulta proporcional a p(sj |ei). Cada nuevo síntoma conduce a un nuevo factor. Los parámetros necesarios para la base de conocimiento del MSI son: Las probabilidades marginales p(ei), para todos los valores posibles de E. Las probabilidades condicionales p(sj|ei), para todos los valores posibles del síntoma Sj y la enfermedad E. Complejidad Computacional para el Modelo MSI Con las hipótesis de independencia de los síntomas, el nº de parámetros se reduce considerablemente. Con m enfermedades posibles y n síntomas binarios, el nº total de parámetros es: m(n + 1) − 1. Por ejemplo: con m = 100 enfermedades y n = 200 síntomas, se tienen 20,099 parámetros en el MSI (en vez de más de 1062 parámetros para el MSD). Ejemplo uso Modelo de síntomas independientes (MSI) Partimos de: Para especificar el MSI, se necesita: los historiales clínicos de dos centros médicos, cada uno, de ellos con N = 1000 pacientes; dos valores de la enfermedad (𝑔 y 𝑔); tres síntomas, D, V y P. la probabilidad marginal, p(ei) las probabilidades condicionales de cada síntoma dada cada enfermedad, p(d|ei), p(v|ei) y p(p|ei). Aunque los dos conjuntos son muy diferentes, conducen a idénticas probabilidades. Ejemplo uso Modelo de síntomas independientes (MSI) Calculamos las probabilidades anteriores: A partir de éstas calculamos la probabilidad condicional de E dadas varias combinaciones de los síntomas para los dos centros médicos. Ejemplo uso Modelo de síntomas independientes (MSI) Por ejemplo, para el Centro Médico 1, el valor de p(g|d, v, p) se calcula: El valor de p(g|d, v, p) según el MSI: Dividiendo 0.2205 por la constante de normalización: 0.2205 + 0.0036 = 0.2241, se obtiene y p(𝑔 |d, v, p) = 0.2205/0.2241 = 0.9 8 y p(𝑔 |d, v, p) = 0.0036/0.2241 = 0.02. Modelo de Síntomas Independientes. Limitaciones La comparación entre las probabilidades verdaderas y las del MSI muestra que los dos conjuntos de probabilidades son parecidos para el Centro Médico 1, pero discrepan bastante para el 2. Por ejemplo, el valor real de p(g|d, v, 𝑝) es 0, y MSI da 0.82. Se tienen dos conjuntos de datos con las mismas probabilidades “a priori” y mismas verosimilitudes; sin embargo, el MSI es apropiado para reproducir uno de ellos y no, para el otro. Puede concluirse que las probabilidades “a priori” y las verosimilitudes no son suficientes para especificar un modelo probabilístico. El ejemplo demuestra que el correcto comportamiento de un sistema experto probabilístico se basa en la especificación correcta de la función de probabilidad conjunta. Esto prueba que el MSI falla al tratar de describir la probabilidad de los datos del Centro Médico 2. Es importante seleccionar bien el modelo probabilístico a utilizar en un caso dado. Aunque la hipótesis de independencia da lugar a una gran reducción del nº de parámetros, en el MSI es todavía muy alto para ser práctico en ciertos escenarios. Se necesita simplificarlo aún más. Modelo de Síntomas Relevantes Independientes Se puede conseguir mayor reducción del nº de parámetros suponiendo que cada enfermedad tiene un nº reducido de síntomas relevantes. En consecuencia, para cada valor ei de la enfermedad E se seleccionan los síntomas relevantes S1, . . . , Sr (pocos frente al total) y los restantes se suponen independientes para ese E. Por simplicidad, supóngase que S1, . . . , Sri son relevantes para la enfermedad ei y que los restantes síntomas Sri+1, . . . , Sn son irrelevantes. Según el MSRI, p(sj |ei) idéntica para todos los síntomas irrelevantes para la enfermedad ei. Modelo de Síntomas Relevantes Independientes En base a lo anterior, se puede escribir la función de probabilidad conjunta de la enfermedad E dados los síntomas s1, . . . , sn como: donde pj = p(sj |ei), que es la misma para todas las enfermedades para la que Sj es irrelevante. Los parámetros necesarios para la base de conocimiento del MSRI son: Las probabilidades marginales p(ei), para todos los valores posibles de E. Las probabilidades condicionales p(sj|ei), para cada valor posible de E y cada uno de sus síntomas relevantes Sj Las probabilidades pj, para cada valor posible de E con al menos un síntoma irrelevante. (pj = p(sj|ei) idéntica para todos los síntomas irrelevantes para ei) Complejidad Computacional para el Modelo MSRI En la BC se necesita almacenar las probabilidades de todos los síntomas relevantes para cada enfermedad, y la misma probabilidad para todos los síntomas irrelevantes para cada valor de E. Si se tienen m posibles enfermedades y n síntomas binarios, el nº de parámetros en MSRI es: con ri el nº de síntomas relevantes para la enfermedad ei y a el nº de síntomas relevantes para todas las enfermedades. El nº de parámetros se reduce significativamente cuando ri es mucho menor que n. (hay pocos parámetros dependientes de cada enfermedad) Ejemplo: con 100 enfermedades y 200 síntomas, si ri = 10 para todas las enfermedades, el nº de parámetros se reduce de 20,099 (MSI) a 1,299 (MSRI). Se puede obtener MSRI a partir del MSI imponiendo restricciones adicionales en los parámetros del MSI, ya que las probabilidades p(sj |ei) deben ser las mismas para todos los síntomas irrelevantes para las enfermedades ei. El Nº restricciones es: donde nj es el nº enfermedades para las que Sj es irrelevante. Por ello el nº de parámetros de MSRI es el nº de MSI menos el nº restricciones: Modelo de Síntomas Relevantes Independientes. Limitaciones El MSRI reduce el número de parámetros considerablemente. Desgraciadamente, es poco realista, ya que los síntomas asociados a ciertas enfermedades suelen producirse en grupos o síndromes (no suelen darse de uno en uno, sino agrupados). Por ello, puede ser poco razonable suponer que los síntomas relevantes son independientes. Modelo de Síntomas Relevantes Dependientes Este modelo evita el inconveniente del MSRI. El MSRD es el mismo que el MSRI pero sin obligar a los síntomas relevantes a ser independientes, dada la correspondiente enfermedad. De esta forma, sólo los síntomas irrelevantes son independientes pero los síntomas relevantes pueden ser dependientes. Se trata de una solución de compromiso entre el MSD y el MSRI. Para cada valor ei de la enfermedad E se seleccionan los síntomas relevantes S1, . . . , Sr (pocos frente al total) y los restantes se suponen independientes para ese E. Supóngase que S1, . . . , Sri son relevantes para la enfermedad ei y que los restantes síntomas Sri+1, . . . , Sn son irrelevantes. Modelo de Síntomas Relevantes Dependientes En base a lo anterior, se puede escribir la función de probabilidad conjunta de la enfermedad E dados los síntomas s1, . . . , sn como: donde pj = p(sj |ei), que es la misma para todas las enfermedades para las que sj es irrelevante. La idea es clasificar los síntomas en clústeres no mutuamente exclusivos y fuertemente dependientes asociados a enfermedades. Los parámetros necesarios para la base de conocimiento del MSRD son: Las probabilidades marginales p(ei), para todos los valores posibles de E. Las probabilidades condicionales p(s1, . . . , sri|ei), para todos los posibles valores de E y sus síntomas relevantes S1, . . . , Sri. Las probabilidades pj para cada valor de E con al menos un síntoma irrelevante. (Como en el MSRI, pj = p(sj|ei) coincide para los síntomas irrelevantes para ei, es decir, p(sj|ei)=p(sj) ) Complejidad Computacional para el Modelo MSRD En base a lo anterior, para m enfermedades binarias y n síntomas binarios, el nº total de parámetros en el MSRD es Cuando ri = r para todos los valores ei, resulta m2r +n−1. Además, si todos los síntomas son relevantes para todas las enfermedades (a = n y ri = n para todo ei), el MSRD se convierte en el MSD. Comparando los nºs de parámetros necesarios para especificar los modelos discutidos, para m = 100 enfermedades binarias, n = 200 síntomas binarios, y r = 10 síntomas relevantes por enfermedad tenemos: En el MSRD el nº de parámetros es muy reducido comparado con el MSD, a pesar de que es un modelo realista, puesto que considera las dependencias entre los síntomas más importantes (relevantes) para cada enfermedad. Sin embargo, debido a la hipótesis de dependencia, el nº parámetros del MSRD es mayor que el de MSI y MSRI. Se puede reducir dividiendo el conjunto de síntomas relevantes en subconjuntos (bloques) mutuamente independientes, considerando los síntomas en cada bloque dependientes. La Base de Conocimiento. Conclusiones Se han discutido cuatro modelos ad hoc para describir las relaciones existentes entre un conjunto de variables. Más adelante se introducen modelos probabilísticos más generales: El conjunto de parámetros necesario para definir la base de conocimiento depende del modelo elegido. Cada modelo tiene sus propias ventajas e inconvenientes. Sin embargo, sólo se aplican en situaciones particulares. modelos de redes de Markov modelos de redes Bayesianas modelos especificados por listas de relaciones de independencia, y modelos especificados condicionalmente. Sea cual sea el modelo elegido, la base de conocimiento debe contener: el conjunto de variables de interés y el mínimo de parámetros (probabilidades o frecuencias) necesarios para especificar la función de probabilidad conjunta de las variables. El Motor de Inferencia En los Sistemas Expertos Probabilísticos encontramos 2 tipos de información: Conocimiento: Conjunto de variables, y probabilidades asociadas necesarias para construir su función de probabilidad conjunta Se almacena en la Base de Conocimiento (BC) Datos: Valores de algunas variables conocidas por el usuario Se conoce como evidencia Se almacena en la Memoria de Trabajo (MT) El Motor de Inferencia El motor de inferencia emplea conocimiento y datos para responder a las preguntas del usuario. Ejemplos: Antes del examen por parte del doctor, ¿cuál es la enfermedad más probable para el paciente? No hay evidencia disponible El conjunto de síntomas es vacío Problema: calcular la probabilidad marginal de E, p(E = ei), i = 1, …, m El Motor de Inferencia Ejemplos: Dado un paciente con un conjunto de síntomas S1 = s1, …, Sk = sk, ¿qué enfermedad es más probable que tenga el paciente? Evidencia: s1, …, sk Problema: calcular la función de probabilidad conjunta para cada enfermedad ei dada la evidencia, es decir: P(E = ei | s1, …, sk), i = 1, …, m. El Motor de Inferencia Probabilidad marginal: p (E = ei), se conoce como probabilidad «a priori», ya que se calcula antes de conocer la evidencia. Probabilidad condicional: p (ei | s1, …, sn), se conoce como probabilidad «a posteriori», al ser calculada tras conocer la evidencia. Se puede considerar la marginal como caso particular de la condicional, con el conjunto de síntomas conocido vacío. Entre las tareas del motor de inferencia: Calcular las probabilidades condicionales de diferentes enfermedades al conocer nuevos síntomas o datos. El Motor de Inferencia Entre las tareas del motor de inferencia: Actualizar las probabilidades condicionales de las enfermedades para todos los posibles valores de síntomas: Decidir qué enfermedades tienen probabilidades condicionales altas. Generalmente se estudia primero un conjunto reducido y se muestra al usuario (médicos y pacientes) para su validación. El término p(s1,…, sk) actúa como constante de normalización Una decisión basada en el máximo también valdría para ver la importancia relativa de las enfermedades: El Motor de Inferencia. Limitaciones de Tma de Bayes El teorema de Bayes se usa para calcular fácilmente las probabilidades «a posteriori» partiendo de pocas enfermedades y síntomas. Cuando el nº de variables (enfermedades y/o síntomas) es alto (lo habitual en la práctica) se necesitan métodos y modelos más eficientes para calcular ambas probabilidades «a priori» y «a posteriori». Métodos de propagación de evidencia o incertidumbre. (Los estudiaremos más adelante) Control de la Coherencia Problema serio de los Sistemas Expertos: Incoherencias en su BC y/o en su MT Razones de las incoherencias: Conocimiento incoherente suministrado por los expertos. Datos incoherentes proporcionados por los usuarios. Hechos no actualizados por el MI. Inexistencia de subsistema para controlar la coherencia, evitando que llegue conocimiento inconsistente a la BC y/o la MT. Control de la Coherencia. Ejemplos Ejemplo: restricciones para dos variables. Supongamos dos variables binarias E y S. Las probabilidades necesarias serían p(e), p(s) y p(s|e). El sistema experto pregunta al usuario los valores de p(e) y p(s), que deben satisfacer las restricciones triviales 0 ≤ p(e) ≤ 1 y 0 ≤ p(s) ≤ 1. Una vez definidas las anteriores, el sistema pregunta al usuario los valores de p(s|e) El sistema debe informar al usuario de las restricciones a satisfacer, por ejemplo dando sus cotas superior e inferior. Control de la Coherencia. Ejemplos Algunos valores son redundantes, de modo que el SE debería asignar automáticamente su valor sin preguntar al usuario. Ejemplo: si tenemos que Entonces se tiene que: Por lo que, conocido p(s), el SE no debería preguntar al usuario los valores de p(s|e). Solamente dos son necesarios: p(s=0|E=0) y p(s=1|E=0). Además, ambas probabilidades deben sumar 1 Solamente una de estas probabilidades es suficiente para definir los parámetros de la BD. Control de la Coherencia. Además de las relaciones entre las probabilidades que intervienen en la definición de la función de probabilidad conjunta, también otras condiciones que deben cumplir las probabilidades para ser consistentes. El subsistema de control de la coherencia debe informar al usuario de las restricciones a las que se deben someter las nuevas unidades de información. Control de la Coherencia. Ejemplos Ejemplo: restricciones para dos conjuntos Supongamos dos conjuntos A y B. Las probabilidades que intervienen en la definición de la BC de un sistema experto probabilístico son p(A), p(B), p(A∪B) y p(A∩B). Estas probabilidades deben satisfacer las restricciones siguientes: Control de la Coherencia. Ejemplos La restricción p(A) + p(B) − 1 ≤ p(A ∩ B) se obtiene de: (Esto es cierto porque p(𝐴∪𝐵) ≤ p(𝐴 )+ p(𝐵) = 1-p(A)+1-p(B)) El sistema experto comienza preguntando al usuario los valores de p(A) y p(B). Estos valores deben satisfacer las dos primeras restricciones. Una vez que p(A) y p(B) especificadas y comprobadas, el subsistema de adquisición de conocimiento pregunta los valores de p(A∩B) o de p(A∪B); El sistema debe informar al usuario de las cotas inferior y superior de estas probabilidades dadas en las dos últimas restricciones. En otro caso, podrían darse valores fuera de los intervalos de coherencia. Se violarían los axiomas de la probabilidad, y el sistema podría generar conclusiones erróneas. Control de la Coherencia. Ejemplos Supongamos p(A ∩ B) dada y comprobada; entonces se asignará automáticamente a p(A∪B) el valor. Control de la Coherencia. Conclusión De los ejemplos se puede deducir la complejidad del conjunto de restricciones conforme aumenta el nº de subconjuntos. Por tanto, el riesgo de que el usuario viole las restricciones aumenta con el nº de variables. En algunos modelos probabilísticos como los de redes Bayesianas el control de la coherencia no es problema, puesto que los modelos se construyen coherentes. En otros modelos probabilísticos debe controlarse la coherencia. En estas situaciones es importante disponer de un sistema capaz de controlar la coherencia del conocimiento (Smith (1961)). En algunos modelos probabilísticos el control de la coherencia es una necesidad. El subsistema de control de coherencia impide que el conocimiento incoherente entre en la base de conocimiento y/o la memoria de trabajo. Más adelante veremos un método para comprobar la consistencia de un modelo probabilístico. Comparación Sistemas Expertos Basados en Reglas VS Probabilísticos Base de Conocimiento: SE basado en reglas: Conocimiento: SE basado en probabilidad: Objetos Conjunto de reglas. Evidencia asociada a los casos a analizar. BC: Fácil de implementar, sólo es necesario utilizar elementos simples, como objetos, conjuntos de valores, premisas, conclusiones y reglas. Conocimiento que a almacenar limitado en comparación con probabilísticos. Conocimiento: Datos: Datos: Variables y sus posibles valores Función de probabilidad conjunta. Evidencia asociada a los casos a analizar. BC: Conocimiento a almacenar menos limitado. Inconveniente: alto nº de parámetros que manejan. Difícil especificación y definición como consecuencia de lo anterior. Comparación Sistemas Expertos Basados en Reglas VS Probabilísticos Motor de Inferencia: SE basado en reglas: Las conclusiones se obtienen de los hechos aplicando las diferentes estrategias de inferencia, tales como Modus Ponens, Modus Tollens y encadenamiento de reglas. El motor de inferencia es rápido y fácil de implementar. SE basado en probabilidad: El motor de inferencia es más complicado que en el caso de SE basados en reglas. El motor de inferencia se basa en la evaluación de las probabilidades condicionales utilizando distintos métodos por los diferentes tipos de sistemas expertos probabilísticos El grado de dificultad: depende del modelo seleccionado y varía desde baja (modelos de independencia) a alta (modelos de dependencia generales). Comparación Sistemas Expertos Basados en Reglas VS Probabilísticos Subsistema de Explicación: SE basado en reglas: La explicación es fácil, ya que se sabe qué reglas han sido utilizadas para concluir en cada momento. El motor de inferencia sabe qué reglas se han utilizado en el encadenamiento y han contribuido a obtener conclusiones y qué reglas se han utilizado sin éxito. SE basado en probabilidad: La información sobre qué variables influyen en otras está codificada en la función de probabilidad conjunta. La explicación se basa en los valores relativos de las probabilidades condicionales que miden los grados de dependencia. Una comparación de las probabilidades condicionales para diferentes conjuntos de evidencia permite analizar sus efectos en las conclusiones. Comparación Sistemas Expertos Basados en Reglas VS Probabilísticos Subsistema de Aprendizaje: SE basado en reglas: El aprendizaje consiste en incorporar nuevos objetos, nuevos conjuntos de valores factibles para los objetos, nuevas reglas o modificaciones de los objetos existentes, de los conjuntos de valores posibles, o de las reglas. SE basado en probabilidad: El aprendizaje consiste en incorporar o modificar la estructura del espacio de probabilidad: variables, conjunto de posibles valores, o los parámetros (valores de las probabilidades).