Modelos Basados en Probabilidad

Anuncio
Luis Valencia Cabrera
[email protected]
(http://www.cs.us.es/~lvalencia)
Ciencias de la Computacion e IA
(http://www.cs.us.es/)
Universidad de Sevilla
Sistemas
Expertos
basados en
probabilidad
(2010/2011)
Introducción a
los Sistemas Expertos
Basados en Probabilidad

Núcleo de los SE basados en reglas


En los SE probabilísticos



reglas que describen las relaciones entre los objetos (variables)
las relaciones entre las variables las describe su función de
probabilidad conjunta.
la función de probabilidad conjunta forma parte del
conocimiento.
Se ilustrará con el ejemplo de diagnóstico médico, aunque
los conceptos descritos se aplican a otros muchos campos.


El diagnóstico médico es una de las áreas de mayor aplicación
de los Sistemas Expertos Probabilísticos
Algunos modelos de SE probabilísticos fueron desarrollados
para resolver problemas con la estructura “síntomasenfermedad”.
Diagnóstico médico






Partimos de una BD con información
sobre N pacientes.
Un paciente puede tener una y sólo
una de m enfermedades (e1, . . . ,
em)
Puede tener ninguno, uno, o más de
n síntomas S1, . . . , Sn.
La variable aleatoria enfermedad, E,
toma como valores las
enfermedades e1, . . . , em.
Los síntomas son variables binarias,
(1 si está presente, 0 si no).
Cualquier variable aleatoria en el
conjunto {E,S1, . . . , Sn} define una
partición del conjunto universal de
pacientes en una clase disjunta y
exhaustiva de conjuntos.
Diagnóstico médico


Combinando las enfermedades y los
síntomas, cada paciente puede
clasificarse en una y sólo una región.
Los objetos o variables son:




La función de probabilidad conjunta de
(E,S1, . . . , Sn) está dada por las
frecuencias (nº de pacientes en cada
región).
Notación:



la enfermedad E
los síntomas S1, . . . , Sn.
Una variable se representa con
mayúsculas
Los valores de la variable con
minúsculas
La enfermedad E toma m valores
posibles y los síntomas se suponen
binarios.

(Los posibles valores de E son e1, . . . ,
em, y los valores posibles de la variable
Sj son 1 (presente) ´o 0 (ausente).

Las probabilidades asociadas a la
enfermedad E pueden ser estimadas
por:

N: nº total de pacientes de la BD
card(E = e): nº de pacientes con E = e.
Por ejemplo:





p(E = e) ≈ card(E = e)/N, (3.18)
Enfermedad e1 presente:
p(E = e1) ≈ card(E = e1)/N,
Enfermedad e1 ausente:
p(E ≠ e1) ≈ card(E ≠ e1)/N.
Diagnóstico médico

Problema frecuente:


Cuestión a abordar:


Sólo se observan un subconjunto de
síntomas, y con los síntomas
observados, se desea diagnosticar
con un grado de certeza razonable
la enfermedad que da lugar a los
síntomas.
Dado que un paciente presenta un
subconjunto de síntomas S1=s1,. . .
Sk=sk, ¿qué enfermedad tiene el
paciente?
El problema consiste en calcular la
probabilidad de que el paciente
tenga la enfermedad ei, dado el
conjunto de valores s1, . . . , sk de los
síntomas S1, . . . , Sk.

Es decir, para i = 1, . . . , m, se desean
calcular las probabilidades
condicionales:
p(E = ei|S1 = s1, . . . , Sk = sk).


Se trata de un problema de
clasificación generalizado: Un
paciente puede ser clasificado en uno
o más grupos (enfermedades).
Se pueden obtener las probabilidades
de la tabla.
Diagnóstico médico

1.


2.
Los sistemas expertos probabilísticos
pueden utilizarse para resolver éstos y otros
problemas. Por ejemplo:
Pueden memorizar información. Uno
puede almacenar y recuperar
información de la BD.
Las enfermedades y los síntomas son
variables categóricas (binarias o
multinomiales).
Por ejemplo, información de una BD con
diez pacientes para el problema de
diagnóstico con cinco enfermedades
binarias y tres síntomas.
Pueden contar o calcular las frecuencias
absolutas y relativas de cualquier
subconjunto de variables a partir de la
BD. Estas frecuencias pueden utilizarse
para calcular las probabilidades
condicionales p(ei|s1, . . . , sk)
Diagnóstico médico

Esta probabilidad puede ser estimada
mediante

donde card(ei, s1, . . . , sk) es la frecuencia de
aparición en la BD de los pacientes con los
valores indicados de las variables.
Se pueden calcular las frecuencias asociadas
a cualquier combinación de valores de
síntomas y enfermedades contando el nº de
casos de la base de datos que coinciden con
la evidencia.
Por ejemplo, card(E ≠ e1|S1 = 1, S2 = 1) = 2
puesto que hay dos pacientes (los pacientes
1 y 3) que no presentan la enfermedad e1
pero muestran los síntomas S1 y S2.
Similarmente, card(E = e1|S1 = 1, S2 = 1) = 3,
card(S1 = 1, S2 = 1) = 5, etc. Entonces, ésta
puede calcularse usando (3.3), las
probabilidades condicionales asociadas a
una enfermedad dada y un conjunto de
s´ıntomas. Por ejemplo:





Los sistemas expertos pueden aprender de
la experiencia. Tan pronto como un nuevo
paciente es examinado y diagnosticado, se
añade la nueva información a la BD y se
cambian las frecuencias como
corresponda.
Por ejemplo, si un nuevo paciente que
presenta los síntomas S1 = 1, S2 = 1 y S3 = 0
se sabe que tiene la enfermedad e1, se
puede actualizar la base de datos con esta
nueva información sin más que incluir un
caso más.
Los sistemas expertos pueden tomar (o
ayudar a los expertos humanos a tomar)
decisiones tales como:



¿se tiene suficiente información como para
diagnosticar la enfermedad?
¿se necesitan nuevas pruebas clínicas? y si
la respuesta es positiva,
¿qué prueba o pruebas suministran la
máxima información sobre la enfermedad
que se sospecha tiene el paciente?
La Base de Conocimiento

La base de conocimiento (BC)
de un sistema experto (SE)
basado en reglas consta de:



La BC de un SE probabilístico:



el conjunto de objetos
(variables) y
el conjunto de reglas
conjunto de variables, {X1, . .
. , Xn}, y
función de probabilidad
conjunta definida sobre ellas,
p(x1, . . . , xn).
Construir la BC de un SE
probabilístico  definir la
función de probabilidad
conjunta de las variables.


Primera aproximación  establecer
la función de probabilidad
conjunta, asignando un valor de
probabilidad para cada
combinación de valores de las
variables.
Problema: inviable ya que necesita
una cantidad exponencial de
espacio
Ejemplo: con n variables binarias,
la función de probabilidad
conjunta más general tiene 2n
parámetros (p(x1, . . . , xn) para
toda realización {x1, . . . , xn} de las
variables)
Es peor aún si no conocemos todos los
valores {x1, . . . , xn}, lo que suele ser
usual

Simplificaciones para resolver
el problema


La primera aproximación anterior provocó muchas críticas al uso de la
probabilidad en los SSEE.
Sin embargo, en la mayoría de situaciones prácticas, muchos
subconjuntos de variables pueden ser independientes o condicionalmente
independientes.

Se pueden obtener simplificaciones del modelo general teniendo en cuenta
la estructura de independencia de las variables.


Simplificaciones:
1.
2.
3.
4.


Reducción importante del nº parámetros.
Modelo de Síntomas Dependientes (MSD).
Modelo de Síntomas Independientes (MSI).
Modelo de Síntomas Relevantes Independientes (MSRI).
Modelo de Síntomas Relevantes Dependientes (MSRD).
Estos son modelos ad hoc que se aplican principalmente en el campo
médico
Hay otros más generales y potentes (redes de Markov, redes Bayesianas, y
modelos especificados condicionalmente). Los veremos más adelante.
Retomando ejemplo
diagnóstico médico






Tenemos n síntomas S1, S2, …, Sn
Una variable aleatoria E, enfermedad que puede
tomar valores e1, …, em.
Problema: diagnosticar presencia de enfermedad
e, dado los síntomas s1, …, sn.
Se tiene la función de probabilidad conjunta
p(e,s1,…,sn).
La forma más general implica demasiados
parámetros.
Para reducirlos  Imponer hipótesis (restricciones)
entre ellos.

 Hacemos uso de los modelos mencionados
Modelo de
Síntomas Dependientes




Se suponen los síntomas dependientes.
Enfermedades independientes entre sí, dados los síntomas.
Como vemos en la figura, en el modelo MSD todo síntoma
se conecta con los demás síntomas y con todo valor
posible de E.
Así, la función de probabilidad conjunta se escribe
como:

p(ei, s1, . . . , sn) = p(s1, . . . , sn)p(ei|s1, . . . , sn).
Modelo de
Síntomas Dependientes
La ecuación se obtiene de «p(x, y) = p(x)p(y).», con X = {E} e
Y = {S1, . . ., Sn}. Ahora, p(ei|s1, . . . , sn) puede expresarse como:



Sólo incluye probabilidades “a priori” y verosimilitudes (probabilidades
condicionales de los síntomas para cada enfermedad). Estos valores
pueden estimarse a partir de la información objetiva dada por las
frecuencias de enfermedades y síntomas en la población.
Los parámetros necesarios para la base de conocimiento del MSD son:


Las probabilidades marginales p(ei), para todos los valores posibles de E.
Las verosimilitudes p(s1, . . . , sn|ei), para todas las combinaciones de
síntomas y enfermedades.
Complejidad Computacional
para el Modelo MSD

Para m enfermedades y n síntomas binarios, la
función de probabilidad marginal de E, p(ei),
depende de m − 1 parámetros (los m parámetros
deben sumar uno).



Se necesita especificar m − 1 parámetros para la
función de probabilidad marginal de E.
Para las verosimilitudes p(s1, . . . , sn|ei), se necesita
especificar (2n−1) parámetros (para n síntomas
binarios hay 2n parámetros, uno por cada
combinación de síntomas, que deben sumar 1) para
cada valor posible de E, un total de m(2n−1)
parámetros.
Por ello, el MSD requiere un total de:

m − 1 + m(2n − 1) = m2n − 1 parámetros.
Ejemplo uso Modelo de
síntomas dependientes (MSD)




Partimos del ejemplo del
adenocarcinoma, interesándonos la
enfermedad G, que puede tomar valor 𝑔
o 𝑔.
Hay tres síntomas binarios: D, P, V.
Conviene utilizar 1 (presencia del
síntoma) y 0 (ausencia).
Para definir el MSD, se necesita conocer:

Función de probabilidad marginal

Funciones de probabilidad condicional
de los síntomas dada la enfermedad:



p(ei)
p(d, v, p|ei)
Se requieren 2·23 − 1=15 parámetros
(𝑝 𝑔 , 𝑝 𝑑 = 0, 𝑣 = 0, 𝑝 = 0 𝐸 = 𝑔 𝑦
𝑝 𝑑 = 0, 𝑣 = 0, 𝑝 = 0 𝐸 = 𝑔 ) son redudantes)
Ejemplo uso Modelo de
síntomas dependientes



A partir de lo anterior se puede
calcular la probabilidad de cualquier
enfermedad dada cualquier
combinación de síntomas.
Por ejemplo, la función de
probabilidad condicionada de la
enfermedad dado que estén
presentes los tres síntomas se calcula
como sigue:
Dividiendo ahora por la constante de
normalización 0.2198 + 0.0039=0.2237,
se obtiene:
Modelo de Síntomas
Dependientes. Limitaciones


El principal problema del MSD es que requiere un nº muy
alto de parámetros.
Especificar las frecuencias para todas esas combinaciones
es muy difícil.



Se hace imposible al crecer los nºs de las enfermedades y
síntomas.
Por ejemplo, con 100 enfermedades y 200 síntomas, el nº de
frecuencias (parámetros) necesarios es mayor que 1062.
El caso estudiado supone síntomas binarios (sólo dos
posibles opciones, tales como fiebre, no fiebre; dolor, no
dolor; etc.).

Las dificultades se incrementan notablemente en el MSD en
casos en los que se tengan síntomas con múltiples opciones o
niveles (ej: fiebre alta, fiebre media, fiebre baja y no fiebre).
Modelo de
Síntomas Independientes

Las limitaciones comentadas imposibilitan trabajar con el modelo
MSD en muchos casos prácticos  resulta necesario simplificar el
modelo.
Una simplificación posible: suponer que, para una enfermedad
dada, los síntomas son condicionalmente independientes entre sí.
Los síntomas no están ligados, para indicar la independencia.

Como los síntomas condicionalmente independientes:


Modelo de
Síntomas Independientes

En base a lo anterior, se puede escribir la función de probabilidad
conjunta de la enfermedad E dados los síntomas s1, . . . , sn como:

La hipótesis de independencia modifica las probabilidades de todas las
enfermedades cuando se conocen nuevos síntomas.  La probabilidad
inicial de la enfermedad ei es p(ei), pero tras conocer los síntomas sj ,
para j = 1, . . . , k, resulta proporcional a p(sj |ei). Cada nuevo síntoma
conduce a un nuevo factor.
Los parámetros necesarios para la base de conocimiento del MSI son:



Las probabilidades marginales p(ei), para todos los valores posibles de E.
Las probabilidades condicionales p(sj|ei), para todos los valores posibles
del síntoma Sj y la enfermedad E.
Complejidad Computacional
para el Modelo MSI


Con las hipótesis de independencia de los
síntomas, el nº de parámetros se reduce
considerablemente.
Con m enfermedades posibles y n síntomas
binarios, el nº total de parámetros es:


m(n + 1) − 1.
Por ejemplo: con m = 100 enfermedades y n =
200 síntomas, se tienen 20,099 parámetros en
el MSI (en vez de más de 1062 parámetros
para el MSD).
Ejemplo uso Modelo de
síntomas independientes (MSI)

Partimos de:




Para especificar el MSI, se
necesita:



los historiales clínicos de dos
centros médicos, cada uno, de
ellos con N = 1000 pacientes;
dos valores de la enfermedad (𝑔
y 𝑔);
tres síntomas, D, V y P.
la probabilidad marginal, p(ei)
las probabilidades condicionales
de cada síntoma dada cada
enfermedad, p(d|ei), p(v|ei) y
p(p|ei).
Aunque los dos conjuntos son
muy diferentes, conducen a
idénticas probabilidades.
Ejemplo uso Modelo de
síntomas independientes (MSI)

Calculamos las probabilidades anteriores:

A partir de éstas calculamos la probabilidad condicional de E
dadas varias combinaciones de los síntomas para los dos centros
médicos.
Ejemplo uso Modelo de
síntomas independientes (MSI)

Por ejemplo, para el Centro Médico 1, el valor de p(g|d, v, p) se calcula:

El valor de p(g|d, v, p) según el MSI:

Dividiendo 0.2205 por la constante de normalización:


0.2205 + 0.0036 = 0.2241,
se obtiene y


p(𝑔 |d, v, p) = 0.2205/0.2241 = 0.9 8 y
p(𝑔 |d, v, p) = 0.0036/0.2241 = 0.02.
Modelo de Síntomas
Independientes. Limitaciones

La comparación entre las probabilidades verdaderas y las del MSI
muestra que los dos conjuntos de probabilidades son parecidos para
el Centro Médico 1, pero discrepan bastante para el 2. Por ejemplo,
el valor real de p(g|d, v, 𝑝) es 0, y MSI da 0.82.


Se tienen dos conjuntos de datos con las mismas probabilidades “a
priori” y mismas verosimilitudes; sin embargo, el MSI es apropiado para
reproducir uno de ellos y no, para el otro.


Puede concluirse que las probabilidades “a priori” y las verosimilitudes
no son suficientes para especificar un modelo probabilístico.
El ejemplo demuestra que el correcto comportamiento de un sistema
experto probabilístico se basa en la especificación correcta de la
función de probabilidad conjunta.


Esto prueba que el MSI falla al tratar de describir la probabilidad de los
datos del Centro Médico 2.
Es importante seleccionar bien el modelo probabilístico a utilizar en un
caso dado.
Aunque la hipótesis de independencia da lugar a una gran reducción
del nº de parámetros, en el MSI es todavía muy alto para ser práctico
en ciertos escenarios.  Se necesita simplificarlo aún más.
Modelo de Síntomas
Relevantes Independientes

Se puede conseguir mayor reducción del nº de
parámetros suponiendo que cada enfermedad tiene un nº
reducido de síntomas relevantes.


En consecuencia, para cada valor ei de la enfermedad E se
seleccionan los síntomas relevantes S1, . . . , Sr (pocos frente al
total) y los restantes se suponen independientes para ese E.
Por simplicidad, supóngase que S1, . . . , Sri son relevantes
para la enfermedad ei y que los restantes síntomas Sri+1, . .
. , Sn son irrelevantes. Según el MSRI, p(sj |ei) idéntica para
todos los síntomas irrelevantes para la enfermedad ei.
Modelo de Síntomas
Relevantes Independientes

En base a lo anterior, se puede escribir la función de probabilidad
conjunta de la enfermedad E dados los síntomas s1, . . . , sn como:
donde pj = p(sj |ei), que es la misma para todas las enfermedades para la que Sj es
irrelevante.
 Los parámetros necesarios para la base de conocimiento del MSRI son:



Las probabilidades marginales p(ei), para todos los valores posibles de E.
Las probabilidades condicionales p(sj|ei), para cada valor posible de E y cada uno
de sus síntomas relevantes Sj
Las probabilidades pj, para cada valor posible de E con al menos un síntoma
irrelevante. (pj = p(sj|ei) idéntica para todos los síntomas irrelevantes para ei)
Complejidad Computacional
para el Modelo MSRI

En la BC se necesita almacenar las probabilidades de todos los síntomas relevantes para cada
enfermedad, y la misma probabilidad para todos los síntomas irrelevantes para cada valor de E.

 Si se tienen m posibles enfermedades y n síntomas binarios, el nº de parámetros en MSRI es:

con ri el nº de síntomas relevantes para la enfermedad ei y a el nº de síntomas relevantes para todas
las enfermedades.
El nº de parámetros se reduce significativamente cuando ri es mucho menor que n. (hay pocos
parámetros dependientes de cada enfermedad)



Ejemplo: con 100 enfermedades y 200 síntomas, si ri = 10 para todas las enfermedades, el nº de
parámetros se reduce de 20,099 (MSI) a 1,299 (MSRI).
Se puede obtener MSRI a partir del MSI imponiendo restricciones adicionales en los parámetros
del MSI, ya que las probabilidades p(sj |ei) deben ser las mismas para todos los síntomas
irrelevantes para las enfermedades ei. El Nº restricciones es:
donde nj es el nº enfermedades para las que Sj es irrelevante.

Por ello el nº de parámetros de MSRI es el nº de MSI menos el nº restricciones:
Modelo de
Síntomas Relevantes
Independientes. Limitaciones
 El
MSRI reduce el número de parámetros
considerablemente.
 Desgraciadamente, es poco realista, ya
que los síntomas asociados a ciertas
enfermedades suelen producirse en grupos
o síndromes (no suelen darse de uno en
uno, sino agrupados).
 Por ello, puede ser poco razonable suponer
que los síntomas relevantes son
independientes.
Modelo de Síntomas
Relevantes Dependientes


Este modelo evita el inconveniente del MSRI.
El MSRD es el mismo que el MSRI pero sin obligar a los síntomas
relevantes a ser independientes, dada la correspondiente
enfermedad.




De esta forma, sólo los síntomas irrelevantes son independientes pero
los síntomas relevantes pueden ser dependientes.
Se trata de una solución de compromiso entre el MSD y el MSRI.
Para cada valor ei de la enfermedad E se seleccionan los síntomas
relevantes S1, . . . , Sr (pocos frente al total) y los restantes se suponen
independientes para ese E.
Supóngase que S1, . . . , Sri son relevantes para la enfermedad ei y
que los restantes síntomas Sri+1, . . . , Sn son irrelevantes.
Modelo de Síntomas
Relevantes Dependientes



En base a lo anterior, se puede escribir la función de probabilidad
conjunta de la enfermedad E dados los síntomas s1, . . . , sn como:
donde pj = p(sj |ei), que es la misma para todas las enfermedades para las que sj es irrelevante. La
idea es clasificar los síntomas en clústeres no mutuamente exclusivos y fuertemente dependientes
asociados a enfermedades.
Los parámetros necesarios para la base de conocimiento del MSRD son:



Las probabilidades marginales p(ei), para todos los valores posibles de E.
Las probabilidades condicionales p(s1, . . . , sri|ei), para todos los posibles valores de E y sus síntomas
relevantes S1, . . . , Sri.
Las probabilidades pj para cada valor de E con al menos un síntoma irrelevante. (Como en el MSRI, pj =
p(sj|ei) coincide para los síntomas irrelevantes para ei, es decir, p(sj|ei)=p(sj) )
Complejidad Computacional
para el Modelo MSRD

En base a lo anterior, para m enfermedades binarias y n síntomas binarios, el nº total de parámetros
en el MSRD es


Cuando ri = r para todos los valores ei, resulta m2r +n−1.
Además, si todos los síntomas son relevantes para todas las enfermedades (a = n y ri = n para todo ei), el
MSRD se convierte en el MSD.

Comparando los nºs de parámetros necesarios para especificar los modelos discutidos, para m = 100
enfermedades binarias, n = 200 síntomas binarios, y r = 10 síntomas relevantes por enfermedad
tenemos:

En el MSRD el nº de parámetros es muy reducido comparado con el MSD, a pesar de que es un
modelo realista, puesto que considera las dependencias entre los síntomas más importantes
(relevantes) para cada enfermedad.
Sin embargo, debido a la hipótesis de dependencia, el nº parámetros del MSRD es mayor que el de
MSI y MSRI.
Se puede reducir dividiendo el conjunto de síntomas relevantes en subconjuntos (bloques)
mutuamente independientes, considerando los síntomas en cada bloque dependientes.


La Base de Conocimiento.
Conclusiones

Se han discutido cuatro modelos ad hoc para describir las relaciones
existentes entre un conjunto de variables.




Más adelante se introducen modelos probabilísticos más generales:





El conjunto de parámetros necesario para definir la base de conocimiento
depende del modelo elegido.
Cada modelo tiene sus propias ventajas e inconvenientes.
Sin embargo, sólo se aplican en situaciones particulares.
modelos de redes de Markov
modelos de redes Bayesianas
modelos especificados por listas de relaciones de independencia, y
modelos especificados condicionalmente.
Sea cual sea el modelo elegido, la base de conocimiento debe
contener:


el conjunto de variables de interés y
el mínimo de parámetros (probabilidades o frecuencias) necesarios para
especificar la función de probabilidad conjunta de las variables.
El Motor de Inferencia

En los Sistemas Expertos Probabilísticos
encontramos 2 tipos de información:

Conocimiento:
Conjunto de variables, y probabilidades
asociadas necesarias para construir su función
de probabilidad conjunta
 Se almacena en la Base de Conocimiento (BC)


Datos:
Valores de algunas variables conocidas por el
usuario
 Se conoce como evidencia
 Se almacena en la Memoria de Trabajo (MT)

El Motor de Inferencia


El motor de inferencia emplea conocimiento
y datos para responder a las preguntas del
usuario.
Ejemplos:

Antes del examen por parte del doctor, ¿cuál
es la enfermedad más probable para el
paciente?
No hay evidencia disponible
 El conjunto de síntomas es vacío
 Problema: calcular la probabilidad marginal de
E, p(E = ei), i = 1, …, m

El Motor de Inferencia
 Ejemplos:

Dado un paciente con un conjunto de
síntomas S1 = s1, …, Sk = sk, ¿qué
enfermedad es más probable que tenga el
paciente?
 Evidencia:
s1, …, sk
 Problema: calcular la función de
probabilidad conjunta para cada
enfermedad ei dada la evidencia, es decir:

P(E = ei | s1, …, sk), i = 1, …, m.
El Motor de Inferencia


Probabilidad marginal: p (E = ei), se conoce como
probabilidad «a priori», ya que se calcula antes
de conocer la evidencia.
Probabilidad condicional: p (ei | s1, …, sn), se
conoce como probabilidad «a posteriori», al ser
calculada tras conocer la evidencia.


Se puede considerar la marginal como caso
particular de la condicional, con el conjunto de
síntomas conocido vacío.
Entre las tareas del motor de inferencia:

Calcular las probabilidades condicionales de
diferentes enfermedades al conocer nuevos
síntomas o datos.
El Motor de Inferencia

Entre las tareas del motor de inferencia:

Actualizar las probabilidades condicionales de las
enfermedades para todos los posibles valores de síntomas:

Decidir qué enfermedades tienen probabilidades
condicionales altas.


Generalmente se estudia primero un conjunto reducido y se
muestra al usuario (médicos y pacientes) para su validación.
El término p(s1,…, sk) actúa como constante de
normalización  Una decisión basada en el máximo
también valdría para ver la importancia relativa de las
enfermedades:
El Motor de Inferencia.
Limitaciones de Tma de Bayes


El teorema de Bayes se usa para calcular
fácilmente las probabilidades «a posteriori»
partiendo de pocas enfermedades y
síntomas.
Cuando el nº de variables (enfermedades
y/o síntomas) es alto (lo habitual en la
práctica) se necesitan métodos y modelos
más eficientes para calcular ambas
probabilidades «a priori» y «a posteriori».

Métodos de propagación de evidencia o
incertidumbre. (Los estudiaremos más adelante)
Control de la Coherencia

Problema serio de los Sistemas Expertos:


Incoherencias en su BC y/o en su MT
Razones de las incoherencias:




Conocimiento incoherente suministrado por los
expertos.
Datos incoherentes proporcionados por los
usuarios.
Hechos no actualizados por el MI.
Inexistencia de subsistema para controlar la
coherencia, evitando que llegue conocimiento
inconsistente a la BC y/o la MT.
Control de la Coherencia.
Ejemplos

Ejemplo: restricciones para dos variables.




Supongamos dos variables binarias E y S.
Las probabilidades necesarias serían p(e), p(s) y
p(s|e).
El sistema experto pregunta al usuario los
valores de p(e) y p(s), que deben satisfacer las
restricciones triviales 0 ≤ p(e) ≤ 1 y 0 ≤ p(s) ≤ 1.
Una vez definidas las anteriores, el sistema
pregunta al usuario los valores de p(s|e)

El sistema debe informar al usuario de las
restricciones a satisfacer, por ejemplo dando sus
cotas superior e inferior.
Control de la Coherencia.
Ejemplos

Algunos valores son redundantes, de modo que el
SE debería asignar automáticamente su valor sin
preguntar al usuario.

Ejemplo: si tenemos que

Entonces se tiene que:

Por lo que, conocido p(s), el SE no debería preguntar
al usuario los valores de p(s|e).


Solamente dos son necesarios: p(s=0|E=0) y p(s=1|E=0).
Además, ambas probabilidades deben sumar 1 
Solamente una de estas probabilidades es suficiente para
definir los parámetros de la BD.
Control de la Coherencia.


Además de las relaciones entre las
probabilidades que intervienen en la
definición de la función de probabilidad
conjunta, también otras condiciones que
deben cumplir las probabilidades para ser
consistentes.
El subsistema de control de la coherencia
debe informar al usuario de las
restricciones a las que se deben someter
las nuevas unidades de información.
Control de la Coherencia.
Ejemplos
 Ejemplo:

restricciones para dos conjuntos
Supongamos dos conjuntos A y B.
 Las
probabilidades que intervienen en la
definición de la BC de un sistema experto
probabilístico son p(A), p(B), p(A∪B) y p(A∩B).
 Estas probabilidades deben satisfacer las
restricciones siguientes:
Control de la Coherencia.
Ejemplos

La restricción p(A) + p(B) − 1 ≤ p(A ∩ B) se obtiene de:
(Esto es cierto porque p(𝐴∪𝐵) ≤ p(𝐴 )+ p(𝐵) = 1-p(A)+1-p(B))
 El sistema experto comienza preguntando al usuario los
valores de p(A) y p(B).


Estos valores deben satisfacer las dos primeras restricciones.
Una vez que p(A) y p(B) especificadas y comprobadas, el
subsistema de adquisición de conocimiento pregunta los
valores de p(A∩B) o de p(A∪B);


El sistema debe informar al usuario de las cotas inferior y
superior de estas probabilidades dadas en las dos últimas
restricciones.
En otro caso, podrían darse valores fuera de los intervalos de
coherencia.  Se violarían los axiomas de la probabilidad, y el
sistema podría generar conclusiones erróneas.
Control de la Coherencia.
Ejemplos

Supongamos p(A ∩ B) dada y
comprobada;
 entonces
se asignará automáticamente a
p(A∪B) el valor.
Control de la Coherencia.
Conclusión


De los ejemplos se puede deducir la complejidad del conjunto de
restricciones conforme aumenta el nº de subconjuntos.
Por tanto, el riesgo de que el usuario viole las restricciones
aumenta con el nº de variables.



En algunos modelos probabilísticos como los de redes Bayesianas
el control de la coherencia no es problema, puesto que los
modelos se construyen coherentes.
En otros modelos probabilísticos debe controlarse la coherencia.



En estas situaciones es importante disponer de un sistema capaz de
controlar la coherencia del conocimiento (Smith (1961)).
En algunos modelos probabilísticos el control de la coherencia es
una necesidad.
El subsistema de control de coherencia impide que el conocimiento
incoherente entre en la base de conocimiento y/o la memoria de
trabajo.
Más adelante veremos un método para comprobar la
consistencia de un modelo probabilístico.
Comparación
Sistemas Expertos Basados en
Reglas VS Probabilísticos
 Base

de Conocimiento:
SE basado en reglas:

Conocimiento:



SE basado en probabilidad:

Objetos
Conjunto de reglas.
Evidencia asociada a los
casos a analizar.


BC:


Fácil de implementar, sólo
es necesario utilizar
elementos simples, como
objetos, conjuntos de
valores, premisas,
conclusiones y reglas.
Conocimiento que a
almacenar limitado en
comparación con
probabilísticos.
Conocimiento:

Datos:



Datos:


Variables y sus posibles
valores
Función de probabilidad
conjunta.
Evidencia asociada a los
casos a analizar.
BC:



Conocimiento a almacenar
menos limitado.
Inconveniente: alto nº de
parámetros que manejan.
Difícil especificación y
definición como
consecuencia de lo anterior.
Comparación
Sistemas Expertos Basados en
Reglas VS Probabilísticos
 Motor

de Inferencia:
SE basado en reglas:


Las conclusiones se
obtienen de los
hechos aplicando las
diferentes estrategias
de inferencia, tales
como Modus Ponens,
Modus Tollens y
encadenamiento de
reglas.
El motor de inferencia
es rápido y fácil de
implementar.

SE basado en probabilidad:



El motor de inferencia es más
complicado que en el caso
de SE basados en reglas.
El motor de inferencia se
basa en la evaluación de las
probabilidades condicionales
utilizando distintos métodos
por los diferentes tipos de
sistemas expertos
probabilísticos
El grado de dificultad:


depende del modelo
seleccionado y
varía desde baja (modelos
de independencia) a alta
(modelos de dependencia
generales).
Comparación
Sistemas Expertos Basados en
Reglas VS Probabilísticos
 Subsistema

de Explicación:
SE basado en reglas:


La explicación es fácil,
ya que se sabe qué
reglas han sido utilizadas
para concluir en cada
momento.
El motor de inferencia
sabe qué reglas se han
utilizado en el
encadenamiento y han
contribuido a obtener
conclusiones y qué
reglas se han utilizado
sin éxito.

SE basado en probabilidad:



La información sobre qué
variables influyen en otras
está codificada en la función
de probabilidad conjunta.
La explicación se basa en los
valores relativos de las
probabilidades condicionales
que miden los grados de
dependencia.
Una comparación de las
probabilidades condicionales
para diferentes conjuntos de
evidencia permite analizar
sus efectos en las
conclusiones.
Comparación
Sistemas Expertos Basados en
Reglas VS Probabilísticos
 Subsistema

de Aprendizaje:
SE basado en reglas:

El aprendizaje
consiste en incorporar
nuevos objetos,
nuevos conjuntos de
valores factibles para
los objetos, nuevas
reglas o
modificaciones de los
objetos existentes, de
los conjuntos de
valores posibles, o de
las reglas.

SE basado en
probabilidad:

El aprendizaje
consiste en incorporar
o modificar la
estructura del
espacio de
probabilidad:
variables, conjunto
de posibles valores, o
los parámetros
(valores de las
probabilidades).
Descargar