RA-2006.pdf

Anuncio
RAZONAMIENTO APROXIMADO
EN LA INTELIGENCIA ARTIFICIAL
REALIDAD
El conocimiento que necesitamos para
desarrollar un Sistema basado en
Conocimiento tiene muchas veces las
siguientes características:
NO ES DEL TODO
CONFIABLE
INCOMPLETO
IMPRECISO
CONTRADICTORIO
Causas de inexactitud
La información
Generalmente no es del todo confiable
(falta de evidencias, excepciones)
Suele ser incompleta a la hora de tomar decisiones
(faltan datos provenientes de mediciones, análisis)
Diferentes fuentes pueden ser conflictivas,
redundantes, subsumidas
El lenguaje usado para transmitirla es
inherentemente impreciso, vago
REALIDAD
Las personas con esas fuentes de
conocimiento, dotadas de esas
características, razonamos y
muchas veces concluímos …
CAPACIDAD DE RAZONAR
APROXIMADAMENTE
PROBLEMA
Como modelizamos estas
características del conocimiento, de
modo de poder:
REPRESENTARLO
UTILIZARLO
REALIDAD
La lógica clásica es un buen modelo
para formalizar cualquier
razonamiento basado en información
certera (V o F)
NECESITAMOS OTROS FORMALISMOS
REALIDAD
El desarrollo de la IA ha incentivado
el estudio de formalismos que son
alternativos o complementarios a la
lógica clásica
INVESTIGACION Y DESARROLLO DE
OTROS FORMALISMOS
Ejemplos
Como representar en una BC ...
Si el paciente tiene el Signo1 y el Signo2
entonces el diagnóstico en el 75% de los
casos es D1 y en el 40% de los casos es D2
Y si se tiene…
Un paciente que evidencia Signo1 en un
80% y Signo2 en un 55%
QUE SE PUEDE INFERIR ???
Ejemplos
Como representar en una BC ...
Si el paciente tiene el Signo1 y el Signo2
entonces el diagnóstico en la mayoría de
los casos es D1 y en algunos casos es D2
Y si se tiene…
Un paciente que evidencia totalmente el
Signo1 y parcialmente el Signo2.
QUE SE PUEDE INFERIR ???
Ejemplos
Como representar en una BC ...
Si la humedad es alta, la presión es baja y
está muy nublado, entonces lloverá.
Y si se tiene…
Que la humedad es del 75%, la presión es
1002hp y esta nublado.
QUE SE PUEDE INFERIR ???
Ejemplos
Como representar en una BC ...
Si la humedad es alta, la presión es baja y
está muy nublado, entonces lloverá.
Y si se tiene…
Que la humedad es un poco alta, la
presión es baja y esta nublado.
QUE SE PUEDE INFERIR ???
INGENIERIA DEL CONOCIMIENTO
PROBLEMA
Tomar decisiones y realizar procesos de
razonamiento cuando el conocimiento
del dominio involucrado tiene distintas
características, puede ser:
INCIERTO
IMPRECISO
INCOMPLETO
NO-MONOTONO
CONOCIMIENTO INCIERTO
El conocimiento se expresa mediante predicados
precisos pero no podemos establecer el valor de
verdad de la expresión
Ejemplos:
•Es posible que mañana llueva
Mañana llueve CF
•Creo que el auto era rojo
El auto es rojo CF
CONOCIMIENTO INCIERTO
Cuando no podemos establecer la verdad o
falsedad de la información
Debemos evaluar la : PROBABILIDAD
POSIBILIDAD
NECESIDAD/PLAUSIBILIDAD
GRADO DE CERTEZA...
De que la información sea verdadera
MEDIDA DE
(EVENTO) = VALOR / VALORES
INCERTIDUMBRE
bivaluado
CONOCIMIENTO IMPRECISO
El conocimiento cuenta con predicados o
cuantificadores vagos (no precisos)
Ejemplos:
•Pedro tiene entre 20 y 25 años.
•Juan es joven
•Mucha gente juega al fútbol
•El espectáculo es para gente grande.
CONOCIMIENTO IMPRECISO
Si la variable X toma valores en S
•Proposiciones precisas
{p: ¨X es s¨ / s ∈ S }
•Proposiciones imprecisas
{p: ¨X es r¨ / r ⊂ S }
* Imprecisa - no borrosa
Si r es un conjunto clásico
* Imprecisa - borrosa (fuzzy)
Si r es un conjunto borroso (fuzzy)
CONOCIMIENTO INCOMPLETO
Se debe tomar decisiones a partir de
información incompleta o parcial.
Esto se suele manejar a través de supuestos
o valores por defecto.
Ejemplo:
Si el paciente tiene S1, S2 y S3 entonces
tiene una infección a Bacterian
S3 ???
CONOCIMIENTO NO-MONOTONO
La información recibida a partir de distintas
fuentes o en diferentes momentos es conflictiva
y cambiante.
Ejemplo:
Si el vuelo nº 1340 sale en forma puntual y no tiene escalas
técnicas arribará a Madrid a las 8 hs
1º Supongo no-escala técnica y concluyo arribará a Madrid a
las 8 hs
2º Aviso de escala técnica, debo revisar la conclusión del
horario de arribo.
RAZONAMIENTOS
TIPOS DE CONOCIMIENTO
INCIERTO
RAZONAMIENTOS
APROXIMADO
IMPRECISO
INCOMPLETO
POR DEFECTO
NO-MONOTONO
NO-MONOTONO
RAZONAMIENTO APROXIMADO (RA)
Trata como
REPRESENTAR
COMBINAR y
REALIZAR INFERENCIAS
con conocimiento impreciso y/o incierto
RA: Esquema general en sistemas
basados en reglas de producción
Hipótesis :
• Si X es A entonces Y es B (λ)
• X es A*
Conclusión
• Y es B* ???
REGLAS IMPRECISAS: A y/ o B son imprecisos
REGLA INCIERTA: λ Grado de certeza
REGLAS HIBRIDAS: Problema complejo
RA: Distintos modelos
MODELOS PROBABILISTICOS
MODELO EVIDENCIAL
MODELO POSIBILISTICO
Todos tratan la incertidumbre en un
sistema de producción
Sólo el modelo posibilístico puede tratar la
imprecisión.
MODELOS
PROBABILISTICOS
Probabilidad - Axiomas
• P: PROP → [0,1]
• P(V) = 1 y P(F) = 0
• P(A ∨ B) = P(A)+P(B)- P(A∧B)
• Propiedad
P( ¬A) = 1- P(A)
Probabilidad - Conceptos
• P: PROP → [0,1]
• Probabilidad a priori o incondicional
– P(A) o P(X=S)
• Variables aleatorias: X, Y
• Dominio: {x1, x2 , ..., xn } exhaustivo y
excluyente
• Probabilidad condicional:
– P(A/B) P(X/Y) tabla valores P(X= xi /Y= yk)
– P(A/B) = P(A∧B) / P(B)
Distribución de Probabilidad Conjunta
DolorD
¬DolorD
0.04
0.06
¬Caries 0.01
0.89
Caries
• P(Caries ∨ DolorD) = 0.04 + 0.06 + 0.01= 0.11
• P (Caries / DolorD) =
= P(Caries ∧ DolorD) / P(DolorD)=
= 0.04 / 0.04+0.01 = 0.8
Problema exponencial con la cantidad de
variables
La regla de Bayes
• P(B/A) = P(A/B)*P(B) / P(A)
Es la base de todos los sistemas de
inferencia probabilística
RA: Modelos probabilísticos
Modelo utilizado en Prospector
(Duda-Hart´ 81)
Modelo utilizado en Mycin
(Shortliffe-Buchanan´ 75-84 )
Redes Bayesianas (Redes de
Creencias - Pearl´86)
PROSPECTOR
(Duda et al, 1976)
Sistema experto en prospección de minerales
El sistema de RA utilizado es un
modelo probabilistico-Bayesiano
con algunas modificaciones
PROSPECTOR
Representación de la incertidumbre:
Hechos
Reglas
E → H
probabilidades a priori
Grados de necesidad (LN)
Suficiencia (LS)
Premisas complejas:
P(A ∧B)
Min(P(A), P(B))
P(A∨B)
Max (P(A), P(B))
P(¬A)
1-P(A)
PROSPECTOR
Inferencias: Actualizar P(H) dada E→ H
Odds: O(H) = P(H) / P(¬ H)
E es cierto:
O(H/E) = LS O(H)
E es falso:
O(H/¬ E) = LN O(H)
LS = P(E/H) / P(E/ ¬ H)
LN = P(¬ E/H) / P(¬ E/ ¬ H)
Son proporcionados por el experto, pero no son
independientes (LS < 1 → LN >1, …)
PROSPECTOR
Inferencias: Actualizar P(H) dada E→ H
y una evidencia E’
P(H/E’) = P(H/E) P(E/E’) + P(H/ ¬ E) P(¬ E/E’)
Si P (E/E’) = P(E) → P(H/E’) = P(H)
Esto generalmente no se da debido a que las
probabilidades suelen ser subjetivas
Alternativas de corrección
Implementa una forma de combinación paralela
E1→ H, … En→ H (LSi, LNi)
PROSPECTOR
Modelo de RA implementado en Prospector
es un modelo ad hoc, cuasi-Bayesiano
Ejemplo de Regla:
IF: Las rocas volcánicas en la región son
contemporáneas con el sistema intrusivo.
THEN: (LS,LN) el nivel de erosión es
favorable para un depósito de cobre.
PROSPECTOR
Modelo de RA implementado en Prospector
es un modelo ad hoc, cuasi-Bayesiano
Dio buenos resultados para esta
aplicación, el SE permitió encontrar
depósitos de minerales (molibdeno)
Hay teoremas que limitan el uso del
modelo de combinación paralela planteado
No fue transportado a otras aplicaciones
MYCIN
(Buchanan&Shortliffe, 1975)
Sistema Experto en enfermedades infecciosas
Para valorar la confianza que merece H dada la
evidencia E (E →H) utiliza factores de certeza
CF(H,E) = MB(H,E) - MD(H,E)
MB y MD tienen su origen en relaciones
probabilísticas:
Si MB(H, E)>0 entonces MD(H, E)=0 y
si MD(H, E)>0 entonces MB(H, E)=0
MYCIN
CF ∈ [-1,1] y refleja un equilibrio entre
las evidencias a favor y en contra
Premisas complejas:
CF (E1∧E2) = Min (CF(E1), CF(E1))
CF (E1∨ E2) = Max(CF(E1), CF(E1))
MYCIN
Combinación paralela
E1
C1
HC?
E2 C2
Premisas complejas:
Si C1 y C2 ≥ 0 C = C1+C2 - C1C2
Si C1.C2 < 0 C = C1+C2/ 1 – min|C1,C2|
Si C1 y C2 < 0 C = C1+C2+C1C2
MYCIN
Propagación de los CFs
C1
C2
E1
E2
H
Si C1 ≥ 0
Si C1< 0
C = C1C2
C = - C1 CF(H, ¬E2)
0 si no se conoce
CF(H,¬E2))
C??
MYCIN
EL MODELO DE RAZONAMIENTO
APROXIMADO PARA MANEJO DE LA
INCERTIDUMBRE, BASADO EN LOS CFs,
UTILIZADO EN MYCIN:
Si bien tiene poco fundamento teórico
•Alguna base en teoría de probabilidades
•Regla de combinación de Dempster-Shafer
Ha sido muy utilizado en el desarrollo
de SE e implementado en algunos Shells
REDES BAYESIANAS
RA: Redes Bayesianas
Para representar la dependencia que existe
entre determinadas variables, en
aplicaciones complejas, se utiliza una
estructura de datos conocida como
Red Bayesiana, Red de creencias,
Red Probabilística o Red causal.
Esta estructura sirve para especificar de
manera concisa la distribución de
probabilidad conjunta.
RA: Redes Bayesianas
REDES DE RELACIONES PROBABILISTICAS
ENTRE PROPOSICIONES (variables aleatorias)
RELACIONADAS SEMANTICAMENTE (relaciones
causales)
REDES BAYESIANAS
NODOS
PROPOSICIONES (variable o
conjunto de variables)
ARCOS
RELACIONES CAUSALES
(X ejerce influencia directa sobre Y)
PESO DE ARCOS
PROBABILIDAD CONDICIONAL
(Tabla de Probabilidad Condicional)
RA: Redes Bayesianas
Hay que establecer:
Topología de la red
A los expertos les resulta
fácil determinar las dependencias entre conceptos
Probabilidades condicionales
Tarea más compleja (datos
estadísticos, subjetivos, utilizar otras técnicas)
RA: Redes Bayesianas
Topología de la red:
Podría considerarse como una base de
conocimientos abstractos, válida en una gran
cantidad de escenarios diversos,
Representa la estructura general de los procesos
causales del dominio
RA: Redes Bayesianas
La incertidumbre inherente a los distintos
enlaces (relaciones causales) representan las
situaciones no representadas explícitamente.
Las probabilidades resumen un conjunto de
posibles circunstancias en que pueden ser
verdaderas (falsas) las variables de un nodo.
RA: Redes Bayesianas
EJEMPLO
A
C
B
D
E
Del grafo, que representa las relaciones
causales, se puede sacar la distribución
conjunta:
p ( A, B, C, D, E ) = P (E / C) P (D / A,C) P (C / A) P(B / A) P(A)
RA: Redes Bayesianas
En general, es posible calcular cada una de
las entradas de la distribución conjunta
desde la infomación de la red
P(x1, …, xn) = Π P(xi / Padres (xi))
i= 1,n
RA: Redes Bayesianas
EJEMPLO (Norvig &Russell / Judea Pearl)
Una casa tiene una alarma que se activa
ante intento de robo, pero puede activarse ante
temblores (el escenario es en Los Angeles).
Dos vecinos, Juan y María se han ofrecido a
llamar al dueño de la casa al trabajo, si escuchan
la alarma. Juan a veces confunde el sonido de la
alarma con otros sonidos, pero llama de todos
modos y María a veces no la escucha por otras
fuentes de sonido que tiene encendida (TV,
Música).
RA: Redes Bayesianas
EJEMPLO
Objetivo :Realizar distintas de inferencias
Con la evidencia de quien ha llamado
y quien no
Cual es la Probabilidad de robo????
P(R/¬J,M)
RA: Redes Bayesianas
EJEMPLO
TOPOLOGIA DE LA RED
Robo
Temblor
Alarma
Juan-llama
María-llama
RA: Redes Bayesianas
EJEMPLO
Hay que especificar la tabla de probabilidad condicional de
cada nodo.
Para el nodo Alarma:
ROBO
TEMBLOR
P(ALARMA/ R,T)
V
F
V
V
0.950
0.050
V
F
0.950
0.050
F
V
0.290
0.710
F
F
0.001
0.999
EJEMPLO
P(R)
Robo
R
T
V
V
0.950
V
F
0.950
F
V
0.290
F
F
0.001
P(T)
0.001
Temblor
0.002
P(A/ R,T)
Alarma
A
Juan-llama
A
V
0.70
F
0.01
P(J)
V
0.90
F
0.05
P(M)
María-llama
RA: Redes Bayesianas
EJEMPLO (Judea Pearl)
Como ejemplo podemos calcular la probabilidad del evento
de que suene la alarma, sin que se haya producido robo ni
temblor, habiendo llamado Juan solamente:
P(J ∧ ¬M ∧ A ∧ ¬R ∧¬T ) = P(J/A) P(¬M/A)
P(A/ ¬R ∧¬T) P(¬R) P(¬T)
Si la Red Bayesiana es una representación de la
probabilidad conjunta, sirve para responder consultas del
dominio
P(R / J ∧ ¬M ) ???
RA: Redes Bayesianas
INDEPENDENCIA: Se hace explícita mediante la
separación de grafos.
SE CONSTRUYE INCREMENTALMENTE por el
experto agregando objetos y relaciones.
Los arcos no deben considerarse estáticos, representan
restricciones sobre la certeza de los nodos que unen
p (A / B) cuantifica la certeza de B → A
si lo que se conoce es una evidencia e de que B es
cierto
p (A/B,e)
RA: Redes Bayesianas
Inferencias: Belief revision
Consiste en encontrar la asignación global que
maximice cierta probabilidad
Puede usarse para tareas explicatorias/diagnóstico
Básicamente a partir de cierta evidencia, nuestra
tarea es encontrar un conjunto de hipótesis que
constituyan la mejor explicación de las evidencias
(razonamiento abductivo)
Encontrar asignaciones a los nodos N1...Nj
/ (P(E / N1,…,Nj)) sea máxima.
RA: Redes Bayesianas
Inferencias: Belief updating
Consiste en determinar la mejor instanciación
de una variable, dada una evidencia.
Es la actualización de probabilidades de un
nodo dadas un conjunto de evidencias:
(P(Ni/E1,…,En))
Ejemplo: determinar la probabilidad de robo
sabiendo que Juan llama y María llama.
P(R/J,M)
MODELOS PROBABILISTICOS
Problema de las asignaciones de
probabilidad (estadísticas o evaluaciones
subjetivas?)
Mycin y Prospector son modelos mas bien
ad hoc, con limitaciones, pero que
funcionaron muy bien en esos dominios
Las Redes Bayesianas son modelos más
cercanos a un modelo probabilístico puro y
permite la representación explícitas de las
dependencias del dominio en la red.
MODELO EVIDENCIAL
RA: MODELO EVIDENCIAL
Dempster (67) y Shafer (76)
Esta teoría puede considerarse una
extensión de la teoría de probabilidad
Asume que no todos los resultados de una
experiencia dada pueden ser observados de
una forma precisa.
No impone a la distribución de probabilidad
que se refiera únicamente a eventos
elementales.
RA: MODELO EVIDENCIAL
No impone a la distribución de
probabilidad que se refiera únicamente a
eventos elementales.
Los elementos de los cuales se tiene
alguna información (focales) pueden
superponerse y no recubrir X
INFORMACION IMPRECISA E INCOMPLETA
RA: MODELO EVIDENCIAL
Formalización
Frame de discernimiento (discerrnment):
• X el conjunto de todos los valores de x
Asignación básica de probabilidad:
• m: P(X) → [0,1] donde
• m(φ
φ)=0
• Σ m(A) = 1
A ∈P(X)
RA: MODELO EVIDENCIAL
Formalización
X = {p1, p2 , p3 , p4 } frame of discernment
A = {A1 , A2 , A3 , A4 }
A1 = p1 A2 = p2 A3 = p3 ∨ p4
A4 = p∨
∨ p2 ∨ p3 ∨ p4
m: P(X) → [0,1] donde
• Σ m(A) = 1
A ∈P(X)
RA: MODELO EVIDENCIAL
Ejemplo: color de ojos
X = {M , A , V , G } frame of discernment
A = {A1 , A2 , A3 , A4 }
A1 = M , A2 = A , A3 = V ∨ G
A4 = M ∨ A ∨ V ∨ G
m(M) = 0.6
m(A) = 0.2
m(V ∨ G) = 0.1
m(M ∨ A ∨ V ∨ G ) = 0.1
RA: MODELO EVIDENCIAL
Formalización
Credibilidad
• Cr (A) = Σ m(B)
B ⊂A
Plausibilidad
• Pl (A) = 1 – Cr(¬
¬A)
• Pl (A) = Σ m(B)
B ∩A≠Φ
Prob(A)
[ Cr (A), Pl (A) ]
RA: MODELO EVIDENCIAL
Ejemplo:
Credibilidad de A∨ V∨ G
• Cr (A∨
∨ V∨
∨ G ) = 0.2+0.1 = 0.3
Plausibilidad
• Pl (A∨
∨ V∨
∨ G ) = 0.2+0.1+0.1 = 0.4
Prob(A∨
∨ V∨
∨G)
[ 0.3,0.4 ]
RA: MODELO EVIDENCIAL
Propiedades
• Cr (A) ≤ Pl(A)
• Cr (A) + Cr (¬
¬ A) ≤ 1
• Pl (A) + Pl (¬
¬ A) ≥ 1
• Cr (A) = 0 → Cr (¬
¬ A)=1
• Cr (¬
¬ A) = 1 → Cr (A) = 0
RA: MODELO EVIDENCIAL
Observaciones
Representación de Ignorancia
• m(X) = 1 y m(A)=0 ∀A ⊂ X
• Cr(A)=0 y Pl(A)=1
Si A1 ⊂ A2 ⊂ ... ⊂ An
• Cr(Ai and Aj) = Min ( Cr(Ai), Cr(Aj) )
• Pl (AiorAj) = Max ( Pl(Ai), Pl(Aj) )
• Medidas de necesidad y posibilidad (Zadeh)
RA: MODELO EVIDENCIAL
Observaciones
Si los An forman una partición de X y si
los eventos son elementales
(Los conjuntos focales están acomodados)
• Cr(A) = Pl(A)= P(A) probabilidad
El modelo es una extensión
de la teoría de probabilidad
RA: MODELO EVIDENCIAL
Regla de combinación de Dempster
Sean m1 y m2 asignaciones básicas del
mismo frame X.
Obtenemos m12
• m12 (φ
φ) = 0
• m(A) = Σ m1 (B) m2 (C)
B ∩ C=A
• Se normaliza:
m12 (A) = m(A) / Σ m1 (B) m2 (C)
B ∩ C≠Φ
≠Φ
RA: MODELO EVIDENCIAL
Regla de combinación de Dempster
Fórmula utilizada por Mycin para combinar dos
reglas, considerando {A,X} como focales
Los resultados son válidos si
Σ m1 (B) m2 (C) es próximo a 1
B ∩ C≠Φ
Resalta los items de concordancia entre distintas
fuentes, pero da poca información del conflicto
RA: MODELO EVIDENCIAL
Limitaciones
Las combinaciones lógicas (¬ ∧ ∨) no están
resueltas para el caso más general.
Hay algunos intentos de resolver el procesos de
las inferencias en un caso general (Modus Ponens
en Modelo Evidencial)
La combinación paralela se puede resolver con la
regla de Dempster si las fuentes de información
no son muy distintas.
Descargar