şÿ t e s i i i i i i i

Anuncio
UNIVERSIDAD VERACRUZANA
FACULTAD DE MATEMÁTICAS
Introducción a las Redes
Bayesianas mediante un relato
de misterio
TESIS
que para aprobar la Experiencia Educativa
Experiencia Recepcional
Correspondiente al Plan de Estudios de la
Licenciatura en Matemáticas
P R E S E N T A:
Marı́a Cristina Ordaz Salazar
DIRECTORES DE TESIS:
Francisco Sergio Salem Silva
Vı́ctor Pérez Garcı́a
Abril del año 2014
Xalapa, Ver. México
Agradecimientos
Quiero agradecer a todas las personas que hicieron posible que yo llegara hasta
aquı́, especialmente a mis padres.
A mis amigos, quienes me dieron la motivación para continuar, gracias a las circunstancias por haber conocido personas tan geniales.
Especialmente quiero agradecer a una persona muy importante para mı́, que siempre
estuvo ahı́ para hacerme compañı́a, quien es el motivo principal de mis sonrisas.
2
“Cuando se ha eliminado lo imposible, lo único que queda, por muy improbable que
parezca, es la verdad”.
3
Índice general
Agradecimientos
2
3
Introducción
6
1. Conceptos básicos de Probabilidad e Inferencia Bayesiana
9
1.1. Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
1.1.1. Probabilidad Condicional e Independencia . . . . . . . . . . .
11
1.1.2. Relevancia e Información preliminar . . . . . . . . . . . . . . .
13
1.1.3. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . .
14
1.1.4. Verosimilitud y Probabilidad . . . . . . . . . . . . . . . . . . .
15
1.1.5. Las Formas Momiales del Teorema de Bayes . . . . . . . . . .
16
1.1.6. Variables Aleatorias y Distribuciones de Probabilidad . . . . .
18
1.2. Inferencia Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
1.2.1. Variables aleatorias y probabilidades en aplicaciones Bayesianas 21
1.2.2. Ejemplo de inferencia Bayesiana . . . . . . . . . . . . . . . . .
22
1.2.3. Del Teorema de Bayes a las Redes Bayesianas . . . . . . . . .
24
2. Introducción a las Redes Bayesianas
25
2.1. Gráficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
2.2. Redes Bayesianas . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
2.2.1. Flujo de información en redes . . . . . . . . . . . . . . . . . .
31
2.2.2. Independencia condicional y d-separación . . . . . . . . . . . .
35
2.2.3. La cubierta de Markov . . . . . . . . . . . . . . . . . . . . . .
36
4
Índice general
5
2.2.4. Definición formal de Red Bayesiana . . . . . . . . . . . . . . .
2.2.5. Construcción de Redes Bayesianas . . . . . . . . . . . . . . . .
2.2.6. Relevancia y Causalidad . . . . . . . . . . . . . . . . . . . . .
3. Aplicaciones de las Redes Bayesianas
3.1. Aplicación 1: El Sabueso de los Baskerville . . . . .
3.1.1. Introducción . . . . . . . . . . . . . . . . . .
3.1.2. Información preliminar y evidencia . . . . .
3.1.3. Construcción de un argumento probabilı́stico
3.1.4. Razonando con evidencia total . . . . . . . .
3.1.5. Solución mediante una Red Bayesiana . . .
3.1.6. Resolución alternativa . . . . . . . . . . . .
3.1.7. Uso del paquete gRain en R . . . . . . . . .
3.2. Aplicación 2: La Falacia del Fiscal en R . . . . . . .
3.3. Aplicación 3: La Paradoja de Simpson . . . . . . .
3.3.1. Uso del paquete gRain para los tres modelos
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
36
37
41
43
43
43
46
46
49
51
55
58
59
61
65
Conclusiones
67
A. Códigos de R
A.1. Generalidades . . . . . . . . . . . . . . . . .
A.1.1. Resumen de las funciones . . . . . .
A.2. Código para “El Sabueso de los Baskerville”
A.3. Código para “La Falacia del Fiscal” . . . . .
A.4. Código para “La Paradoja de Simpson” . . .
A.4.1. Modelo (a) . . . . . . . . . . . . . .
A.4.2. Modelo (b) . . . . . . . . . . . . . .
A.4.3. Modelo (c) . . . . . . . . . . . . . . .
68
68
68
69
71
72
72
73
74
Bibliografı́a
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
75
Introducción
Las Redes Bayesianas son una forma gráfica de representar las variables que resultan de interés en situaciones de incertidumbre y que requieren de la utilización de
inferencia para su solución. Son útiles ya que se puede visualizar la estructura del
problema, en forma lógica y secuencial.
El objetivo de este trabajo es mostrar la utilidad de las Redes Bayesianas cuando se trata de resolver problemas causales de interés. Esto se hará mediante tres
aplicaciones, que son explicadas en el capı́tulo 3. En los capı́tulos 1 y 2 se dan los
conceptos preliminares para este propósito.
Es necesario comprender el razonamiento Bayesiano, para esto, se pueden tomar
como ejemplo las historias clásicas de detectives que muestran situaciones en las que
se aplica este razonamiento.
Las historias de detectives son un subgénero de la literatura de misterio, que tuvieron su época dorada en el siglo XIX, donde podemos encontrar relatos de grandes
escritores como Emile Gaboriau, Edgar Allan Poe y Sir Arthur Conan Doyle, quienes
crearon tres detectives que se han convertido en clásicos. La importancia de estos
personajes de ficción para este trabajo, radica en el tipo de razonamiento que utilizaban al resolver casos policiacos. En [3] se hace un análisis de todos ellos.
Emile Gaboriau creó a Monsieur Lecoq quien era un detective novato, sin embargo,
dejó varias frases que resaltan en sus dos únicas novelas: “Siempre sospecha de lo
que parece probable, y comienza a creer en lo que parece increı́ble”, “Desconfı́a de
6
Introducción
7
todas las circunstancias que estén a favor de tus deseos” y “Siempre desconfı́a de lo
que parece probable”.
Dentro de las obras de Edgar Allan Poe, se encuentran aquellas que relatan las aventuras de C. Auguste Dupin, un detective que resolvı́a los casos más inverosı́miles.
La importancia de Dupin radica en su facultad de análisis que utiliza para eliminar
todas las posibilidades y encontrar la explicación que es necesariamente la correcta.
Por último, se debe mencionar a Sir Arthur Conan Doyle, quien creó a Sherlock
Holmes. Lo que hacı́a especial a Sherlock Holmes al trabajar en un caso era que
observaba hasta el más mı́nimo de los detalles, para ası́, formular hipótesis más
exactas. Por lo que después, sólo tenı́a que eliminarlas una por una y dar con la correcta. Ası́ era uno de sus medios de trabajo, por medio de la inducción eliminativa.
Sólo hay que recordar la famosa frase que aparece en “El Signo de los Cuatro” y que
se ha convertido en el lema de Sherlock Holmes y su precepto principal:
“Cuando se ha eliminado lo imposible, lo único que queda, por improbable que parezca es la verdad”
Además, Holmes menciona algo muy interesante en el relato “Estudio en Escarlata”:
“Son muchas las personas que, si usted les describe una serie de hechos, le anunciarán cuál va a ser el resultado. Son capaces de coordinar en su cerebro los hechos, y
deducir que han de tener una consecuencia determinada. Sin embargo, son pocas las
personas que, diciéndoles usted el resultado, son capaces de extraer de lo más hondo
de su propia conciencia los pasos que condujeron a ese resultado. A esta facultad me
refiero cuando hablo de razonar hacia atrás; es decir, analı́ticamente.”
El párrafo anterior también muestra con claridad lo que Poe trató de mostrar en
las historias de Dupin y aquı́ aparece explicado por Holmes: el Teorema de Bayes.
Introducción
8
Si el precepto de Holmes se ve desde un punto de vista Bayesiano, a la hipótesis
más improbable se le debe asignar una probabilidad a priori muy pequeña pero no
nula, ya que la probabilidad a posteriori de la hipótesis tenderá a la unidad si todas
las hipótesis que competı́an con ella se eliminan.
A continuación se dará una breve explicación de los problemas que se presentarán
en este trabajo:
El problema en “El Sabueso de los Baskerville” da una muestra del
razonamiento Bayesiano, presente en las historias de Sherlock Holmes y su
solución está fundamentada en el Teorema de Bayes. Este problema se analiza
paso a paso en el capı́tulo 3, se formulan hipótesis y se obtiene una solución
con ayuda de una Red Bayesiana.
La Falacia del Fiscal es un problema muy importante debido al impacto que
puede tener, principalmente, en asuntos legales. Esta falacia también se conoce
como La Falacia de la Condicional Transpuesta, ya que la probabilidad P (A|B)
se confunde con P (B|A), y esto puede traer consecuencias en algún caso
judicial donde aparezca esta falacia. Es importante poder identificar cuándo
se está haciendo uso de esta falacia, para evitar algún acusamiento injusto. En
el capı́tulo 3 se presenta un ejemplo de esto y se explica haciendo uso de una
Red Bayesiana.
La Paradoja de Simpson, es un problema famoso e importante dentro de
la Estadı́stica, esta paradoja debe su nombre a Edward H. Simpson, quien
centró su atención en varios problemas estadı́sticos donde los datos reunidos
de una población, producı́an una conclusión opuesta cuando se dividı́an en
subpoblaciones. Se menciona en [6] que Udny Yule nombró como paradoja
a este fenómeno en 1903, aunque Simpson la describió hasta 1951. Por esto,
también se le conoce como Efecto de Yule-Simpson.
Además, se dará solución a estas aplicaciones mediante el paquete gRain del software
R, que contiene las herramientas necesarias para realizar inferencia sobre una
Red Bayesiana, construida también mediante este paquete. Los códigos para cada
solución, se muestran y explican en el apéndice A.
Capı́tulo 1
Conceptos básicos de Probabilidad
e Inferencia Bayesiana
En este capı́tulo se darán conceptos básicos de probabilidad e inferencia Bayesiana
necesarios para el estudio de las Redes Bayesianas.
1.1.
Probabilidad
El concepto de probabilidad tiene una diversa y gran historia, que incluye varias
aproximaciones filosóficas. Se ha considerado a la probabilidad como una razón, como una frecuencia relativa y como un grado de creencia. En este trabajo el término
probable se considerará como un grado de creencia al que se le asignan valores numéricos para mayor precisión, éste se acompañará de leyes bien definidas. Además, sólo
se trabajará con probabilidades en espacios discretos.
La siguiente definición fue tomada de [2].
Definición 1.1 (Grado de creencia). Un grado de creencia es un número que se le
asigna a una proposición cuando ésta no se puede declarar como un hecho. También
se le llama probabilidad subjetiva, ya que esta probabilidad puede no ser la misma
para todas las personas.
OBSERVACIÓN: Cuando se es capaz de calcular las probabilidades mediante ra9
Capı́tulo 1. Conceptos básicos de Probabilidad e Inferencia Bayesiana
10
zones o frecuencias relativas, estas coinciden la mayorı́a de las veces con los grados
personales de creencia.
De aquı́ en adelante, la interpretación de la probabilidad como grado de creencia
se tratará con las mismas leyes que se usan con “probabilidad objetiva”, es decir, la
probabilidad que puede medirse mediante experimentos.
Se usa el término experimento para referirse a cualquier tipo de proceso en el cual
el resultado es incierto. A cada resultado del experimento se denomina evento. El
conjunto de eventos se llama espacio muestral.
Definición 1.2. Supóngase que se tiene un espacio muestral Ω donde sus n
elementos distintos son:
Ω = {a1 , a2 , ..., an }
Una función P : 2Ω → R es llamada una función de probabilidad si satisface las
siguientes condiciones:
0 ≤ P ({ai }) ≤ 1, para 1 ≤ i ≤ n.
P ({a1 }) + P ({a2 }) + ... + P ({an }) = 1.
Para cada evento A = {ai1 , ai2 , ..., aik }, se tiene P (A) = P ({ai1 }) + P ({ai2 }) +
... + P ({aik }).
El par (Ω, P ) es llamado espacio de probabilidad.
Teorema 1.1. Sea (Ω, P ) un espacio de probabilidad. Entonces,
P (Ω) = 1.
0 ≤ P (A) ≤ 1 para cada A ⊆ Ω.
Para A y B ⊆ Ω tales que A ∩ B = φ,
P (A ∪ B) = P (A) + P (B).
(1.1)
Capı́tulo 1. Conceptos básicos de Probabilidad e Inferencia Bayesiana
11
En general, para A1 , A2 ,..., An eventos disjuntos tales que Ai ∩ Aj = φ para
i 6= j, se tiene,
P(
n
[
Ai ) =
i=1
n
X
P (Ai ).
(1.2)
i=1
NOTA: En este trabajo se describirá a los eventos mediante proposiciones.
1.1.1.
Probabilidad Condicional e Independencia
En esta sección se da la definición de probabilidad condicional, el cual es uno de los
conceptos más importantes en Probabilidad y de utilidad en este trabajo. Además de
la Regla Multiplicativa, la Ley de Probabilidad Total y el concepto de independencia.
Definición 1.3 (Probabilidad condicional). Sean A y B dos eventos tales que
P (B) 6= 0. Entonces la probabilidad condicional de A dado B, denotada por P (A|B),
está dada por
P (A|B) =
P (A ∩ B)
.
P (B)
(1.3)
Teorema 1.2 (Regla Multiplicativa). Sean A1 , A2 ,..., An son eventos en el mismo
espacio de probabilidad. Entonces,
P(
n
\
Ai ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 )...P (An |A1 ∩ A2 ∩ ... ∩ An−1 )
(1.4)
i=1
siempre que P (A1 ∩ A2 ∩ ... ∩ An−1 ) > 0.
Definición 1.4 (Independencia). Dos eventos A y B son independientes si y sólo
si:
P (A ∩ B) = P (A)P (B), cuando P (B) 6= 0
Capı́tulo 1. Conceptos básicos de Probabilidad e Inferencia Bayesiana
12
Definición 1.5. Los eventos {A1 , A2 , ..., An } son independientes si
P (A1′ ∩ A2′ ∩ ... ∩ Aγ ′ ) = P (A1′ )P (A2′ )...P (Aγ ′ )
(1.5)
siempre que {1′ , 2′ , ..., γ ′ } ⊂ {1, 2, ..., n}.
Por otro lado, una colección infinita de eventos es independiente, si cada subcolección
finita de esta es independiente.
Definición 1.6 (Independencia condicional). Dos eventos A y B son condicionalmente independientes dado C si P (C) 6= 0 y se cumple alguna de las siguientes
proposiciones:
P (A|B ∩ C) = P (A|C) y P (A|C) 6= 0, P (B|C) 6= 0.
P (A|C) = 0 o P (B|C) = 0.
Ley de Probabilidad Total
A continuación se dará una regla muy útil que involucra probabilidades condicionales.
Definición 1.7 (Ley de Probabilidad Total). Supóngase que se tienen n eventos B1 ,
B2 ,..., Bn tales que Bi ∩ Bj = φ para i 6= j y B1 ∪ B2 ∪ ... ∪ B2 = Ω (tales eventos
son llamados mutuamente excluyentes y exhaustivos).
Entonces la Ley de Probabilidad Total dice que, para cualquier evento A,
P (A) =
n
X
P (A ∩ Bi ).
(1.6)
i=1
Si P (Bi ) 6= 0, entonces P (A ∩ Bi ) = P (A|Bi )P (Bi ). Por lo tanto, si P (Bi ) 6= 0 para
todo i, la ley es escrita en su forma más común:
P (A) =
n
X
P (A|Bi )P (Bi ).
(1.7)
i=1
NOTA: Desde este punto, para simplificar la notación, la probabilidad conjunta
P (A ∩ B) se denotará P (A, B).
Capı́tulo 1. Conceptos básicos de Probabilidad e Inferencia Bayesiana
1.1.2.
13
Relevancia e Información preliminar
La Relevancia es un concepto importante cuando se trata de averiguar en qué medida
la información que se tiene de una proposición puede cambiar el grado de creencia
de otra proposición.
Definición 1.8 (Relevancia). Una proposición B es relevante para A si y sólo si:
P (A|B) 6= P (A).
(1.8)
Además, si B es relevante para A, entonces A también es relevante para B.
A una proposición relevante también se le llama evidencia.
Definición 1.9 (Información preliminar). Cuando se evalúa el grado de creencia de
una proposición, se considera un tipo de información que no siempre se encuentra
de manera explı́cita. Esta es la información preliminar. Comúnmente, este tipo de
información se da por supuesta en las proposiciones.
Para entender un poco más los conceptos de relevancia e iformación preliminar, se
dan los siguientes ejemplos:
Ejemplo 1.1 (Información preliminar en un lanzamiento de moneda). La proposición:
“Una moneda cae sol después de ser lanzada” está hecha en base a la información
preliminar disponible. Si al observar la moneda esta luce como una moneda normal
y no hay razón para dudarlo, entonces se supondrá que está bien equilibrada, ésta
será nuestra información preliminar. En caso de que que se haya descubierto después
de la inspección que no es una moneda legal, esta información adicional es “evidencia”
que cambia el grado de creencia de la proposición.
Ejemplo 1.2 (Información preliminar en un examen de ADN). Supóngase que se ha
hecho un examen de ADN y que todas las teorı́as cientı́ficas que apoyan la metodologı́a del análisis son ciertas, que el análisis ha sido hecho correctamente y que
la cadena de custodia no ha sido rota. Las suposiciones anteriores forman parte de
la información preliminar. La evidencia relevante es sólo aquella que contiene las
proposiciones que describen el resultado del examen, además de algunas otras proposiciones que aportan datos estadı́sticos acerca de la confiabilidad de la evidencia.
Capı́tulo 1. Conceptos básicos de Probabilidad e Inferencia Bayesiana
14
Por otro lado, las proposiciones referentes al procedimiento del análisis y/o la cadena
de custodia, pueden formar también parte de la evidencia, mientras que todas las
teorı́as cientı́ficas forman parte de la información preliminar.
Es importante hacer una clara distinción entre cuáles proposiciones se consideran
como “evidencia” y cuáles como “información preliminar”.
Para evitar confusiones, en este trabajo, la información preliminar se denota como I.
Usando la Ley de Probabilidad Total, se puede reescribir la definición (1.8) de relevancia como sigue:
Definición 1.10 (2da. de Relevancia). B es relevante para A si y sólo si
P (A|B, I) 6= P (A|B c , I).
1.1.3.
(1.9)
Teorema de Bayes
Hasta el momento se ha dicho cuándo una proposición B es relevante para otra proposición A, pero no cómo B cambia el grado de creencia de A, ni cómo se calcula.
El Teorema de Bayes permite actualizar los grados de creencia acerca de una proposición A, cuando se tiene información acerca de B. Por esta razón, P (A) es comúnmente llamada la probabilidad a priori de A, mientras que a P (A|B) se le conoce como
la probabilidad a posteriori de A dado B. A la probabilidad P (B|A) se le llamará la
verosimilitud de A dado B. El concepto de verosimilitud y su diferencia con probabilidad, se verá un poco más adelante.
Se considerará a las probabilidades anteriores con su respectiva información preliminar.
Teorema 1.3 (Teorema de Bayes). Para cualesquiera proposiciones A y B, tales
que P (A) 6= 0 y P (B) 6= 0, se tiene,
Capı́tulo 1. Conceptos básicos de Probabilidad e Inferencia Bayesiana
P (A|B, I) =
P (B|A, I)P (A|I)
.
P (B|I)
15
(1.10)
En el caso general, si B es cualquier proposición con P (B) 6= 0 y {A1 , A2 , ..., An }
con Ai 6= 0 para todo i, entonces
P (Ai |B, I) =
P (B|Ai , I)P (Ai |I)
n
X
.
(1.11)
P (B|Ai , I)P (Ai |I)
i=1
A ambas fórmulas, (1.9) y (1.10) se les llama Teorema de Bayes ya que fueron desarrolladas originalmente por Thomas Bayes, y publicadas en 1763 [4].
El Teorema de Bayes es la base de la inferencia.
1.1.4.
Verosimilitud y Probabilidad
Hasta ahora se ha hablado de relevancia y Teorema de Bayes sólo para proposiciones,
estas proposiciones se dividirán en: hipótesis (las proposiciones que tratan de explicar
un fenómeno) y evidencia (las proposiciones que se consideran relevantes para otras).
Ya se ha dicho que el enfoque para la probabilidad en este trabajo será del tipo
subjetivo, sin embargo, el concepto de probabilidad no es suficiente para hacer inferencia, ya que no se pueden establecer grados absolutos de creencia en las hipótesis
dada alguna evidencia.
Es necesario por lo tanto, establecer el concepto de verosimilitud para medir los
grados de creencia de alguna hipótesis dada evidencia.
Sea P (R|H) la probabilidad de obtener R dada la hipótesis H. En cambio, L(R|H)
Capı́tulo 1. Conceptos básicos de Probabilidad e Inferencia Bayesiana
16
será la verosimilitud de la hipótesis H dada evidencia R. Un análisis completo del
uso de verosimilitud cuando se realiza inferencia se encuentra en [16]
NOTA: En este trabajo se conservará la notación P () en vez de L() para verosimilitud, sin embargo, se harán las observaciones correspondientes cuando se trabaje
con verosimilitudes.
Con el fin de comprender mejor el concepto de verosimilitud, se da el siguiente
ejemplo:
Ejemplo 1.3. Un testigo ha visto al señor Jones huyendo de la casa donde se ha
cometido un crimen a la hora en que ocurrió. Sea B la proposición: “El señor Jones
estaba huyendo de la escena del crimen a la hora en que se cometió” y A: “El señor
Jones cometió el crimen”
Es razonable suponer que la verosimilitud P (B|A, I) es alta, pero no necesariamente
la probabilidad P (A|B, I) también es alta. Si es verdad que el señor Jones cometió el
crimen, se esperararı́a que él tratara de alejarse rápidamente de la escena del crimen,
la hipótesis de culpabilidad es una buena explicación para la evidencia.
Sin embargo, el hecho de que él estaba huyendo de la casa, no hace más probable
que haya cometido el crimen; existen más explicaciones posibles.
1.1.5.
Las Formas Momiales del Teorema de Bayes
Si se tienen las proposiciones B, A1 y A2 , tales que P (B) 6= 0, P (A1 ) 6= 0 y
P (A2 ) 6= 0, el Teorema de Bayes en (1.10) para B, dadas A1 y A2 , se puede reescribir
de la siguiente manera.
P (A1 |B, I)P (B|I) = P (B|A1 , I)P (A1 |I).
P (A2 |B, I)P (B|I) = P (B|A2 , I)P (A2 |I).
Combinando las dos expresiones anteriores, resulta la siguiente expresión del Teorema
de Bayes:
Capı́tulo 1. Conceptos básicos de Probabilidad e Inferencia Bayesiana
P (A1 |B, I)
P (B|A1 , I) P (A1 |I)
=
·
.
P (A2 |B, I)
P (B|A2 , I) P (A2 |I)
17
(1.12)
En el lado izquierdo de la igualdad están los momios a favor de A1 dado B, los cuales
son llamados los momios posteriores a favor de A1 .
A la razón:
V =
P (B|A1 , I)
P (B|A2 , I)
Se le llama razón de verosimilitud.
Mientras que a:
P (A1 |I)
P (A2 |I)
Se le llama los momios a priori a favor de A1 .
El efecto de la evidencia sobre la hipótesis puede ser calculado multiplicando la
razón de verosimilitud por los momios a priori.
La razón de verosimilitud (V ) se toma como una medida del valor de alguna evidencia con respecto a dos hipótesis alternativas.
Si V > 1 en (1.12) se dice que la evidencia B está a favor de A1 , si V < 1 se
dice que está a favor de A2 y si V = 1 decimos que B no es relevante para la hipótesis o que la evidencia es neutral.
Como (1.12) muestra, la probabilidad de las hipótesis condicionadas a esa pieza
particular de evidencia, no sólo depende de la razón de verosimilitud sino también
de los momios a priori.
Capı́tulo 1. Conceptos básicos de Probabilidad e Inferencia Bayesiana
1.1.6.
18
Variables Aleatorias y Distribuciones de Probabilidad
Definición 1.11. Dado un espacio de probabilidad (Ω, P ), una variable aleatoria X
es una función sobre Ω.
Esto es, una variable aleatoria asigna un valor único a cada elemento del espacio
muestral. El conjunto de valores que la variable aleatoria X puede tomar es llamado
el espacio de X. Se dice que una variable aleatoria es discreta si su espacio es finito
o contable. En general, en este trabajo se supone que las variables aleatorias son
discretas.
Para una variable aleatoria X, se usará X = xi para representar que X se encuentra
en el estado xi ∈ Ω.
Definición 1.12. Si X es una variable aleatoria con estados x1 , x2 ,..., xn . Entonces
P (X) denota una distribución de probabilidad sobre estos estados, donde:
P (X) = {P (X = x1 ), P (X = x2 ), ..., P (X = xn )}; xi > 0.
n
X
P (X = xi ) = 1.
(1.13)
i=1
En general, la probabilidad de X en el estado xi se denotará por P (X = xi ) o P (xi )
si la variable es obvia por contexto.
Probabilidad condicional para variables aleatorias
Dadas dos variables aleatorias, X con n estados x1 , x2 ,..., xn y Y con m estados y1 ,
y2 ,..., ym . Entonces P (X|Y ) contiene n · m probabilidades condicionales P (xi |yj ). Esto es, la probabilidad condicional de una variable dada otra variable es un conjunto
de probabilidades (usualmente organizada en una tabla n × m).
Ya que P (X|Y ) especifica una distribución de probabilidad para cada evento Y = yj ,
las probabilidades sobre X deben sumar 1 para cada yj :
n
X
i=1
P (X = xi |Y = yj ) = 1.
(1.14)
Capı́tulo 1. Conceptos básicos de Probabilidad e Inferencia Bayesiana
19
Distribución de probabilidad conjunta
La probabilidad conjunta de diferentes eventos puede ser expresada mediante una
distribución de probabilidad conjunta para dos o más variables.
A P (X = xi , Y = yi ) se le llamará distribución de probabilidad conjunta de las
variables X y Y cuando X = xi y Y = yj . También se denotará simplemente como
P (X, Y ) o P (xi , yj ).
P (X, Y ) consiste en n · m números, y similarmente a P (X|Y ), ésta es usualmente representada mediante una tabla n × m. Hay que notar que, si los espacios de X y
Y son mutuamente excluyentes y exhaustivos, también la combinación de sus estados (el producto cartesiano) debe serlo, por lo que puede ser considerado un espacio
muestral, por lo tanto,
P (X, Y ) =
m
n X
X
P (X = xi , Y = yj ) = 1.
(1.15)
i=1 j=1
Este concepto se puede extender a tres o más variables, por ejemplo, P (X = x, Y =
y, Z = z) es la distribución de probabilidad de las variables X, Y y Z.
Distribución de probabilidad marginal
Dada una distribución de probabilidad conjunta, la Ley de Probabilidad Total, implica que la distribución de probabilidad de cualquiera de las variables aleatorias,
puede ser obtenida sumando los valores de las demás variables.
Por ejemplo, supóngase que se tiene una distribución de probabilidad conjunta
P (X = xi , Y = yj ), donde X tiene n estados y Y , m estados. Entonces,
P (X = xi ) =
m
X
P (X = xi , Y = yj ).
(1.16)
y=1
La distribución de probabilidad P (X = xi ) es llamada la distribución de probabilidad
marginal de X. Esta distribución a veces se denota P (X).
Capı́tulo 1. Conceptos básicos de Probabilidad e Inferencia Bayesiana
20
Este concepto también se puede extender a tres o más variables aleatorias.
Independencia condicional para variables aleatorias
Definición 1.13 (Independencia). Supóngase que tenemos un espacio de probabilidad (Ω, P ), y dos variables aleatorias X y Y definidas sobre Ω. Entonces se dice que
las variables son independientes si para todos los valores xi y yj de los conjuntos,
los eventos X = xi y Y = yj son independientes. Esto es, si ocurre P (xi ) = 0 o
P (yj ) = 0 o P (xi |yj ) = P (xi )
Definición 1.14 (Independencia condicional). Supóngase que se tiene un espacio de
probabilidad (Ω, P ), y tres variables aleatorias X, Y y Z definidas sobre Ω. Entonces
las variables X y Y son condicionalmente independientes dada la variable Z si, para
todos los valores de las variables, xi , yj y zk , y P (zi ) 6= 0, se tiene,
P (xi |zk ) = 0 o P (yj |zk ) = 0 o
P (xi |yj , zk ) = P (xi |zk ).
Se denotará:
X ⊥ Y |Z.
1.2.
Inferencia Bayesiana
El Teorema de Bayes se usa cuando no se es capaz de determinar las probabilidades
condicionales de interés directamente, pero sı́ es posible determinar las probabilidades
del lado derecho de la ecuación. Esto pasa debido a que no es posible identificar
todo el espacio muestral sobre el que se trabaja, sino que primero se determinan
probabilidades de eventos básicos, variables aleatorias, y después se calculan valores
en distribuciones de probabilidad conjuntas. En vez de eso, en la inferencia Bayesiana
se identifican las variables aleatorias directamente y se determinan relaciones
probabilı́sticas entre las variables aleatorias.
Capı́tulo 1. Conceptos básicos de Probabilidad e Inferencia Bayesiana
1.2.1.
21
Variables aleatorias y probabilidades en aplicaciones
Bayesianas
En inferencia Bayesiana, una variable aleatoria representa alguna caracterı́stica de
un fenómeno a modelar, y que casi siempre viene dada por una proposición, por
ejemplo, puede ser que se quiera determinar si cierto paciente posee una enfermedad x basándose en sus sı́ntomas, en este caso, la enfermedad se representa con la
proposición “el paciente tiene la enfermedad x”, de igual manera con los sı́ntomas.
Además, el valor de estas caracterı́sticas es incierto, por lo que se deben desarrollar
relaciones probabilı́sticas entre las variables.
Después de identificar a las variables, se debe distinguir un conjunto de valores
mutuamente excluyentes y exhaustivos para cada una de ellas. Los posibles valores
de una variable aleatoria son los diferentes estados que la caracterı́stica puede poseer.
La especificación de las variables aleatorias y sus valores debe ser lo suficientemente
clara para que los requerimientos de la situación que está siendo modelada queden
satisfechos.
Cuando ya se han especificado los valores para las variables aleatorias (es decir,
sus espacios) debemos determinar las probabilidades de las variables aleatorias en
cada uno de sus estados. Sin embargo, en general no siempre se determinan probabilidades a priori, sino que se determinan valores dentro de una distribución de
probabilidad conjunta para alguna de las variables. Esto se puede realizar mediante
datos estadı́sticos que se encuentren disponibles o mediante un experto. Se pueden
obtener datos y pensar en términos de relaciones probabilı́sticas sólo cuando se manejan unas pocas variables al mismo tiempo. Las probabilidades conjuntas de varios
eventos no serı́an fáciles de averiguar.
Cuando se realiza inferencia Bayesiana, usando probabilidades que han sido calculadas mediante una estimación de frecuencias relativas, lo que se hace es calcular
la probabilidad de algo en especı́fico con caracterı́sticas propias, lo que hace que estas probabilidades sean “probabilidades subjetivas”. Pero aunque se les llame de esta
Capı́tulo 1. Conceptos básicos de Probabilidad e Inferencia Bayesiana
22
manera, tomarán los mismo valores que las frecuencias relativas de las que fueron
tomadas. Cuando se usa el Teorema de Bayes usando probabilidades subjetivas, el
resultado será también una probabilidad subjetiva.
1.2.2.
Ejemplo de inferencia Bayesiana
A continuación se da un ejemplo en el que aparece La Falacia del Fiscal, también
conocida como La Falacia de la Condicional Transpuesta, ya mencionada en la introducción de este trabajo y en la sección 1.1.4. Esta falacia es comúnmente encontrada
en los tribunales de justicia, donde es utilizada para engañar al juez o al jurado
presentando un razonamiento falso, pero que a simple vista parece verdadero.
La falacia es el resultado de confundir la probabilidad P (H|E) con P (E|H), siendo
E y H dos proposiciones.
Cuando esta falacia llega a presentarse, en algún ámbito legal, puede ser que se
acuse injustamente a alguien, por esto es de gran importancia que sea bien conocida
y se tengan las herramientas para identificarla. Ejemplos de esta falacia se pueden
encontrar en [9] y [12].
Ejemplo 1.4. En un caso de asesinato, se tiene evidencia E en contra de un sospechoso, Fred. Esta evidencia consiste en una muestra de sangre encontrada en la escena
del crimen que proviene del asesino y que coincide con el tipo de sangre de Fred.
Este tipo de sangre se encuentra en 1 de 1000 personas. Ası́ que si H es la hipótesis:
“Fred es inocente” (no se encontraba en la escena del crimen), entonces se sabe que
1
P (E|H) = 1000
.
El fiscal en el caso, argumenta que “hay sólo una posibilidad de 1 en 1000 de que el
sospechoso sea inocente”.
Capı́tulo 1. Conceptos básicos de Probabilidad e Inferencia Bayesiana
23
Pero lo que realmente se quiere saber es la probabilidad P (H|E) y es esta la probabilidad que el fiscal confunde con P (E|H). Esta probabilidad depende de la probabilidad
a priori P (H).
En ausencia de más evidencia en contra de Fred, se supone que todo hombre adulto
en la ciudad donde se cometió el crimen, puede ser considerado sospechoso. En esta
ciudad hipotética hay una población de 10,000 hombres adultos, entonces:
P (H) =
9, 999
10, 000
P (H c ) =
1
10, 000
También se puede suponer que si Fred se encontraba en la escena del crimen, entonces
la muestra de sangre necesariamente coincidirá con la de él. Por lo tanto:
P (E|H c ) = 1
Si se aplica el Teorema de Bayes a P (H|E) obtenemos:
P (H|E) =
P (E|H)P (H)
P (E|H)P (H)
=
P (E)
P (E|H)P (H) + P (E|H c )P (H c )
=
=
9,999
1
( 1000
)( 10,000
)
9,999
1
1
( 1000
)( 10,000
) + (1)( 10,000
)
9, 999
≈ 0.91
10, 999
En conclusión, la probabilidad de que Fred es inocente es muy alta, esto contradice
el argumento del fiscal.
Capı́tulo 1. Conceptos básicos de Probabilidad e Inferencia Bayesiana
1.2.3.
24
Del Teorema de Bayes a las Redes Bayesianas
La inferencia Bayesiana es simple de realizar cuando están involucradas sólo dos
variables, como se ha mostrado en el ejemplo 1.4. Sin embargo, cuando se quiere
realizar una inferencia que involucre a más variables, es necesario hacer uso de otra
herramienta útil que ha surgido con este propósito, las Redes Bayesianas.
En el siguiente capı́tulo, se encuentran los conceptos necesarios para dar la definición de Red Bayesiana y cómo se construyen estas redes.
Capı́tulo 2
Introducción a las Redes
Bayesianas
Las Redes Bayesianas son una herramienta útil para representar las relaciones entre
las variables que participan en situaciones de incertidumbre, donde se tiene la necesidad de realizar alguna inferencia.
Las redes proveen un modelo sencillo que simplifica la comprensión de problemas
causales de bastante complejidad, gracias a su estructura.
Estas redes son representadas por vértices y aristas. Los vértices corresponden a las
variables aleatorias y las aristas corresponden a relaciones probabilı́sticas directas
entre estas variables. Estas relaciones son cuantificadas en términos de distribuciones de probabilidad, usualmente una tabla de probabilidad condicional asociada a
cada nodo.
Los inicios de las redes Bayesianas se encuentran en los llamados Grafos de Wigmore
usados por primera vez por John Henry Wigmore para analizar evidencia jurı́dica
en 1913.
Otro ancestro de estas redes son los Diagramas de Camino, estos fueron desarrollados por el genetista Sewall Wright alrededor del año 1920 y se usaron principalmente
25
Capı́tulo 2. Introducción a las Redes Bayesianas
26
en ciencias sociales. Wright fue el primero que basó sus modelos probabilı́sticos en
gráficas directas acı́clicas.
A finales de 1980 los textos: Razonamiento Probabilı́stico en Sistemas Inteligentes
(1988) de Judea Pearl y Razonamiento Probabilı́stico en Sistemas Expertos (1989)
de Richard E. Neapolitan, resumieron las propiedades de las Redes Bayesianas y
ayudaron a establecerlas como un campo de estudio.
El término “Redes Bayesianas” fue acuñado por Judea Pearl en 1985. Este nombre
hace honor al Rev. Thomas Bayes (1702-1761) cuya regla para calcular probabilidades basándose en nueva evidencia es el fundamento de este enfoque.
En este capı́tulo se encuentran los conceptos básicos de teorı́a de gráficas necesarios
para dar la definición de Red Bayesiana además de los conceptos más importantes
que se relacionan con ésta.
2.1.
Gráficas
Definición 2.1. Una gráfica G = (V, A) consiste en un conjunto no vacı́o V de
nodos o vértices y un conjunto finito A que contiene pares de nodos llamados arcos,
enlaces o aristas. [11]
Cada arco a = (u, v) está definido por un par ordenado o un par no ordenado de nodos, los cuales están unidos mediante un arco y se dice que son adyacentes o vecinos.
Si (u, v) es un par ordenado de nodos, a u se le llama la cola del arco y a v la
cabeza; entonces se dice que el arco es dirigido de u hacia v y es representado por:
(u → v).
Si (u, v) es no ordenado, simplemente se dice que u y v están conectados por el arco.
Estos arcos son llamados arcos no dirigidos o aristas y se representan con una sola
lı́nea: (u − v).
Capı́tulo 2. Introducción a las Redes Bayesianas
27
Definición 2.2. Una gráfica dirigida denotada por G = (V, A) es una gráfica donde
todos sus arcos son dirigidos. Mientras que en una gráfica no dirigida denotada por
G = (V, E) todos sus arcos son no dirigidos.
También existen gráficas parcialmente dirigidas o gráficas mixtas denotadas por
G = (V, A, E), éstas contienen arcos dirigidos y no dirigidos.
Figura 2.1: Tipos de gráficas: no dirigida, dirigida y mixta
En la figura 2.1 se ejemplifican los tres tipos de gráficas, cada una tiene diferentes
caracterı́sticas las cuales se enumeran a continuación.
En la gráfica no dirigida:
El conjunto de nodos es V ={A, B, C, D, E} y el conjunto de aristas es E=
{(A − B), (A − C), (A − D), (B − D), (C − E), (D − E)}.
Los arcos son no dirigidos, es decir, A−B y B −A son equivalentes e identifican
a la misma arista.
En la gráfica dirigida:
El conjunto de nodos es V ={A, B, C, D, E} y la gráfica está caracterizada por
el conjunto de arcos A= {(A → B), (A → E), (B → D), (B → C)}.
Capı́tulo 2. Introducción a las Redes Bayesianas
28
Los arcos son dirigidos, es decir, A → B y B → A identifican a diferentes
arcos. Por ejemplo, (A → B) ∈ A mientras que (B → A) ∈
/ A.
Por último, la gráfica mixta:
Está caracterizada por la combinación del conjunto de aristas E = {(A − C),
(A − D), (C − D)} y el conjunto de arcos A= {(A → E), (E → B)}
Relaciones entre los nodos
Definición 2.3 (Camino). Sea G = (V, A, E) una gráfica simple, donde A
representa a los arcos dirigidos y E a los arcos no dirigidos. Un camino de longitud m
que va de un nodo X a un nodo Y es una sucesión de nodos distintos (τ0 , ..., τm ) tales
que τ0 = X y τm = Y , donde (τi−1 , τi ) ∈ A o (τi−1 , τi ) ∈ E para cada i = 1, ..., m.
El camino, es un camino dirigido si (τi−1 , τi ) ∈ A para cada i = 1, ..., m. Es decir,
no existen arcos no dirigidos en todo el camino.
En el contexto de este trabajo, sólo se hará uso de caminos dirigidos. Por lo tanto el
término camino se referirá sólo a caminos de este tipo, a menos que se especifique lo
contrario.
Definición 2.4. Sea G = (V, A) una gráfica, si existe un arco que va de A hacia
B, se dice que B es un hijo de A o que A es padre de B.
Por ejemplo, en la gráfica que se muestra en la figura 2.2, C y B son padres de A y
los hijos de A son los nodos E y D. Un nodo sin padres es llamado un nodo raı́z, H
es un nodo raı́z.
Definición 2.5. Sea G = (V, A) una gráfica, un nodo X es ancestro de un nodo Y
si y sólo si existe un camino dirigido de X hacia Y . En el mismo caso se dice que
Y es descendiente de X.
En la figura 2.2, G, C, F y B son ancestros del nodo A, por otro lado E, L, D y K
son descendientes de A.
Capı́tulo 2. Introducción a las Redes Bayesianas
29
F
G
B
C
H
A
D
E
K
L
Figura 2.2: Ejemplo de gráfica dirigida
Ciclos
Definición 2.6 (Ciclo). Sea G = (V, A) una gráfica, un m-ciclo es una sucesión de
nodos distintos τ0 , ..., τm−1 tales que la sucesión τ0 , ..., τm−1 , τ0 forma un camino.
Por ejemplo, en la figura 2.3, el camino CABD forma un ciclo.
DAG
El concepto de DAG es importante, ya que es la base de la construcción de las Redes
Bayesianas.
Definición 2.7 (Gráfica conexa). Una gráfica es conexa si para cualquier par de
nodos X y Y existe al menos un camino entre ellos.
Definición 2.8 (DAG). Una gráfica dirigida acı́clica: DAG (directed acyclic
graphic) es una gráfica conexa sin ciclos.
Capı́tulo 2. Introducción a las Redes Bayesianas
30
C
E
A
B
D
Figura 2.3: Ejemplo de gráfica con ciclo
2.2.
Redes Bayesianas
Antes de dar una definición formal de Red Bayesiana, se dirá en qué consiste y cómo
se relacionan las variables aleatorias mencionadas en el capı́tulo 1 con la red.
Una red Bayesiana consiste en lo siguiente:
Un conjunto de nodos los cuales representan variables aleatorias y un conjunto
de arcos dirigidos que unen a las variables.
Cada variable posee un conjunto de estados mutuamente excluyentes (este
conjunto puede ser discreto o continuo).
Las variables junto con los arcos dirigidos forman una DAG.
Los arcos representan relaciones de relevancia entre las variables. A cada variable
X con padres Y1 , Y2 ,..., Yn se le asocia una tabla de probabilidad condicional
P (X|Y1 , Y2 , ..., Yn , I) donde I representa la información preliminar, que no aparece
de manera explı́cita en forma de nodos dentro de la gráfica. Si X es un nodo raı́z la
tabla de probabilidades se reduce a P (X|I).
Capı́tulo 2. Introducción a las Redes Bayesianas
31
Variables aleatorias y estados
Sea X una variable aleatoria con n estados x1 , x2 , ..., xn . Si X es un nodo raı́z entonces su tabla de probabilidad condicional P (X|I) será una tabla con n entradas que contendrá la distribución de probabilidad {P (X = xi ), i = 1, ..., n}, con
Pn
i=1 P (X = xi ) = 1. Para simplificar la notación, la mención explı́cita de la información preliminar ha sido omitida.
Sea Y una variable con m estados y1 , y2 , ..., ym . Si Y es padre de X la tabla de
probabilidad condicional P (X|Y ) será una tabla n × m que contendrá todas las
probabilidades condicionales P (X = x|Y = y). Por ejemplo, supongamos que en
la figura 2.2, las variables B y C tienen cada una dos estados y la variable A tiene
tres. En este caso, la tabla de probabilidad condicional para A contendrá 12 entradas
P (A = ai |B = bj , C = ck ) = pijk con (i = 1, 2, 3; j = 1, 2; k = 1, 2).
La siguiente es la tabla de probabilidad condicional para el hijo A con padres B
y C, donde B tiene dos estados (b1 , b2 ), A tiene tres estados (a1 , a2 , a3 ) y C tiene dos
estados (c1 , c2 ).
B:
C:
P (A = a1 |B = bj , C = ck )
P (A = a2 |B = bj , C = ck )
P (A = a3 |B = bj , C = ck )
b1
c1
p111
p211
p311
b2
c2
p112
p212
p312
c1
p121
p221
p321
c2
p122
p222
p322
Cuadro 2.1: Tabla de probabilidad condicional para A dados B y C
2.2.1.
Flujo de información en redes
Existen sólo tres posibles conexiones en las gráficas dirigidas por las cuales la
información puede transmitirse a través de una variable: divergente, serial y
convergente. Mediante éstas, se introducirá el concepto de d-separación [15].
Capı́tulo 2. Introducción a las Redes Bayesianas
32
Conexiones seriales
En la figura 2.4 se puede apreciar un ejemplo de conexión serial.
A
B
C
Figura 2.4: Conexión serial
En esta situación A tiene influencia sobre B la cual a su vez tiene influencia en C.
La evidencia que se tiene acerca de A influenciará la creencia en los posibles estados
de B, la cual influye en los estados de C.
Similarmente la evidencia acerca de C influenciará la creencia en los posibles estados
de A a través de B.
Por otro lado, si se conoce el estado de B, entonces el camino es bloqueado además
de que A y C se vuelven independientes. Se dice que A y C son d-separadas dado B.
Cuando el estado de una variable es conocido, se dice que la variable está instanciada.
Observación: La evidencia puede ser transmitida a través de una conexión serial
siempre y cuando los estados de las variables en la conexión sean conocidos
Conexiones divergentes
Un ejemplo de conexión divergente se encuentra en la figura 2.5.
Capı́tulo 2. Introducción a las Redes Bayesianas
33
A
B
C
D
E
Figura 2.5: Conexión divergente
La influencia puede pasar a través de todos los hijos de A cuando el estado de A sea
conocido. Esto es, B, C,..., E son d-separados dado A.
La evidencia puede ser transmitida a través de una conexión divergente cuando A
está instanciada.
Conexiones convergentes
En una conexión convergente, si A cambia su estado se abre comunicación entre sus
padres.
Un ejemplo de conexión convergente se puede ver en la figura 2.6.
Si nada se sabe acerca del estado de A excepto lo que puede ser inferido del conocimiento de sus padres B,..., E, entonces los padres son independientes, es decir,
la evidencia acerca de ellos no puede influenciar a los otros a través de A. El conocimiento de una posible causa de un evento no nos dice nada acerca de las otras
posibles causas.
Capı́tulo 2. Introducción a las Redes Bayesianas
B
C
D
34
E
A
Figura 2.6: Conexión convergente
En la figura de ejemplo 2.7 se puede ver que sólo se puede observar a A indirectamente a través de la información de F .
Conocer el estado de F puede decir algo acerca del estado de E, el cual a la vez dice
algo de A.
La conclusión es que la evidencia puede ser transmitida a través de una conexión
convergente sólo si la variable en la conexión o uno de sus descendientes ha recibido
evidencia.
Nota: Se dice que una variable ha recibido evidencia cuando se dejan fijas las
certidumbres de sus estados. Si la variable está instanciada, decimos que hay
evidencia fuerte de otro modo es evidencia débil. En el ejemplo de la figura 2.7 se
puede decir que la evidencia fuerte de la variable F provee información débil acerca
de la variable A.
Capı́tulo 2. Introducción a las Redes Bayesianas
35
Figura 2.7: Conexión convergente con evidencia en el nodo F
Definición 2.9 (D-separación). Dos variables distintas A y B en una red causal
son d-separadas (“d” por “gráfica dirigida”) si para todos los caminos entre A y B
existe una variable intermedia V (distinta de A y B) tal que se cumple sólo una de
las siguientes proposiciones.
La conexión es serial o divergente y V está instanciada
La conexión es convergente y ni V ni ninguno de sus descendientes han recibido
evidencia.
Y se escribe:
A⊥BkV
Si A y B no son d-separadas decimos que son d-conectadas. [15]
Proposición 2.1. Si A y B son d-separadas, entonces los cambios en la certidumbre
de A no tienen efecto sobre la certidumbre de B.
2.2.2.
Independencia condicional y d-separación
El siguiente resultado muestra que para una DAG dada, la d-separación caracteriza
a todas las independecias condicionales que están representadas en dicha DAG.
Capı́tulo 2. Introducción a las Redes Bayesianas
36
Teorema 2.1 (d-separación implica independencia condicional). Sea G = (V, A)
una DAG y sea P una distribución de probabilidad que se factoriza a lo largo de
G. Entonces para cualesquiera conjuntos disjuntos A, B y C ⊂ V se cumple que
A ⊥ B|C si A y B son d-separados por C.
2.2.3.
La cubierta de Markov
La siguiente definición remarca la importancia de los padres e hijos de una variable.
Definición 2.10 (Cubierta de Markov). La cubierta de Markov de una variable A
es el conjunto que consiste de los padres de A, los hijos de A y las variables que
comparten hijos con A.
Nota: Cuando todas las variables de la cubierta de Markov de A están instanciadas,
A es d-separada del resto de la red.
2.2.4.
Definición formal de Red Bayesiana
Anteriormente se habı́a mencionado en qué consistı́a una Red Bayesiana, pero aquello
no era suficiente para decir cuándo una DAG es considerada una Red Bayesiana, la
siguiente definición aclara este punto haciendo uso de la propiedad de Markov.
Definición 2.11 (Red Bayesiana). Una red Bayesiana es un par (G, P ) donde
G = (V, A) es una DAG con conjunto de nodos V = (1, ...n), conjunto de arcos
A y P es una distribución de probabilidad o una familia de distribuciones de
probabilidad sobre n variables aleatorias {X1 , ..., Xn }. El par (G, P ) satisface los
siguientes criterios:
A cada variable aleatoria Xi con un conjunto no vacı́o de padres PA(Xi ) =
(Y1 , ..., Ym ) se le asigna una distribución de probabilidad P (Xi |PA(Xi ), I). Si
Xi no tiene padres, entonces PA(Xi ) = φ por lo que P (Xi ) = P (Xi |I).
La distribución de probabilidad conjunta P (X1 , ..., Xn ) con n variables aleatorias, puede ser factorizada como el producto de las probabilidades condicionales
de todas sus variables, condicionadas a sus padres:
Capı́tulo 2. Introducción a las Redes Bayesianas
P (X1 , ..., Xn ) =
n
Y
37
P (Xi | PA(Xi )).
i=1
Cada variable Xi , i = 1, ..., n en la DAG es condicionalmente independiente
del conjunto ND(Xi ) = Xi \ {DE(Xi )} dado el conjunto PA(Xi ):
Xi ⊥ ND|PA(X).
2.2.5.
Construcción de Redes Bayesianas
En la sección 1.2 se dijo cómo identificar a las variables aleatorias cuando se está realizando inferencia Bayesiana, en el contexto de las Redes Bayesianas, estas variables
aleatorias pasan a representar nodos dentro de la red.
Se ha dicho que los arcos de una Red Bayesiana representan relaciones de “relevancia” entre las variables, ya se habló sobre relevancia entre proposiciones en la
sección 1.1.2. También se dijo que la relevancia es una relación simétrica, esto es, si
A es relevante para B, entonces B es relevante para A.
Cuando se trata de construir redes para representar relevancia, se puede observar
que los arcos que conectan los nodos van sólo en una dirección. La construcción de
Redes Bayesianas empieza siempre de arriba hacia abajo, los arcos van desde las
hipótesis hacia la evidencia, siempre tomando en cuenta la relevancia que la evidencia pueda tener sobre la hipótesis. Es decir, si se tiene evidencia E, esta es relevante
para una hipótesis H, si H es un hecho explicativo para E.
En una Red Bayesiana se puede hacer una distinción entre nodos de hipótesis y
nodos de evidencia. El siguiente ejemplo muestra tal distinción.
Ejemplo 2.1. La figura 2.8 contiene una DAG construida de acuerdo a un escenario
donde:
A: Un sospechoso es el culpable.
B: La mancha de sangre en la escena del crimen proviene del culpable.
Capı́tulo 2. Introducción a las Redes Bayesianas
38
C: La mancha de sangre en la escena del crimen proviene del sospechoso.
E: La sangre del sospechoso y la mancha en la escena del crimen comparten el mismo
perfil de ADN.
A
B
C
E
Figura 2.8: DAG con nodos de hipótesis y nodos de evidencia
En la DAG de la figura 2.8 se pueden distinguir los nodos de hipótesis y los nodos de
evidencia. Los nodos de hipótesis son A, B y C, estas son las hipótesis que describen
eventos singulares cuya ocurrencia es sólo planteada como hipótesis y el nodo de
evidencia es E, la proposición que describe un evento observado.
Los grados de creencia personales son una forma subjetiva de evaluar lo que puede
ser relevante o no para una hipótesis, estos pueden variar entre personas, por lo
que para realizar una buena inferencia se necesitan adicionalmente leyes cientı́ficas y
conocimiento general para dar una garantı́a al decidir la relevancia de una proposición
para otra. Por lo tanto se dirá que:
Definición 2.12. E es objetivamente relevante para H, si H es un hecho explicativo
dentro de una explicación potencial para E.
La búsqueda de explicaciones termina con la simetrı́a de las relaciones de relevancia.
Una proposición puede ser relevante para una hipótesis y viceversa, pero sólo la
Capı́tulo 2. Introducción a las Redes Bayesianas
39
hipótesis explica la proposición.
Los siguientes ejemplos también muestran cómo representar relaciones de relevancia
dentro de una Red Bayesiana.
Ejemplo 2.2. Se van a registrar tres lanzamientos sucesivos de una moneda, se denotará el grupo de hipótesis por H (las posibles combinaciones de los tres resultados) y
los posibles resultados con las variables aleatorias binarias X1 , X2 y X3 que pueden
tomar los valores Xi = s o Xi = a, “el resultado del i-ésimo lanzamiento fue sol” o
“el resultado del i-ésimo lanzamiento fue águila”, respectivamente.
El resultado de cada lanzamiento depende de cuál hipótesis sea cierta, además de
que cada lanzamiento es independiente del anterior y del siguiente. Estas relaciones
se representan en la Red Bayesiana de la figura 2.9
H
X1
X2
X3
Figura 2.9: Red Bayesiana para el ejemplo del lanzamiento de moneda
En este problema, el estado de Xi es relevante para los posibles estados de H, pero
es el estado de H el que explica el estado de Xi
Ejemplo 2.3. Se considerará de nuevo el escenario del ejemplo 2.1 y representado en
la figura 2.8. Las tablas de probabilidad apropiadas para el caso están dadas en los
Capı́tulo 2. Introducción a las Redes Bayesianas
40
cuadros 2.2, 2.3 y 2.4.
En estas tablas, γ es la probabilidad de “coincidencia aleatoria” y p es la probabilidad de que la mancha ha sido dejada por el sospechoso incluso si es inocente, la
cual es asignada en base a una explicación alternativa propuesta por la defensa y la
información relacionada a esa hipótesis. Si la defensa está de acuerdo en que C es
verdad, este escenario ya no es apropiado.
A:
P (A)
t
f
a 1−a
B:
P (B)
t
r
f
1−r
Cuadro 2.2: Tablas de probabilidad condicional para los nodos A y B de la figura
2.8
A:
B:
P (C = t|A, B)
P (C = f |A, B)
t
t
1
0
f
f
0
1
t
0
1
f
p
1−p
Cuadro 2.3: Tabla de probabilidad condicional para el nodo C de la figura 2.8
C:
P (E = t|C)
P (E = f |C)
t
1
0
f
γ
1−γ
Cuadro 2.4: Tabla de probabilidad condicional para el nodo E de la figura 2.8
Se puede observar en la figura 2.8 que el estado de E provee información acerca de
los posibles estados de C, pero es el estado de C el que explica a E. A la vez, el
estado de C puede ser explicado por los estados de A y B.
B representa el hecho que ha sido llamado relevancia ya que P (B|I) posee la información disponible para creer que la mancha de sangre es relevante para el caso.
Capı́tulo 2. Introducción a las Redes Bayesianas
2.2.6.
41
Relevancia y Causalidad
Frecuentemente se supone que las explicaciones usadas al hacer inferencia son explicaciones causales, ya que en un escenario inferencial siempre se sigue un orden
cronológico, que se puede entender como un orden causal.
Al construir redes Bayesianas para representar un problema inferencial, se usan juicios subjetivos, lo que puede derivar en diferentes construcciones de la misma red
para diferentes personas, y deja abierta la cuestión de si la estructuración de las
redes siempre debe involucrar relaciones causales.
Algunos autores mencionados en [5] creen que la relevancia estadı́stica no posee una
genuina importancia explicativa y que sólo la relevancia causal la tiene. Una consecuencia de esta posición es que una explicación probabilı́stica sólo serı́a legı́tima si
fuese posible identificar el mecanismo causal subyacente en ella. Pearl (mencionado
también en [5]) ha argumentado las ventajas de construir modelos mediante DAG’s
en torno de relaciones causales, exponiendo que son más útiles, más accesibles y más
confiables que las relaciones de relevancia probabilı́sticas.
Ha dicho también que los juicios de independencia condicional son comprensibles
(y por lo tanto confiables) sólo cuando están basados en partes fundamentales de
nuestro conocimiento como lo son las relaciones causales. Además de que las relaciones causales son más estables que las relaciones probabilı́sticas.
En el contexto del razonamiento evidencial, puede ser muy difı́cil sustituir algunas
relaciones epistémicas con nodos y arcos que exhiban un mecanismo causal genuino
y reconocible.
La capacidad de proveer una explicación causal no es una condición necesaria para
justificar la existencia de una relación de relevancia. Existen muchos casos en los
que la evidencia puede ser justificada como relevante para una hipótesis de interés
cuando los enlaces en una cadena de razonamiento pueden no indicar conexión causal.
Capı́tulo 2. Introducción a las Redes Bayesianas
42
La estrategia de construir una red Bayesiana mediante inferencia Bayesiana es suficiente para terminar con la simetrı́a de la relevancia probabilı́stica y el único requisito
que se debe satisfacer es la d-separación.
En conclusión: En la construcción de un modelo explicativo, es mejor si se dan
explicaciones causales, pero no son necesarias.
Capı́tulo 3
Aplicaciones de las Redes
Bayesianas
En este capı́tulo se explican tres problemas inferenciales mediante Redes Bayesianas,
además se muestra la utilidad del software R cuando se trabaja con estas redes.
3.1.
3.1.1.
Aplicación 1: El Sabueso de los Baskerville
Introducción
A continuación se dará un ejemplo del uso de Redes Bayesianas mediante el relato
“El Sabueso de los Baskerville”, con esto también se pretende ejemplificar el uso del
razonamiento Bayesiano, ya que el contenido del relato provee evidencia suficiente e
interesante para poder realizar inferencia.
El siguiente es un fragmento de la novela “El Sabueso de los Baskerville” [1, págs.
12-13]
“La reciente muerte repentina de Sir Charles Baskerville, a quien se indicaba como probable candidato liberal por el condado de Devon en las próximas elecciones,
ha sido muy sentida en toda la comarca. (...)
43
Capı́tulo 3. Aplicaciones de las Redes Bayesianas
44
No puede asegurarse que las circunstancias en que ocurrió la muerte de Sir Charles
hayan quedado completamente esclarecidas, aunque se ha hecho todo lo posible por
desvanecer los absurdos rumores que circulaban en la localidad. No hay motivo para
creer en la perfidia ni en la traición, y sı́ para suponer que la muerte de Sir Charles
fue debida a causas naturales.
El difunto era viudo y un poco excéntrico en su modo de ser. A pesar de sus grandes
riquezas, era de costumbres sencillas y muy delicado en sus gustos personales. Para
el gobierno de su casa tenı́a solamente un matrimonio apellidado Barrymore, ocupando el marido el cargo de despensero y su mujer el de ama de llaves.
La declaración de estos dos criados, robustecida por la de varios amigos, demuestra
que hace algún tiempo que Sir Charles no gozaba de buena salud. sufrı́a por lo visto,
una afección al corazón, la que se manifestaba en repentinos cambios de color, respiración fatigosa y abatimiento de espı́ritu. La declaración del doctor James Mortimer,
amigo ı́ntimo y médico del difunto, confirma lo que acabamos de decir.
Parece que Sir Charles tenı́a la costumbre de salir todas las noches antes de acostarse, a dar un paseo por la hermosa avenida de acacias de su posesión.
Las declaraciones de los criados prueban que ésta era una costumbre inverterada de
Sir Charles.
Este, el dı́a 4 de marzo, anunció su propósito de salir al dı́a siguiente para Londres y mandó a Barrymore que preparase el equipaje.
Aquella noche salió como de costumbre, a dar su pasea fumando un cigarro, y no
volvió más. Medianoche serı́a cuando Barrymore notó que la puerta de entrada estaba abierta todavı́a, y se alarmó. Encendió una linterna y salió en busca de su amo.
Como durante el dı́a habı́a llovido, le fue fácil seguir las huellas de Sir Charles por
la avenida, hacia cuya mitad hay una verja, según parece, que conduce al páramo.
Habı́a señales de que Sir Charles se habı́a detenido allı́ durante un rato, y se cree
que después debió proseguir su camino, porque el cadáver fue encontrado al final de
la avenida.
Capı́tulo 3. Aplicaciones de las Redes Bayesianas
45
Una cosa hay que no se ha podido aclarar, y es que las pisadas de Sir Charles variaban de forma desde el momento en que pasó de la verja que conduce al páramo,
pues desde allı́ parecı́a haber andado de puntillas. (...)
Ninguna señal de violencia se vio en el cadáver de Sir Charles, y aunque el médico ha declarado que la contorsión de las facciones desfiguraba tanto al difunto que
apenas pudo creer en un principio que verdaderamente fuese aquél su amigo, se ha
probado que esto es un sı́ntoma común en casos de disnea y de muerte producida por
la extenuación cardı́aca.
Esta explicación fue comprobada por la autopsia, en la que quedó bien patente que
Sir Charles padecı́a una enfermedad orgánica crónica. En vista de esto, el Jurado
dio veredicto de acuerdo con la declaración del médico.”
El fragmento anterior fue tomado del Devon County Chronicle, periódico que aparece en “El sabueso de los Baskerville” y donde se dio una relación de los hechos al
ocurrir la muerte de Sir Charles.
El siguiente fragmento también está tomado de “El sabueso de los Baskerville” [1,
pág. 15] extraı́do de la conversación entre el Dr. Mortimer y Sherlock Holmes.
“Examiné las pisadas de Sir Charles en todo lo largo de la avenida, vi el punto
donde parecı́a haberse detenido, noté el cambio de las pisadas desde allı́, me fijé en
que no habı́a más que las de Barrymore en la senda, y finalmente reconocı́ con toda
detención al cadáver, que nadie habı́a tocado hasta mi llegada.
Sir Charles estaba boca abajo, con los brazos extendidos, los dedos hincados en la
tierra y las facciones contraı́das por una fuerte emoción, hasta tal punto, que apenas
hubiese podido yo testimoniar bajo juramento su identidad. Ninguna lesión exterior
pude apreciar, pero Barrymore se equivocó en una de las declaraciones prestadas en
el sumario. Dijo que no habı́a huellas ni marcas alrededor del cadáver, y esto no
es exacto. Él no las observarı́a; pero yo las vi, a alguna distancia, es verdad, pero
estaban bien patentes.
Capı́tulo 3. Aplicaciones de las Redes Bayesianas
46
- ¿Huellas de pisadas?
- Sı́ señor, huellas de pisadas.
- ¿De hombre o de mujer?
El doctor Mortimer nos contempló vagamente por unos momentos y contestó con
solemnidad:
- ¡Señor Holmes, eran las huellas de un sabueso gigantesco!”
3.1.2.
Información preliminar y evidencia
Además de lo anteriormente citado acerca de lo que dijo el Dr. Mortimer a Holmes y
Watson, les relató la leyenda de un sabueso gigantesco que castigó por sus pecados a
uno de los ancestros de los Baskerville. Esto forma parte de la información preliminar
del caso.
Por otro lado, las dos piezas de evidencia a considerar serán: la evidencia médica
y las huellas.
3.1.3.
Construcción de un argumento probabilı́stico
Se construirá un argumento tomando en cuenta la evidencia disponible, primero tomando cada pieza de evidencia a la vez y luego usando toda la evidencia a la vez.
Para esto, primero se deben formular las hipótesis que den explicación a la muerte
de Sir Charles Baskerville.
Las tres hipótesis son las siguientes:
H1 : Sir Charles murió por causas naturales.
H2 : Sir Charles murió a causa de un acto criminal.
H3 : Sir Charles cometió suicidio.
La hipótesis de que Sir Charles haya muerto debido a un fantasma, no es admisible, ni en nuestros tiempos ni en el siglo XIX lo era. Por lo tanto, ninguna hipótesis
toma en serio la leyenda del sabueso gigantesco que ronda el páramo.
Capı́tulo 3. Aplicaciones de las Redes Bayesianas
47
Se pueden hacer los siguientes juicios acerca de las probabilidades a priori de las
hipótesis, nótese que la información preliminar está dada en forma explı́cita:
P (H1 |I) > P (H2 |I).
P (H1 |I) > P (H3 |I).
(3.1)
P (H1 |I) > P (H2 ∪ H3 |I) = P (H2 |I) + P (H3 |I).
La probabilidad a priori de la hipótesis del crimen es muy baja pero no igual a cero.
Verosimilitudes
Cuando se considera la evidencia médica (el reporte del forense), este lleva a pensar
que la siguiente proposición es verdadera:
R: Sir Charles murió a causa de un ataque cardiaco.
Se puede suponer que la verosimilitud de H3 dada la evidencia R es igual a 0.
Además, la verosimilitud de la hipótesis de la muerte natural es mucho mayor que la
verosimilitud de la hipótesis del crimen, dada la evidencia R. Esto se puede resumir
como sigue:
P (R|H1 , I) > P (R|H2 , I).
P (R|H3 , I) = 0.
(3.2)
Argumentos construidos en base a la evidencia R
En este ejemplo la proposición R serı́a falsa si la proposición H3 hubiese sido
verdadera, por lo tanto, la veracidad de R implica la falsedad de H3 de acuerdo
al Teorema de Bayes:
P (H3 |R, I) = 0.
(3.3)
Capı́tulo 3. Aplicaciones de las Redes Bayesianas
48
Reescribiendo el teorema de Bayes en (1.10) para las hipótesis H1 y H2 tenemos:
P (H1 |R, I)P (R|I) = P (R|H1 , I)P (H1 |I).
P (H2 |R, I)P (R|I) = P (R|H2 , I)P (H2 |I).
(3.4)
De (3.1) y (3.2) se sigue que, la probabilidad de la hipótesis del accidente es aún
mayor que la hipótesis del crimen dada solamente información preliminar, conociendo
el reporte del forense (esta es una inferencia deductiva).
P (H1 |R, I) > P (H2 |R, I).
(3.5)
Argumentos construidos en base a la evidencia R y F
Ahora se considerará la evidencia del Dr. Mortimer. Se supondrá que la siguiente
proposición es verdadera:
F = Un sabueso gigantesco estaba persiguiendo a Sir Charles.
La probabilidad que se tiene que calcular es la siguiente:
P (H1 |F, R, I) =
P (F |H1 , R, I)P (H1 |R, I)
.
P (F |R, I)
Se puede argumentar que las verosimilitudes están en contra de la hipótesis del
accidente y a favor de la hipótesis del crimen; la probabilidad de que un perro gigante
estaba en el páramo a la hora del incidente es menor que la probabilidad de que esto
hubiera pasado con un plan intencional.
P (F |H1 , R, I) < P (F |H2 , R, I).
(3.6)
En este paso, las probabilidades iniciales son: P (H1 |R, I) > P (H2 |R, I) y éstas están
a favor de H1 , ası́ que:
Capı́tulo 3. Aplicaciones de las Redes Bayesianas
49
¿Cuál es el efecto total de la evidencia F ?
Para responder esta pregunta consideremos las formas momiales del teorema de Bayes
aplicadas a H1 , H2 , R y F :
P (H1 |F, R, I)
P (F |H1 , R, I) P (H1 |R, I)
=
·
.
P (H2 |F, R, I)
P (F |H2 , R, I) P (H2 |R, I)
De esta forma se puede ver inmediatamente que, dado que la razón momial inicial
está a favor de H1 , los momios posteriores pueden ser invertidos sólo si la razón de
verosimilitudes a favor de H2 es mayor que la razón momial inicial.
Es decir,
P (H2 |F, R, I) > P (H1 |F, R, I).
Si y sólo si
P (H1 |R, I)
P (F |H2 , R, I)
>
.
P (F |H1 , R, I)
P (H2 |R, I)
Se puede decir con seguridad que la razón del lado izquierdo de la expresión anterior
no puede ser mayor que la razón de la derecha. Por lo tanto, se concluye que la
probabilidad de la muerte natural es mucho mayor incluso que la probabilidad de
que un acto criminal ha sido planeado, tomando en cuenta la evidencia de las huellas.
Esta conclusión ha sido hecha sólo con argumentos comparativos.
3.1.4.
Razonando con evidencia total
¿La conclusión podrı́a cambiar si se aplica el teorema de Bayes a ambas piezas de
evidencia al mismo tiempo en vez de construir el argumento en dos pasos?
La probabilidad que se quiere calcular es la siguiente:
P (H1 |F, R, I) =
P (H1 , F, R|I)
.
P (F, R|I)
El numerador anterior puede ser factorizado de las siguientes dos maneras:
Capı́tulo 3. Aplicaciones de las Redes Bayesianas
50
P (H1 |I)P (R|H1 , I)P (F |H1 , R, I) = P (H1 |I)P (F |H1 , I)P (R|H1 , F, I).
De acuerdo a la factorización que se use, el efecto total de la evidencia será calculado
usando alguna de las siguientes razones de verosimilitud:
P (R|H1 , I) P (F |H1 , R, I)
·
.
P (R|H2 , I) P (F |H2 , R, I)
(3.7)
P (F |H1 , I) P (R|H1 , R, I)
·
.
P (F |H2 , I) P (R|H2 , R, I)
(3.8)
En (3.7) se sigue el orden temporal en el que la evidencia fue adquirida, mientras
que en (3.8) se sigue el orden en que ocurrieron los escenarios hipotéticos. Si se toman en cuenta los juicios hechos en (3.2) y (3.6), la fórmula (3.7) parece ser la más
fácil de usar. Aunque en este caso, se quiere dar una evaluación comparativa de las
verosimilitudes en (3.8).
La verosimilitud de H2 dada F es mayor que la verosimilitud de H1 dada F :
P (F |H2 , I) > P (F |H1 , I).
(3.9)
Entonces, se puede argumentar que dado que un gran perro estaba persiguiendo a Sir
Charles, las probabilidades de que muriera por un ataque cardiaco son las mismas.
La razón para la presencia del perro no importa. Entonces:
P (R|H1 , F, I) = P (R|H2 , F, I).
(3.10)
De (3.8) con las premisas (3.9) y (3.10) la conclusión a la que se llega es que el
total de la evidencia está a favor de la hipótesis del crimen. En efecto, dado (3.10)
la evidencia R es “neutral” con respecto a la elección de H1 sobre H2 , mientras que
dada (3.9) la evidencia F está a favor de H2 :
Capı́tulo 3. Aplicaciones de las Redes Bayesianas
51
P (F |H2 , I)
P (R|H1 , F, I)
>
= 1.
P (F |H1 , I)
P (R|H2 , F, I)
Esto no significa que los momios posteriores estarán a favor de H2 ; para el
cálculo de los momios posteriores se incluyen los momios a priori y estos están
abrumadoramente a favor de H1 :
P (F |H1 , I) P (R|H1 , F, I) P (H1 |I)
P (H1 |F, R, I)
=
·
·
.
P (H2 |F, R, I)
P (F |H2 , I) P (R|H2 , F, I) P (H2 |I)
Una forma correcta para reportar la inferencia, serı́a decir que aunque la evidencia
está a favor de la hipótesis del crimen, la probabilidad a priori de esta hipótesis es
tan baja que la hipótesis de la muerte natural es aún más creı́ble.
Pero esta conclusión ha sido hecha sólo con argumentos comparativos, lo siguiente será ver cuál es la hipótesis más probable haciendo uso de una Red Bayesiana.
3.1.5.
Solución mediante una Red Bayesiana
A continuación se usará una Red Bayesiana para simplificar el proceso de encontrar
las probabilidades: P (H1 |F, R, I), P (H2 |F, R, I) y P (H3 |F, R, I).
Los nodos de la Red Bayesiana serán:
H con tres estados (H1 , H2 , H3 ).
R con dos estados (true, false).
F con dos estados (true, false).
Habrá un arco apuntando de H hacia R, ya que las proposiciones Hi constituyen una partición de la clase general de todas las posibles causas de la muerte y
P (R|Hi , I) 6= P (R|Hj , I) para i 6= j.
También habrá un arco de H hacia F . Ya que la hipótesis del crimen podrı́a explicar
la presencia del sabueso en el páramo. Por otro lado, P (F |H1 , I) = P (F |H3 , I), ya
que el ataque al corazón no explica la presencia de un sabueso, ası́ como el suicidio
Capı́tulo 3. Aplicaciones de las Redes Bayesianas
52
tampoco la explica.
Finalmente se cree que un sabueso extraviado que persigue a una persona con un
corazón débil puede explicar el ataque cardiaco. En el caso de que Sir Charles cometiera suicidio, no habrı́a conexión alguna entre los casos. Por lo tanto, habrá un arco
apuntando de F a R.
H
F
R
Figura 3.1: Red Bayesiana para “El sabueso de los Baskerville”
Este caso contiene un ejemplo del fenómeno conocido como independencia asimétrica, que ocurre cuando las variables son independientes de algunos pero no de todos
sus valores. El arco que va de F a R es necesario para representar la dependencia de
R a F dados H1 y H2 , pero la Red Bayesiana no puede representar la independencia
de R a F dado H3 . Esta relación de independencia asimétrica, sólo puede ser observada en los valores de la tabla de probabilidad condicional.
Todas las probabilidades numéricas expuestas aquı́ están tomadas de [5], y algu-
Capı́tulo 3. Aplicaciones de las Redes Bayesianas
53
nas están basadas en datos estadı́sticos reales. Otras son suposiciones lógicas con
respecto al contexto con el que se está trabajando.
Como ya se vio, las probabilidades a priori que se asignan a cada hipótesis, juegan un papel importante en el cálculo de la probabilidad condicional P (H1 |F, R, I),
estas probabilidades están expuestas en la tabla 3.1.
H:
P (H|I)
H1
0.89
H2
0.10
H3
0.01
Cuadro 3.1: Probabilidades a priori para los estados del nodo H
Las probabilidades de la tabla anterior son consistentes con uno de los argumentos
comparativos que se estableció en (3.1):
P (H1 |I) > P (H2 o H3 |I) = P (H2 |I) + P (H3 |I)
Hay que recordar que F representa el evento “Un sabueso gigantesco estaba
persiguiendo a Sir Charles”. La tabla 3.2, correspondiente al nodo F , contiene las
verosimilitudes de cada una de las hipótesis dada la evidencia F .
H:
P (F = t|H, I)
P (F = f |H, I)
H1
0.01
0.99
H2
0.10
0.90
H3
0.01
0.99
Cuadro 3.2: Tabla de probabilidad condicional del nodo F dado H
Una vez más, se observa que en la tabla 3.2, las verosimilitudes cumplen con la
desigualdad (3.9):
P (F |H2 , I) > P (F |H1 , I)
La tabla de probabilidad condicional del nodo R: “Sir Charles murió a causa de un
ataque cardiaco” dadas H y F está mostrada en el cuadro 3.3.
Donde se puede observar que se cumple (3.10):
P (R|H1 , F, I) = P (R|H2 , F, I)
Capı́tulo 3. Aplicaciones de las Redes Bayesianas
H:
F :
P (R = t|H, F, I)
P (R = f |H, F, I)
F =t
0.4
0.6
H1
F =f
0.1
0.9
F =t
0.4
0.6
54
H2
F =f
0.001
0.999
F =t
0
1
H3
F =f
0
1
Cuadro 3.3: Tabla de probabilidad condicional para el nodo R
Otro argumento que se realizó acerca de la verosimilitud que involucra a la evidencia
R es (3.2):
P (R|H1 , I) > P (R|H2 , I).
P (R|H3 , I) = 0.
Para verificar lo anterior es necesario hacer uso de la Ley de Probabilidad Total:
P (R|H1 , I) = P (R|H1 , F, I)P (F |H1 , I) + P (R|H1 , F c , I)P (F c |H1 , I) = (0.4)(0.01) +
(0.1)(0.99) = 0.004 + 0.099 = 0.103.
P (R|H2 , I) = P (R|H2 , F, I)P (F |H2 , I) + P (R|H2 , F c , I)P (F c |H2 , I) = (0.4)(0.10) +
(0.001)(0.90) = 0.04 + 0.0009 = 0.0409.
P (R|H3 , I) = 0.
Estos resultados respaldan la afirmación hecha en (3.2). Por lo que los valores asignados en las distribuciones de probabilidad son coherentes.
Para comprobar la afirmación (3.6): P (F |H1 , R, I) < P (F |H2 , R, I), esta vez se
hará uso del Teorema de Bayes, el cual se aplica a F dados R y H1 .
P (F |H1 , R, I) =
(0.4)(0.01)
P (R|H1 , F, I)P (F |H1 , I)
=
= 0.039.
P (R|H1 , I)
0.103
P (F |H2 , R, I) =
(0.4)(0.10)
P (R|H2 , F, I)P (F |H2 , I)
=
= 0.978.
P (R|H2 , I)
0.0409
Capı́tulo 3. Aplicaciones de las Redes Bayesianas
55
Por último, la probabilidad que se desea tener es:
P (H1 |F, R, I).
La cual, se calculará de:
P (H1 |F, R, I)
P (F |H1 , I) P (R|H1 , F, I) P (H1 |I)
=
·
·
.
P (H2 |F, R, I)
P (F |H2 , I) P (R|H2 , F, I) P (H2 |I)
donde
V =
P (F |H1 , I) P (R|H1 , F, I)
0.01 0.4
·
=
·
= 0.1.
P (F |H2 , I) P (R|H2 , F, I)
0.10 0.4
Se observa que la razón de verosimilitud (V ) está ligeramente en favor de H2 .
Y por último,
P (H1 |F, R, I)
0.89
=V ·
= 0.1 · 8.9 = 0.89.
P (H2 |F, R, I)
0.10
De esto último, se concluye que:
P (H1 |F, R, I) = 0.4709 = 47.09 %.
P (H2 |F, R, I) = 0.5291 = 52.91 %.
Por lo tanto, la probabilidad de que Sir Charles haya muerto debido a un acto
criminal es mayor a la probabilidad de que lo haya hecho por causas naturales, como
parecı́a indicar el reporte del forense.
3.1.6.
Resolución alternativa
Resumiendo, el caso en “El Sabueso de los Baskerville” ha sido analizado, planteado
y resuelto con ayuda de una Red Bayesiana, haciendo uso del Teorema de Bayes en
Capı́tulo 3. Aplicaciones de las Redes Bayesianas
56
sus formas dadas en (1.10) y (1.12).
Gracias a la forma del Teorema de Bayes dada en (1.12), se ha podido analizar la
razón de verosimilitud y ası́ poder decir a favor de qué hipótesis se encontraba ésta.
Sin embargo, existe otro método para encontrar las probabilidades de las hipótesis
dada la evidencia.
A continuación se mostrará la resolución del caso mediante tal método, que consiste en aplicar la definición formal de Red Bayesiana.
En un punto de la definición se menciona que:
La distribución de probabilidad conjunta P (X1 , ..., Xn ) con n variables aleatorias,
puede ser factorizada como el producto de las probabilidades condicionales de todas
sus variables, condicionadas a sus padres:
P (X1 , ..., Xn ) =
n
Y
P (Xi | PA(Xi )).
i=1
Esto quiere decir que, la distribución de probabilidad conjunta P (H, R, F ) puede
obtenerse de la siguiente manera:
P (H, R, F ) = P (H)P (F |H)P (R|H, F )
(3.11)
Esta distribución conjunta se expresará en una tabla en donde sólo se considerará R =
true con motivo de simplificar los cálculos y ya que este es el estado que se quiere
para la evidencia R.
H:
P (F = t|H, R = true)
P (F = f |H, R = true)
H1
0.00356
0.08811
H2
0.004
0.00009
H3
0
0
Cuadro 3.4: Tabla para la distribución de probabilidad conjunta P (H, F, R = true)
A continuación se calculará la distribución marginal para P (H, R = true) y para
P (R = true):
Capı́tulo 3. Aplicaciones de las Redes Bayesianas
57
P (H, R = true) = (0.09167, 0.00409, 0)
P (R = true) = 0.09576
Con estos datos, ahora se es capaz de calcular la probabilidad condicional P (H|R =
true):
P (H|R = true) = (0.9572, 0.04271, 0)
De este resultado se concluye que, dada solamente la evidencia R obtenida del informe del forense, la hipótesis más probable es H1 con 95.72 %.
Sin embargo, se considerará también la evidencia F . Entonces la distribución conjunta P (H, R = true, F = true) que corresponde al primer renglón de la tabla 3.4
será:
P (H, R = true, F = true) = (0.00356, 0.004, 0)
De aquı́, se obtiene:
P (R = true, F = true) = 0.00756
Y por último se calcula la probabilidad condicional P (H|R = true, F = true):
P (H|R = true, F = true) = (0.47089, 0.5291, 0)
De donde podemos observar que los resultados son consistentes con los encontrados anteriormente.
En conclusión: se hizo uso de las Redes Bayesianas para plantear y resolver el
misterio de Baskerville. Esta solución fue consistente con las conclusiones a las que
llegó Holmes en el relato después de realizar sus averiguaciones: la muerte de Sir
Capı́tulo 3. Aplicaciones de las Redes Bayesianas
58
Charles fue consecuencia de un asesinato, uno bien planeado donde aprovechando la
condición precaria de la salud del hombre, se le asustó hasta la muerte haciendo uso
de un perro gigantesco. Ver la resolución completa del caso en [1].
3.1.7.
Uso del paquete gRain en R
A continuación, se hará uso del paquete gRain para construir una Red Bayesiana y
posteriormente realizar inferencia acerca del caso Baskerville.
Sólo se necesitan los datos dados en las tablas 3.1, 3.2 y 3.3 para que R realice
la inferencia correspondiente y muestre el siguiente resultado:
Figura 3.2: Resultados en R para “El Sabueso de los Baskerville”
Se puede observar que los valores para P (H1 |F = true, R = true, I) y P (H2 |F =
true, R = true, I) coinciden con los encontrados anteriormente.
NOTA: El código en R se encuentra en el apéndice A.
Capı́tulo 3. Aplicaciones de las Redes Bayesianas
3.2.
59
Aplicación 2: La Falacia del Fiscal en R
Esta Falacia ya se ha resuelto en el capı́tulo 1, sección 1.2.3, donde se dio como
ejemplo del uso de inferencia Bayesiana, sin embargo, existe una forma mucho más
sencilla de resolver tal falacia, esto es usando una Red Bayesiana. Ya se ha dado
la teorı́a necesaria para considerar a la evidencia como un nodo de la red y a las
hipótesis de culpabilidad e inocencia como otro nodo.
Por lo tanto, se tendrán los nodos C con estados H y H c , y E con estados true
y f alse. Además de que se dibujará un arco que va de las hipótesis a la evidencia.
La Red Bayesiana correspondiente al ejemplo 1.4 se muestra en la figura 3.3.
C
E
Figura 3.3: Red Bayesiana para “La Falacia del Fiscal”
Las tablas correspondientes a cada nodo son las siguientes:
Capı́tulo 3. Aplicaciones de las Redes Bayesianas
C:
P (C)
H
0.01
60
Hc
99.99
Cuadro 3.5: Tabla para el nodo C de La Falacia del Fiscal
C:
E = true
E = f alse
H
1
0
Hc
0.1
99.99
Cuadro 3.6: Tabla para el nodo E de La Falacia del Fiscal
Mediante el uso de la Red Bayesiana y R, se ha llegado a la misma conclusión
que utilizando el Teorema de Bayes en la sección 1.2.3: la probabilidad de que
Fred sea inocente dada la evidencia es aproximadamente de 0.90908, es decir
P (H c |E = true) = 0.90908.
Este resultado se muestra en la siguiente gráfica construida mediante los datos
obtenidos en R:
Figura 3.4: Resultados en R para La Falacia del Fiscal
NOTA: El código en R se encuentra en el apéndice A.
Capı́tulo 3. Aplicaciones de las Redes Bayesianas
3.3.
61
Aplicación 3: La Paradoja de Simpson
La paradoja aparece cuando una asociación entre par de variables puede ser invertida
en cada subpoblación de una población, cuando esta es particionada. Esta paradoja
es bastante conocida e importante en Estadı́stica ya que ha aparecido en casos reales,
uno de los más famosos es el caso de discriminación de Berkeley, mencionado en [7]
y en [8].
A continuación se resolverá un ejemplo tomado de [10], con la diferencia de que
este será resuelto mediante Redes Bayesianas.
Ejemplo 3.1. Un doctor probó un nuevo tratamiento en algunos pacientes (T1 )
dejando a los demás con el tratamiento anterior (T0 ), algunos locales (C1 ) y otros
de Chicago (C2 ). Cuando el doctor obtuvo los datos de la tabla 3.7, se dio cuenta de
que el nuevo tratamiento era muy malo. En este caso V es la variable que representa
la recuperación del paciente.
T:
V = true
V = f alse
T0
5050 (46 %)
5950 (54 %)
T1
1095 (11 %)
9005 (89 %)
Cuadro 3.7:
El doctor también poseı́a los resultados del tratamiento nuevo aplicado a pacientes
de las ciudades C1 y C2 por separado. Este tratamiento casi habı́a doblado la tasa
de recuperación en ambas ciudades, estos datos están presentados en la tabla 3.8.
T :
V = true:
V = f alse:
C1
T0
50 (5 %)
950 (95 %)
T1
1000 (10 %)
9000 (90 %)
Cuadro 3.8:
C2
T0
T1
5000 (50 %) 95 (95 %)
5000 (50 %) 5 (5 %)
Capı́tulo 3. Aplicaciones de las Redes Bayesianas
62
De los datos en la tabla 3.8 se observa que hay 6,145 pacientes que se recuperaron,
de los cuales 5,050 habı́an recibido el tratamiento anterior.
También se observa que el tratamiento nuevo se aplicó a más habitantes de la ciudad
C1 , siendo los habitantes de esta ciudad menos propensos a recuperarse.
De la tabla 3.8 se obtiene la tabla 3.9 que muestra en qué proporción se aplicaron ambos tratamientos en las dos ciudades.
C:
T0
T1
C1
1000 (9 %)
10000 (91 %)
C2
10000 (99 %)
100 (1 %)
Cuadro 3.9:
Los datos contradictorios presentados en las tablas 3.7 y 3.8, dejan abierta la cuestión:
¿Cuál es el tratamiento más efectivo?
Para responder esto, se hará uso de Redes Bayesianas.
Las tres tablas anteriores proporcionan los datos necesarios para construir una Red
Bayesiana que explique el fenómeno.
Existen tres modelos que pueden usarse con el propósito de encontrar el tratamiento
que es más favorable a los pacientes. Estos se enlistan a continuación.
Modelo (a)
Este modelo toma en cuenta el efecto directo que tiene la aplicación del tratamiento
sobre la recuperación del paciente. Habrá un arco de T hacia V . No se toma en
cuenta la distinción de ciudades ni el efecto que tiene sobre la recuperación.
Capı́tulo 3. Aplicaciones de las Redes Bayesianas
C
63
T
V
Figura 3.5: Modelo (a)
De la tabla 3.7 se encuentra la tabla 3.10 que muestra la proporción de pacientes a
los que se aplicó cada tratamiento. Esta tabla corresponde al nodo T .
T:
T0
11000 (52.13 %)
T1
10100 (47.87 %)
Cuadro 3.10: Tabla para el nodo T
La tabla correspondiente al nodo V es la tabla 3.7.
Modelo (b)
El modelo (b) toma en cuenta la relación directa que hay entre la ciudad de origen
de los pacientes y la recuperación, por lo que habrá un arco de C a V .
Capı́tulo 3. Aplicaciones de las Redes Bayesianas
C
64
T
V
Figura 3.6: Modelo (b)
La tabla del nodo T será igual a la tabla 3.10.
De la tabla 3.8, se obtiene la tabla para C, tabla 3.11.
C:
C1
11000 (52.13 %)
C2
10100 (47.87 %)
Cuadro 3.11: Tabla para el nodo C
Para el nodo V , la tabla de probabilidad condicional asociada a las variables C y T ,
será igual a la tabla 3.8.
Modelo (c)
En este modelo, además de las relaciones mencionadas en el modelo (b),
habrá también un arco de C a T representando la relación que hay entre la ciudad
del paciente y el tratamiento que se le aplica.
Capı́tulo 3. Aplicaciones de las Redes Bayesianas
65
C
T
V
Figura 3.7: Modelo (c)
La tabla para el nodo T estará condicionada a la variable C, y es igual a la tabla
3.9.
La tabla para C será 3.11.
La tabla para V será 3.8.
Ya establecidos los modelos, se procederá a encontrar cuál es el apropiado para
explicar la Paradoja de Simpson en este ejemplo. Para este propósito se usará el
paquete gRain de R.
3.3.1.
Uso del paquete gRain para los tres modelos
Recuperación dado T
Cuando se calcula P (V |T ) en R, se observa que en los modelos (a) y (c) se tienen
los mismos resultados que se muestran en la tabla 3.7, lo cual no resuelve la paradoja.
Capı́tulo 3. Aplicaciones de las Redes Bayesianas
66
Figura 3.8: Modelo (a) y Modelo (c)
Figura 3.9: Modelo (b)
Por otro lado, en el modelo (b) la tabla para P (V |T ) es diferente a las otras dos
y sus resultados son congruentes con los de la tabla 3.8. En conclusión, el modelo
(b) nos dice que para evitar la Paradoja de Simpson es necesario no tomar en cuenta la relación entre la ciudad del paciente y la aplicación del tratamiento, ya que
ası́ se podrán obtener datos que tengan que ver sólo con el efecto del tratamiento en
general.
Conclusiones
Mediante las tres aplicaciones presentadas en este trabajo, se ha logrado mostrar que
el uso de las Redes Bayesianas es de utilidad en la realización de inferencia dentro
de diversas áreas. Estas aplicaciones son de interés debido a que suelen prestarse a
confusión y son relevantes dentro de situaciones delicadas.
Además, se ha usado el software R como apoyo para la solución de los problemas, lo
que ha permitido simplificar el proceso de inferencia realizado.
Este software se puede usar para resolver problemas más complejos, por ejemplo,
algunas situaciones de diagnóstico médico.
Algunos paquetes de R para trabajar con Redes Bayesianas mencionados en [11],
son: bnlearn, deal, pcalg y catnet, estos paquetes se enfocan en aprendizaje de
estructura y de parámetros, mientras que los paquetes gRbase y gRain se enfocan
en la manipulación de los parámetros de la red, predicción e inferencia.
También existen programas especializados en Redes Bayesianas, que facilitan la
construcción de Redes y de sus tablas correspondientes. Algunos ejemplos de estos
programas son: BayesiaLab y AgenaRisk, este último utilizado en los ejemplos de [9].
Este trabajo sienta las bases para futuras investigaciones acerca de la aplicación
de Redes Bayesianas en R para la solución de problemas inferenciales de todo tipo.
Se cree que esta técnica puede ser de ayuda en juicios orales, que actualmente se han
implementado en nuestro paı́s.
67
Apéndice A
Códigos de R
A.1.
Generalidades
Los paquetes de R que se usaron para trabajar con Redes Bayesianas, son: gRain y
graph, el primero proporciona las herramientas para realizar inferencia, y el segundo
se utilizó para graficar todas las redes que aparecen en este trabajo.
Al trabajar con cualquier Red Bayesiana, se coloca lo siguiente al inicio de cada
script en R:
library(gRain)
library(graph)
A.1.1.
Resumen de las funciones
Las funciones que se utilizaron en R, fueron las siguientes:
list
Usada para crear una lista de objetos
dagList
Crea gráficas dirigidas y no dirigidas
68
Apéndice A. Códigos de R
69
c
Crea un vector
cptable
Crea tablas de probabilidad condicional
compileCPT
Compila las tablas de probabilidad condicional
grain
Crea un objeto de la clase grain
compile
Compila una Red Bayesiana
setFinding
Introduce evidencia
querygrain
Obtiene la distribución condicional de un conjunto de variables dadas otras
variables (más evidencia)
El paquete gRain junto con otros paquetes útiles y sus funciones, aparecen explicados
con detalle en [13] y [14].
A.2.
Código para “El Sabueso de los Baskerville”
A continuación se muestra el código en R que se utilizó para resolver el problema de
“El Sabueso de los Baskerville”
Apéndice A. Códigos de R
70
g <- list(~H, ~R:H:F, ~F:H)
baskervilledag <- dagList(g)
tf <- c("true", "false") #Estados para R y F
hip <- c("H1", "H2", "H3") #Estados para H
h <- cptable(~H, values = c(0.89, 0.1, 0.01), levels = hip)
f.h <- cptable(~F | H, values = c(0.01, 0.99, 0.1, 0.9, 0.01, 0.99),
levels = tf)
r.hf <- cptable(~R | H | F, values = c(0.4, 0.6, 0.4, 0.6, 0, 1, 0.1,
0.9, 0.001, 0.999, 0, 1), levels = tf)
tables <- compileCPT(list(h, f.h, r.hf))
baskdag <- grain(tables)
baskbay <- compile(baskdag)
baskbay.ev <- setFinding(baskbay, nodes = c("R"),
states = c("true"))
querygrain(baskbay.ev, nodes = c("H", "F", "R"), type = "conditional")
## , , R = true
##
##
F
## H
true
false
##
H1 0.4709 0.99898
##
H2 0.5291 0.00102
##
H3 0.0000 0.00000
La interpretación de los resultados presentados aquı́ se muestra en las tablas de la
figura 3.2.
Apéndice A. Códigos de R
A.3.
Código para “La Falacia del Fiscal”
Los cálculos correspondientes a “La Falacia del Fiscal”, son los siguientes:
r <- list(~E:C)
prosecutordag <- dagList(r)
tf <- c("true", "false") #Estados para E
hip <- c("Hc", "H") #Estados para C
c <- cptable(~C, values = c(0.01, 99.99), levels = hip)
e.c <- cptable(~E | C, values = c(1, 0, 0.1, 99.9), levels = tf)
tables <- compileCPT(list(c, e.c))
prosecdag <- grain(tables)
prosecbay <- compile(prosecdag)
prosecbay.ev <- setFinding(prosecbay, nodes = c("E"),
states = c("true"))
querygrain(prosecbay.ev, nodes = c("C", "E"), type = "conditional")
##
E
## C
true
##
Hc 0.09092
##
H 0.90908
Los resultados obtenidos se muestran en la figura 3.4.
71
Apéndice A. Códigos de R
72
A.4.
Código para “La Paradoja de Simpson”
A.4.1.
Modelo (a)
p <- list(~C, ~T, ~V:T)
paradoxdag <- dagList(p)
tf <- c("true", "false")
#Estados para V
cs <- c("C1", "C2")
#Estados para C
ts <- c("T0", "T1")
#Estados para T
c <- cptable(~C, values = c(0.5213, 0.4787), levels = cs)
t <- cptable(~T, values = c(0.5213, 0.4787), levels = ts)
v.t <- cptable(~V | T, values = c(0.46, 0.54, 0.11, 0.89), levels = tf)
tables <- compileCPT(list(c, t, v.t))
pardag <- grain(tables)
parbay <- compile(pardag)
querygrain(parbay, nodes = c("V", "T"), type = "conditional")
##
T
## V
T0
T1
##
true 0.46 0.11
##
false 0.54 0.89
Estos datos aparecen en la figura 3.8.
Apéndice A. Códigos de R
A.4.2.
73
Modelo (b)
p <- list(~C, ~T, ~V:T:C)
paradoxdag <- dagList(p)
tf <- c("true", "false")
#Estados para V
cs <- c("C1", "C2")
#Estados para C
ts <- c("T0", "T1")
#Estados para T
c <- cptable(~C, values = c(0.5213, 0.4787), levels = cs)
t <- cptable(~T, values = c(0.5213, 0.4787), levels = ts)
v.tc <- cptable(~V | T | C, values = c(0.05, 0.95, 0.1, 0.9, 0.5, 0.5,
0.95, 0.05), levels = tf)
tables <- compileCPT(list(c, t, v.tc))
pardag <- grain(tables)
parbay <- compile(pardag)
querygrain(parbay, nodes = c("V", "T"), type = "conditional")
##
T
## V
T0
T1
##
true 0.2654 0.5069
##
false 0.7346 0.4931
Estos datos aparecen en la figura 3.8.
Apéndice A. Códigos de R
A.4.3.
74
Modelo (c)
p <- list(~C, ~T:C, ~V:T:C)
paradoxdag <- dagList(p)
tf <- c("true", "false")
#Estados para V
cs <- c("C1", "C2")
#Estados para C
ts <- c("T0", "T1")
#Estados para T
c <- cptable(~C, values = c(0.5213, 0.4787), levels = cs)
t.c <- cptable(~T | C, values = c(0.09, 0.91, 0.99, 0.01), levels = ts)
v.tc <- cptable(~V | T | C, values = c(0.05, 0.95, 0.1, 0.9, 0.5, 0.5,
0.95, 0.05), levels = tf)
tables <- compileCPT(list(c, t.c, v.tc))
pardag <- grain(tables)
parbay <- compile(pardag)
querygrain(parbay, nodes = c("V", "T"), type = "conditional")
##
T
## V
T0
T1
##
true 0.4595 0.1085
##
false 0.5405 0.8915
Estos datos aparecen en la figura 3.9.
Bibliografı́a
[1] Conan Doyle A. Aventuras de Sherlock Holmes. Porrúa, 1979.
[2] Darwiche A. Modeling and reasoning with Bayesian Networks. Cambridge
University Press, 2009.
[3] Kadane J. B. Bayesian Thought in Early Modern Detective Stories: Monsieur
Lecoq, C. Auguste Dupin and Sherlock Holmes. Statistical Science, 2009.
[4] Neapolitan R. E. Learning Bayesian Networks. Prentice Hall, 2007.
[5] Taroni F., Aitken C., Garbolino P., y Biedermann A. Bayesian Networks and
Probabilistic Inference in Forensic Sciences. Jon Wiley and sons, 2006.
[6] Malinas G. y Bigelow J. Simpson’s Paradox. The Stanford Encyclopedia of
Philosophy, 2012.
[7] Bickel P. J., Hammel E. A., y O’Conell J. W. Sex Bias in Graduate Admissions:
Data from Berkeley. American Association for the Advancement of Science,
2011. URL http://www.jstor.org/stable/1739581, Se accedió por última vez:
30-03-2014.
[8] Pearl J. Causality: Models, Reasoning, and Inference. Cambridge University
Press, 2000.
[9] Fenton N. y Neil M. Risk Assessment and Decision Analysis With Bayesian
Networks. CRC Press, 2012.
[10] Blyth C. R. On Simpson’s Paradox and the Sure-Thing Principle. Journal of
the American Statistical Association, 1972.
75
Bibliografı́a
76
[11] Nagarajan R., Scutari M., y Lébre S. Bayesian Networks in R with Applications
in Systems Biology. Springer, 2013.
[12] Conrady S. y Jouffe L.
Paradoxes and Fallacies.
2011. URL
http://library.bayesia.com/display/whitepapers/Paradoxes+and+Fallacies, Se
accedió por última vez: 24-02-2014.
[13] Hojsgaard S. Bayesian Networks in R with the gRain package. Journal
of Statistical Software, 2012. URL http://www.jstatsoft.org/v46/i10/, Se
accedió por última vez: 20-03-2014.
[14] Hojsgaard S., Edwards D., y Lauritzen S. Graphical Models with R. Springer,
2012.
[15] Jensen F. V. y Nielsen T. D. Bayesian Networks and Decision Graphs. Springer,
2007.
[16] Fairbank A. W. Likelihood. Cambridge University Press, 1992.
Descargar