UNIVERSIDAD VERACRUZANA FACULTAD DE MATEMÁTICAS Introducción a las Redes Bayesianas mediante un relato de misterio TESIS que para aprobar la Experiencia Educativa Experiencia Recepcional Correspondiente al Plan de Estudios de la Licenciatura en Matemáticas P R E S E N T A: Marı́a Cristina Ordaz Salazar DIRECTORES DE TESIS: Francisco Sergio Salem Silva Vı́ctor Pérez Garcı́a Abril del año 2014 Xalapa, Ver. México Agradecimientos Quiero agradecer a todas las personas que hicieron posible que yo llegara hasta aquı́, especialmente a mis padres. A mis amigos, quienes me dieron la motivación para continuar, gracias a las circunstancias por haber conocido personas tan geniales. Especialmente quiero agradecer a una persona muy importante para mı́, que siempre estuvo ahı́ para hacerme compañı́a, quien es el motivo principal de mis sonrisas. 2 “Cuando se ha eliminado lo imposible, lo único que queda, por muy improbable que parezca, es la verdad”. 3 Índice general Agradecimientos 2 3 Introducción 6 1. Conceptos básicos de Probabilidad e Inferencia Bayesiana 9 1.1. Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.1.1. Probabilidad Condicional e Independencia . . . . . . . . . . . 11 1.1.2. Relevancia e Información preliminar . . . . . . . . . . . . . . . 13 1.1.3. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.1.4. Verosimilitud y Probabilidad . . . . . . . . . . . . . . . . . . . 15 1.1.5. Las Formas Momiales del Teorema de Bayes . . . . . . . . . . 16 1.1.6. Variables Aleatorias y Distribuciones de Probabilidad . . . . . 18 1.2. Inferencia Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.2.1. Variables aleatorias y probabilidades en aplicaciones Bayesianas 21 1.2.2. Ejemplo de inferencia Bayesiana . . . . . . . . . . . . . . . . . 22 1.2.3. Del Teorema de Bayes a las Redes Bayesianas . . . . . . . . . 24 2. Introducción a las Redes Bayesianas 25 2.1. Gráficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.2. Redes Bayesianas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.2.1. Flujo de información en redes . . . . . . . . . . . . . . . . . . 31 2.2.2. Independencia condicional y d-separación . . . . . . . . . . . . 35 2.2.3. La cubierta de Markov . . . . . . . . . . . . . . . . . . . . . . 36 4 Índice general 5 2.2.4. Definición formal de Red Bayesiana . . . . . . . . . . . . . . . 2.2.5. Construcción de Redes Bayesianas . . . . . . . . . . . . . . . . 2.2.6. Relevancia y Causalidad . . . . . . . . . . . . . . . . . . . . . 3. Aplicaciones de las Redes Bayesianas 3.1. Aplicación 1: El Sabueso de los Baskerville . . . . . 3.1.1. Introducción . . . . . . . . . . . . . . . . . . 3.1.2. Información preliminar y evidencia . . . . . 3.1.3. Construcción de un argumento probabilı́stico 3.1.4. Razonando con evidencia total . . . . . . . . 3.1.5. Solución mediante una Red Bayesiana . . . 3.1.6. Resolución alternativa . . . . . . . . . . . . 3.1.7. Uso del paquete gRain en R . . . . . . . . . 3.2. Aplicación 2: La Falacia del Fiscal en R . . . . . . . 3.3. Aplicación 3: La Paradoja de Simpson . . . . . . . 3.3.1. Uso del paquete gRain para los tres modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 37 41 43 43 43 46 46 49 51 55 58 59 61 65 Conclusiones 67 A. Códigos de R A.1. Generalidades . . . . . . . . . . . . . . . . . A.1.1. Resumen de las funciones . . . . . . A.2. Código para “El Sabueso de los Baskerville” A.3. Código para “La Falacia del Fiscal” . . . . . A.4. Código para “La Paradoja de Simpson” . . . A.4.1. Modelo (a) . . . . . . . . . . . . . . A.4.2. Modelo (b) . . . . . . . . . . . . . . A.4.3. Modelo (c) . . . . . . . . . . . . . . . 68 68 68 69 71 72 72 73 74 Bibliografı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 Introducción Las Redes Bayesianas son una forma gráfica de representar las variables que resultan de interés en situaciones de incertidumbre y que requieren de la utilización de inferencia para su solución. Son útiles ya que se puede visualizar la estructura del problema, en forma lógica y secuencial. El objetivo de este trabajo es mostrar la utilidad de las Redes Bayesianas cuando se trata de resolver problemas causales de interés. Esto se hará mediante tres aplicaciones, que son explicadas en el capı́tulo 3. En los capı́tulos 1 y 2 se dan los conceptos preliminares para este propósito. Es necesario comprender el razonamiento Bayesiano, para esto, se pueden tomar como ejemplo las historias clásicas de detectives que muestran situaciones en las que se aplica este razonamiento. Las historias de detectives son un subgénero de la literatura de misterio, que tuvieron su época dorada en el siglo XIX, donde podemos encontrar relatos de grandes escritores como Emile Gaboriau, Edgar Allan Poe y Sir Arthur Conan Doyle, quienes crearon tres detectives que se han convertido en clásicos. La importancia de estos personajes de ficción para este trabajo, radica en el tipo de razonamiento que utilizaban al resolver casos policiacos. En [3] se hace un análisis de todos ellos. Emile Gaboriau creó a Monsieur Lecoq quien era un detective novato, sin embargo, dejó varias frases que resaltan en sus dos únicas novelas: “Siempre sospecha de lo que parece probable, y comienza a creer en lo que parece increı́ble”, “Desconfı́a de 6 Introducción 7 todas las circunstancias que estén a favor de tus deseos” y “Siempre desconfı́a de lo que parece probable”. Dentro de las obras de Edgar Allan Poe, se encuentran aquellas que relatan las aventuras de C. Auguste Dupin, un detective que resolvı́a los casos más inverosı́miles. La importancia de Dupin radica en su facultad de análisis que utiliza para eliminar todas las posibilidades y encontrar la explicación que es necesariamente la correcta. Por último, se debe mencionar a Sir Arthur Conan Doyle, quien creó a Sherlock Holmes. Lo que hacı́a especial a Sherlock Holmes al trabajar en un caso era que observaba hasta el más mı́nimo de los detalles, para ası́, formular hipótesis más exactas. Por lo que después, sólo tenı́a que eliminarlas una por una y dar con la correcta. Ası́ era uno de sus medios de trabajo, por medio de la inducción eliminativa. Sólo hay que recordar la famosa frase que aparece en “El Signo de los Cuatro” y que se ha convertido en el lema de Sherlock Holmes y su precepto principal: “Cuando se ha eliminado lo imposible, lo único que queda, por improbable que parezca es la verdad” Además, Holmes menciona algo muy interesante en el relato “Estudio en Escarlata”: “Son muchas las personas que, si usted les describe una serie de hechos, le anunciarán cuál va a ser el resultado. Son capaces de coordinar en su cerebro los hechos, y deducir que han de tener una consecuencia determinada. Sin embargo, son pocas las personas que, diciéndoles usted el resultado, son capaces de extraer de lo más hondo de su propia conciencia los pasos que condujeron a ese resultado. A esta facultad me refiero cuando hablo de razonar hacia atrás; es decir, analı́ticamente.” El párrafo anterior también muestra con claridad lo que Poe trató de mostrar en las historias de Dupin y aquı́ aparece explicado por Holmes: el Teorema de Bayes. Introducción 8 Si el precepto de Holmes se ve desde un punto de vista Bayesiano, a la hipótesis más improbable se le debe asignar una probabilidad a priori muy pequeña pero no nula, ya que la probabilidad a posteriori de la hipótesis tenderá a la unidad si todas las hipótesis que competı́an con ella se eliminan. A continuación se dará una breve explicación de los problemas que se presentarán en este trabajo: El problema en “El Sabueso de los Baskerville” da una muestra del razonamiento Bayesiano, presente en las historias de Sherlock Holmes y su solución está fundamentada en el Teorema de Bayes. Este problema se analiza paso a paso en el capı́tulo 3, se formulan hipótesis y se obtiene una solución con ayuda de una Red Bayesiana. La Falacia del Fiscal es un problema muy importante debido al impacto que puede tener, principalmente, en asuntos legales. Esta falacia también se conoce como La Falacia de la Condicional Transpuesta, ya que la probabilidad P (A|B) se confunde con P (B|A), y esto puede traer consecuencias en algún caso judicial donde aparezca esta falacia. Es importante poder identificar cuándo se está haciendo uso de esta falacia, para evitar algún acusamiento injusto. En el capı́tulo 3 se presenta un ejemplo de esto y se explica haciendo uso de una Red Bayesiana. La Paradoja de Simpson, es un problema famoso e importante dentro de la Estadı́stica, esta paradoja debe su nombre a Edward H. Simpson, quien centró su atención en varios problemas estadı́sticos donde los datos reunidos de una población, producı́an una conclusión opuesta cuando se dividı́an en subpoblaciones. Se menciona en [6] que Udny Yule nombró como paradoja a este fenómeno en 1903, aunque Simpson la describió hasta 1951. Por esto, también se le conoce como Efecto de Yule-Simpson. Además, se dará solución a estas aplicaciones mediante el paquete gRain del software R, que contiene las herramientas necesarias para realizar inferencia sobre una Red Bayesiana, construida también mediante este paquete. Los códigos para cada solución, se muestran y explican en el apéndice A. Capı́tulo 1 Conceptos básicos de Probabilidad e Inferencia Bayesiana En este capı́tulo se darán conceptos básicos de probabilidad e inferencia Bayesiana necesarios para el estudio de las Redes Bayesianas. 1.1. Probabilidad El concepto de probabilidad tiene una diversa y gran historia, que incluye varias aproximaciones filosóficas. Se ha considerado a la probabilidad como una razón, como una frecuencia relativa y como un grado de creencia. En este trabajo el término probable se considerará como un grado de creencia al que se le asignan valores numéricos para mayor precisión, éste se acompañará de leyes bien definidas. Además, sólo se trabajará con probabilidades en espacios discretos. La siguiente definición fue tomada de [2]. Definición 1.1 (Grado de creencia). Un grado de creencia es un número que se le asigna a una proposición cuando ésta no se puede declarar como un hecho. También se le llama probabilidad subjetiva, ya que esta probabilidad puede no ser la misma para todas las personas. OBSERVACIÓN: Cuando se es capaz de calcular las probabilidades mediante ra9 Capı́tulo 1. Conceptos básicos de Probabilidad e Inferencia Bayesiana 10 zones o frecuencias relativas, estas coinciden la mayorı́a de las veces con los grados personales de creencia. De aquı́ en adelante, la interpretación de la probabilidad como grado de creencia se tratará con las mismas leyes que se usan con “probabilidad objetiva”, es decir, la probabilidad que puede medirse mediante experimentos. Se usa el término experimento para referirse a cualquier tipo de proceso en el cual el resultado es incierto. A cada resultado del experimento se denomina evento. El conjunto de eventos se llama espacio muestral. Definición 1.2. Supóngase que se tiene un espacio muestral Ω donde sus n elementos distintos son: Ω = {a1 , a2 , ..., an } Una función P : 2Ω → R es llamada una función de probabilidad si satisface las siguientes condiciones: 0 ≤ P ({ai }) ≤ 1, para 1 ≤ i ≤ n. P ({a1 }) + P ({a2 }) + ... + P ({an }) = 1. Para cada evento A = {ai1 , ai2 , ..., aik }, se tiene P (A) = P ({ai1 }) + P ({ai2 }) + ... + P ({aik }). El par (Ω, P ) es llamado espacio de probabilidad. Teorema 1.1. Sea (Ω, P ) un espacio de probabilidad. Entonces, P (Ω) = 1. 0 ≤ P (A) ≤ 1 para cada A ⊆ Ω. Para A y B ⊆ Ω tales que A ∩ B = φ, P (A ∪ B) = P (A) + P (B). (1.1) Capı́tulo 1. Conceptos básicos de Probabilidad e Inferencia Bayesiana 11 En general, para A1 , A2 ,..., An eventos disjuntos tales que Ai ∩ Aj = φ para i 6= j, se tiene, P( n [ Ai ) = i=1 n X P (Ai ). (1.2) i=1 NOTA: En este trabajo se describirá a los eventos mediante proposiciones. 1.1.1. Probabilidad Condicional e Independencia En esta sección se da la definición de probabilidad condicional, el cual es uno de los conceptos más importantes en Probabilidad y de utilidad en este trabajo. Además de la Regla Multiplicativa, la Ley de Probabilidad Total y el concepto de independencia. Definición 1.3 (Probabilidad condicional). Sean A y B dos eventos tales que P (B) 6= 0. Entonces la probabilidad condicional de A dado B, denotada por P (A|B), está dada por P (A|B) = P (A ∩ B) . P (B) (1.3) Teorema 1.2 (Regla Multiplicativa). Sean A1 , A2 ,..., An son eventos en el mismo espacio de probabilidad. Entonces, P( n \ Ai ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 )...P (An |A1 ∩ A2 ∩ ... ∩ An−1 ) (1.4) i=1 siempre que P (A1 ∩ A2 ∩ ... ∩ An−1 ) > 0. Definición 1.4 (Independencia). Dos eventos A y B son independientes si y sólo si: P (A ∩ B) = P (A)P (B), cuando P (B) 6= 0 Capı́tulo 1. Conceptos básicos de Probabilidad e Inferencia Bayesiana 12 Definición 1.5. Los eventos {A1 , A2 , ..., An } son independientes si P (A1′ ∩ A2′ ∩ ... ∩ Aγ ′ ) = P (A1′ )P (A2′ )...P (Aγ ′ ) (1.5) siempre que {1′ , 2′ , ..., γ ′ } ⊂ {1, 2, ..., n}. Por otro lado, una colección infinita de eventos es independiente, si cada subcolección finita de esta es independiente. Definición 1.6 (Independencia condicional). Dos eventos A y B son condicionalmente independientes dado C si P (C) 6= 0 y se cumple alguna de las siguientes proposiciones: P (A|B ∩ C) = P (A|C) y P (A|C) 6= 0, P (B|C) 6= 0. P (A|C) = 0 o P (B|C) = 0. Ley de Probabilidad Total A continuación se dará una regla muy útil que involucra probabilidades condicionales. Definición 1.7 (Ley de Probabilidad Total). Supóngase que se tienen n eventos B1 , B2 ,..., Bn tales que Bi ∩ Bj = φ para i 6= j y B1 ∪ B2 ∪ ... ∪ B2 = Ω (tales eventos son llamados mutuamente excluyentes y exhaustivos). Entonces la Ley de Probabilidad Total dice que, para cualquier evento A, P (A) = n X P (A ∩ Bi ). (1.6) i=1 Si P (Bi ) 6= 0, entonces P (A ∩ Bi ) = P (A|Bi )P (Bi ). Por lo tanto, si P (Bi ) 6= 0 para todo i, la ley es escrita en su forma más común: P (A) = n X P (A|Bi )P (Bi ). (1.7) i=1 NOTA: Desde este punto, para simplificar la notación, la probabilidad conjunta P (A ∩ B) se denotará P (A, B). Capı́tulo 1. Conceptos básicos de Probabilidad e Inferencia Bayesiana 1.1.2. 13 Relevancia e Información preliminar La Relevancia es un concepto importante cuando se trata de averiguar en qué medida la información que se tiene de una proposición puede cambiar el grado de creencia de otra proposición. Definición 1.8 (Relevancia). Una proposición B es relevante para A si y sólo si: P (A|B) 6= P (A). (1.8) Además, si B es relevante para A, entonces A también es relevante para B. A una proposición relevante también se le llama evidencia. Definición 1.9 (Información preliminar). Cuando se evalúa el grado de creencia de una proposición, se considera un tipo de información que no siempre se encuentra de manera explı́cita. Esta es la información preliminar. Comúnmente, este tipo de información se da por supuesta en las proposiciones. Para entender un poco más los conceptos de relevancia e iformación preliminar, se dan los siguientes ejemplos: Ejemplo 1.1 (Información preliminar en un lanzamiento de moneda). La proposición: “Una moneda cae sol después de ser lanzada” está hecha en base a la información preliminar disponible. Si al observar la moneda esta luce como una moneda normal y no hay razón para dudarlo, entonces se supondrá que está bien equilibrada, ésta será nuestra información preliminar. En caso de que que se haya descubierto después de la inspección que no es una moneda legal, esta información adicional es “evidencia” que cambia el grado de creencia de la proposición. Ejemplo 1.2 (Información preliminar en un examen de ADN). Supóngase que se ha hecho un examen de ADN y que todas las teorı́as cientı́ficas que apoyan la metodologı́a del análisis son ciertas, que el análisis ha sido hecho correctamente y que la cadena de custodia no ha sido rota. Las suposiciones anteriores forman parte de la información preliminar. La evidencia relevante es sólo aquella que contiene las proposiciones que describen el resultado del examen, además de algunas otras proposiciones que aportan datos estadı́sticos acerca de la confiabilidad de la evidencia. Capı́tulo 1. Conceptos básicos de Probabilidad e Inferencia Bayesiana 14 Por otro lado, las proposiciones referentes al procedimiento del análisis y/o la cadena de custodia, pueden formar también parte de la evidencia, mientras que todas las teorı́as cientı́ficas forman parte de la información preliminar. Es importante hacer una clara distinción entre cuáles proposiciones se consideran como “evidencia” y cuáles como “información preliminar”. Para evitar confusiones, en este trabajo, la información preliminar se denota como I. Usando la Ley de Probabilidad Total, se puede reescribir la definición (1.8) de relevancia como sigue: Definición 1.10 (2da. de Relevancia). B es relevante para A si y sólo si P (A|B, I) 6= P (A|B c , I). 1.1.3. (1.9) Teorema de Bayes Hasta el momento se ha dicho cuándo una proposición B es relevante para otra proposición A, pero no cómo B cambia el grado de creencia de A, ni cómo se calcula. El Teorema de Bayes permite actualizar los grados de creencia acerca de una proposición A, cuando se tiene información acerca de B. Por esta razón, P (A) es comúnmente llamada la probabilidad a priori de A, mientras que a P (A|B) se le conoce como la probabilidad a posteriori de A dado B. A la probabilidad P (B|A) se le llamará la verosimilitud de A dado B. El concepto de verosimilitud y su diferencia con probabilidad, se verá un poco más adelante. Se considerará a las probabilidades anteriores con su respectiva información preliminar. Teorema 1.3 (Teorema de Bayes). Para cualesquiera proposiciones A y B, tales que P (A) 6= 0 y P (B) 6= 0, se tiene, Capı́tulo 1. Conceptos básicos de Probabilidad e Inferencia Bayesiana P (A|B, I) = P (B|A, I)P (A|I) . P (B|I) 15 (1.10) En el caso general, si B es cualquier proposición con P (B) 6= 0 y {A1 , A2 , ..., An } con Ai 6= 0 para todo i, entonces P (Ai |B, I) = P (B|Ai , I)P (Ai |I) n X . (1.11) P (B|Ai , I)P (Ai |I) i=1 A ambas fórmulas, (1.9) y (1.10) se les llama Teorema de Bayes ya que fueron desarrolladas originalmente por Thomas Bayes, y publicadas en 1763 [4]. El Teorema de Bayes es la base de la inferencia. 1.1.4. Verosimilitud y Probabilidad Hasta ahora se ha hablado de relevancia y Teorema de Bayes sólo para proposiciones, estas proposiciones se dividirán en: hipótesis (las proposiciones que tratan de explicar un fenómeno) y evidencia (las proposiciones que se consideran relevantes para otras). Ya se ha dicho que el enfoque para la probabilidad en este trabajo será del tipo subjetivo, sin embargo, el concepto de probabilidad no es suficiente para hacer inferencia, ya que no se pueden establecer grados absolutos de creencia en las hipótesis dada alguna evidencia. Es necesario por lo tanto, establecer el concepto de verosimilitud para medir los grados de creencia de alguna hipótesis dada evidencia. Sea P (R|H) la probabilidad de obtener R dada la hipótesis H. En cambio, L(R|H) Capı́tulo 1. Conceptos básicos de Probabilidad e Inferencia Bayesiana 16 será la verosimilitud de la hipótesis H dada evidencia R. Un análisis completo del uso de verosimilitud cuando se realiza inferencia se encuentra en [16] NOTA: En este trabajo se conservará la notación P () en vez de L() para verosimilitud, sin embargo, se harán las observaciones correspondientes cuando se trabaje con verosimilitudes. Con el fin de comprender mejor el concepto de verosimilitud, se da el siguiente ejemplo: Ejemplo 1.3. Un testigo ha visto al señor Jones huyendo de la casa donde se ha cometido un crimen a la hora en que ocurrió. Sea B la proposición: “El señor Jones estaba huyendo de la escena del crimen a la hora en que se cometió” y A: “El señor Jones cometió el crimen” Es razonable suponer que la verosimilitud P (B|A, I) es alta, pero no necesariamente la probabilidad P (A|B, I) también es alta. Si es verdad que el señor Jones cometió el crimen, se esperararı́a que él tratara de alejarse rápidamente de la escena del crimen, la hipótesis de culpabilidad es una buena explicación para la evidencia. Sin embargo, el hecho de que él estaba huyendo de la casa, no hace más probable que haya cometido el crimen; existen más explicaciones posibles. 1.1.5. Las Formas Momiales del Teorema de Bayes Si se tienen las proposiciones B, A1 y A2 , tales que P (B) 6= 0, P (A1 ) 6= 0 y P (A2 ) 6= 0, el Teorema de Bayes en (1.10) para B, dadas A1 y A2 , se puede reescribir de la siguiente manera. P (A1 |B, I)P (B|I) = P (B|A1 , I)P (A1 |I). P (A2 |B, I)P (B|I) = P (B|A2 , I)P (A2 |I). Combinando las dos expresiones anteriores, resulta la siguiente expresión del Teorema de Bayes: Capı́tulo 1. Conceptos básicos de Probabilidad e Inferencia Bayesiana P (A1 |B, I) P (B|A1 , I) P (A1 |I) = · . P (A2 |B, I) P (B|A2 , I) P (A2 |I) 17 (1.12) En el lado izquierdo de la igualdad están los momios a favor de A1 dado B, los cuales son llamados los momios posteriores a favor de A1 . A la razón: V = P (B|A1 , I) P (B|A2 , I) Se le llama razón de verosimilitud. Mientras que a: P (A1 |I) P (A2 |I) Se le llama los momios a priori a favor de A1 . El efecto de la evidencia sobre la hipótesis puede ser calculado multiplicando la razón de verosimilitud por los momios a priori. La razón de verosimilitud (V ) se toma como una medida del valor de alguna evidencia con respecto a dos hipótesis alternativas. Si V > 1 en (1.12) se dice que la evidencia B está a favor de A1 , si V < 1 se dice que está a favor de A2 y si V = 1 decimos que B no es relevante para la hipótesis o que la evidencia es neutral. Como (1.12) muestra, la probabilidad de las hipótesis condicionadas a esa pieza particular de evidencia, no sólo depende de la razón de verosimilitud sino también de los momios a priori. Capı́tulo 1. Conceptos básicos de Probabilidad e Inferencia Bayesiana 1.1.6. 18 Variables Aleatorias y Distribuciones de Probabilidad Definición 1.11. Dado un espacio de probabilidad (Ω, P ), una variable aleatoria X es una función sobre Ω. Esto es, una variable aleatoria asigna un valor único a cada elemento del espacio muestral. El conjunto de valores que la variable aleatoria X puede tomar es llamado el espacio de X. Se dice que una variable aleatoria es discreta si su espacio es finito o contable. En general, en este trabajo se supone que las variables aleatorias son discretas. Para una variable aleatoria X, se usará X = xi para representar que X se encuentra en el estado xi ∈ Ω. Definición 1.12. Si X es una variable aleatoria con estados x1 , x2 ,..., xn . Entonces P (X) denota una distribución de probabilidad sobre estos estados, donde: P (X) = {P (X = x1 ), P (X = x2 ), ..., P (X = xn )}; xi > 0. n X P (X = xi ) = 1. (1.13) i=1 En general, la probabilidad de X en el estado xi se denotará por P (X = xi ) o P (xi ) si la variable es obvia por contexto. Probabilidad condicional para variables aleatorias Dadas dos variables aleatorias, X con n estados x1 , x2 ,..., xn y Y con m estados y1 , y2 ,..., ym . Entonces P (X|Y ) contiene n · m probabilidades condicionales P (xi |yj ). Esto es, la probabilidad condicional de una variable dada otra variable es un conjunto de probabilidades (usualmente organizada en una tabla n × m). Ya que P (X|Y ) especifica una distribución de probabilidad para cada evento Y = yj , las probabilidades sobre X deben sumar 1 para cada yj : n X i=1 P (X = xi |Y = yj ) = 1. (1.14) Capı́tulo 1. Conceptos básicos de Probabilidad e Inferencia Bayesiana 19 Distribución de probabilidad conjunta La probabilidad conjunta de diferentes eventos puede ser expresada mediante una distribución de probabilidad conjunta para dos o más variables. A P (X = xi , Y = yi ) se le llamará distribución de probabilidad conjunta de las variables X y Y cuando X = xi y Y = yj . También se denotará simplemente como P (X, Y ) o P (xi , yj ). P (X, Y ) consiste en n · m números, y similarmente a P (X|Y ), ésta es usualmente representada mediante una tabla n × m. Hay que notar que, si los espacios de X y Y son mutuamente excluyentes y exhaustivos, también la combinación de sus estados (el producto cartesiano) debe serlo, por lo que puede ser considerado un espacio muestral, por lo tanto, P (X, Y ) = m n X X P (X = xi , Y = yj ) = 1. (1.15) i=1 j=1 Este concepto se puede extender a tres o más variables, por ejemplo, P (X = x, Y = y, Z = z) es la distribución de probabilidad de las variables X, Y y Z. Distribución de probabilidad marginal Dada una distribución de probabilidad conjunta, la Ley de Probabilidad Total, implica que la distribución de probabilidad de cualquiera de las variables aleatorias, puede ser obtenida sumando los valores de las demás variables. Por ejemplo, supóngase que se tiene una distribución de probabilidad conjunta P (X = xi , Y = yj ), donde X tiene n estados y Y , m estados. Entonces, P (X = xi ) = m X P (X = xi , Y = yj ). (1.16) y=1 La distribución de probabilidad P (X = xi ) es llamada la distribución de probabilidad marginal de X. Esta distribución a veces se denota P (X). Capı́tulo 1. Conceptos básicos de Probabilidad e Inferencia Bayesiana 20 Este concepto también se puede extender a tres o más variables aleatorias. Independencia condicional para variables aleatorias Definición 1.13 (Independencia). Supóngase que tenemos un espacio de probabilidad (Ω, P ), y dos variables aleatorias X y Y definidas sobre Ω. Entonces se dice que las variables son independientes si para todos los valores xi y yj de los conjuntos, los eventos X = xi y Y = yj son independientes. Esto es, si ocurre P (xi ) = 0 o P (yj ) = 0 o P (xi |yj ) = P (xi ) Definición 1.14 (Independencia condicional). Supóngase que se tiene un espacio de probabilidad (Ω, P ), y tres variables aleatorias X, Y y Z definidas sobre Ω. Entonces las variables X y Y son condicionalmente independientes dada la variable Z si, para todos los valores de las variables, xi , yj y zk , y P (zi ) 6= 0, se tiene, P (xi |zk ) = 0 o P (yj |zk ) = 0 o P (xi |yj , zk ) = P (xi |zk ). Se denotará: X ⊥ Y |Z. 1.2. Inferencia Bayesiana El Teorema de Bayes se usa cuando no se es capaz de determinar las probabilidades condicionales de interés directamente, pero sı́ es posible determinar las probabilidades del lado derecho de la ecuación. Esto pasa debido a que no es posible identificar todo el espacio muestral sobre el que se trabaja, sino que primero se determinan probabilidades de eventos básicos, variables aleatorias, y después se calculan valores en distribuciones de probabilidad conjuntas. En vez de eso, en la inferencia Bayesiana se identifican las variables aleatorias directamente y se determinan relaciones probabilı́sticas entre las variables aleatorias. Capı́tulo 1. Conceptos básicos de Probabilidad e Inferencia Bayesiana 1.2.1. 21 Variables aleatorias y probabilidades en aplicaciones Bayesianas En inferencia Bayesiana, una variable aleatoria representa alguna caracterı́stica de un fenómeno a modelar, y que casi siempre viene dada por una proposición, por ejemplo, puede ser que se quiera determinar si cierto paciente posee una enfermedad x basándose en sus sı́ntomas, en este caso, la enfermedad se representa con la proposición “el paciente tiene la enfermedad x”, de igual manera con los sı́ntomas. Además, el valor de estas caracterı́sticas es incierto, por lo que se deben desarrollar relaciones probabilı́sticas entre las variables. Después de identificar a las variables, se debe distinguir un conjunto de valores mutuamente excluyentes y exhaustivos para cada una de ellas. Los posibles valores de una variable aleatoria son los diferentes estados que la caracterı́stica puede poseer. La especificación de las variables aleatorias y sus valores debe ser lo suficientemente clara para que los requerimientos de la situación que está siendo modelada queden satisfechos. Cuando ya se han especificado los valores para las variables aleatorias (es decir, sus espacios) debemos determinar las probabilidades de las variables aleatorias en cada uno de sus estados. Sin embargo, en general no siempre se determinan probabilidades a priori, sino que se determinan valores dentro de una distribución de probabilidad conjunta para alguna de las variables. Esto se puede realizar mediante datos estadı́sticos que se encuentren disponibles o mediante un experto. Se pueden obtener datos y pensar en términos de relaciones probabilı́sticas sólo cuando se manejan unas pocas variables al mismo tiempo. Las probabilidades conjuntas de varios eventos no serı́an fáciles de averiguar. Cuando se realiza inferencia Bayesiana, usando probabilidades que han sido calculadas mediante una estimación de frecuencias relativas, lo que se hace es calcular la probabilidad de algo en especı́fico con caracterı́sticas propias, lo que hace que estas probabilidades sean “probabilidades subjetivas”. Pero aunque se les llame de esta Capı́tulo 1. Conceptos básicos de Probabilidad e Inferencia Bayesiana 22 manera, tomarán los mismo valores que las frecuencias relativas de las que fueron tomadas. Cuando se usa el Teorema de Bayes usando probabilidades subjetivas, el resultado será también una probabilidad subjetiva. 1.2.2. Ejemplo de inferencia Bayesiana A continuación se da un ejemplo en el que aparece La Falacia del Fiscal, también conocida como La Falacia de la Condicional Transpuesta, ya mencionada en la introducción de este trabajo y en la sección 1.1.4. Esta falacia es comúnmente encontrada en los tribunales de justicia, donde es utilizada para engañar al juez o al jurado presentando un razonamiento falso, pero que a simple vista parece verdadero. La falacia es el resultado de confundir la probabilidad P (H|E) con P (E|H), siendo E y H dos proposiciones. Cuando esta falacia llega a presentarse, en algún ámbito legal, puede ser que se acuse injustamente a alguien, por esto es de gran importancia que sea bien conocida y se tengan las herramientas para identificarla. Ejemplos de esta falacia se pueden encontrar en [9] y [12]. Ejemplo 1.4. En un caso de asesinato, se tiene evidencia E en contra de un sospechoso, Fred. Esta evidencia consiste en una muestra de sangre encontrada en la escena del crimen que proviene del asesino y que coincide con el tipo de sangre de Fred. Este tipo de sangre se encuentra en 1 de 1000 personas. Ası́ que si H es la hipótesis: “Fred es inocente” (no se encontraba en la escena del crimen), entonces se sabe que 1 P (E|H) = 1000 . El fiscal en el caso, argumenta que “hay sólo una posibilidad de 1 en 1000 de que el sospechoso sea inocente”. Capı́tulo 1. Conceptos básicos de Probabilidad e Inferencia Bayesiana 23 Pero lo que realmente se quiere saber es la probabilidad P (H|E) y es esta la probabilidad que el fiscal confunde con P (E|H). Esta probabilidad depende de la probabilidad a priori P (H). En ausencia de más evidencia en contra de Fred, se supone que todo hombre adulto en la ciudad donde se cometió el crimen, puede ser considerado sospechoso. En esta ciudad hipotética hay una población de 10,000 hombres adultos, entonces: P (H) = 9, 999 10, 000 P (H c ) = 1 10, 000 También se puede suponer que si Fred se encontraba en la escena del crimen, entonces la muestra de sangre necesariamente coincidirá con la de él. Por lo tanto: P (E|H c ) = 1 Si se aplica el Teorema de Bayes a P (H|E) obtenemos: P (H|E) = P (E|H)P (H) P (E|H)P (H) = P (E) P (E|H)P (H) + P (E|H c )P (H c ) = = 9,999 1 ( 1000 )( 10,000 ) 9,999 1 1 ( 1000 )( 10,000 ) + (1)( 10,000 ) 9, 999 ≈ 0.91 10, 999 En conclusión, la probabilidad de que Fred es inocente es muy alta, esto contradice el argumento del fiscal. Capı́tulo 1. Conceptos básicos de Probabilidad e Inferencia Bayesiana 1.2.3. 24 Del Teorema de Bayes a las Redes Bayesianas La inferencia Bayesiana es simple de realizar cuando están involucradas sólo dos variables, como se ha mostrado en el ejemplo 1.4. Sin embargo, cuando se quiere realizar una inferencia que involucre a más variables, es necesario hacer uso de otra herramienta útil que ha surgido con este propósito, las Redes Bayesianas. En el siguiente capı́tulo, se encuentran los conceptos necesarios para dar la definición de Red Bayesiana y cómo se construyen estas redes. Capı́tulo 2 Introducción a las Redes Bayesianas Las Redes Bayesianas son una herramienta útil para representar las relaciones entre las variables que participan en situaciones de incertidumbre, donde se tiene la necesidad de realizar alguna inferencia. Las redes proveen un modelo sencillo que simplifica la comprensión de problemas causales de bastante complejidad, gracias a su estructura. Estas redes son representadas por vértices y aristas. Los vértices corresponden a las variables aleatorias y las aristas corresponden a relaciones probabilı́sticas directas entre estas variables. Estas relaciones son cuantificadas en términos de distribuciones de probabilidad, usualmente una tabla de probabilidad condicional asociada a cada nodo. Los inicios de las redes Bayesianas se encuentran en los llamados Grafos de Wigmore usados por primera vez por John Henry Wigmore para analizar evidencia jurı́dica en 1913. Otro ancestro de estas redes son los Diagramas de Camino, estos fueron desarrollados por el genetista Sewall Wright alrededor del año 1920 y se usaron principalmente 25 Capı́tulo 2. Introducción a las Redes Bayesianas 26 en ciencias sociales. Wright fue el primero que basó sus modelos probabilı́sticos en gráficas directas acı́clicas. A finales de 1980 los textos: Razonamiento Probabilı́stico en Sistemas Inteligentes (1988) de Judea Pearl y Razonamiento Probabilı́stico en Sistemas Expertos (1989) de Richard E. Neapolitan, resumieron las propiedades de las Redes Bayesianas y ayudaron a establecerlas como un campo de estudio. El término “Redes Bayesianas” fue acuñado por Judea Pearl en 1985. Este nombre hace honor al Rev. Thomas Bayes (1702-1761) cuya regla para calcular probabilidades basándose en nueva evidencia es el fundamento de este enfoque. En este capı́tulo se encuentran los conceptos básicos de teorı́a de gráficas necesarios para dar la definición de Red Bayesiana además de los conceptos más importantes que se relacionan con ésta. 2.1. Gráficas Definición 2.1. Una gráfica G = (V, A) consiste en un conjunto no vacı́o V de nodos o vértices y un conjunto finito A que contiene pares de nodos llamados arcos, enlaces o aristas. [11] Cada arco a = (u, v) está definido por un par ordenado o un par no ordenado de nodos, los cuales están unidos mediante un arco y se dice que son adyacentes o vecinos. Si (u, v) es un par ordenado de nodos, a u se le llama la cola del arco y a v la cabeza; entonces se dice que el arco es dirigido de u hacia v y es representado por: (u → v). Si (u, v) es no ordenado, simplemente se dice que u y v están conectados por el arco. Estos arcos son llamados arcos no dirigidos o aristas y se representan con una sola lı́nea: (u − v). Capı́tulo 2. Introducción a las Redes Bayesianas 27 Definición 2.2. Una gráfica dirigida denotada por G = (V, A) es una gráfica donde todos sus arcos son dirigidos. Mientras que en una gráfica no dirigida denotada por G = (V, E) todos sus arcos son no dirigidos. También existen gráficas parcialmente dirigidas o gráficas mixtas denotadas por G = (V, A, E), éstas contienen arcos dirigidos y no dirigidos. Figura 2.1: Tipos de gráficas: no dirigida, dirigida y mixta En la figura 2.1 se ejemplifican los tres tipos de gráficas, cada una tiene diferentes caracterı́sticas las cuales se enumeran a continuación. En la gráfica no dirigida: El conjunto de nodos es V ={A, B, C, D, E} y el conjunto de aristas es E= {(A − B), (A − C), (A − D), (B − D), (C − E), (D − E)}. Los arcos son no dirigidos, es decir, A−B y B −A son equivalentes e identifican a la misma arista. En la gráfica dirigida: El conjunto de nodos es V ={A, B, C, D, E} y la gráfica está caracterizada por el conjunto de arcos A= {(A → B), (A → E), (B → D), (B → C)}. Capı́tulo 2. Introducción a las Redes Bayesianas 28 Los arcos son dirigidos, es decir, A → B y B → A identifican a diferentes arcos. Por ejemplo, (A → B) ∈ A mientras que (B → A) ∈ / A. Por último, la gráfica mixta: Está caracterizada por la combinación del conjunto de aristas E = {(A − C), (A − D), (C − D)} y el conjunto de arcos A= {(A → E), (E → B)} Relaciones entre los nodos Definición 2.3 (Camino). Sea G = (V, A, E) una gráfica simple, donde A representa a los arcos dirigidos y E a los arcos no dirigidos. Un camino de longitud m que va de un nodo X a un nodo Y es una sucesión de nodos distintos (τ0 , ..., τm ) tales que τ0 = X y τm = Y , donde (τi−1 , τi ) ∈ A o (τi−1 , τi ) ∈ E para cada i = 1, ..., m. El camino, es un camino dirigido si (τi−1 , τi ) ∈ A para cada i = 1, ..., m. Es decir, no existen arcos no dirigidos en todo el camino. En el contexto de este trabajo, sólo se hará uso de caminos dirigidos. Por lo tanto el término camino se referirá sólo a caminos de este tipo, a menos que se especifique lo contrario. Definición 2.4. Sea G = (V, A) una gráfica, si existe un arco que va de A hacia B, se dice que B es un hijo de A o que A es padre de B. Por ejemplo, en la gráfica que se muestra en la figura 2.2, C y B son padres de A y los hijos de A son los nodos E y D. Un nodo sin padres es llamado un nodo raı́z, H es un nodo raı́z. Definición 2.5. Sea G = (V, A) una gráfica, un nodo X es ancestro de un nodo Y si y sólo si existe un camino dirigido de X hacia Y . En el mismo caso se dice que Y es descendiente de X. En la figura 2.2, G, C, F y B son ancestros del nodo A, por otro lado E, L, D y K son descendientes de A. Capı́tulo 2. Introducción a las Redes Bayesianas 29 F G B C H A D E K L Figura 2.2: Ejemplo de gráfica dirigida Ciclos Definición 2.6 (Ciclo). Sea G = (V, A) una gráfica, un m-ciclo es una sucesión de nodos distintos τ0 , ..., τm−1 tales que la sucesión τ0 , ..., τm−1 , τ0 forma un camino. Por ejemplo, en la figura 2.3, el camino CABD forma un ciclo. DAG El concepto de DAG es importante, ya que es la base de la construcción de las Redes Bayesianas. Definición 2.7 (Gráfica conexa). Una gráfica es conexa si para cualquier par de nodos X y Y existe al menos un camino entre ellos. Definición 2.8 (DAG). Una gráfica dirigida acı́clica: DAG (directed acyclic graphic) es una gráfica conexa sin ciclos. Capı́tulo 2. Introducción a las Redes Bayesianas 30 C E A B D Figura 2.3: Ejemplo de gráfica con ciclo 2.2. Redes Bayesianas Antes de dar una definición formal de Red Bayesiana, se dirá en qué consiste y cómo se relacionan las variables aleatorias mencionadas en el capı́tulo 1 con la red. Una red Bayesiana consiste en lo siguiente: Un conjunto de nodos los cuales representan variables aleatorias y un conjunto de arcos dirigidos que unen a las variables. Cada variable posee un conjunto de estados mutuamente excluyentes (este conjunto puede ser discreto o continuo). Las variables junto con los arcos dirigidos forman una DAG. Los arcos representan relaciones de relevancia entre las variables. A cada variable X con padres Y1 , Y2 ,..., Yn se le asocia una tabla de probabilidad condicional P (X|Y1 , Y2 , ..., Yn , I) donde I representa la información preliminar, que no aparece de manera explı́cita en forma de nodos dentro de la gráfica. Si X es un nodo raı́z la tabla de probabilidades se reduce a P (X|I). Capı́tulo 2. Introducción a las Redes Bayesianas 31 Variables aleatorias y estados Sea X una variable aleatoria con n estados x1 , x2 , ..., xn . Si X es un nodo raı́z entonces su tabla de probabilidad condicional P (X|I) será una tabla con n entradas que contendrá la distribución de probabilidad {P (X = xi ), i = 1, ..., n}, con Pn i=1 P (X = xi ) = 1. Para simplificar la notación, la mención explı́cita de la información preliminar ha sido omitida. Sea Y una variable con m estados y1 , y2 , ..., ym . Si Y es padre de X la tabla de probabilidad condicional P (X|Y ) será una tabla n × m que contendrá todas las probabilidades condicionales P (X = x|Y = y). Por ejemplo, supongamos que en la figura 2.2, las variables B y C tienen cada una dos estados y la variable A tiene tres. En este caso, la tabla de probabilidad condicional para A contendrá 12 entradas P (A = ai |B = bj , C = ck ) = pijk con (i = 1, 2, 3; j = 1, 2; k = 1, 2). La siguiente es la tabla de probabilidad condicional para el hijo A con padres B y C, donde B tiene dos estados (b1 , b2 ), A tiene tres estados (a1 , a2 , a3 ) y C tiene dos estados (c1 , c2 ). B: C: P (A = a1 |B = bj , C = ck ) P (A = a2 |B = bj , C = ck ) P (A = a3 |B = bj , C = ck ) b1 c1 p111 p211 p311 b2 c2 p112 p212 p312 c1 p121 p221 p321 c2 p122 p222 p322 Cuadro 2.1: Tabla de probabilidad condicional para A dados B y C 2.2.1. Flujo de información en redes Existen sólo tres posibles conexiones en las gráficas dirigidas por las cuales la información puede transmitirse a través de una variable: divergente, serial y convergente. Mediante éstas, se introducirá el concepto de d-separación [15]. Capı́tulo 2. Introducción a las Redes Bayesianas 32 Conexiones seriales En la figura 2.4 se puede apreciar un ejemplo de conexión serial. A B C Figura 2.4: Conexión serial En esta situación A tiene influencia sobre B la cual a su vez tiene influencia en C. La evidencia que se tiene acerca de A influenciará la creencia en los posibles estados de B, la cual influye en los estados de C. Similarmente la evidencia acerca de C influenciará la creencia en los posibles estados de A a través de B. Por otro lado, si se conoce el estado de B, entonces el camino es bloqueado además de que A y C se vuelven independientes. Se dice que A y C son d-separadas dado B. Cuando el estado de una variable es conocido, se dice que la variable está instanciada. Observación: La evidencia puede ser transmitida a través de una conexión serial siempre y cuando los estados de las variables en la conexión sean conocidos Conexiones divergentes Un ejemplo de conexión divergente se encuentra en la figura 2.5. Capı́tulo 2. Introducción a las Redes Bayesianas 33 A B C D E Figura 2.5: Conexión divergente La influencia puede pasar a través de todos los hijos de A cuando el estado de A sea conocido. Esto es, B, C,..., E son d-separados dado A. La evidencia puede ser transmitida a través de una conexión divergente cuando A está instanciada. Conexiones convergentes En una conexión convergente, si A cambia su estado se abre comunicación entre sus padres. Un ejemplo de conexión convergente se puede ver en la figura 2.6. Si nada se sabe acerca del estado de A excepto lo que puede ser inferido del conocimiento de sus padres B,..., E, entonces los padres son independientes, es decir, la evidencia acerca de ellos no puede influenciar a los otros a través de A. El conocimiento de una posible causa de un evento no nos dice nada acerca de las otras posibles causas. Capı́tulo 2. Introducción a las Redes Bayesianas B C D 34 E A Figura 2.6: Conexión convergente En la figura de ejemplo 2.7 se puede ver que sólo se puede observar a A indirectamente a través de la información de F . Conocer el estado de F puede decir algo acerca del estado de E, el cual a la vez dice algo de A. La conclusión es que la evidencia puede ser transmitida a través de una conexión convergente sólo si la variable en la conexión o uno de sus descendientes ha recibido evidencia. Nota: Se dice que una variable ha recibido evidencia cuando se dejan fijas las certidumbres de sus estados. Si la variable está instanciada, decimos que hay evidencia fuerte de otro modo es evidencia débil. En el ejemplo de la figura 2.7 se puede decir que la evidencia fuerte de la variable F provee información débil acerca de la variable A. Capı́tulo 2. Introducción a las Redes Bayesianas 35 Figura 2.7: Conexión convergente con evidencia en el nodo F Definición 2.9 (D-separación). Dos variables distintas A y B en una red causal son d-separadas (“d” por “gráfica dirigida”) si para todos los caminos entre A y B existe una variable intermedia V (distinta de A y B) tal que se cumple sólo una de las siguientes proposiciones. La conexión es serial o divergente y V está instanciada La conexión es convergente y ni V ni ninguno de sus descendientes han recibido evidencia. Y se escribe: A⊥BkV Si A y B no son d-separadas decimos que son d-conectadas. [15] Proposición 2.1. Si A y B son d-separadas, entonces los cambios en la certidumbre de A no tienen efecto sobre la certidumbre de B. 2.2.2. Independencia condicional y d-separación El siguiente resultado muestra que para una DAG dada, la d-separación caracteriza a todas las independecias condicionales que están representadas en dicha DAG. Capı́tulo 2. Introducción a las Redes Bayesianas 36 Teorema 2.1 (d-separación implica independencia condicional). Sea G = (V, A) una DAG y sea P una distribución de probabilidad que se factoriza a lo largo de G. Entonces para cualesquiera conjuntos disjuntos A, B y C ⊂ V se cumple que A ⊥ B|C si A y B son d-separados por C. 2.2.3. La cubierta de Markov La siguiente definición remarca la importancia de los padres e hijos de una variable. Definición 2.10 (Cubierta de Markov). La cubierta de Markov de una variable A es el conjunto que consiste de los padres de A, los hijos de A y las variables que comparten hijos con A. Nota: Cuando todas las variables de la cubierta de Markov de A están instanciadas, A es d-separada del resto de la red. 2.2.4. Definición formal de Red Bayesiana Anteriormente se habı́a mencionado en qué consistı́a una Red Bayesiana, pero aquello no era suficiente para decir cuándo una DAG es considerada una Red Bayesiana, la siguiente definición aclara este punto haciendo uso de la propiedad de Markov. Definición 2.11 (Red Bayesiana). Una red Bayesiana es un par (G, P ) donde G = (V, A) es una DAG con conjunto de nodos V = (1, ...n), conjunto de arcos A y P es una distribución de probabilidad o una familia de distribuciones de probabilidad sobre n variables aleatorias {X1 , ..., Xn }. El par (G, P ) satisface los siguientes criterios: A cada variable aleatoria Xi con un conjunto no vacı́o de padres PA(Xi ) = (Y1 , ..., Ym ) se le asigna una distribución de probabilidad P (Xi |PA(Xi ), I). Si Xi no tiene padres, entonces PA(Xi ) = φ por lo que P (Xi ) = P (Xi |I). La distribución de probabilidad conjunta P (X1 , ..., Xn ) con n variables aleatorias, puede ser factorizada como el producto de las probabilidades condicionales de todas sus variables, condicionadas a sus padres: Capı́tulo 2. Introducción a las Redes Bayesianas P (X1 , ..., Xn ) = n Y 37 P (Xi | PA(Xi )). i=1 Cada variable Xi , i = 1, ..., n en la DAG es condicionalmente independiente del conjunto ND(Xi ) = Xi \ {DE(Xi )} dado el conjunto PA(Xi ): Xi ⊥ ND|PA(X). 2.2.5. Construcción de Redes Bayesianas En la sección 1.2 se dijo cómo identificar a las variables aleatorias cuando se está realizando inferencia Bayesiana, en el contexto de las Redes Bayesianas, estas variables aleatorias pasan a representar nodos dentro de la red. Se ha dicho que los arcos de una Red Bayesiana representan relaciones de “relevancia” entre las variables, ya se habló sobre relevancia entre proposiciones en la sección 1.1.2. También se dijo que la relevancia es una relación simétrica, esto es, si A es relevante para B, entonces B es relevante para A. Cuando se trata de construir redes para representar relevancia, se puede observar que los arcos que conectan los nodos van sólo en una dirección. La construcción de Redes Bayesianas empieza siempre de arriba hacia abajo, los arcos van desde las hipótesis hacia la evidencia, siempre tomando en cuenta la relevancia que la evidencia pueda tener sobre la hipótesis. Es decir, si se tiene evidencia E, esta es relevante para una hipótesis H, si H es un hecho explicativo para E. En una Red Bayesiana se puede hacer una distinción entre nodos de hipótesis y nodos de evidencia. El siguiente ejemplo muestra tal distinción. Ejemplo 2.1. La figura 2.8 contiene una DAG construida de acuerdo a un escenario donde: A: Un sospechoso es el culpable. B: La mancha de sangre en la escena del crimen proviene del culpable. Capı́tulo 2. Introducción a las Redes Bayesianas 38 C: La mancha de sangre en la escena del crimen proviene del sospechoso. E: La sangre del sospechoso y la mancha en la escena del crimen comparten el mismo perfil de ADN. A B C E Figura 2.8: DAG con nodos de hipótesis y nodos de evidencia En la DAG de la figura 2.8 se pueden distinguir los nodos de hipótesis y los nodos de evidencia. Los nodos de hipótesis son A, B y C, estas son las hipótesis que describen eventos singulares cuya ocurrencia es sólo planteada como hipótesis y el nodo de evidencia es E, la proposición que describe un evento observado. Los grados de creencia personales son una forma subjetiva de evaluar lo que puede ser relevante o no para una hipótesis, estos pueden variar entre personas, por lo que para realizar una buena inferencia se necesitan adicionalmente leyes cientı́ficas y conocimiento general para dar una garantı́a al decidir la relevancia de una proposición para otra. Por lo tanto se dirá que: Definición 2.12. E es objetivamente relevante para H, si H es un hecho explicativo dentro de una explicación potencial para E. La búsqueda de explicaciones termina con la simetrı́a de las relaciones de relevancia. Una proposición puede ser relevante para una hipótesis y viceversa, pero sólo la Capı́tulo 2. Introducción a las Redes Bayesianas 39 hipótesis explica la proposición. Los siguientes ejemplos también muestran cómo representar relaciones de relevancia dentro de una Red Bayesiana. Ejemplo 2.2. Se van a registrar tres lanzamientos sucesivos de una moneda, se denotará el grupo de hipótesis por H (las posibles combinaciones de los tres resultados) y los posibles resultados con las variables aleatorias binarias X1 , X2 y X3 que pueden tomar los valores Xi = s o Xi = a, “el resultado del i-ésimo lanzamiento fue sol” o “el resultado del i-ésimo lanzamiento fue águila”, respectivamente. El resultado de cada lanzamiento depende de cuál hipótesis sea cierta, además de que cada lanzamiento es independiente del anterior y del siguiente. Estas relaciones se representan en la Red Bayesiana de la figura 2.9 H X1 X2 X3 Figura 2.9: Red Bayesiana para el ejemplo del lanzamiento de moneda En este problema, el estado de Xi es relevante para los posibles estados de H, pero es el estado de H el que explica el estado de Xi Ejemplo 2.3. Se considerará de nuevo el escenario del ejemplo 2.1 y representado en la figura 2.8. Las tablas de probabilidad apropiadas para el caso están dadas en los Capı́tulo 2. Introducción a las Redes Bayesianas 40 cuadros 2.2, 2.3 y 2.4. En estas tablas, γ es la probabilidad de “coincidencia aleatoria” y p es la probabilidad de que la mancha ha sido dejada por el sospechoso incluso si es inocente, la cual es asignada en base a una explicación alternativa propuesta por la defensa y la información relacionada a esa hipótesis. Si la defensa está de acuerdo en que C es verdad, este escenario ya no es apropiado. A: P (A) t f a 1−a B: P (B) t r f 1−r Cuadro 2.2: Tablas de probabilidad condicional para los nodos A y B de la figura 2.8 A: B: P (C = t|A, B) P (C = f |A, B) t t 1 0 f f 0 1 t 0 1 f p 1−p Cuadro 2.3: Tabla de probabilidad condicional para el nodo C de la figura 2.8 C: P (E = t|C) P (E = f |C) t 1 0 f γ 1−γ Cuadro 2.4: Tabla de probabilidad condicional para el nodo E de la figura 2.8 Se puede observar en la figura 2.8 que el estado de E provee información acerca de los posibles estados de C, pero es el estado de C el que explica a E. A la vez, el estado de C puede ser explicado por los estados de A y B. B representa el hecho que ha sido llamado relevancia ya que P (B|I) posee la información disponible para creer que la mancha de sangre es relevante para el caso. Capı́tulo 2. Introducción a las Redes Bayesianas 2.2.6. 41 Relevancia y Causalidad Frecuentemente se supone que las explicaciones usadas al hacer inferencia son explicaciones causales, ya que en un escenario inferencial siempre se sigue un orden cronológico, que se puede entender como un orden causal. Al construir redes Bayesianas para representar un problema inferencial, se usan juicios subjetivos, lo que puede derivar en diferentes construcciones de la misma red para diferentes personas, y deja abierta la cuestión de si la estructuración de las redes siempre debe involucrar relaciones causales. Algunos autores mencionados en [5] creen que la relevancia estadı́stica no posee una genuina importancia explicativa y que sólo la relevancia causal la tiene. Una consecuencia de esta posición es que una explicación probabilı́stica sólo serı́a legı́tima si fuese posible identificar el mecanismo causal subyacente en ella. Pearl (mencionado también en [5]) ha argumentado las ventajas de construir modelos mediante DAG’s en torno de relaciones causales, exponiendo que son más útiles, más accesibles y más confiables que las relaciones de relevancia probabilı́sticas. Ha dicho también que los juicios de independencia condicional son comprensibles (y por lo tanto confiables) sólo cuando están basados en partes fundamentales de nuestro conocimiento como lo son las relaciones causales. Además de que las relaciones causales son más estables que las relaciones probabilı́sticas. En el contexto del razonamiento evidencial, puede ser muy difı́cil sustituir algunas relaciones epistémicas con nodos y arcos que exhiban un mecanismo causal genuino y reconocible. La capacidad de proveer una explicación causal no es una condición necesaria para justificar la existencia de una relación de relevancia. Existen muchos casos en los que la evidencia puede ser justificada como relevante para una hipótesis de interés cuando los enlaces en una cadena de razonamiento pueden no indicar conexión causal. Capı́tulo 2. Introducción a las Redes Bayesianas 42 La estrategia de construir una red Bayesiana mediante inferencia Bayesiana es suficiente para terminar con la simetrı́a de la relevancia probabilı́stica y el único requisito que se debe satisfacer es la d-separación. En conclusión: En la construcción de un modelo explicativo, es mejor si se dan explicaciones causales, pero no son necesarias. Capı́tulo 3 Aplicaciones de las Redes Bayesianas En este capı́tulo se explican tres problemas inferenciales mediante Redes Bayesianas, además se muestra la utilidad del software R cuando se trabaja con estas redes. 3.1. 3.1.1. Aplicación 1: El Sabueso de los Baskerville Introducción A continuación se dará un ejemplo del uso de Redes Bayesianas mediante el relato “El Sabueso de los Baskerville”, con esto también se pretende ejemplificar el uso del razonamiento Bayesiano, ya que el contenido del relato provee evidencia suficiente e interesante para poder realizar inferencia. El siguiente es un fragmento de la novela “El Sabueso de los Baskerville” [1, págs. 12-13] “La reciente muerte repentina de Sir Charles Baskerville, a quien se indicaba como probable candidato liberal por el condado de Devon en las próximas elecciones, ha sido muy sentida en toda la comarca. (...) 43 Capı́tulo 3. Aplicaciones de las Redes Bayesianas 44 No puede asegurarse que las circunstancias en que ocurrió la muerte de Sir Charles hayan quedado completamente esclarecidas, aunque se ha hecho todo lo posible por desvanecer los absurdos rumores que circulaban en la localidad. No hay motivo para creer en la perfidia ni en la traición, y sı́ para suponer que la muerte de Sir Charles fue debida a causas naturales. El difunto era viudo y un poco excéntrico en su modo de ser. A pesar de sus grandes riquezas, era de costumbres sencillas y muy delicado en sus gustos personales. Para el gobierno de su casa tenı́a solamente un matrimonio apellidado Barrymore, ocupando el marido el cargo de despensero y su mujer el de ama de llaves. La declaración de estos dos criados, robustecida por la de varios amigos, demuestra que hace algún tiempo que Sir Charles no gozaba de buena salud. sufrı́a por lo visto, una afección al corazón, la que se manifestaba en repentinos cambios de color, respiración fatigosa y abatimiento de espı́ritu. La declaración del doctor James Mortimer, amigo ı́ntimo y médico del difunto, confirma lo que acabamos de decir. Parece que Sir Charles tenı́a la costumbre de salir todas las noches antes de acostarse, a dar un paseo por la hermosa avenida de acacias de su posesión. Las declaraciones de los criados prueban que ésta era una costumbre inverterada de Sir Charles. Este, el dı́a 4 de marzo, anunció su propósito de salir al dı́a siguiente para Londres y mandó a Barrymore que preparase el equipaje. Aquella noche salió como de costumbre, a dar su pasea fumando un cigarro, y no volvió más. Medianoche serı́a cuando Barrymore notó que la puerta de entrada estaba abierta todavı́a, y se alarmó. Encendió una linterna y salió en busca de su amo. Como durante el dı́a habı́a llovido, le fue fácil seguir las huellas de Sir Charles por la avenida, hacia cuya mitad hay una verja, según parece, que conduce al páramo. Habı́a señales de que Sir Charles se habı́a detenido allı́ durante un rato, y se cree que después debió proseguir su camino, porque el cadáver fue encontrado al final de la avenida. Capı́tulo 3. Aplicaciones de las Redes Bayesianas 45 Una cosa hay que no se ha podido aclarar, y es que las pisadas de Sir Charles variaban de forma desde el momento en que pasó de la verja que conduce al páramo, pues desde allı́ parecı́a haber andado de puntillas. (...) Ninguna señal de violencia se vio en el cadáver de Sir Charles, y aunque el médico ha declarado que la contorsión de las facciones desfiguraba tanto al difunto que apenas pudo creer en un principio que verdaderamente fuese aquél su amigo, se ha probado que esto es un sı́ntoma común en casos de disnea y de muerte producida por la extenuación cardı́aca. Esta explicación fue comprobada por la autopsia, en la que quedó bien patente que Sir Charles padecı́a una enfermedad orgánica crónica. En vista de esto, el Jurado dio veredicto de acuerdo con la declaración del médico.” El fragmento anterior fue tomado del Devon County Chronicle, periódico que aparece en “El sabueso de los Baskerville” y donde se dio una relación de los hechos al ocurrir la muerte de Sir Charles. El siguiente fragmento también está tomado de “El sabueso de los Baskerville” [1, pág. 15] extraı́do de la conversación entre el Dr. Mortimer y Sherlock Holmes. “Examiné las pisadas de Sir Charles en todo lo largo de la avenida, vi el punto donde parecı́a haberse detenido, noté el cambio de las pisadas desde allı́, me fijé en que no habı́a más que las de Barrymore en la senda, y finalmente reconocı́ con toda detención al cadáver, que nadie habı́a tocado hasta mi llegada. Sir Charles estaba boca abajo, con los brazos extendidos, los dedos hincados en la tierra y las facciones contraı́das por una fuerte emoción, hasta tal punto, que apenas hubiese podido yo testimoniar bajo juramento su identidad. Ninguna lesión exterior pude apreciar, pero Barrymore se equivocó en una de las declaraciones prestadas en el sumario. Dijo que no habı́a huellas ni marcas alrededor del cadáver, y esto no es exacto. Él no las observarı́a; pero yo las vi, a alguna distancia, es verdad, pero estaban bien patentes. Capı́tulo 3. Aplicaciones de las Redes Bayesianas 46 - ¿Huellas de pisadas? - Sı́ señor, huellas de pisadas. - ¿De hombre o de mujer? El doctor Mortimer nos contempló vagamente por unos momentos y contestó con solemnidad: - ¡Señor Holmes, eran las huellas de un sabueso gigantesco!” 3.1.2. Información preliminar y evidencia Además de lo anteriormente citado acerca de lo que dijo el Dr. Mortimer a Holmes y Watson, les relató la leyenda de un sabueso gigantesco que castigó por sus pecados a uno de los ancestros de los Baskerville. Esto forma parte de la información preliminar del caso. Por otro lado, las dos piezas de evidencia a considerar serán: la evidencia médica y las huellas. 3.1.3. Construcción de un argumento probabilı́stico Se construirá un argumento tomando en cuenta la evidencia disponible, primero tomando cada pieza de evidencia a la vez y luego usando toda la evidencia a la vez. Para esto, primero se deben formular las hipótesis que den explicación a la muerte de Sir Charles Baskerville. Las tres hipótesis son las siguientes: H1 : Sir Charles murió por causas naturales. H2 : Sir Charles murió a causa de un acto criminal. H3 : Sir Charles cometió suicidio. La hipótesis de que Sir Charles haya muerto debido a un fantasma, no es admisible, ni en nuestros tiempos ni en el siglo XIX lo era. Por lo tanto, ninguna hipótesis toma en serio la leyenda del sabueso gigantesco que ronda el páramo. Capı́tulo 3. Aplicaciones de las Redes Bayesianas 47 Se pueden hacer los siguientes juicios acerca de las probabilidades a priori de las hipótesis, nótese que la información preliminar está dada en forma explı́cita: P (H1 |I) > P (H2 |I). P (H1 |I) > P (H3 |I). (3.1) P (H1 |I) > P (H2 ∪ H3 |I) = P (H2 |I) + P (H3 |I). La probabilidad a priori de la hipótesis del crimen es muy baja pero no igual a cero. Verosimilitudes Cuando se considera la evidencia médica (el reporte del forense), este lleva a pensar que la siguiente proposición es verdadera: R: Sir Charles murió a causa de un ataque cardiaco. Se puede suponer que la verosimilitud de H3 dada la evidencia R es igual a 0. Además, la verosimilitud de la hipótesis de la muerte natural es mucho mayor que la verosimilitud de la hipótesis del crimen, dada la evidencia R. Esto se puede resumir como sigue: P (R|H1 , I) > P (R|H2 , I). P (R|H3 , I) = 0. (3.2) Argumentos construidos en base a la evidencia R En este ejemplo la proposición R serı́a falsa si la proposición H3 hubiese sido verdadera, por lo tanto, la veracidad de R implica la falsedad de H3 de acuerdo al Teorema de Bayes: P (H3 |R, I) = 0. (3.3) Capı́tulo 3. Aplicaciones de las Redes Bayesianas 48 Reescribiendo el teorema de Bayes en (1.10) para las hipótesis H1 y H2 tenemos: P (H1 |R, I)P (R|I) = P (R|H1 , I)P (H1 |I). P (H2 |R, I)P (R|I) = P (R|H2 , I)P (H2 |I). (3.4) De (3.1) y (3.2) se sigue que, la probabilidad de la hipótesis del accidente es aún mayor que la hipótesis del crimen dada solamente información preliminar, conociendo el reporte del forense (esta es una inferencia deductiva). P (H1 |R, I) > P (H2 |R, I). (3.5) Argumentos construidos en base a la evidencia R y F Ahora se considerará la evidencia del Dr. Mortimer. Se supondrá que la siguiente proposición es verdadera: F = Un sabueso gigantesco estaba persiguiendo a Sir Charles. La probabilidad que se tiene que calcular es la siguiente: P (H1 |F, R, I) = P (F |H1 , R, I)P (H1 |R, I) . P (F |R, I) Se puede argumentar que las verosimilitudes están en contra de la hipótesis del accidente y a favor de la hipótesis del crimen; la probabilidad de que un perro gigante estaba en el páramo a la hora del incidente es menor que la probabilidad de que esto hubiera pasado con un plan intencional. P (F |H1 , R, I) < P (F |H2 , R, I). (3.6) En este paso, las probabilidades iniciales son: P (H1 |R, I) > P (H2 |R, I) y éstas están a favor de H1 , ası́ que: Capı́tulo 3. Aplicaciones de las Redes Bayesianas 49 ¿Cuál es el efecto total de la evidencia F ? Para responder esta pregunta consideremos las formas momiales del teorema de Bayes aplicadas a H1 , H2 , R y F : P (H1 |F, R, I) P (F |H1 , R, I) P (H1 |R, I) = · . P (H2 |F, R, I) P (F |H2 , R, I) P (H2 |R, I) De esta forma se puede ver inmediatamente que, dado que la razón momial inicial está a favor de H1 , los momios posteriores pueden ser invertidos sólo si la razón de verosimilitudes a favor de H2 es mayor que la razón momial inicial. Es decir, P (H2 |F, R, I) > P (H1 |F, R, I). Si y sólo si P (H1 |R, I) P (F |H2 , R, I) > . P (F |H1 , R, I) P (H2 |R, I) Se puede decir con seguridad que la razón del lado izquierdo de la expresión anterior no puede ser mayor que la razón de la derecha. Por lo tanto, se concluye que la probabilidad de la muerte natural es mucho mayor incluso que la probabilidad de que un acto criminal ha sido planeado, tomando en cuenta la evidencia de las huellas. Esta conclusión ha sido hecha sólo con argumentos comparativos. 3.1.4. Razonando con evidencia total ¿La conclusión podrı́a cambiar si se aplica el teorema de Bayes a ambas piezas de evidencia al mismo tiempo en vez de construir el argumento en dos pasos? La probabilidad que se quiere calcular es la siguiente: P (H1 |F, R, I) = P (H1 , F, R|I) . P (F, R|I) El numerador anterior puede ser factorizado de las siguientes dos maneras: Capı́tulo 3. Aplicaciones de las Redes Bayesianas 50 P (H1 |I)P (R|H1 , I)P (F |H1 , R, I) = P (H1 |I)P (F |H1 , I)P (R|H1 , F, I). De acuerdo a la factorización que se use, el efecto total de la evidencia será calculado usando alguna de las siguientes razones de verosimilitud: P (R|H1 , I) P (F |H1 , R, I) · . P (R|H2 , I) P (F |H2 , R, I) (3.7) P (F |H1 , I) P (R|H1 , R, I) · . P (F |H2 , I) P (R|H2 , R, I) (3.8) En (3.7) se sigue el orden temporal en el que la evidencia fue adquirida, mientras que en (3.8) se sigue el orden en que ocurrieron los escenarios hipotéticos. Si se toman en cuenta los juicios hechos en (3.2) y (3.6), la fórmula (3.7) parece ser la más fácil de usar. Aunque en este caso, se quiere dar una evaluación comparativa de las verosimilitudes en (3.8). La verosimilitud de H2 dada F es mayor que la verosimilitud de H1 dada F : P (F |H2 , I) > P (F |H1 , I). (3.9) Entonces, se puede argumentar que dado que un gran perro estaba persiguiendo a Sir Charles, las probabilidades de que muriera por un ataque cardiaco son las mismas. La razón para la presencia del perro no importa. Entonces: P (R|H1 , F, I) = P (R|H2 , F, I). (3.10) De (3.8) con las premisas (3.9) y (3.10) la conclusión a la que se llega es que el total de la evidencia está a favor de la hipótesis del crimen. En efecto, dado (3.10) la evidencia R es “neutral” con respecto a la elección de H1 sobre H2 , mientras que dada (3.9) la evidencia F está a favor de H2 : Capı́tulo 3. Aplicaciones de las Redes Bayesianas 51 P (F |H2 , I) P (R|H1 , F, I) > = 1. P (F |H1 , I) P (R|H2 , F, I) Esto no significa que los momios posteriores estarán a favor de H2 ; para el cálculo de los momios posteriores se incluyen los momios a priori y estos están abrumadoramente a favor de H1 : P (F |H1 , I) P (R|H1 , F, I) P (H1 |I) P (H1 |F, R, I) = · · . P (H2 |F, R, I) P (F |H2 , I) P (R|H2 , F, I) P (H2 |I) Una forma correcta para reportar la inferencia, serı́a decir que aunque la evidencia está a favor de la hipótesis del crimen, la probabilidad a priori de esta hipótesis es tan baja que la hipótesis de la muerte natural es aún más creı́ble. Pero esta conclusión ha sido hecha sólo con argumentos comparativos, lo siguiente será ver cuál es la hipótesis más probable haciendo uso de una Red Bayesiana. 3.1.5. Solución mediante una Red Bayesiana A continuación se usará una Red Bayesiana para simplificar el proceso de encontrar las probabilidades: P (H1 |F, R, I), P (H2 |F, R, I) y P (H3 |F, R, I). Los nodos de la Red Bayesiana serán: H con tres estados (H1 , H2 , H3 ). R con dos estados (true, false). F con dos estados (true, false). Habrá un arco apuntando de H hacia R, ya que las proposiciones Hi constituyen una partición de la clase general de todas las posibles causas de la muerte y P (R|Hi , I) 6= P (R|Hj , I) para i 6= j. También habrá un arco de H hacia F . Ya que la hipótesis del crimen podrı́a explicar la presencia del sabueso en el páramo. Por otro lado, P (F |H1 , I) = P (F |H3 , I), ya que el ataque al corazón no explica la presencia de un sabueso, ası́ como el suicidio Capı́tulo 3. Aplicaciones de las Redes Bayesianas 52 tampoco la explica. Finalmente se cree que un sabueso extraviado que persigue a una persona con un corazón débil puede explicar el ataque cardiaco. En el caso de que Sir Charles cometiera suicidio, no habrı́a conexión alguna entre los casos. Por lo tanto, habrá un arco apuntando de F a R. H F R Figura 3.1: Red Bayesiana para “El sabueso de los Baskerville” Este caso contiene un ejemplo del fenómeno conocido como independencia asimétrica, que ocurre cuando las variables son independientes de algunos pero no de todos sus valores. El arco que va de F a R es necesario para representar la dependencia de R a F dados H1 y H2 , pero la Red Bayesiana no puede representar la independencia de R a F dado H3 . Esta relación de independencia asimétrica, sólo puede ser observada en los valores de la tabla de probabilidad condicional. Todas las probabilidades numéricas expuestas aquı́ están tomadas de [5], y algu- Capı́tulo 3. Aplicaciones de las Redes Bayesianas 53 nas están basadas en datos estadı́sticos reales. Otras son suposiciones lógicas con respecto al contexto con el que se está trabajando. Como ya se vio, las probabilidades a priori que se asignan a cada hipótesis, juegan un papel importante en el cálculo de la probabilidad condicional P (H1 |F, R, I), estas probabilidades están expuestas en la tabla 3.1. H: P (H|I) H1 0.89 H2 0.10 H3 0.01 Cuadro 3.1: Probabilidades a priori para los estados del nodo H Las probabilidades de la tabla anterior son consistentes con uno de los argumentos comparativos que se estableció en (3.1): P (H1 |I) > P (H2 o H3 |I) = P (H2 |I) + P (H3 |I) Hay que recordar que F representa el evento “Un sabueso gigantesco estaba persiguiendo a Sir Charles”. La tabla 3.2, correspondiente al nodo F , contiene las verosimilitudes de cada una de las hipótesis dada la evidencia F . H: P (F = t|H, I) P (F = f |H, I) H1 0.01 0.99 H2 0.10 0.90 H3 0.01 0.99 Cuadro 3.2: Tabla de probabilidad condicional del nodo F dado H Una vez más, se observa que en la tabla 3.2, las verosimilitudes cumplen con la desigualdad (3.9): P (F |H2 , I) > P (F |H1 , I) La tabla de probabilidad condicional del nodo R: “Sir Charles murió a causa de un ataque cardiaco” dadas H y F está mostrada en el cuadro 3.3. Donde se puede observar que se cumple (3.10): P (R|H1 , F, I) = P (R|H2 , F, I) Capı́tulo 3. Aplicaciones de las Redes Bayesianas H: F : P (R = t|H, F, I) P (R = f |H, F, I) F =t 0.4 0.6 H1 F =f 0.1 0.9 F =t 0.4 0.6 54 H2 F =f 0.001 0.999 F =t 0 1 H3 F =f 0 1 Cuadro 3.3: Tabla de probabilidad condicional para el nodo R Otro argumento que se realizó acerca de la verosimilitud que involucra a la evidencia R es (3.2): P (R|H1 , I) > P (R|H2 , I). P (R|H3 , I) = 0. Para verificar lo anterior es necesario hacer uso de la Ley de Probabilidad Total: P (R|H1 , I) = P (R|H1 , F, I)P (F |H1 , I) + P (R|H1 , F c , I)P (F c |H1 , I) = (0.4)(0.01) + (0.1)(0.99) = 0.004 + 0.099 = 0.103. P (R|H2 , I) = P (R|H2 , F, I)P (F |H2 , I) + P (R|H2 , F c , I)P (F c |H2 , I) = (0.4)(0.10) + (0.001)(0.90) = 0.04 + 0.0009 = 0.0409. P (R|H3 , I) = 0. Estos resultados respaldan la afirmación hecha en (3.2). Por lo que los valores asignados en las distribuciones de probabilidad son coherentes. Para comprobar la afirmación (3.6): P (F |H1 , R, I) < P (F |H2 , R, I), esta vez se hará uso del Teorema de Bayes, el cual se aplica a F dados R y H1 . P (F |H1 , R, I) = (0.4)(0.01) P (R|H1 , F, I)P (F |H1 , I) = = 0.039. P (R|H1 , I) 0.103 P (F |H2 , R, I) = (0.4)(0.10) P (R|H2 , F, I)P (F |H2 , I) = = 0.978. P (R|H2 , I) 0.0409 Capı́tulo 3. Aplicaciones de las Redes Bayesianas 55 Por último, la probabilidad que se desea tener es: P (H1 |F, R, I). La cual, se calculará de: P (H1 |F, R, I) P (F |H1 , I) P (R|H1 , F, I) P (H1 |I) = · · . P (H2 |F, R, I) P (F |H2 , I) P (R|H2 , F, I) P (H2 |I) donde V = P (F |H1 , I) P (R|H1 , F, I) 0.01 0.4 · = · = 0.1. P (F |H2 , I) P (R|H2 , F, I) 0.10 0.4 Se observa que la razón de verosimilitud (V ) está ligeramente en favor de H2 . Y por último, P (H1 |F, R, I) 0.89 =V · = 0.1 · 8.9 = 0.89. P (H2 |F, R, I) 0.10 De esto último, se concluye que: P (H1 |F, R, I) = 0.4709 = 47.09 %. P (H2 |F, R, I) = 0.5291 = 52.91 %. Por lo tanto, la probabilidad de que Sir Charles haya muerto debido a un acto criminal es mayor a la probabilidad de que lo haya hecho por causas naturales, como parecı́a indicar el reporte del forense. 3.1.6. Resolución alternativa Resumiendo, el caso en “El Sabueso de los Baskerville” ha sido analizado, planteado y resuelto con ayuda de una Red Bayesiana, haciendo uso del Teorema de Bayes en Capı́tulo 3. Aplicaciones de las Redes Bayesianas 56 sus formas dadas en (1.10) y (1.12). Gracias a la forma del Teorema de Bayes dada en (1.12), se ha podido analizar la razón de verosimilitud y ası́ poder decir a favor de qué hipótesis se encontraba ésta. Sin embargo, existe otro método para encontrar las probabilidades de las hipótesis dada la evidencia. A continuación se mostrará la resolución del caso mediante tal método, que consiste en aplicar la definición formal de Red Bayesiana. En un punto de la definición se menciona que: La distribución de probabilidad conjunta P (X1 , ..., Xn ) con n variables aleatorias, puede ser factorizada como el producto de las probabilidades condicionales de todas sus variables, condicionadas a sus padres: P (X1 , ..., Xn ) = n Y P (Xi | PA(Xi )). i=1 Esto quiere decir que, la distribución de probabilidad conjunta P (H, R, F ) puede obtenerse de la siguiente manera: P (H, R, F ) = P (H)P (F |H)P (R|H, F ) (3.11) Esta distribución conjunta se expresará en una tabla en donde sólo se considerará R = true con motivo de simplificar los cálculos y ya que este es el estado que se quiere para la evidencia R. H: P (F = t|H, R = true) P (F = f |H, R = true) H1 0.00356 0.08811 H2 0.004 0.00009 H3 0 0 Cuadro 3.4: Tabla para la distribución de probabilidad conjunta P (H, F, R = true) A continuación se calculará la distribución marginal para P (H, R = true) y para P (R = true): Capı́tulo 3. Aplicaciones de las Redes Bayesianas 57 P (H, R = true) = (0.09167, 0.00409, 0) P (R = true) = 0.09576 Con estos datos, ahora se es capaz de calcular la probabilidad condicional P (H|R = true): P (H|R = true) = (0.9572, 0.04271, 0) De este resultado se concluye que, dada solamente la evidencia R obtenida del informe del forense, la hipótesis más probable es H1 con 95.72 %. Sin embargo, se considerará también la evidencia F . Entonces la distribución conjunta P (H, R = true, F = true) que corresponde al primer renglón de la tabla 3.4 será: P (H, R = true, F = true) = (0.00356, 0.004, 0) De aquı́, se obtiene: P (R = true, F = true) = 0.00756 Y por último se calcula la probabilidad condicional P (H|R = true, F = true): P (H|R = true, F = true) = (0.47089, 0.5291, 0) De donde podemos observar que los resultados son consistentes con los encontrados anteriormente. En conclusión: se hizo uso de las Redes Bayesianas para plantear y resolver el misterio de Baskerville. Esta solución fue consistente con las conclusiones a las que llegó Holmes en el relato después de realizar sus averiguaciones: la muerte de Sir Capı́tulo 3. Aplicaciones de las Redes Bayesianas 58 Charles fue consecuencia de un asesinato, uno bien planeado donde aprovechando la condición precaria de la salud del hombre, se le asustó hasta la muerte haciendo uso de un perro gigantesco. Ver la resolución completa del caso en [1]. 3.1.7. Uso del paquete gRain en R A continuación, se hará uso del paquete gRain para construir una Red Bayesiana y posteriormente realizar inferencia acerca del caso Baskerville. Sólo se necesitan los datos dados en las tablas 3.1, 3.2 y 3.3 para que R realice la inferencia correspondiente y muestre el siguiente resultado: Figura 3.2: Resultados en R para “El Sabueso de los Baskerville” Se puede observar que los valores para P (H1 |F = true, R = true, I) y P (H2 |F = true, R = true, I) coinciden con los encontrados anteriormente. NOTA: El código en R se encuentra en el apéndice A. Capı́tulo 3. Aplicaciones de las Redes Bayesianas 3.2. 59 Aplicación 2: La Falacia del Fiscal en R Esta Falacia ya se ha resuelto en el capı́tulo 1, sección 1.2.3, donde se dio como ejemplo del uso de inferencia Bayesiana, sin embargo, existe una forma mucho más sencilla de resolver tal falacia, esto es usando una Red Bayesiana. Ya se ha dado la teorı́a necesaria para considerar a la evidencia como un nodo de la red y a las hipótesis de culpabilidad e inocencia como otro nodo. Por lo tanto, se tendrán los nodos C con estados H y H c , y E con estados true y f alse. Además de que se dibujará un arco que va de las hipótesis a la evidencia. La Red Bayesiana correspondiente al ejemplo 1.4 se muestra en la figura 3.3. C E Figura 3.3: Red Bayesiana para “La Falacia del Fiscal” Las tablas correspondientes a cada nodo son las siguientes: Capı́tulo 3. Aplicaciones de las Redes Bayesianas C: P (C) H 0.01 60 Hc 99.99 Cuadro 3.5: Tabla para el nodo C de La Falacia del Fiscal C: E = true E = f alse H 1 0 Hc 0.1 99.99 Cuadro 3.6: Tabla para el nodo E de La Falacia del Fiscal Mediante el uso de la Red Bayesiana y R, se ha llegado a la misma conclusión que utilizando el Teorema de Bayes en la sección 1.2.3: la probabilidad de que Fred sea inocente dada la evidencia es aproximadamente de 0.90908, es decir P (H c |E = true) = 0.90908. Este resultado se muestra en la siguiente gráfica construida mediante los datos obtenidos en R: Figura 3.4: Resultados en R para La Falacia del Fiscal NOTA: El código en R se encuentra en el apéndice A. Capı́tulo 3. Aplicaciones de las Redes Bayesianas 3.3. 61 Aplicación 3: La Paradoja de Simpson La paradoja aparece cuando una asociación entre par de variables puede ser invertida en cada subpoblación de una población, cuando esta es particionada. Esta paradoja es bastante conocida e importante en Estadı́stica ya que ha aparecido en casos reales, uno de los más famosos es el caso de discriminación de Berkeley, mencionado en [7] y en [8]. A continuación se resolverá un ejemplo tomado de [10], con la diferencia de que este será resuelto mediante Redes Bayesianas. Ejemplo 3.1. Un doctor probó un nuevo tratamiento en algunos pacientes (T1 ) dejando a los demás con el tratamiento anterior (T0 ), algunos locales (C1 ) y otros de Chicago (C2 ). Cuando el doctor obtuvo los datos de la tabla 3.7, se dio cuenta de que el nuevo tratamiento era muy malo. En este caso V es la variable que representa la recuperación del paciente. T: V = true V = f alse T0 5050 (46 %) 5950 (54 %) T1 1095 (11 %) 9005 (89 %) Cuadro 3.7: El doctor también poseı́a los resultados del tratamiento nuevo aplicado a pacientes de las ciudades C1 y C2 por separado. Este tratamiento casi habı́a doblado la tasa de recuperación en ambas ciudades, estos datos están presentados en la tabla 3.8. T : V = true: V = f alse: C1 T0 50 (5 %) 950 (95 %) T1 1000 (10 %) 9000 (90 %) Cuadro 3.8: C2 T0 T1 5000 (50 %) 95 (95 %) 5000 (50 %) 5 (5 %) Capı́tulo 3. Aplicaciones de las Redes Bayesianas 62 De los datos en la tabla 3.8 se observa que hay 6,145 pacientes que se recuperaron, de los cuales 5,050 habı́an recibido el tratamiento anterior. También se observa que el tratamiento nuevo se aplicó a más habitantes de la ciudad C1 , siendo los habitantes de esta ciudad menos propensos a recuperarse. De la tabla 3.8 se obtiene la tabla 3.9 que muestra en qué proporción se aplicaron ambos tratamientos en las dos ciudades. C: T0 T1 C1 1000 (9 %) 10000 (91 %) C2 10000 (99 %) 100 (1 %) Cuadro 3.9: Los datos contradictorios presentados en las tablas 3.7 y 3.8, dejan abierta la cuestión: ¿Cuál es el tratamiento más efectivo? Para responder esto, se hará uso de Redes Bayesianas. Las tres tablas anteriores proporcionan los datos necesarios para construir una Red Bayesiana que explique el fenómeno. Existen tres modelos que pueden usarse con el propósito de encontrar el tratamiento que es más favorable a los pacientes. Estos se enlistan a continuación. Modelo (a) Este modelo toma en cuenta el efecto directo que tiene la aplicación del tratamiento sobre la recuperación del paciente. Habrá un arco de T hacia V . No se toma en cuenta la distinción de ciudades ni el efecto que tiene sobre la recuperación. Capı́tulo 3. Aplicaciones de las Redes Bayesianas C 63 T V Figura 3.5: Modelo (a) De la tabla 3.7 se encuentra la tabla 3.10 que muestra la proporción de pacientes a los que se aplicó cada tratamiento. Esta tabla corresponde al nodo T . T: T0 11000 (52.13 %) T1 10100 (47.87 %) Cuadro 3.10: Tabla para el nodo T La tabla correspondiente al nodo V es la tabla 3.7. Modelo (b) El modelo (b) toma en cuenta la relación directa que hay entre la ciudad de origen de los pacientes y la recuperación, por lo que habrá un arco de C a V . Capı́tulo 3. Aplicaciones de las Redes Bayesianas C 64 T V Figura 3.6: Modelo (b) La tabla del nodo T será igual a la tabla 3.10. De la tabla 3.8, se obtiene la tabla para C, tabla 3.11. C: C1 11000 (52.13 %) C2 10100 (47.87 %) Cuadro 3.11: Tabla para el nodo C Para el nodo V , la tabla de probabilidad condicional asociada a las variables C y T , será igual a la tabla 3.8. Modelo (c) En este modelo, además de las relaciones mencionadas en el modelo (b), habrá también un arco de C a T representando la relación que hay entre la ciudad del paciente y el tratamiento que se le aplica. Capı́tulo 3. Aplicaciones de las Redes Bayesianas 65 C T V Figura 3.7: Modelo (c) La tabla para el nodo T estará condicionada a la variable C, y es igual a la tabla 3.9. La tabla para C será 3.11. La tabla para V será 3.8. Ya establecidos los modelos, se procederá a encontrar cuál es el apropiado para explicar la Paradoja de Simpson en este ejemplo. Para este propósito se usará el paquete gRain de R. 3.3.1. Uso del paquete gRain para los tres modelos Recuperación dado T Cuando se calcula P (V |T ) en R, se observa que en los modelos (a) y (c) se tienen los mismos resultados que se muestran en la tabla 3.7, lo cual no resuelve la paradoja. Capı́tulo 3. Aplicaciones de las Redes Bayesianas 66 Figura 3.8: Modelo (a) y Modelo (c) Figura 3.9: Modelo (b) Por otro lado, en el modelo (b) la tabla para P (V |T ) es diferente a las otras dos y sus resultados son congruentes con los de la tabla 3.8. En conclusión, el modelo (b) nos dice que para evitar la Paradoja de Simpson es necesario no tomar en cuenta la relación entre la ciudad del paciente y la aplicación del tratamiento, ya que ası́ se podrán obtener datos que tengan que ver sólo con el efecto del tratamiento en general. Conclusiones Mediante las tres aplicaciones presentadas en este trabajo, se ha logrado mostrar que el uso de las Redes Bayesianas es de utilidad en la realización de inferencia dentro de diversas áreas. Estas aplicaciones son de interés debido a que suelen prestarse a confusión y son relevantes dentro de situaciones delicadas. Además, se ha usado el software R como apoyo para la solución de los problemas, lo que ha permitido simplificar el proceso de inferencia realizado. Este software se puede usar para resolver problemas más complejos, por ejemplo, algunas situaciones de diagnóstico médico. Algunos paquetes de R para trabajar con Redes Bayesianas mencionados en [11], son: bnlearn, deal, pcalg y catnet, estos paquetes se enfocan en aprendizaje de estructura y de parámetros, mientras que los paquetes gRbase y gRain se enfocan en la manipulación de los parámetros de la red, predicción e inferencia. También existen programas especializados en Redes Bayesianas, que facilitan la construcción de Redes y de sus tablas correspondientes. Algunos ejemplos de estos programas son: BayesiaLab y AgenaRisk, este último utilizado en los ejemplos de [9]. Este trabajo sienta las bases para futuras investigaciones acerca de la aplicación de Redes Bayesianas en R para la solución de problemas inferenciales de todo tipo. Se cree que esta técnica puede ser de ayuda en juicios orales, que actualmente se han implementado en nuestro paı́s. 67 Apéndice A Códigos de R A.1. Generalidades Los paquetes de R que se usaron para trabajar con Redes Bayesianas, son: gRain y graph, el primero proporciona las herramientas para realizar inferencia, y el segundo se utilizó para graficar todas las redes que aparecen en este trabajo. Al trabajar con cualquier Red Bayesiana, se coloca lo siguiente al inicio de cada script en R: library(gRain) library(graph) A.1.1. Resumen de las funciones Las funciones que se utilizaron en R, fueron las siguientes: list Usada para crear una lista de objetos dagList Crea gráficas dirigidas y no dirigidas 68 Apéndice A. Códigos de R 69 c Crea un vector cptable Crea tablas de probabilidad condicional compileCPT Compila las tablas de probabilidad condicional grain Crea un objeto de la clase grain compile Compila una Red Bayesiana setFinding Introduce evidencia querygrain Obtiene la distribución condicional de un conjunto de variables dadas otras variables (más evidencia) El paquete gRain junto con otros paquetes útiles y sus funciones, aparecen explicados con detalle en [13] y [14]. A.2. Código para “El Sabueso de los Baskerville” A continuación se muestra el código en R que se utilizó para resolver el problema de “El Sabueso de los Baskerville” Apéndice A. Códigos de R 70 g <- list(~H, ~R:H:F, ~F:H) baskervilledag <- dagList(g) tf <- c("true", "false") #Estados para R y F hip <- c("H1", "H2", "H3") #Estados para H h <- cptable(~H, values = c(0.89, 0.1, 0.01), levels = hip) f.h <- cptable(~F | H, values = c(0.01, 0.99, 0.1, 0.9, 0.01, 0.99), levels = tf) r.hf <- cptable(~R | H | F, values = c(0.4, 0.6, 0.4, 0.6, 0, 1, 0.1, 0.9, 0.001, 0.999, 0, 1), levels = tf) tables <- compileCPT(list(h, f.h, r.hf)) baskdag <- grain(tables) baskbay <- compile(baskdag) baskbay.ev <- setFinding(baskbay, nodes = c("R"), states = c("true")) querygrain(baskbay.ev, nodes = c("H", "F", "R"), type = "conditional") ## , , R = true ## ## F ## H true false ## H1 0.4709 0.99898 ## H2 0.5291 0.00102 ## H3 0.0000 0.00000 La interpretación de los resultados presentados aquı́ se muestra en las tablas de la figura 3.2. Apéndice A. Códigos de R A.3. Código para “La Falacia del Fiscal” Los cálculos correspondientes a “La Falacia del Fiscal”, son los siguientes: r <- list(~E:C) prosecutordag <- dagList(r) tf <- c("true", "false") #Estados para E hip <- c("Hc", "H") #Estados para C c <- cptable(~C, values = c(0.01, 99.99), levels = hip) e.c <- cptable(~E | C, values = c(1, 0, 0.1, 99.9), levels = tf) tables <- compileCPT(list(c, e.c)) prosecdag <- grain(tables) prosecbay <- compile(prosecdag) prosecbay.ev <- setFinding(prosecbay, nodes = c("E"), states = c("true")) querygrain(prosecbay.ev, nodes = c("C", "E"), type = "conditional") ## E ## C true ## Hc 0.09092 ## H 0.90908 Los resultados obtenidos se muestran en la figura 3.4. 71 Apéndice A. Códigos de R 72 A.4. Código para “La Paradoja de Simpson” A.4.1. Modelo (a) p <- list(~C, ~T, ~V:T) paradoxdag <- dagList(p) tf <- c("true", "false") #Estados para V cs <- c("C1", "C2") #Estados para C ts <- c("T0", "T1") #Estados para T c <- cptable(~C, values = c(0.5213, 0.4787), levels = cs) t <- cptable(~T, values = c(0.5213, 0.4787), levels = ts) v.t <- cptable(~V | T, values = c(0.46, 0.54, 0.11, 0.89), levels = tf) tables <- compileCPT(list(c, t, v.t)) pardag <- grain(tables) parbay <- compile(pardag) querygrain(parbay, nodes = c("V", "T"), type = "conditional") ## T ## V T0 T1 ## true 0.46 0.11 ## false 0.54 0.89 Estos datos aparecen en la figura 3.8. Apéndice A. Códigos de R A.4.2. 73 Modelo (b) p <- list(~C, ~T, ~V:T:C) paradoxdag <- dagList(p) tf <- c("true", "false") #Estados para V cs <- c("C1", "C2") #Estados para C ts <- c("T0", "T1") #Estados para T c <- cptable(~C, values = c(0.5213, 0.4787), levels = cs) t <- cptable(~T, values = c(0.5213, 0.4787), levels = ts) v.tc <- cptable(~V | T | C, values = c(0.05, 0.95, 0.1, 0.9, 0.5, 0.5, 0.95, 0.05), levels = tf) tables <- compileCPT(list(c, t, v.tc)) pardag <- grain(tables) parbay <- compile(pardag) querygrain(parbay, nodes = c("V", "T"), type = "conditional") ## T ## V T0 T1 ## true 0.2654 0.5069 ## false 0.7346 0.4931 Estos datos aparecen en la figura 3.8. Apéndice A. Códigos de R A.4.3. 74 Modelo (c) p <- list(~C, ~T:C, ~V:T:C) paradoxdag <- dagList(p) tf <- c("true", "false") #Estados para V cs <- c("C1", "C2") #Estados para C ts <- c("T0", "T1") #Estados para T c <- cptable(~C, values = c(0.5213, 0.4787), levels = cs) t.c <- cptable(~T | C, values = c(0.09, 0.91, 0.99, 0.01), levels = ts) v.tc <- cptable(~V | T | C, values = c(0.05, 0.95, 0.1, 0.9, 0.5, 0.5, 0.95, 0.05), levels = tf) tables <- compileCPT(list(c, t.c, v.tc)) pardag <- grain(tables) parbay <- compile(pardag) querygrain(parbay, nodes = c("V", "T"), type = "conditional") ## T ## V T0 T1 ## true 0.4595 0.1085 ## false 0.5405 0.8915 Estos datos aparecen en la figura 3.9. Bibliografı́a [1] Conan Doyle A. Aventuras de Sherlock Holmes. Porrúa, 1979. [2] Darwiche A. Modeling and reasoning with Bayesian Networks. Cambridge University Press, 2009. [3] Kadane J. B. Bayesian Thought in Early Modern Detective Stories: Monsieur Lecoq, C. Auguste Dupin and Sherlock Holmes. Statistical Science, 2009. [4] Neapolitan R. E. Learning Bayesian Networks. Prentice Hall, 2007. [5] Taroni F., Aitken C., Garbolino P., y Biedermann A. Bayesian Networks and Probabilistic Inference in Forensic Sciences. Jon Wiley and sons, 2006. [6] Malinas G. y Bigelow J. Simpson’s Paradox. The Stanford Encyclopedia of Philosophy, 2012. [7] Bickel P. J., Hammel E. A., y O’Conell J. W. Sex Bias in Graduate Admissions: Data from Berkeley. American Association for the Advancement of Science, 2011. URL http://www.jstor.org/stable/1739581, Se accedió por última vez: 30-03-2014. [8] Pearl J. Causality: Models, Reasoning, and Inference. Cambridge University Press, 2000. [9] Fenton N. y Neil M. Risk Assessment and Decision Analysis With Bayesian Networks. CRC Press, 2012. [10] Blyth C. R. On Simpson’s Paradox and the Sure-Thing Principle. Journal of the American Statistical Association, 1972. 75 Bibliografı́a 76 [11] Nagarajan R., Scutari M., y Lébre S. Bayesian Networks in R with Applications in Systems Biology. Springer, 2013. [12] Conrady S. y Jouffe L. Paradoxes and Fallacies. 2011. URL http://library.bayesia.com/display/whitepapers/Paradoxes+and+Fallacies, Se accedió por última vez: 24-02-2014. [13] Hojsgaard S. Bayesian Networks in R with the gRain package. Journal of Statistical Software, 2012. URL http://www.jstatsoft.org/v46/i10/, Se accedió por última vez: 20-03-2014. [14] Hojsgaard S., Edwards D., y Lauritzen S. Graphical Models with R. Springer, 2012. [15] Jensen F. V. y Nielsen T. D. Bayesian Networks and Decision Graphs. Springer, 2007. [16] Fairbank A. W. Likelihood. Cambridge University Press, 1992.