Capítulo 64 PROBABILIDAD COMPUESTA. PROBABILIDAD CONDICIONADA. PROBABILIDAD TOTAL. TEOREMA DE BAYES 1.2.3.4.5.6.- INTRODUCCÓN PROBABILIDAD CONDICIONADA INDEPENDENCIA ALEATORIA O ESTOCÁSTICA PROBABILIDAD COMPUESTA TEOREMAS DE LA PROBABILIDAD TOTAL Y DE BAYES EJEMPLOS 64.1 INTRODUCCIÓN En el cálculo de probabilidades de algunos sucesos, el valor de dicha probabilidad varía en función del conocimiento de determinadas informaciones relativas a estos sucesos. En este sentido la probabilidad condicionada nos da las herramientas necesarias para calcular una determinada probabilidad teniendo en cuenta dichas informaciones adicionales. Pero conocer cierta información adicional, por ejemplo saber que ha ocurrido un suceso, no siempre modi…ca la probabilidad de otro suceso. Los sucesos en los que sabiendo que uno se ha veri…cado, no se modi…ca la probabilidad del otro, decimos que son independientes, en cambio, si se modi…ca la probabilidad del otro, decimos que son dependientes entre sí. El concepto de dependencia e independencia de sucesos fue presentado y aplicado al Cálculo de Probabilidades por De Moivre en 1711, y posteriormente extendido por Thomas Bayes (1702-1761), quien además expresó la probabilidad condicionada en función 2 PROBABILIDAD CONDICIONADA de la probabilidad de la intersección. Dos años después de la muerte de Bayes se publicó un trabajo en el que, por vez primera, se calculaba la probabilidad de las causas a partir de los efectos que se han observado. A pesar de que fue Laplace quien mejoró y desarrolló la mayor parte de dichas probabilidades, el cálculo de éstas recibe el nombre de teorema de Bayes. En los problemas relacionados con la probabilidad, y es especial con la probabilidad condicionada, así como con la probabilidad total y el teorema de Bayes, resulta interesante y recomendable organizar la información y los datos del problema en tablas de contingencia o en diagramas de árbol. Además, es muy útil desde el punto de vista metodológico. 64.2 PROBABILIDAD CONDICIONADA Mediante un espacio probabilístico damos una formulación matemática al fenómeno aleatorio que estemos observando. Parece por tanto razonable que si observamos algo que aporte información a nuestro fenómeno aleatorio, ésta deba alterar el espacio probabilístico de partida. Por ejemplo, la extracción de una bola de una urna con tres bolas blancas y dos negras, puede formalizarse con un espacio probabilístico en el que los sucesos elementales sean las cinco bolas y donde la probabilidad sea uniforme sobre estos cinco sucesos elementales, es decir, igual a 15 . Si extraemos una bola de la urna, es decir, si observamos el suceso A bola negra, y no la devolvemos a la urna, es razonable que el espacio probabilístico cambie en el sentido no sólo de que ahora ya habrá únicamente cuatro sucesos elementales, sino que además la función de probabilidad deberá cambiar en orden a recoger la información que la observación del suceso A nos proporcionó. Es decir, en el nuevo espacio probabilístico deberá hablarse de probabilidad condicionada al suceso A, de forma que se recojan hechos tan evidentes como que ahora la probabilidad (condicionada) de obtener negra se habrá reducido y habrá aumentado la de blanca. De…nición 64.2.1 Sea (E; A; P ) un espacio de probabilidad y A ½ E un suceso con P (A) > 0: Para cualquier otro suceso B se de…ne la probabilidad de B condicionada a A como: P (A \ B) P (BÁA) = P (A) Ejemplos 64.2.2 Consideramos una urna que contiene 3 bolas rojas (R), 2 bolas verdes (V ) y 1 bola negra (N). Se extraen dos bolas, sin reemplazamiento. ¿Cuál es la probabilidad de que la segunda sea roja si la primera era verde? Como es usual llamaremos R al suceso “salir roja”, V al suceso “salir verde” y N al Cipri Temas de Matemáticas 3 suceso “salir negra”. La probabilidad que nos piden es: 6 P (R \ V ) 3 = 30 P (RÁV ) = = 2 5 P (V ) 6 ya que hay 30 casos posibles (6 favorables a RR; 6 a V R; 6 a RV , 2 a V V , 3 a RN; 3 a NR, 2 a NV y 2 a V N). Hay que observar que al calcular P (BÁA) realmente estamos calculando la P (B) con respecto al espacio muestral re6ducido A en vez del espacio muestral E: Construyamos la ¾¡ álgebra cuyo conjunto fundamental es A, esto es, teniendo en cuenta que A es el conjunto de resultados posibles. Proposición 64.2.3 AA = fA \ B : B 2 Ag ½ A es una ¾¡ álgebra Demostración: (i) ; 2 AA , A 2 AA (ii) Veamos que si C 2 AA entonces C 2 AA Como C 2 AA entonces C = A \ B y por tanto C = A \ B, luego C 2 AA 1 S (iii) Sea fCk g1 Ck 2 AA k=1 ½ AA . Tenemos que demostrar que k=1 Como cada Ck 2 AA se tiene que Ck = A \ Bk y por tanto Ã1 ! 1 1 [ [ [ Ck = (A \ Bk ) = A \ Bk k=1 luego como Bk 2 A ) 1 S k=1 k=1 k=1 µ Bk 2 A ) A \ µ1 S k=1 Bk ¶¶ = 1 S k=1 Ck 2 AA : C.Q.D.¤ Veamos ahora que la probabilidad condicionada es una auténtica probabilidad. Proposición 64.2.4 La función de conjunto PA : AA ! [0; 1] C = A \ B ¡! PA (C) = es una medida de probabilidad. Demostración: (1) 8C 2 AA ¿ PA (C) ¸ 0 ? P (A \ B) P (C) = P (A) P (A) 4 PROBABILIDAD CONDICIONADA Como A \ B ½ A tenemos que 0 · P (A \ B) · P (A), luego dividiendo esta desigualdad por P (A) resulta: 0· P (A \ B) P (A) · =1 P (A) P (A) es decir, 0 · PA (C) · 1 (2) ¿ PA (A) = 1 ? PA (A) = (3) ¿ PA µ1 S Tomamos k=1 1 S k=1 ¶ 1 P PA (Ck ) 8Ck \ Cj = ; con k 6= j ? ¶ 1 S Ck = A \ Bk . Entonces: Ck PA = k=1µ k=1 µ1 S Ck k=1 ¶ P = = P (A \ A) =1 P (A) =P µ1 S k=1 µ1 S k=1 ¶ P Ck ÁA = (A \ Bk ) ¶ P (A) = 1 P k=1 µ A\ µ1 S Bk k=1 P (A) P (A \ Bk ) P (A) ¶¶ = = 1 1 1 P (A \ B ) P P P k = PA (A \ Bk ) = PA (Ck ) P (A) k=1 k=1 k=1 C:Q:D:¤ Corolario 64.2.5 (A; AA ; PA ) es un espacio de probabilidad. Propiedades de la probabilidad condicionada: Proposición 64.2.6 La probabilidad condicionada cumple las siguientes propiedades: (1) Si B µ C, entonces P (BÁA) · P (CÁA) P (B) (2) Si B ½ A, entonces P (BÁA) = P (A) (3) Si A ½ B, entonces P (BÁA) = 1 (4) Si A \ B = ;, entonces P (BÁA) = 0 Demostración: ¡ ¢ (1) Si B µ C, entonces C = B [ C \ B , y por tanto ¡ ¢ P (CÁA) = P (BÁA) + P C \ BÁA de donde se deduce que P (BÁA) · P (CÁA) Cipri Temas de Matemáticas ¡ ¢ ya que P C \ BÁA ¸ 0: (2) P (BÁA) = 5 P (A \ B) P (B) = P (A) P (A) (3) P (BÁA) = P (A \ B) P (A) = =1 P (A) P (A) (4) Si A \ B = ;, entonces P (BÁA) = 0, y por tanto P (BÁA) = 64.3 P (A \ B) P (;) 0 = = =0 P (A) P (A) P (A) C.Q.D.¤ INDEPENDENCIA ALEATORIA De…nición 64.3.1 Sean A; B 2 A dos sucesos de probabilidades no nulas. Se dice que el suceso B es independiente del suceso A (independiente estocásticamente) sii P (BÁA) = P (B) Ejemplos 64.3.2 Una moneda se lanza dos veces consecutivas. Si se ha obtenido cara la primera vez, ¿cuál es la proabilidad de obtener cara la segunda vez? 1 P (C1 \ C2 ) 1 P (C2 ÁC1) = = 4 = = P (C2 ) 1 P (C1 ) 2 2 donde Ci es el suceso “obtener cara en el lanzamiento i (i = 1; 2)” y por tanto ambos sucesos son independientes. A continuación caracterizamos la independencia aleatoria de sucesos: Teorema 64.3.3 Una condición necesaria y su…ciente para que B sea independiente de A es que P (A \ B) = P (A) P (B). Demostración: )) Como B es independiente de A se tiene que P (BÁA) = P (B) y por tanto: P (BÁA) = P (A \ B) = P (B) ) P (A \ B) = P (A) P (B) P (A) () Como P (A \ B) = P (A) P (B) resulta: P (BÁA) = P (A \ B) P (A) P (B) = = P (B) P (A) P (A) C:Q:D:¤ 6 INDEPENDENCIA ALEATORIA Proposición 64.3.4 La independencia estocástica es una propiedad recíproca. Demostración: Sean A y B dos sucesos de probabilidades no nulas y supongamos que B es independiente de A. Entonces P (BÁA) = P (B) Vamos a demostrar que A es independiente de B: Se tiene que: P (AÁB) = P (A \ B) P (A) P (B) = = P (A) P (B) P (B) es decir, A es independiente de B: C.Q.D.¤ Como consecuencia de esta propiedad, si A es independiente de B se dirá que A y B son (estocásticamente) independientes. La idea de independencia es que ninguno de los dos sucesos interviene en la veri…cación del otro. Corolario 64.3.5 Si los sucesos A y B tienen probabilidades no nulas, se tiene que: A y B son independientes si, y sólo si, P (AÁB) = P (A) y P (BÁA) = P (B) : Demostración: )) P (A \ B) P (A) P (B) = = P (A) P (B) P (B) Análogamente se demuestra la otra igualdad. () Si P (AÁB) = P (A) P (AÁB) = se tiene que P (A \ B) = P (A) P (B) de donde se deduce que A y B son independientes. C.Q.D.¤ P (AÁB) = Se da frecuentemente el caso de que se confunden sucesos incompatibles con sucesos independientes. Observemos para evitar dicha confusión que los sucesos incompatibles son los más dependientes (dos sucesos son dependientes si el resultado de uno in‡uye en el otro) que existen, puesto que la ocurrencia de uno de ellos proporciona la máxima información: el otro suceso no va a ocurrir. De…nición 64.3.6 Dos sucesos A y B con probabilidades no nulas son dependientes si el resultado de uno in‡uye en el otro, es decir, si P (AÁB) 6= P (A) y P (BÁA) 6= P (B) Cipri Temas de Matemáticas 7 Corolario 64.3.7 Si A y B son sucesos incompatibles con probabilidades no nulas, entonces son dependientes. Demostración: Como A y B son incompatibles, entonces A \ B = ;, por tanto 0 = P (;) = P (A \ B) 6= P (A) P (B) > 0 C.Q.D. ¤ Enunciamos a continuación algunas propiedades relativas a la independencia estocástica de sucesos, pero antes necesitamos un resultado previo: Lema 64.3.8 Sean A y B dos sucesos con probabilidades no nulas. Entonces: ¢ ¡ P BÁA = 1 ¡ P (BÁA) Demostración: ¡ ¢ ¡ ¢ ¡ ¢ ¡ ¢ 1 = P (AÁA) = P B [ BÁA = PA B [ B = PA (B) + PA B ¡ PA B \ B = ¡ ¢ ¡ ¢ = PA (B) + PA B = P (BÁA) + P BÁA de donde como queríamos demostrar.¤ Nota 64.3.9 ¡ ¢ P BÁA = 1 ¡ P (BÁA) ¢ ¡ P (BÁA) 6= P BÁA Para demostrar la a…rmación hecha en la nota anterior, vamos a demostrar el siguiente resultado. Proposición 64.3.10 Sean A y B dos sucesos con probabilidades no nulas. Entonces: ¡ ¢ P (BÁA) = P BÁA , A y B son independientes Demostración: ¡ ¢ P (A \ B) P A \ B ¡ ¢ , P (BÁA) = P BÁA , = P (A) P A ¡ ¢ ¡ ¢ ¡ ¢ , P A P (A \ B) = P A \ B P (A) , ¡ ¢ , (1 ¡ P (A)) P (A \ B) = P A \ B P (A) , P (A \ B) ¡ P (A) P (A \ B) ¡ ¡ ¢ ¡P A \ B P (A) = 0 , (¤) , P (A \ B) ¡ P (A) P (A \ B) ¡ P (B) P (A) ¡ P (A \ B) P (A) = 0 , , P (A \ B) = P (A) P (B) , A y B son independientes 8 INDEPENDENCIA ALEATORIA donde en (¤) hemos tenido en cuenta que A \ B = B ¡ (A \ B) y que ¢ ¡ P A \ B = P (B ¡ (A \ B)) = P (B) ¡ P (A \ B) ya que A \ B ½ B: C.Q.D.¤ Proposición 64.3.11 Si A; B 2 A son independientes, entonces también lo son: (1) A y B (2) A y B (3) A y B Demostración: (1) Sabemos que P (A \ B) A y B son independientes, y ¡ = P¢(A) P (B) ya ¡ que ¢ tenemos que demostrar que P A \ B = P (A) P B . Se tiene que: ¡ ¢ ¡ ¢ P A \ B = P (A) P BÁA = P (A) [1 ¡ P (BÁA)] = ¡ ¢ = P (A) [1 ¡ P (B)] = P (A) P B es decir, A y B son independientes. (2) Se tiene que: ¡ ¢ ¡ ¢ P A \ B = P (B) P AÁB = P (B) [1 ¡ P (AÁB)] = ¡ ¢ ¡ ¢ = P (B) [1 ¡ P (A)] = P (B) P A = P A P (B) es decir, A y B son independientes. (3) Se tiene que: ¡ ¢ ¡ ¢ ¡ ¢ ¡ ¢£ ¡ ¢¤ P A \ B = P A P BÁA = P A 1 ¡ P BÁA = ¡ ¢ ¡ ¢ ¡ ¢ = P A [1 ¡ P (B)] = P A P B es decir, A y B son independientes. C.Q.D.¤ De…nición 64.3.12 Se dice que los sucesos A1 ; ::; An 2 A son totalmente independientes ó mútuamente independientes sii veri…can: (²) P (Ai \ Aj ) = P (Ai ) P (Aj ) 8i 6= j (²) P (Ai \ Aj \ Ak ) = P (Ai ) P (Aj ) P (Ak ) 8i 6= j 6= k ... µn ¶ n T Q (²) P Ai = P (Ai ) i=1 i=1 Cipri Temas de Matemáticas 64.4 9 PROBABILIDAD COMPUESTA Sea (E1 ; A1 ; P1 ) el espacio de probabilidad que de…ne un experimento aleatorio, y consideremos un segundo espacio de probabilidad (E2 ; A2; P2) que de…ne un segundo experimento aleatorio. Denotamos los sucesos de primer experimento por Ai y los del segundo por Bj : Llamaremos experimento aleatorio compuesto de los dos dados al que tiene por espacio de probabilidad (E1 £ E2 ; A1 £ A2 ; P ), donde la probabilidad se de…ne como sigue: ½ P1 (Ai ) P2 (Bj ) si Ai y Bj son independientes P (Ai ; Bj ) = P1 (Ai ) P2 (Bj ÁAi ) si son dependientes De forma análoga se puede extender a un número …nito de experimentos aleatorios. Teorema 64.4.1 (Fórmula de la probabilidad compuesta): Sea (E; A; P ) un espacio de probabilidad, y consideremos n-sucesos ordenados A1; :::; An . Entonces: à n ! \ Ak = P (A1) P (A2 ÁA1 ) P (A3 ÁA1 \ A2) :::P (An ÁA1 \ ::: \ An¡1 ) P k=1 Demostración: Lo demostraremos por inducción sobre n : n=2: P (A1 \ A2 ) PA1 (A2 ) = = P (A2 ÁA1) ) P (A1 \ A2) = P (A1 ) P (A2 ÁA1 ) P (A1 ) n=3: P (A1 \ A2 \ A3 ) = P (A1) P (A2 \ A3 ÁA1 ) = P (A1 ) = P (A1 ) P (A1 \ A2 \ A3) = P (A1 ) P (A1 \ A2) P (A3ÁA1 \ A2 ) = P (A1 ) P (A2 ÁA1 ) P (A3 ÁA1 \ A2 ) P (A1 ) Hipótesis de inducción: lo suponemos cierto para n ¡ 1, es decir: Ãn¡1 ! \ P Ak = P (A1 ) P (A2 ÁA1 ) P (A3 ÁA1 \ A2 ) :::P (An¡1ÁA1 \ ::: \ An¡2) k=1 Vamos a demostrarlo para n : P (A1 \ ::: \ An¡1 \ An ) = P ((A1 \ ::: \ An¡1 ) \ An ) = = P (A1 \ ::: \ An¡1) P à An Á n¡1 T j=1 Aj ! = H.I. = P (A1 ) P (A2 ÁA1) P (A3 ÁA1 \ A2 ) :::P (An ÁA1 \ ::: \ An¡1 ) como queríamos demostrar.¤ C:Q:D:¤ 10 TEOREMAS DE LA PROBABILIDAD TOTAL Y DE BAYES Ejemplos 64.4.2 Consideramos una urna que contiene 3 bolas rojas (R), 2 bolas verdes (V ) y 1 bola negra (N). Se extraen tres bolas, sin reemplazamiento, y nos preguntamos por la probabilidad de que la primera sea roja, la segunda sea verde y la tercera sea negra (utilizaremos los sucesos nombrados en el ejemplo anterior). Esta probabilidad viene dada por: 3 2 1 1 P (R \ V \ N) = P (R) P (V ÁR) P (N ÁR \ V ) = ¢ ¢ = 6 5 4 20 64.5 TEOREMAS DE LA PROBABILIDAD TOTAL Y DE BAYES De…nimos ahora el concepto de partición del espacio muestral, necesario para poder enunciar el teorema de la probabilidad total y como consecuencia el teorema de BAYES. De…nición 64.5.1 Sea (E; A; P ) un espacio de probabilidad. Se llama partición de E a cualquier familia fAn g1 n=1 ½ A que veri…que: (i) An \ Am = ; 8n 6= m 1 S (ii) An = E n=1 Teorema 64.5.2 (Teorema de la probabilidad total): Sea fAn gn2N ½ A una partición de E y supongamos que P (An ) > 0 8n 2 N. Entonces, 8B 2 A se tiene: P (B) = 1 X P (An ) P (BÁAn ) n=1 Demostración: Sea B = B \ E = B \ P (B) = P à 1 [ n=1 µ 1 S An n=1 ¶ (An \ B) ! = 1 S n=1 = 1 X n=1 (An \ B). Entonces: P (An \ B) = (¤) 1 X P (An ) P (BÁAn ) n=1 donde en (¤) hemos usado la fórmula de la probabilidad compuesta. C.Q.D.¤ Corolario 64.5.3 (Teorema de BAYES o de la probabilidad inversa, 1764): Sea fAn gn2N ½ A una partición de E con P (An ) > 0 8n 2 N. Entonces, 8B 2 A se tiene: P (An ) P (BÁAn ) P (An ÁB) = P 1 P (An ) P (BÁAn ) n=1 Cipri Temas de Matemáticas 11 Demostración: P (An ÁB) = P (An ) P (BÁAn ) P (An \ B) = P 1 (¤) P (B) P (An ) P (BÁAn ) n=1 donde en (¤) hemos usado el teorema de la probabilidad total. C.Q.D.¤ Las probabilidades P (An ) que aparecen el teorema de BAYES se llaman probabilidades a priori, las probabilidades P (BÁAn ) se llaman verosimilitudes y las probabilidades P (An ÁB) se llaman probabilidades a posteriori. Así, el teorema de BAYES consiste en calcular las probabilidades a posteriori, conocidas las probabilidades a priori. Acerca de la interpretación del teorema de BAYES, si los An son considerados como hipótesis sobre alguna cuestión en estudio y tenemos una cierta información, subjetiva o no, acerca de dichas hipótesis An , re‡ejada ésta por las P (An ) > 0, supongamos se produce un suceso B asociado a un experimento aleatorio (usualmente provocado por el experimentador para obtener más información), el teorema de BAYES nos proporciona el medio para obtener la alteración, provocada por B, en nuestras hipótesis An , dándonos las probabilidades a posteriori P (An ÁB). Usualmente se continuará el proceso provocando otro suceso C (es decir, obteniendo otro nuevo resultado de nuestro experimento aleatorio considerado) y utilizando ahora las P (An ÁB) antes calculadas, como probabilidades a priori.