Estadı́stica 36 Tema 3: Probabilidad. Teorema de Bayes. 1 Definiciones básicas. En Estadı́stica se utiliza la palabra experimento para designar todo acto que proporciona unos datos. Se van a distinguir dos tipos de experimentos: deterministas y aleatorios. Los primeros se producen en aquellas situaciones, en las que la realización sucesiva de un experimento en las mismas condiciones, produce el mismo resultado (durante siglos la ciencia se ha ocupado de fenómenos que daban origen a situaciones deterministas, por ejemplo es un fenómeno determinista la caida libre de los cuerpos). Los segundos son aquellas situaciones en las que la realización sucesiva de un experimento en las mismas condiciones produce resultados distintos (son fenómenos aleatorios: rendimiento de una semilla, duración de la vida de una componente, consumo mensual de energı́a en una casa, resultado de lanzar una moneda, etc.) En los experimentos deterministas las mismas causas producen los mismos efectos, mientras que en los experimentos aleatorios las mismas causas producen distintos efectos. Esta distinción lleva a destacar que los resultados de un experimento determinista, se pueden predecir, no ası́ los de un experimento aleatorio. Al realizar un experimento aleatorio llevamos a cabo una operación, al final de la cual obtenemos un resultado, cuyo valor es, “a priori”, impredecible, pero pertenece a un conjunto que se puede describir completamente antes de realizar el experimento. Definición 1 Llamaremos espacio muestral asociado a un experimento aleatorio al conjunto de todos los posibles resultados del experimento. Lo representaremos por Ω, y a sus elementos, que se llamarán puntos muestrales, por ω. Observación 1 El espacio muestral puede ser finito o infinito: • El espacio muestral para el experimento de tirar una moneda es finito; Ω = {cara, cruz}. • El espacio muestral para el número de averı́as de una máquina en un determinado intervalo de tiempo es teóricamente infinito (puede tener ninguna, 1 2, 3, ... averı́as). • El espacio muestral para la medida del diámetro interior de un determinado tipo de rodamientos es también infinito, aunque en este caso, los posibles valores son un intervalo de IR. 1. Diremos que el espacio muestral es discreto si los posibles resultados del exDefinición 2 perimento son una cantidad finita o numerable. (Los dos primeros ejemplos corresponden a espacios muestrales discretos). 2. Se dice que el espacio muestral es continuo si el conjunto de posibles resultados es infinito, pero no numerable. (El tercer ejemplo corresponde a un espacio muestral continuo). Al asignar a un experimento aleatorio un espacio muestral estamos haciendo una simplificación. Además esta asignación no es única. Definición 3 Llamaremos suceso a un subconjunto cualquiera del espacio muestral A ⊂ Ω. Llamaremos suceso elemental a aquellos sucesos que sólo contienen un punto muestral. Se llama suceso compuesto, al que contiene más de un punto muestral. Se llama suceso imposible a aquel que nunca ocurre, A = ∅. Se llama suceso seguro a aquel que ocurre siempre, A = Ω. 37 Estadı́stica Por ejemplo, salir par, impar, múltiplo de 3, etc. son sucesos compuestos correspondientes al experimento aleatorio de tirar un dado. Salir 3 es un suceso elemental del mismo experimento. Cuando se realiza un experimento, el resultado que se obtiene es un punto muestral, entonces, diremos que ha ocurrido un suceso cualquiera, cuando ocurre un punto muestral contenido en el mismo. Es decir, diremos que ha ocurrido el suceso A, si el valor obtenido ω, verifica ω ∈ A. Lo que estamos haciendo es, por tanto, trabajar con conjuntos, lo cual nos va a permitir usar todas las relaciones existentes entre conjuntos, recordemos las más usuales: Operaciones entre sucesos: Complementario de un suceso Sea A un suceso, tal que A ⊂ Ω, llamaremos suceso complementario de A, y se denota por Ac o también por A, al formado por los puntos muestrales que no / A}. pertenecen a A:Ac = {ω ∈ Ω/ω ∈ Unión de dos sucesos Sean A y B tal que A, B ⊂ Ω, se define la unión de los sucesos A y B y se denota por A ∪ B, al suceso formado por todos los puntos muestrales que pertenencen, al menos, a uno de los sucesos: A ∪ B = {ω ∈ Ω/ω ∈ A ó ω ∈ B}. Intersección de sucesos Sean A y B tal que A, B ⊂ Ω, se define la intersección de los sucesos A y B y se denota por A ∩ B ó por AB, al suceso formado por todos los puntos muestrales que pertenencen a ambos sucesos: A ∩ B = {ω ∈ Ω/ω ∈ A y ω ∈ B}. Inclusión de sucesos Sean A y B tal que A, B ⊂ Ω, se dirá que el suceso A está contenido ó incluido en el suceso B, si todos los puntos muestrales de A pertenencen a B. A ⊂ B si ω ∈ A ⇒ ω ∈ B. Sucesos incompatibles, disjuntos ó mutuamente excluyentes Sean A y B tal que A, B ⊂ Ω, se dirá que el suceso A es incompatible con el suceso B, si no tienen puntos muestrales en común: A ∩ B = ∅. Leyes de Morgan Sean A y B tal que A, B ⊂ Ω, entonces: • (A ∩ B)c = Ac ∪ B c . • (A ∪ B)c = Ac ∩ B c . 2 Introducción al concepto de probabilidad. A lo largo de la historia se han dado varias definiciones de probabilidad, tratando de superar en cada caso los inconvenientes de las anteriores. Definición 4 Si realizamos un experimento N veces, llamamos frecuencia absoluta del suceso A al número de veces que ocurre A y lo designamos por nA . nA . La frecuencia relativa de A será entonces fr(A) = N Propiedades 1 2. fr(Ω) = 1. 1. 0 ≤ fr (A) ≤ 1. 38 Estadı́stica 3. fr(A ∪ B) = fr(A) + fr(B) si A ∩ B = ∅. Esta última propiedad se puede hacer extensible a la unión de un número finito o infinito numerable de sucesos. Si lanzáramos al aire sucesivamente una moneda perfecta, comprobarı́amos que en la medida que aumente el número de tiradas, la frecuencia relativa del suceso A = {salir cara} se irá acercando a 1/2. Esto constituye un hecho empı́rico que se conoce como Ley de Regularidad Estadı́stica y que se puede enunciar del siguiente modo: “La frecuencia relativa de un suceso se estabiliza cuando el número de experimentos crece indefinidamente” Esto permite dar una definición frecuentista o empı́rica de probabilidad: Definición 5 Definición empı́rica. Dado un experimento aleatorio se define la probabilidad de un suceso como el lı́mite de las frecuencias relativas de aparición de dicho suceso, al repetir indefinidamente el experimento. Es decir, p(A) = lim fr(A) = lim N →∞ N →∞ nA . N Esta definición hoy en desuso, no es operativa y presenta muchos problemas: • No es posible conocer el valor de la frecuencia relativa para cualquier N, lo que no permite un cálculo real del lı́mite. • Las circunstancias del experimento pueden variar con el tiempo, y por tanto lo harı́an las frecuencias, y el valor de la probabilidad. • El suceso puede ocurrir una sóla vez. (Por ejemplo, la probabilidad de que un determinado avión se estrelle no es calculable de esta forma). • También hay problemas con respecto al concepto matemático de lı́mite. Más adelante, Laplace dio una nueva definición de probabilidad: Definición 6 Definición según Laplace. Si en un experimento aleatorio se pueden dar N resultados igualmente posibles y mutuamente excluyentes (es decir, dos cualesquiera no pueden darse a la vez) y si nA de estos N resultados tienen la caracterı́stica A, se define la probabilidad de A como: p(A) = nA casos favorables = . N casos posibles Un ejemplo en el que esta situación se da, y por tanto esta fórmula es aplicable, es en el experimento de tirar un dado: los 6 posibles resultados son “igualmente posibles ” (salvo que el dado esté trucado) y dos cualesquiera no pueden darse a la vez, por tanto, la probabilidad de obtener un resultado cualquiera de estos 6 será 16 . Sin embargo, esta definición no es aplicable a otras muchas situaciones, en las que los resultados no son igualmente probables o no son un número finito; por ejemplo, que en la fabricación de determinadas piezas, una sea aceptable o defectuosa. 39 Estadı́stica 3 Definición axiomática de probabilidad. La definición de probabilidad con la que se suele trabajar es la definición axiomática de probabilidad que introdujo en 1933 el matemático ruso Kolmogorov: Definición 7 Si Ω es el espacio muestral de un experimento aleatorio, se define una probabilidad en Ω como una aplicación p, que asigna a cada suceso A un número real p(A) y que cumple las siguientes propiedades: 1. Si A es un suceso, 0 ≤ p(A) ≤ 1. 2. p(Ω) = 1. 3. Si A1 , A2 , . . . , An , . . . son sucesos mutuamente excluyentes, (es decir Ai ∩ Aj = ∅, i = j) entonces p (∪∞ i=1 Ai ) = ∞ i=1 p(Ai ). 1. Notar que las propiedades de la probabilidad son paralelas a las de la frecuencia Observación 2 relativa. Ası́, mientras la frecuencia relativa es una medida empı́rica de la ocurrencia de un suceso, la probabilidad es una medida teórica. 2. La idea común de probabilidad como “número de casos favorables partido por el número de casos posibles” introducida por Laplace es un caso particular de la definición de Kolmogorov. 3. Cualquier aplicación que verifique la definición anterior es una probabilidad, no teniendo porqué ajustarse a un experimento aleatorio real. Lo que interesa, es que ante un determinado experimento se construya una probabilidad que lo describa lo mejor posible. Asignar una probabilidad “buena” a un experimento aleatorio es el problema central de la Inferencia Estadı́stica. A partir de la definición de probabilidad, se pueden deducir las propiedades siguientes: Propiedades 2 1. p(∅) = 0. 2. Si A1 , A2 , . . . , An son sucesos mutuamente excluyentes, (es decir Ai ∩ Aj = ∅, i = j) entonces p (∪ni=1 Ai ) = n i=1 p(Ai ). 3. p(Ac ) = 1 − p(A) para todo suceso A. 4. Si A ⊂ B entonces p(A) ≤ p(B). 5. p(A ∪ B) = p(A) + p(B) − p(A ∩ B). Asignación de probabilidades en la práctica. La definición axiomática de probabilidad no proporciona en la práctica un método para asignar probabilidades a los resultados de un experimento aleatorio. Para ello, en ocasiones puede utilizarse el método proporcionado por la definición según Laplace; en otras ocasiones puede utilizarse el estudio de las frecuencias relativas y la definición empı́rica; el método más usado es una combinación de experimentación y teorı́a. En cualquier caso, siempre el primer paso que hay que dar es definir con precisión la población objeto de estudio, el experimento aleatorio y los sucesos posibles. 40 Estadı́stica Ejemplos 1: 1. Una empresa acaba de implantar un nuevo proceso de producción. Durante un tiempo, se realiza un control al 100% de la producción, que se agrupa en lotes de 50 piezas, y se ha observado que la mayorı́a de los lotes presentan dos piezas defectuosas. En principio, una asignación razonable de probabilidades serı́a asignar una probabilidad de 0.04 (es decir 2/50) al resultado “pieza defectuosa” y de 0.96 al resultado “pieza aceptable”. 2. Un juego consiste en tirar un dado y observar el resultado. Si este es par, el jugador gana; sino, pierde. En este caso, los resultados o sucesos elementales son 1, 2, 3, 4, 5, 6 y podemos asignar probabilidades usando el método de Laplace, de forma que la probabilidad de cualquier resultado es 1/6. El suceso “par” es un suceso compuesto, formado por los sucesos elementales 2, 4 y 6 (mutuamente excluyentes), luego: p(par) = p(2) + p(4) + p(6) = 36 = 12 . 3. Aunque teóricamente, la asignación de probabilidades en el ejemplo anterior es válida, en la práctica se observa que sólo un 10% de las veces aparecen el resultado 2, el 4, el 5 y el 6 y sin embargo un 30% de las veces aparece el resultado 1 y un 30% el resultado 3. En este caso, la asignación de probabilidades más correcta deberı́a ser coherente con la experimentación: p(1) = 0.3, p(2) = 0.1, p(3) = 0.3, p(4) = 0.1, p(5) = 0.1, p(6) = 0.1 y por tanto, p(par) = 0.3. Ejemplo 2: Se lanza una moneda normal tres veces. 1. Describir el espacio muestral subyacente. 2. ¿Cuál es la probabilidad de que exactamente dos tiradas den el mismo resultado? 3. ¿Cuál es la probabilidad de una cara y dos cruces? 4. ¿Cuál es la probabilidad de que las tres tiradas den el mismo resultado? El espacio muestral de este experimento serı́an los resultados posibles de las tres tiradas. Si denotamos por C el resultado “cara” en una tirada y por X el resultado “cruz”, Ω = {CCC, CCX, CXC, XCC, CXX, XCX, XXC, XXX}. Para asignar probabilidades en este experimento, puesto que la moneda es normal, podemos considerar que todos estos sucesos son equiprobables y asignar a cada uno, utilizando Laplace, probabilidad 18 ( N1 , con N=8). Podemos resolver el resto de apartados utilizando también Laplace: o favorables p(dos tiradas den el mismo resultado)= nnocasos casos posibles = o favorables p(una cara y dos cruces)= nnocasos casos posibles = 6 8 3 8 o favorables p(las tres tiradas den el mismo resultado)= nnocasos casos posibles = 2 8 41 Estadı́stica 4 Probabilidad condicionada. En ocasiones, se dispone de información adicional sobre el experimento, y la asignación inicial de probabilidades, debe ser modificada: Ejemplo 3: Si se considera el experimento “tirar una moneda dos veces”, el conjunto de posibles resultados serı́a: Ω = { CC, CX, XC, XX } (donde C=cara y X=cruz) Al suceso “obtener cara en la primera tirada y cruz en la segunda” le asignarı́amos la probabilidad 1/4 (usando equiprobabilidad). Sin embargo, si disponemos de la información adicional de que la primera tirada ya se ha realizado y salió cara, la probabilidad de este suceso serı́a 1/2. ¿Qué diferencia hay entre una situación y otra? La diferencia es que, al disponer de información adicional, el espacio muestral ha cambiado; ahora es un subconjunto del espacio muestral Ω : {CX, CC} Definición 8 Sea Ω el espacio muestral de un experimento aleatorio, A y B dos sucesos con p(B) = 0. Se define la probabilidad condicionada del suceso A al suceso B (a que haya ocurrido el suceso B) como: p(AB) p(A/B) = . p(B) Análogamente, se define la probabilidad del suceso B condicionado porque haya ocurrido A como: , siempre que p(A) = 0. p(B/A) = p(AB) p(A) Se deduce p(AB) = p(A)p(B/A) = p(B)p(A/B). Se tiene en general p(A1 A2 · · · An ) = p(A1 )p(A2 /A1 )p(A3 /A1 A2 ) · · · p(An /A1 · · · An−1 ) siempre que p(A1 · · · An−1 ) = 0. Observación 3 La probabilidad condicionada p(A/B) es una probabilidad definida sobre el conjunto de sucesos Ω , cuya intersección con B es no vacı́a; por tanto, verifica todas las propiedades de la probabilidad. (Se puede comprobar fácilmente). Ejemplo 4: Se realiza un lanzamiento de un dado normal. ¿Cuál es la probabilidad de obtener un 1 si se sabe que el resultado ha sido impar? Llamamos A al suceso “obtener un 1” y B al suceso “obtener un impar”. La probabilidad pedida es p(A/B). Utilizando la definición, p(A/B) = p(AB) p(B) En este caso A ⊂ B, por tanto el suceso intersección de A y de B es A: obtener un 1. Luego p(A/B) = 1/6 3/6 = 1 3 42 Estadı́stica 5 Independencia Unido al concepto de probabilidad condicionada aparece el concepto de independencia de sucesos. De forma intuitiva dos sucesos A y B del espacio muestral Ω se dice que son independientes si la ocurrencia de uno no modifica la probabilidad de que el otro ocurra. Definición 9 Diremos que dos sucesos A y B del espacio muestral Ω son independientes, si y sólo si p(B/A) = p(B). Proposición 1 Las siguientes condiciones son equivalentes: • A y B son sucesos independientes. • p(A/B) = p(A). • p(AB) = p(A) p(B). Ejemplo 5: En el experimento “tirar dos monedas”, los sucesos “obtener cara en la primera” y “obtener cara en la segunda” son independientes: p(CC) = 1 = p(C)p(C). 4 Definición 10 Dos sucesos A y B se dicen dependientes si no son independientes. Observación 4 La independencia de dos sucesos no es una propiedad intrı́nseca de los mismos, es decir, no es una propiedad que dependa de la naturaleza de los sucesos, sino que es una propiedad ligada a las probabilidades de los mismos. Ejemplo 6: Se lanza una moneda trucada tres veces y el resultado de cada tirada se considera independiente. Si la probabilidad de cara es 0.8, contestar a las preguntas del ejemplo 2, es decir: 1. Describir el espacio muestral subyacente. 2. ¿Cuál es la probabilidad de que exactamente dos tiradas den el mismo resultado? 3. ¿Cuál es la probabilidad de una cara y dos cruces? 4. ¿Cuál es la probabilidad de que las tres tiradas den el mismo resultado? En este caso, las probabilidades de cara y cruz no son iguales; la de cara es 0,8 y, por tanto, la de cruz (suceso complementario de “cara”) es 0,2 (1-0,8). El espacio muestral de este experimento es idéntico al del ejemplo 2: Ω = {CCC, CCX, CXC, XCC, CXX, XCX, XXC, XXX} Ahora los sucesos elementales no son equiprobables. 43 Estadı́stica ¿Cuál será, por ejemplo, p(CCX)? Determinamos la probabilidad del suceso CCX usando la caracterización de probabilidad de sucesos independientes: p(CCX) = p(C)p(C)p(X) = (0.8)(0.8)(0.2) De igual manera podrı́amos obtener la probabilidad del resto de suceos elementales o puntos muestrales. Para resolver el resto de preguntas, utilizamos las propiedades de la unión, intersección y complementario de sucesos: p(dos tiradas den el mismo resultado)=p(CCX+CXC+XCC+CXX+XCX+XXC)=(*) como los sucesos anteriores son mutuamente excluyentes, la probabilidad de la unión es la suma de probabilidades: (*)=p(CCX)+p(CXC)+p(XCC)+p(CXX)+p(XCX)+p(XXC)= =(0.8)2 (0.2) + (0.8)2 (0.2) + (0.8)2 (0.2) + (0.2)2 (0.8) + (0.2)2 (0.8) + (0.2)2 (0.8) p(una cara y dos cruces)=p(CXX+XCX+XXC)= =p(CXX)+p(XCX)+p(XXC)=(0.2)2 (0.8) + (0.2)2 (0.8) + (0.2)2 (0.8) p(las tres tiradas den el mismo resultado)=p(CCC+XXX)=p(CCC)+p(XXX)=(0.8)3 + (0.2)3 Ejemplo 7: Se tira 8 veces la moneda trucada del ejemplo 6; ¿Cuál es la probabilidad de obtener exactamente tres caras? En este ejemplo el espacio muestral está formado por puntos muestrales con “ocho letras” C ó X. Cada suceso con exactamente tres caras tiene probabilidad (0.8)3 (0.2)5 . Para resolver el problema, se necesita saber cuántos de estos puntos muestrales hay. La respuesta la proporciona el número combinatorio 8 3 = 8! 3!(8−3)! En general, si n y k son números enteros con n ≥ k, se define el número combinatorio n k = n! k!(n−k)! y proporciona el número de subconjuntos distintos de k elementos de n distintos. En el problema que nos ocupa, es necesario contabilizar cuántos puntos muestrales distintos con 3 caras hay, es decir, cuántos subconjuntos distintos de 3 posiciones de las 8 posibles, para colocar las tres caras, existen. Por tanto, 44 Estadı́stica p(obtener exactamente tres caras)= 6 8 3 (0.8)3 (0.2)5 = 8! (0.8)3 (0.2)5 3!(8−3)! Teoremas principales en probabilidad Vamos a tratar en este último punto el Teorema de las Probabilidades Totales y el Teorema de Bayes. Teorema 1 Teorema de las probabilidades totales: Sean A1 , A2 , . . . , An , sucesos mutuamente excluyentes y de probabilidad no nula, tales que A1 ∪ A2 ∪ . . . ∪ An = Ω. Si B es un suceso en Ω, entonces: p(B) = n i=1 p(B/Ai )p(Ai ). Para demostrar este resultado basta escribir el suceso B como: B = BA1 + BA2 + . . . + BAn , unión de sucesos mutuamente excluyentes, y aplicar las propiedades de la probabilidad. El teorema de Bayes corresponde a la siguiente situación, en el contexto en el que nosostros lo vamos a aplicar: Un experimento se realiza en dos etapas: - En la primera pueden darse n sucesos A1 , A2 , . . . , An , mutuamente excluyentes, con probabilidades conocidas. (Vamos a llamarlos causas). - En la segunda pueden darse los resultados B1 , B2 , . . . , Bm , (que denominaremos efectos) cuya ocurrencia depende de los resultados obtenidos en la primera etapa, y se conocen p(Bj /Ai ) (es decir, la probabilidad de que se presente el efecto Bj cuando se ha dado la causa Ai ); entonces, al realizar el experimento se ha observado que el resultado final ha sido Bj y se plantea cuál es la probabilidad de que “la causante” haya sido la causa Ai (es decir, ¿cuál es la probabilidad de Ai ?). Teorema 2 Teorema de Bayes: Sean A1 , A2 , . . . , An , sucesos mutuamente excluyentes y de probabilidad no nula, tales que A1 ∪ A2 ∪ . . . ∪ An = Ω. Si B es un suceso en Ω de probabilidad no nula, entonces: p(B/Ak )p(Ak ) . p(Ak /B) = n p(B/Ai)p(Ai ) i=1 La demostración de este resultado es muy sencilla y se basa en la definición de probabilidad condicionada y en el teorema de las probabilidades totales. Ejemplo 8: El 60% de los tornillos producidos por una fábrica proceden de la máquina A y el 40% de la máquina B. La proporción de defectuosos en A es 0.1 y en B es 0.5. ¿Cuál es la probabilidad de que un tornillo de dicha fábrica sea defectuoso? ¿Cuál es la probabilidad de que, sabiendo que un tornillo es defectuoso, proceda de la máquina A?. 45 Estadı́stica En este ejemplo, tenemos un experimento en dos etapas; en la primera, los sucesos son: A: tornillo fabricado por la máquina A B: tornillo fabricado por la máquina B Los valores de las probabilidades de estos sucesos son conocidos: p(A)=0,6 y p(B)=0,4. Los resultados de la segunda etapa son: D: tornillo defectuoso D: tornillo no defectuoso Las probabilidades de estos sucesos dependen del resultado de la primera etapa: p(D/A)=0,1 p(D/B)=0,5 A partir de estos valores podemos determinar también: p(D̄/A)=1-P(D/A)=1-0,1=0,9 p(D̄/B)=1-P(D/B)=1-0,5=0,5 El suceso D se puede poner como: D=DA+DB, sucesos mutuamente excluyentes; luego utilizando el teorema de las probabilidades totales: p(D)=p(D/A)p(A)+p(D/B)p(B)=(0,1)(0,6)+(0,5)(0,4)=0,26 La otra probabilidad es p(A/D), probabilidad de un resultado de la primera etapa condicionada a un resultado de la segunda; podemos aplicar el teroema de Bayes para resolverlo: p(D/A)p(A) p(A/D)= p(D/A)p(A)+p(D/B)p(B) = (0,1)(0,6) (0,1)(0,6)+(0,5)(0,4) = 3 13