Tema 3: Probabilidad. Teorema de Bayes.

Anuncio
Estadı́stica
36
Tema 3: Probabilidad. Teorema de Bayes.
1
Definiciones básicas.
En Estadı́stica se utiliza la palabra experimento para designar todo acto que proporciona unos
datos.
Se van a distinguir dos tipos de experimentos: deterministas y aleatorios. Los primeros se
producen en aquellas situaciones, en las que la realización sucesiva de un experimento en las mismas
condiciones, produce el mismo resultado (durante siglos la ciencia se ha ocupado de fenómenos
que daban origen a situaciones deterministas, por ejemplo es un fenómeno determinista la caida
libre de los cuerpos). Los segundos son aquellas situaciones en las que la realización sucesiva de
un experimento en las mismas condiciones produce resultados distintos (son fenómenos aleatorios:
rendimiento de una semilla, duración de la vida de una componente, consumo mensual de energı́a
en una casa, resultado de lanzar una moneda, etc.) En los experimentos deterministas las mismas
causas producen los mismos efectos, mientras que en los experimentos aleatorios las mismas causas
producen distintos efectos.
Esta distinción lleva a destacar que los resultados de un experimento determinista, se pueden
predecir, no ası́ los de un experimento aleatorio. Al realizar un experimento aleatorio llevamos a
cabo una operación, al final de la cual obtenemos un resultado, cuyo valor es, “a priori”, impredecible,
pero pertenece a un conjunto que se puede describir completamente antes de realizar el experimento.
Definición 1 Llamaremos espacio muestral asociado a un experimento aleatorio al conjunto de todos
los posibles resultados del experimento. Lo representaremos por Ω, y a sus elementos, que se llamarán
puntos muestrales, por ω.
Observación 1 El espacio muestral puede ser finito o infinito:
• El espacio muestral para el experimento de tirar una moneda es finito; Ω = {cara, cruz}.
• El espacio muestral para el número de averı́as de una máquina en un determinado intervalo de
tiempo es teóricamente infinito (puede tener ninguna, 1 2, 3, ... averı́as).
• El espacio muestral para la medida del diámetro interior de un determinado tipo de rodamientos
es también infinito, aunque en este caso, los posibles valores son un intervalo de IR.
1. Diremos que el espacio muestral es discreto si los posibles resultados del exDefinición 2
perimento son una cantidad finita o numerable. (Los dos primeros ejemplos corresponden a
espacios muestrales discretos).
2. Se dice que el espacio muestral es continuo si el conjunto de posibles resultados es infinito, pero
no numerable. (El tercer ejemplo corresponde a un espacio muestral continuo).
Al asignar a un experimento aleatorio un espacio muestral estamos haciendo una simplificación.
Además esta asignación no es única.
Definición 3 Llamaremos suceso a un subconjunto cualquiera del espacio muestral A ⊂ Ω.
Llamaremos suceso elemental a aquellos sucesos que sólo contienen un punto muestral.
Se llama suceso compuesto, al que contiene más de un punto muestral.
Se llama suceso imposible a aquel que nunca ocurre, A = ∅.
Se llama suceso seguro a aquel que ocurre siempre, A = Ω.
37
Estadı́stica
Por ejemplo, salir par, impar, múltiplo de 3, etc. son sucesos compuestos correspondientes al
experimento aleatorio de tirar un dado. Salir 3 es un suceso elemental del mismo experimento.
Cuando se realiza un experimento, el resultado que se obtiene es un punto muestral, entonces,
diremos que ha ocurrido un suceso cualquiera, cuando ocurre un punto muestral contenido en el
mismo. Es decir, diremos que ha ocurrido el suceso A, si el valor obtenido ω, verifica ω ∈ A. Lo
que estamos haciendo es, por tanto, trabajar con conjuntos, lo cual nos va a permitir usar todas las
relaciones existentes entre conjuntos, recordemos las más usuales:
Operaciones entre sucesos:
Complementario de un suceso Sea A un suceso, tal que A ⊂ Ω, llamaremos suceso complementario de A, y se denota por Ac o también por A, al formado por los puntos muestrales que no
/ A}.
pertenecen a A:Ac = {ω ∈ Ω/ω ∈
Unión de dos sucesos Sean A y B tal que A, B ⊂ Ω, se define la unión de los sucesos A y B y
se denota por A ∪ B, al suceso formado por todos los puntos muestrales que pertenencen, al
menos, a uno de los sucesos: A ∪ B = {ω ∈ Ω/ω ∈ A ó ω ∈ B}.
Intersección de sucesos Sean A y B tal que A, B ⊂ Ω, se define la intersección de los sucesos A
y B y se denota por A ∩ B ó por AB, al suceso formado por todos los puntos muestrales que
pertenencen a ambos sucesos: A ∩ B = {ω ∈ Ω/ω ∈ A y ω ∈ B}.
Inclusión de sucesos Sean A y B tal que A, B ⊂ Ω, se dirá que el suceso A está contenido ó
incluido en el suceso B, si todos los puntos muestrales de A pertenencen a B. A ⊂ B si
ω ∈ A ⇒ ω ∈ B.
Sucesos incompatibles, disjuntos ó mutuamente excluyentes Sean A y B tal que A, B ⊂ Ω,
se dirá que el suceso A es incompatible con el suceso B, si no tienen puntos muestrales en
común: A ∩ B = ∅.
Leyes de Morgan Sean A y B tal que A, B ⊂ Ω, entonces:
• (A ∩ B)c = Ac ∪ B c .
• (A ∪ B)c = Ac ∩ B c .
2
Introducción al concepto de probabilidad.
A lo largo de la historia se han dado varias definiciones de probabilidad, tratando de superar en cada
caso los inconvenientes de las anteriores.
Definición 4 Si realizamos un experimento N veces, llamamos frecuencia absoluta del suceso A al
número de veces que ocurre A y lo designamos por nA .
nA
.
La frecuencia relativa de A será entonces fr(A) =
N
Propiedades 1
2. fr(Ω) = 1.
1. 0 ≤ fr (A) ≤ 1.
38
Estadı́stica
3. fr(A ∪ B) = fr(A) + fr(B) si A ∩ B = ∅.
Esta última propiedad se puede hacer extensible a la unión de un número finito o infinito numerable de sucesos.
Si lanzáramos al aire sucesivamente una moneda perfecta, comprobarı́amos que en la medida que
aumente el número de tiradas, la frecuencia relativa del suceso A = {salir cara} se irá acercando a
1/2. Esto constituye un hecho empı́rico que se conoce como Ley de Regularidad Estadı́stica y que
se puede enunciar del siguiente modo:
“La frecuencia relativa de un suceso se estabiliza cuando el número de experimentos crece
indefinidamente”
Esto permite dar una definición frecuentista o empı́rica de probabilidad:
Definición 5 Definición empı́rica.
Dado un experimento aleatorio se define la probabilidad de un suceso como el lı́mite de las frecuencias relativas de aparición de dicho suceso, al repetir indefinidamente el experimento. Es decir,
p(A) = lim fr(A) = lim
N →∞
N →∞
nA
.
N
Esta definición hoy en desuso, no es operativa y presenta muchos problemas:
• No es posible conocer el valor de la frecuencia relativa para cualquier N, lo que no permite un
cálculo real del lı́mite.
• Las circunstancias del experimento pueden variar con el tiempo, y por tanto lo harı́an las
frecuencias, y el valor de la probabilidad.
• El suceso puede ocurrir una sóla vez. (Por ejemplo, la probabilidad de que un determinado
avión se estrelle no es calculable de esta forma).
• También hay problemas con respecto al concepto matemático de lı́mite.
Más adelante, Laplace dio una nueva definición de probabilidad:
Definición 6 Definición según Laplace.
Si en un experimento aleatorio se pueden dar N resultados igualmente posibles y mutuamente
excluyentes (es decir, dos cualesquiera no pueden darse a la vez) y si nA de estos N resultados tienen
la caracterı́stica A, se define la probabilidad de A como:
p(A) =
nA
casos favorables
=
.
N
casos posibles
Un ejemplo en el que esta situación se da, y por tanto esta fórmula es aplicable, es en el experimento de tirar un dado: los 6 posibles resultados son “igualmente posibles ” (salvo que el dado
esté trucado) y dos cualesquiera no pueden darse a la vez, por tanto, la probabilidad de obtener un
resultado cualquiera de estos 6 será 16 .
Sin embargo, esta definición no es aplicable a otras muchas situaciones, en las que los resultados
no son igualmente probables o no son un número finito; por ejemplo, que en la fabricación de
determinadas piezas, una sea aceptable o defectuosa.
39
Estadı́stica
3
Definición axiomática de probabilidad.
La definición de probabilidad con la que se suele trabajar es la definición axiomática de probabilidad
que introdujo en 1933 el matemático ruso Kolmogorov:
Definición 7 Si Ω es el espacio muestral de un experimento aleatorio, se define una probabilidad
en Ω como una aplicación p, que asigna a cada suceso A un número real p(A) y que cumple las
siguientes propiedades:
1. Si A es un suceso, 0 ≤ p(A) ≤ 1.
2. p(Ω) = 1.
3. Si A1 , A2 , . . . , An , . . . son sucesos mutuamente excluyentes, (es decir Ai ∩ Aj = ∅, i = j)
entonces p (∪∞
i=1 Ai ) =
∞
i=1
p(Ai ).
1. Notar que las propiedades de la probabilidad son paralelas a las de la frecuencia
Observación 2
relativa. Ası́, mientras la frecuencia relativa es una medida empı́rica de la ocurrencia de un
suceso, la probabilidad es una medida teórica.
2. La idea común de probabilidad como “número de casos favorables partido por el número de
casos posibles” introducida por Laplace es un caso particular de la definición de Kolmogorov.
3. Cualquier aplicación que verifique la definición anterior es una probabilidad, no teniendo porqué
ajustarse a un experimento aleatorio real. Lo que interesa, es que ante un determinado experimento se construya una probabilidad que lo describa lo mejor posible. Asignar una probabilidad
“buena” a un experimento aleatorio es el problema central de la Inferencia Estadı́stica.
A partir de la definición de probabilidad, se pueden deducir las propiedades siguientes:
Propiedades 2
1. p(∅) = 0.
2. Si A1 , A2 , . . . , An son sucesos mutuamente excluyentes, (es decir Ai ∩ Aj = ∅, i = j) entonces
p (∪ni=1 Ai ) =
n
i=1
p(Ai ).
3. p(Ac ) = 1 − p(A) para todo suceso A.
4. Si A ⊂ B entonces p(A) ≤ p(B).
5. p(A ∪ B) = p(A) + p(B) − p(A ∩ B).
Asignación de probabilidades en la práctica.
La definición axiomática de probabilidad no proporciona en la práctica un método para asignar
probabilidades a los resultados de un experimento aleatorio. Para ello, en ocasiones puede utilizarse el
método proporcionado por la definición según Laplace; en otras ocasiones puede utilizarse el estudio
de las frecuencias relativas y la definición empı́rica; el método más usado es una combinación de
experimentación y teorı́a.
En cualquier caso, siempre el primer paso que hay que dar es definir con precisión la población
objeto de estudio, el experimento aleatorio y los sucesos posibles.
40
Estadı́stica
Ejemplos 1:
1. Una empresa acaba de implantar un nuevo proceso de producción. Durante un tiempo, se
realiza un control al 100% de la producción, que se agrupa en lotes de 50 piezas, y se ha
observado que la mayorı́a de los lotes presentan dos piezas defectuosas. En principio, una
asignación razonable de probabilidades serı́a asignar una probabilidad de 0.04 (es decir 2/50)
al resultado “pieza defectuosa” y de 0.96 al resultado “pieza aceptable”.
2. Un juego consiste en tirar un dado y observar el resultado. Si este es par, el jugador gana;
sino, pierde. En este caso, los resultados o sucesos elementales son 1, 2, 3, 4, 5, 6 y podemos
asignar probabilidades usando el método de Laplace, de forma que la probabilidad de cualquier
resultado es 1/6. El suceso “par” es un suceso compuesto, formado por los sucesos elementales
2, 4 y 6 (mutuamente excluyentes), luego: p(par) = p(2) + p(4) + p(6) = 36 = 12 .
3. Aunque teóricamente, la asignación de probabilidades en el ejemplo anterior es válida, en la
práctica se observa que sólo un 10% de las veces aparecen el resultado 2, el 4, el 5 y el 6
y sin embargo un 30% de las veces aparece el resultado 1 y un 30% el resultado 3. En este
caso, la asignación de probabilidades más correcta deberı́a ser coherente con la experimentación:
p(1) = 0.3, p(2) = 0.1, p(3) = 0.3, p(4) = 0.1, p(5) = 0.1, p(6) = 0.1 y por tanto, p(par) = 0.3.
Ejemplo 2:
Se lanza una moneda normal tres veces.
1. Describir el espacio muestral subyacente.
2. ¿Cuál es la probabilidad de que exactamente dos tiradas den el mismo resultado?
3. ¿Cuál es la probabilidad de una cara y dos cruces?
4. ¿Cuál es la probabilidad de que las tres tiradas den el mismo resultado?
El espacio muestral de este experimento serı́an los resultados posibles de las tres tiradas. Si
denotamos por C el resultado “cara” en una tirada y por X el resultado “cruz”, Ω = {CCC, CCX,
CXC, XCC, CXX, XCX, XXC, XXX}. Para asignar probabilidades en este experimento, puesto
que la moneda es normal, podemos considerar que todos estos sucesos son equiprobables y asignar a
cada uno, utilizando Laplace, probabilidad 18 ( N1 , con N=8). Podemos resolver el resto de apartados
utilizando también Laplace:
o
favorables
p(dos tiradas den el mismo resultado)= nnocasos
casos posibles =
o
favorables
p(una cara y dos cruces)= nnocasos
casos posibles =
6
8
3
8
o
favorables
p(las tres tiradas den el mismo resultado)= nnocasos
casos posibles =
2
8
41
Estadı́stica
4
Probabilidad condicionada.
En ocasiones, se dispone de información adicional sobre el experimento, y la asignación inicial de
probabilidades, debe ser modificada:
Ejemplo 3:
Si se considera el experimento “tirar una moneda dos veces”, el conjunto de posibles resultados
serı́a:
Ω = { CC, CX, XC, XX } (donde C=cara y X=cruz)
Al suceso “obtener cara en la primera tirada y cruz en la segunda” le asignarı́amos la probabilidad
1/4 (usando equiprobabilidad). Sin embargo, si disponemos de la información adicional de que la
primera tirada ya se ha realizado y salió cara, la probabilidad de este suceso serı́a 1/2. ¿Qué diferencia
hay entre una situación y otra? La diferencia es que, al disponer de información adicional, el espacio
muestral ha cambiado; ahora es un subconjunto del espacio muestral Ω : {CX, CC}
Definición 8 Sea Ω el espacio muestral de un experimento aleatorio, A y B dos sucesos con p(B) =
0. Se define la probabilidad condicionada del suceso A al suceso B (a que haya ocurrido el suceso B)
como:
p(AB)
p(A/B) =
.
p(B)
Análogamente, se define la probabilidad del suceso B condicionado porque haya ocurrido A como:
, siempre que p(A) = 0.
p(B/A) = p(AB)
p(A)
Se deduce p(AB) = p(A)p(B/A) = p(B)p(A/B). Se tiene en general
p(A1 A2 · · · An ) = p(A1 )p(A2 /A1 )p(A3 /A1 A2 ) · · · p(An /A1 · · · An−1 )
siempre que p(A1 · · · An−1 ) = 0.
Observación 3 La probabilidad condicionada p(A/B) es una probabilidad definida sobre el conjunto
de sucesos Ω , cuya intersección con B es no vacı́a; por tanto, verifica todas las propiedades de la
probabilidad. (Se puede comprobar fácilmente).
Ejemplo 4:
Se realiza un lanzamiento de un dado normal. ¿Cuál es la probabilidad de obtener un 1 si se sabe
que el resultado ha sido impar?
Llamamos A al suceso “obtener un 1” y B al suceso “obtener un impar”. La probabilidad pedida
es p(A/B).
Utilizando la definición, p(A/B) =
p(AB)
p(B)
En este caso A ⊂ B, por tanto el suceso intersección de A y de B es A: obtener un 1.
Luego p(A/B) =
1/6
3/6
=
1
3
42
Estadı́stica
5
Independencia
Unido al concepto de probabilidad condicionada aparece el concepto de independencia de sucesos.
De forma intuitiva dos sucesos A y B del espacio muestral Ω se dice que son independientes si la
ocurrencia de uno no modifica la probabilidad de que el otro ocurra.
Definición 9 Diremos que dos sucesos A y B del espacio muestral Ω son independientes, si y sólo
si p(B/A) = p(B).
Proposición 1 Las siguientes condiciones son equivalentes:
• A y B son sucesos independientes.
• p(A/B) = p(A).
• p(AB) = p(A) p(B).
Ejemplo 5:
En el experimento “tirar dos monedas”, los sucesos “obtener cara en la primera” y “obtener cara
en la segunda” son independientes:
p(CC) =
1
= p(C)p(C).
4
Definición 10 Dos sucesos A y B se dicen dependientes si no son independientes.
Observación 4 La independencia de dos sucesos no es una propiedad intrı́nseca de los mismos, es
decir, no es una propiedad que dependa de la naturaleza de los sucesos, sino que es una propiedad
ligada a las probabilidades de los mismos.
Ejemplo 6:
Se lanza una moneda trucada tres veces y el resultado de cada tirada se considera independiente.
Si la probabilidad de cara es 0.8, contestar a las preguntas del ejemplo 2, es decir:
1. Describir el espacio muestral subyacente.
2. ¿Cuál es la probabilidad de que exactamente dos tiradas den el mismo resultado?
3. ¿Cuál es la probabilidad de una cara y dos cruces?
4. ¿Cuál es la probabilidad de que las tres tiradas den el mismo resultado?
En este caso, las probabilidades de cara y cruz no son iguales; la de cara es 0,8 y, por tanto, la
de cruz (suceso complementario de “cara”) es 0,2 (1-0,8).
El espacio muestral de este experimento es idéntico al del ejemplo 2:
Ω = {CCC, CCX, CXC, XCC, CXX, XCX, XXC, XXX}
Ahora los sucesos elementales no son equiprobables.
43
Estadı́stica
¿Cuál será, por ejemplo, p(CCX)? Determinamos la probabilidad del suceso CCX usando la
caracterización de probabilidad de sucesos independientes:
p(CCX) = p(C)p(C)p(X) = (0.8)(0.8)(0.2)
De igual manera podrı́amos obtener la probabilidad del resto de suceos elementales o puntos
muestrales. Para resolver el resto de preguntas, utilizamos las propiedades de la unión, intersección
y complementario de sucesos:
p(dos tiradas den el mismo resultado)=p(CCX+CXC+XCC+CXX+XCX+XXC)=(*)
como los sucesos anteriores son mutuamente excluyentes, la probabilidad de la unión es la suma
de probabilidades:
(*)=p(CCX)+p(CXC)+p(XCC)+p(CXX)+p(XCX)+p(XXC)=
=(0.8)2 (0.2) + (0.8)2 (0.2) + (0.8)2 (0.2) + (0.2)2 (0.8) + (0.2)2 (0.8) + (0.2)2 (0.8)
p(una cara y dos cruces)=p(CXX+XCX+XXC)=
=p(CXX)+p(XCX)+p(XXC)=(0.2)2 (0.8) + (0.2)2 (0.8) + (0.2)2 (0.8)
p(las tres tiradas den el mismo resultado)=p(CCC+XXX)=p(CCC)+p(XXX)=(0.8)3 + (0.2)3
Ejemplo 7:
Se tira 8 veces la moneda trucada del ejemplo 6; ¿Cuál es la probabilidad de obtener exactamente
tres caras?
En este ejemplo el espacio muestral está formado por puntos muestrales con “ocho letras” C ó X.
Cada suceso con exactamente tres caras tiene probabilidad (0.8)3 (0.2)5 . Para resolver el problema,
se necesita saber cuántos de estos puntos muestrales hay. La respuesta la proporciona el número
combinatorio
8
3
=
8!
3!(8−3)!
En general, si n y k son números enteros con n ≥ k, se define el número combinatorio
n
k
=
n!
k!(n−k)!
y proporciona el número de subconjuntos distintos de k elementos de n distintos. En el problema
que nos ocupa, es necesario contabilizar cuántos puntos muestrales distintos con 3 caras hay, es decir,
cuántos subconjuntos distintos de 3 posiciones de las 8 posibles, para colocar las tres caras, existen.
Por tanto,
44
Estadı́stica
p(obtener exactamente tres caras)=
6
8
3
(0.8)3 (0.2)5 =
8!
(0.8)3 (0.2)5
3!(8−3)!
Teoremas principales en probabilidad
Vamos a tratar en este último punto el Teorema de las Probabilidades Totales y el Teorema de Bayes.
Teorema 1 Teorema de las probabilidades totales:
Sean A1 , A2 , . . . , An , sucesos mutuamente excluyentes y de probabilidad no nula, tales que A1 ∪
A2 ∪ . . . ∪ An = Ω. Si B es un suceso en Ω, entonces:
p(B) =
n
i=1
p(B/Ai )p(Ai ).
Para demostrar este resultado basta escribir el suceso B como: B = BA1 + BA2 + . . . + BAn ,
unión de sucesos mutuamente excluyentes, y aplicar las propiedades de la probabilidad.
El teorema de Bayes corresponde a la siguiente situación, en el contexto en el que nosostros lo
vamos a aplicar:
Un experimento se realiza en dos etapas:
- En la primera pueden darse n sucesos A1 , A2 , . . . , An , mutuamente excluyentes, con probabilidades conocidas. (Vamos a llamarlos causas).
- En la segunda pueden darse los resultados B1 , B2 , . . . , Bm , (que denominaremos efectos) cuya
ocurrencia depende de los resultados obtenidos en la primera etapa, y se conocen p(Bj /Ai ) (es decir,
la probabilidad de que se presente el efecto Bj cuando se ha dado la causa Ai ); entonces, al realizar
el experimento se ha observado que el resultado final ha sido Bj y se plantea cuál es la probabilidad
de que “la causante” haya sido la causa Ai (es decir, ¿cuál es la probabilidad de Ai ?).
Teorema 2 Teorema de Bayes:
Sean A1 , A2 , . . . , An , sucesos mutuamente excluyentes y de probabilidad no nula, tales que A1 ∪
A2 ∪ . . . ∪ An = Ω. Si B es un suceso en Ω de probabilidad no nula, entonces:
p(B/Ak )p(Ak )
.
p(Ak /B) = n
p(B/Ai)p(Ai )
i=1
La demostración de este resultado es muy sencilla y se basa en la definición de probabilidad
condicionada y en el teorema de las probabilidades totales.
Ejemplo 8:
El 60% de los tornillos producidos por una fábrica proceden de la máquina A y el 40% de la
máquina B. La proporción de defectuosos en A es 0.1 y en B es 0.5. ¿Cuál es la probabilidad de que
un tornillo de dicha fábrica sea defectuoso? ¿Cuál es la probabilidad de que, sabiendo que un tornillo
es defectuoso, proceda de la máquina A?.
45
Estadı́stica
En este ejemplo, tenemos un experimento en dos etapas; en la primera, los sucesos son:
A: tornillo fabricado por la máquina A
B: tornillo fabricado por la máquina B
Los valores de las probabilidades de estos sucesos son conocidos: p(A)=0,6 y p(B)=0,4.
Los resultados de la segunda etapa son:
D: tornillo defectuoso
D: tornillo no defectuoso
Las probabilidades de estos sucesos dependen del resultado de la primera etapa:
p(D/A)=0,1
p(D/B)=0,5
A partir de estos valores podemos determinar también:
p(D̄/A)=1-P(D/A)=1-0,1=0,9
p(D̄/B)=1-P(D/B)=1-0,5=0,5
El suceso D se puede poner como: D=DA+DB, sucesos mutuamente excluyentes; luego utilizando
el teorema de las probabilidades totales:
p(D)=p(D/A)p(A)+p(D/B)p(B)=(0,1)(0,6)+(0,5)(0,4)=0,26
La otra probabilidad es p(A/D), probabilidad de un resultado de la primera etapa condicionada
a un resultado de la segunda; podemos aplicar el teroema de Bayes para resolverlo:
p(D/A)p(A)
p(A/D)= p(D/A)p(A)+p(D/B)p(B)
=
(0,1)(0,6)
(0,1)(0,6)+(0,5)(0,4)
=
3
13
Descargar