4. Principio de utilidad esperada máxima

Anuncio
PROFESOR: LUIS E. NIETO BARAJAS
4. Principio de utilidad esperada máxima
Los axiomas de coherencia son la base de una teoría bien fundamentada, la
Teoría de decisión Bayesiana.
IMPLICACIONES de los axiomas de coherencia. Para poder asimilar y acatar
los axiomas de coherencia, es necesario introducir una notación formal:
En general, toda opción di se puede escribir como todas sus posibles
consecuencias dados los sucesos inciertos, es decir,
{
}
d i = c ij E ij , j = 1,K, m i .
Tanto las consecuencias como los sucesos inciertos pueden verse como
casos particulares de opciones:
Consecuencias: c ~ dc = {c Ω},
donde Ω es el evento seguro.
{
}
Eventos inciertos: E ~ dE = c* E, c* E c ,
donde c* y c* son “la mejor” y “la peor” consecuencias.
{
}
Eventos de referencia: R ~ dR = c* R , c* R c .
CUANTIFICACIÓN DE LAS CONSECUENCIAS: Sabemos entonces que,
{
~ d = {c
}
∅}.
c* ~ d∅= c* ∅, c* Ω
c*
Ω
*
Ω, c*
Si R1 y R2 son dos regiones, R1 es más creíble que R2 si
30
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
Área(R1) > Área(R2),
por lo tanto, si
{
= {c
}
R }
d R1 = c* R 1 , c* R 1c
d R2
*
R 2 , c*
c
2
sucede que
d R 2 < d R1 .
Entonces, “graduando” R se tiene que para cualquier c tal que c*≤c≤c*,
existe esa R tal que
{
}
c ∼ dR = c * R , c * R c .
Finalmente, una forma de cuantificar las consecuencias es tomando,
u(c)=Área(R).
Nota: u(c*)=0 y u(c*)=1.
EJEMPLO 6: Utilidad del dinero. Supongamos que la peor y la mejor
consecuencias al jugar un juego de azar son:
c* = $0 (la peor)
c* = $1,000 (la mejor)
¡Lotería!
La idea es determinar una función de utilidad para cualquier consecuencia
c tal que c*≤c≤c*.
31
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
1) Una primera opción es asignar una función lineal:
u(c)
1
c
0
0
1,000
¿Será cierto que entre más dinero se tenga más utilidad se produce en
forma lineal?
2) Una segunda forma de asignar la utilidad es siguiendo el razonamiento
sugerido por los axiomas: Sabemos que u(c*)=0 y u(c*)=1, se comparan
las siguientes loterías:
¿Cuál prefieres?
Ganar c* con
probabilidad p
o
Ganar c* con
probabilidad 1-p
Ganar
seguro
c
dc = {c Ω}
{
}
dp = c * p, c * 1 − p
ó
Por el axioma 1, es posible determinar si dc<dp, dc~dp ó dc>dp.
La idea es encontrar el valor de p que haga que dc~dp. En este caso, se
satisface necesariamente que
E{u(dc)}=E{u(dp)},
32
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
pero como
E{u(dc)}=u(c),
porque c es una consecuencia segura y
E{u(dp)} = u(c*)p + u(c*) (1-p)
= (1)p + (0)(1-p)
= p.
Por lo tanto,
u(c) = p.
Finalmente se aplica este mismo procedimiento a cada una de las
consecuencias,
digamos,
c*<c1<c2<c3<c4<c*.
Si
el
número
de
consecuencias es muy grande o incluso infinito la función de utilidad se
puede aproximar por un modelo obteniéndose la siguiente forma,
u(c)
1
Aversión al riesgo
c
0
0
1,000
¡Entre más dinero se tiene el incremento en utilidad es menor!
33
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
CUANTIFICACIÓN DE LOS EVENTOS INCIERTOS: Siguiendo la misma idea, si
{
}
dE = c * E , c * E c ,
existe un evento de referencia R tal que
{
}
dE ~ dR = c * R , c * R c ,
de manera que E es igualmente creíble que R. Como la credibilidad de R se
mide con su área, la credibilidad de E también, es decir,
P(E) = Área(R).
EJEMPLO 7: ¿Cómo asignar una probabilidad al evento A?. Se consideran
las siguientes loterías:
¿Cuál prefieres?
Ganar c* con
probabilidad p
o
Ganar c* con
probabilidad 1-p
Ganar c*
si ocurre A
o
Ganar c* si
no ocurre A
{
dA = c * A , c * A c
}
ó
{
}
dp = c * p, c * 1 − p
Por el axioma 1, es posible determinar si dA<dp, dA~dp ó dA>dp.
La idea es encontrar el valor de p que haga que dA~dp. En este caso, se
satisface necesariamente que
E{u(dA)}=E{u(dp)},
pero como
E{u(dA)} = u(c*)P(A) + u(c*)P(Ac)
= (1)P(A) + (0)P(Ac)
34
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
= P(A)
y
E{u(dp)} = u(c*)p + u(c*) (1-p)
= (1)p + (0)(1-p)
=p
Por lo tanto,
P(A) = p.
Finalmente se aplica este mismo procedimiento a cada una de los
eventos inciertos, digamos, E1,E2,...,Ek. Si el número de eventos
inciertos es muy grande o incluso infinito la función de probabilidad se
puede aproximar por un modelo (discreto o continuo) obteniéndose la
siguiente forma,
P(θ)
Modelo continuo
Si Eθ={θ} ⇒
E={θ | θ∈[a,b]}
θ
a
b
35
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
DERIVACIÓN DE LA UTILIDAD ESPERADA:
Recordemos que en general cualquier opción d se puede escribir como
d = {c1 E1 ,c 2 E 2 ,K, c k E k }
{{
∼ {c
}
∼ c* R 1 , c* R 1c E1 , c 2 E 2 ,K, c k E k
M
*
}
R 1 ∩ E1 , c* R 1c ∩ E1 , c 2 E 2 ,K, c k E k
{
∼ c* B, c* B c
}
}
donde, B = (R 1 ∩ E1 ) ∪ (R 2 ∩ E 2 ) ∪ L ∪ (R k ∩ E k ) .
Si d1 y d2 son dos opciones, entonces existen B1 y B2 tales que
{
∼ {c
}
B }
d1 ∼ c* B1 , c* B1c
d2
*
B 2 , c*
c
2
por lo tanto, d1 < d2 solo si B2 es más probable que B1.
Finalmente, B2 es más probable que B1 solo si
∑ u (c1i )P(E i ) < ∑ u (c 2i )P(E i ) ,
es decir,
E{u (d1 )} < E{u (d 2 )}.
⇓
Principio de la Utilidad Esperada Máxima
36
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
PRINCIPIO DE UTILIDAD ESPERADA MÁXIMA (criterio de decisión Bayesiano).
Consideres el problema de decisión definido por
D = {d1,...,dk}
donde, di = {cij | Eij, j=1,...,mi}.
Sea P(Eij) la probabilidad de que suceda Eij y sea u(cij) la utilidad de la
consecuencia di que la ocurrencia de Eij da lugar. Entonces, la utilidad
esperada de la decisión di es
mi
E{u (d i )} = ∑ u (c ij )P(E ij )
j=1
y la decisión óptima es aquella que maximiza la utilidad esperada de todas
las opciones posibles en D.
RESUMIENDO: Si se aceptan los axiomas de coherencia, necesariamente se
debe proceder de la siguiente manera:
1) Asignar la utilidad u(c) para toda c en C.
2) Asignar la probabilidad P(E) para toda E en E.
3) Elegir la opción (óptima) que maximiza la utilidad esperada.
Se ha considerado el caso de un problema de decisión discreto y finito, i.e.,
D = {d1,...,dk} y E = {E1,...,Em}.
¿Qué pasa si D tiene un número infinito de opciones?
Tendríamos que:
1) Encontrar la expresión de
E{u (d )} = g(d )
(como función de d) y
37
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
2) Maximizar g(d) sobre el espacio D.
¿Qué pasaría si E tiene un número infinito de elementos?
Por ejemplo, si E = {θ | θ∈[a,b]}, y un elemento es de la forma Eθ={θ}
para cada θ∈[a,b]. En este caso,
b
1) E{u (d )} = ∫ u (d, θ)f (θ)dθ (Caso continuo)
a
2) Maximizar E{u(d)} sobre el espacio D.
En la práctica resulta a veces más natural medir la utilidad en unidades de
tiempo, dinero, años de vida, número de clientes, etc. Si en lugar de utilizar
la función de utilidad u(c), se utiliza una transformación lineal de ella,
digamos,
u ' (c) = au (c) + b
donde a y b son constantes. Entonces, la nueva utilidad esperada sería
E{u ' (d )} = ∑ u ' (c )P(E) = ∑ {au (c) + b}P(E )
= ∑ au (c)P(E) + ∑ bP(E) = a ∑ u (c)P(E) + b
= aE{u (d )} + b
Si a > 0 (positiva):
Maximizar E{u ' (d )} es equivalente a Maximizar E{u (d )}
Por lo tanto, u ' (c ) es otra función de utilidad equivalente a u(c) (medida en
unidades diferentes).
38
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
Si a < 0 (negativa):
Minimizar E{u ' (d )} es equivalente a Maximizar E{u (d )}
⇒ u ' (c ) no es una función de utilidad, pero puede interpretarse como una
función de pérdida.
Por lo tanto, u ' (c ) es una función de pérdida equivalente a la función de
utilidad u(c).
39
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
5. Información inicial
Como ya se vio anteriormente, es necesario cuantificar los sucesos
inciertos pertenecientes al espacio E. A la cuantificación (inicial) de los
eventos inciertos se le conoce como información inicial.
Una forma de realizar la cuantificación es siguiendo un procedimiento
coherente dado por los axiomas mediante la comparación de opciones
equivalentes y el uso de “loterías”.
Otra forma de realizar la cuantificación de los eventos inciertos es
asignando una distribución de probabilidades directamente sobre los
eventos, de tal manera que refleje nuestro conocimiento inicial.
Consideremos el caso más sencillo: Supongamos que el espacio de eventos
E es un conjunto discreto (posiblemente infinito), es decir, E = {E1,...,Em}.
Sea θ una cantidad aleatoria que toma valores θ=1,2,..., de tal manera que
P(Ei) = P(θ=i).
Entonces, en lugar de asignar una probabilidad directamente sobre E,
resulta más sencillo asignar una probabilidad sobre θ.
La distribución de θ describe entonces la información sobre el valor de θ
que inicialmente se posee. Esta distribución recibe el nombre de
distribución inicial de θ.
40
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
Como θ es una cantidad aleatoria discreta, su distribución de probabilidad
puede ser descrita mediante su función de densidad
fθ(i) = P(θ=i) = pi,
i=1,2,...
Las probabilidades pi pueden ser determinadas mediante relaciones entre
ellas dadas por el decisor.
EJEMPLO 8: Diagnóstico. Las consecuencias de un determinado tratamiento
dependen de la enfermedad del paciente. Se considera que existen 5
enfermedades θ1, θ2, θ3, θ4 y θ5 compatibles con los síntomas observados.
¿Qué
enfermedad
tendrá?
Los médicos expertos determinan que existen las siguientes relaciones
entre ellas
P(θ1 U θ 2 ) = P(θ3 U θ 4 U θ5 ) ,
P(θ 2 ) = P(θ 4 ) = 4P(θ3 )
y creen muy remota la posibilidad de que se trate de la enfermedad θ5.
Determinar la correspondiente distribución inicial.
41
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
Sean pi = P(θi), i=1,2,...,5. Con la información inicial dada por los médicos
construimos el siguiente sistema:
p1 + p 2 = p 3 + p 4 + p 5   1
 0
p2 = p4
 
⇔
p 4 = 4p 3
 0
p1 + p 2 + p 3 + p 4 + p 5 = 1  1
 p1 
− 1 − 1 − 1   0 
 p 2   
1 0 − 1 0    0 
p3 =
0 −4 1
0    0 
 p 4   
1 1
1
1    1 
 p5 
1
El sistema anterior es un sistema de 4 ecuaciones con 5 incógnitas por lo
que existirán múltiples soluciones. Para poder resolver el sistema de una
forma más sencilla, sea p5 = δ un número pequeño pero mayor a cero.
Tomando a δ como una cantidad conocida, el sistema queda de la siguiente
forma:
− 1 − 1 p1   δ 
  

0 − 1 p 2   0 
=
0 − 4 1  p 3   0 
  

1 1
1  p 4  1 − δ 
1

0
0

1
1
1
con 4 ecuaciones y 4 incógnitas. Por lo tanto la solución “única” a este
nuevo sistema (en términos de δ) es
p1 =
1
(1 + 8δ) , p 2 = p 4 = 4 (1 − 2δ) , p 3 = 1 (1 − 2δ) .
10
10
10
En particular, si se juzga 20 veces más probable que θ5 no sea la causa de
la dolencia a que sí lo sea, tendríamos
(1 − δ) = 20
⇔
δ
δ = 0.048
Por lo tanto,
42
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
P(θ = θ1 ) = 0.138 , P(θ = θ 2 ) = 0.362 , P(θ = θ3 ) = 0.090 , P(θ = θ 4 ) = 0.362 ,
P(θ = θ5 ) = 0.048 .
Obsérvese que δ puede ser tan pequeño como se quiera, pero debe de ser
mayor que cero a menos que pueda garantizarse que la enfermedad θ5 es
prácticamente imposible que sea la causa de dichos síntomas.
Si el número de elementos de E es grande o incluso infinito, una forma de
hacer la cuantificación es siguiendo el procedimiento dado por los axiomas
para ciertos elementos de E y encontrar la cuantificación de los demás
elementos ajustando un modelo continuo.
Otra posibilidad para realizar la cuantificación de E (o de θ) es empezar
directamente con un modelo, averiguando primero algunas características
cualitativas de la información que posee el “tomador de decisiones”. Por
ejemplo, se le puede preguntar:
¿Tu crees que el
modelo tiene
una sola moda?
¿Tu crees que el
modelo es
simétrico con
respecto a esa
moda?
Si la respuesta es afirmativa en ambas preguntas, se podría usar un modelo
de la forma
43
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
¡Normal!
Normal
Distribution
0.4
Mean,Std. dev.
0,1
density
0.3
0.2
0.1
θ
0
-5
-3
-1
1
3
5
x
Considerando algunas propiedades del modelo propuesto, y con la ayuda
del tomador de decisiones se puede especificar el modelo de manera
completa. Por ejemplo, en el caso de la Normal se sabe que
¡Distribución Normal!
Normal Distribution
0.4
Mean,Std. dev.
0,1
density
0.3
95%
N(µ,σ2)
0.2
0.1
0
-5
-3
-1
1
µx
µ-2σ
3
5
µ+2σ
µ
¿Dónde está la moda?
¿Entre qué valores crees que se encuentre
aproximadamente el 95% de probabilidad?
σ
44
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
EJEMPLO 9: Cantidad de tirosina. Las consecuencias de un determinado
medicamento pueden determinarse a partir de la cantidad de tirosina
contenida en la orina. La información inicial sobre la cantidad de tirosina θ
contenida en la orina de una determinada paciente puede describirse de tal
manera que se encuentre alrededor de 39mg./24hrs. y que el porcentaje de
veces que la cantidad de tirosina exceda 49mg./24hrs. sea de 25%.
Determinar la correspondiente distribución inicial.
¿Me das
una
muestra
de orina?
¿Cuánta
tirosina
tendrá?
De acuerdo con la información proporcionada, se puede concluir que una
distribución normal modela adecuadamente el comportamiento inicial,
entonces
(
)
θ ∼ N µ, σ 2 ,
donde µ=E(θ)=media y σ2=Var(θ)=varianza. Además
µ=39
Cantidad de tirosina (θ) alrededor de 39
σ=14.81
P(θ > 49) = 0.25
45
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
¿Cómo?
49 − 39 

P(θ > 49 ) = P Z >
 = 0.25
σ 

⇒ Z 0.25 =
⇔ σ=
49 − 39
, como Z0.25 = 0.675 (valor de tablas)
σ
10
0.675
Por lo tanto,
θ ∼ N(39, 219.47).
Una vez determinada la distribución inicial deben calcularse algunas
probabilidades a partir de ella. Esto por dos razones:
1) Permite comprobar si las probabilidades calculadas son consistentes con
nuestra información inicial y
2) Si la familia elegida permite una buena descripción de la información
inicial.
EJEMPLO 9: Cantidad de tirosina (continuación...). El tomador de
decisiones opina que es muy poco probable que la cantidad de tirosina sea
menor a 10mg./24hr. Verificar que la distribución inicial es consistente con
esta afirmación.
10 − 39 

P(θ < 10 ) = P Z <
 = P(Z < −1.95) = P(Z > 1.95) = 0.0256 ,
14.81 

lo cual es consistente con la afirmación.
46
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
6. Teorema de Bayes (El proceso de aprendizaje)
6.1. Conceptos básicos de probabilidad
Sean A y B dos eventos de un mismo espacio muestral Ω, entonces
PROBABILIDAD CONDICIONAL:
P(A B) =
P(A I B)
, si P(B) ≠ 0
P(B)
⇒ P(A I B) = P(A B)P(B)
Por otro lado,
P(B A ) =
P(B I A )
, si P(A ) ≠ 0
P(A )
⇒ P(B I A ) = P(B A )P(A )
Como
P(A I B) = P(B I A )
entonces,
P(A B)P(B) = P(B A )P(A ) ,
por lo tanto,
P(A B) =
P(B A )P(A )
P(B)
47
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
INDEPENDENCIA: A y B son independientes si,
P(A B) = P(A ) ó P(B A ) = P(B)
es decir,
⇔
P(A I B)
P(B I A )
= P(A ) ó
= P(B)
P(B)
P(A )
por lo tanto, A y B son independientes si
P(A I B) = P(A )P(B)
¡La ocurrencia de B no afecta
la ocurrencia o la no ocurrencia de A!
ó
¡La ocurrencia de A no afecta
la ocurrencia o la no ocurrencia de B!
6.2. El proceso de aprendizaje
La reacción natural de cualquiera que tenga que tomar una decisión cuyas
consecuencias dependen de la ocurrencia de eventos inciertos (E ó θ), es
intentar reducir su incertidumbre obteniendo más información sobre E ó θ.
48
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
LO IDEAL sería recolectar o adquirir información que elimine por completo
la incertidumbre, pero eso es muy caro o imposible de obtener.
LA
IDEA
es entonces recolectar información que reduzca la incertidumbre
de los eventos inciertos, o equivalentemente, que mejore el conocimiento
que se tiene sobre E.
Esta información generalmente se trata de muestras producto de encuestas,
estudios previos, experimentos, etc.
El problema central de la inferencia estadística es el de proporcionar una
metodología que permita asimilar la información accesible con el objeto de
mejorar nuestro conocimiento inicial.
Sea Z la información adicional que de alguna manera se pudo obtener
sobre el evento E.
¿Cómo utilizar Z para mejorar el
conocimiento sobre E?
Recordemos que la información que inicialmente se tiene sobre E se
representa mediante una probabilidad P(E), el objetivo es derivar la
probabilidad de ocurrencia del mismo evento E dada la información
disponible Z, i.e.,
P(E )
¿?
P(E Z)
49
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
LA FORMA de hacerlo es la siguiente:
E: evento incierto
Z: información adicional
P(E Z ) =
P(Z E ) P(E )
P (Z )
P(E): probabilidad inicial de E
P(Z | E): verosimilitud
P(Z): probabilidad marginal de Z
P(E | Z): probabilidad final de E
Alternativamente, la probabilidad final de E se puede escribir como
P(E Z) ∝ P(Z | E )P(E )
P(Z) es llamada constante de proporcionalidad!.
En general, se tiene más de un suceso incierto sobre el cuál se quiere
mejorar su conocimiento, esto nos da pie al siguiente teorema.
TEOREMA
DE
BAYES: Sean E1,...,Ek una partición finita (eventos ajenos y
exhaustivos) del espacio Ω y sea Z información adicional sobre cada uno
de los Ei, i=1,...,k. Entonces,
P(E i Z ) =
P(Z E i )P(E i )
,
P (Z )
i =1,2,...,k.
Como
50
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
k
k
∑ P(Z E i )P(E i )
i =1
P (Z )
1 = ∑ P(E i Z) =
i =1
,
entonces
k
P(Z ) = ∑ P(Z E i )P(E i ) .
i =1
Finalmente,
P(E i Z ) =
P(Z E i )P(E i )
∑ P(Z E j )P(E j )
k
, i=1,2,...,k.
j=1
¿Para qué nos sirve reducir la incertidumbre de los eventos inciertos?
Consideremos el siguiente problema de decisión:
E11
c11
E12
c12
E21
c21
E22
c22
E31
c31
E32
c32
d1
d2
d3
51
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
Se cuenta con lo siguiente:
P(E ij ) : cuantificación inicial de los eventos inciertos
u (c ij ) : cuantificación de las consecuencias
Z: información adicional sobre los eventos inciertos
Teo. Bayes
P(E Z)
P(E )
Se tienen dos situaciones:
1) Situación inicial (a-priori):
P(E ij ) ,
u (c ij ) ,
∑ u (cij )P(E ij )
j
2) Situación final (a-posteriori):
P(E ij Z ) ,
u (c ij ) ,
∑ u (cij )P(E ij Z)
j
Utilidad
esperada
inicial
Utilidad
esperada
final
¿Qué pasa si de alguna manera se obtiene aún más información adicional
acerca del evento E?. Se obtiene Z1 (información adicional acerca de E) y
posteriormente se obtiene Z2 (también información adicional acerca de E).
Existen dos caminos para actualizar la información que se tiene sobre E:
1) Actualización secuencial: Se cuenta con un conocimiento inicial P(E);
usando
Z1,
actualizar
el
conocimiento para obtener P(E|Z1).
Posteriormente, usar P(E|Z1) como conocimiento inicial y utilizar Z2
para obtener P(E|Z1,Z2).
En otras palabras,
52
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
P(E Z1 )
P(E )
P(E Z1 , Z 2 )
Z1
Z2
¿Cómo se hace?
Paso 1: P(E Z1 ) =
P(Z1 E )P(E )
,
P(Z1 )
Paso 2: P(E Z1 , Z 2 ) =
P(Z 2 Z1 , E )P(E Z1 )
.
P(Z 2 Z1 )
2) Actualización simultánea: Se cuenta con un conocimiento inicial P(E);
usando Z1 y Z2 actualizar el conocimiento (simultáneamente) para
obtener P(E | Z1,Z2). En otras palabras,
P(E )
Z1,Z2
P(E Z1 , Z 2 )
¿Cómo se hace?
Paso único: P(E Z1 , Z 2 ) =
P(Z1 , Z 2 E )P(E )
.
P(Z1 , Z 2 )
¿Serán equivalentes ambas formas de actualización?
P(E Z1 , Z 2 ) =
P(Z 2 Z1 , E )P(E Z1 )
P(Z 2 Z1 )
53
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
 P(Z1 , Z 2 , E ) P(Z1 , E )



P(Z1 , E )  P(Z1 ) 

=
 P(Z1 , Z 2 )


 P(Z1 ) 
=
P(Z1 , Z 2 , E )
P(Z1 , Z 2 )
=
P(Z1 , Z 2 E )P(E )
P(Z1 , Z 2 )
∴ ¡Ambas formas de actualización son equivalentes!
EJEMPLO 10: Un paciente va al médico con algún padecimiento y quiere
que el médico le de un diagnóstico.
Muy Frec.
Rel. Frec.
Poco Frec.
Supongamos que la enfermedad del paciente cae en alguna de las
siguientes tres categorías:
E1 = enfermedad muy frecuente
E2 = enfermedad relativamente frecuente
E3 = enfermedad poco frecuente
54
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
El médico sabe por experiencia que
P(E1)=0.6, P(E2)=0.3, P(E3)=0.1 (probabilidades iniciales)
El médico observa y obtiene información adicional (Z = síntomas) acerca
de la posible enfermedad del paciente. De acuerdo con los síntomas el
doctor dictamina que
P(Z | E1)=0.2, P(Z | E2)=0.6, P(Z | E3)=0.6 (verosimilitud)
Combinando la información inicial con la verosimilitud mediante el
Teorema de Bayes se obtiene
(
)
P(Z ) = ∑ P Z E j P(E j ) = (0.2)(0.6) + (0.6)(0.3) + (0.6)(0.1) = 0.36
3
j=1
P(E1 Z ) =
(0.2)(0.6)
= 0.33
0.36
P(E 2 Z) =
(0.6)(0.3)
= 0.5
0.36
P(E 3 Z ) =
(0.6)(0.1)
= 0.17
0.36
(probabilidades
finales)
Por lo tanto, es más probable que el paciente tenga una enfermedad
relativamente frecuente (E2).
EJEMPLO 11. Juan (mexicano) se propone viajar a Caracas, donde espera
entrevistarse con el Sr. Fernández, un hombre de negocios radicado en esa
ciudad, para proponerle la compra de Tequila mexicano. Si consigue su
objetivo ganará una comisión de $40,000. Ahora bien, Juan considera que
existe una probabilidad de 0.5 de que el Sr. Fernández tenga que salir de
Caracas en el último momento y por tal razón no sea posible realizar la
venta. Aún en el caso de que se produzca la entrevista, Juan considera que
55
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
la probabilidad de efectuar la venta es de 0.4. El viaje le costaría $8,000
independientemente de que pueda realizar la entrevista.
a) ¿Es conveniente que Juan viaje a Caracas?
b) Un servicio de información secreta ofrece sus servicios a Juan. Le
ofrece informarle si el Sr. Fernández estará en Caracas antes de que
Juan emprenda el viaje. El registro de aciertos de esta compañía indica
que si la persona está en Caracas, lo encuentran el 80% de las veces; por
otro lado si la persona no está en Caracas, aciertan el 90% de las veces.
Si el servicio de información secreta cuesta $100, ¿le conviene a Juan
contratar el servicio?. ¿Cuál sería su decisión si le dice el servicio que el
Sr. Fernández no va a estar?.
Resolvamos primero el inciso (a):
o D = {d1,d2}
donde,
d1 = viajar
d2 = no viajar
56
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
o E = {NE, SE, NV, SV}
donde,
NE = no está
SE = sí está
NV = no realizar la venta
SV = sí realizar la venta
La cuantificación de la verosimilitud de cada unos de estos sucesos
inciertos es
P(NE) = 0.5
P(SE) = 0.5
¿P(NV) = 0.6? ó ¿P(NV | SE) = 0.6?
¿P(SV) = 0.4 ? ó ¿P(SV | SE) = 0.4?
o C = {c1, c2, c3, c4}
donde,
c1 = c(d1,NE) = -8000
c2 = c(d1,SE,NV) = -8000
c3 = c(d1,SE,SV) = 40000-8000=32000
c4 = c(d2) = 0
Supongamos que la utilidad es proporcional al dinero, i.e., u(cij) = cij
P(NE)=0.5
-$8000
NE
P(NV|SE)=0.6
d1
P(SE)=0.5
NV
P(SV|SE)=0.4
SE
SV
d2
-$8000
$32000
P(Ω)=1
$0
57
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
1) Optimista: d1 (viajar)
2) Pesimista: d2 (no viajar)
3) Consecuencia más probable: d2 (no viajar)
4) Utilidad esperada: d1 ó d2 (son equivalentes)
Las utilidades esperadas son:
E{u (d 1 )} = −8000(0.5) − 8000(0.5)(0.6) + 32000(0.5)(0.4) = 0
E{u (d 2 )} = 0(1) = 0
¡Le da “igual” si viaja o no viaja!.
Resolvamos ahora el inciso (b):
o D = {d1,d2,a1,a2}
donde,
d1 = viajar
d2 = no viajar
a1 = contratar el servicio secreto
a2 = no contratar el servicio secreto
o E = {NE, SE, NV, SV, DN, DS}
donde,
NE = no está
SE = sí está
NV = no realizar la venta
SV = sí realizar la venta
DN = que el servicio diga que no está
DS = que el servicio diga que sí está
La cuantificación de la verosimilitud de cada unos de estos sucesos
inciertos se vuelve un poco más complicada, veamos:
58
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
Necesitamos,
Rama 1: P(DN), P(NE|DN), P(SE|DN), P(NV|SE,DN), P(SV|SE,DN).
Rama 2: P(DS), P(NE|DS), P(SE|DS), P(NV|SE,DS), P(SV|SE,DS).
Rama 3: P(NE), P(SE), P(NV|SE), P(SV|SE).
La información inicial proporcionada por Juan es,
P(NE) = 0.5, P(SE) = 0.5, P(NV | SE) = 0.6, P(SV | SE) = 0.4 y
P(DS | SE) = 0.8, P(DN | NE) = 0.9
Las probabilidades de la Rama 3 son las mismas que las que se
obtuvieron para el árbol anterior. Para calcular las probabilidades de las
otras dos Ramas se usan reglas de probabilidad condicional
obteniéndose,
P(SE ) = 1 − P(NE ) = 1 − 0.5 = 0.5
P(DN ) = P(DN NE )P(NE ) + P(DN SE )P(SE )
= (0.9 )(0.5) + (0.2 )(0.5) = 0.55
P(DS) = 1 − P(DN ) = 1 − 0.55 = 0.45
Rama 1:
P(NE DN ) =
P(DN NE )P(NE )
P(DN )
=
(0.9)(0.5) = 0.818
0.55
P(SE DN ) = 1 − P(NE DN ) = 1 − 0.818 = 0.182
P(NV SE, DN ) = P(NV SE ) = 0.6
P(SV SE, DN ) = P(SV SE ) = 0.4
Rama 2:
P(NE DS) =
P(DS NE )P(NE )
P(DS)
=
(0.1)(0.5) = 0.112
0.45
59
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
P(SE DS) = 1 − P(NE DS) = 1 − 0.112 = 0.888
P(NV SE, DS) = P(NV SE ) = 0.6
P(SV SE, DS) = P(SV SE ) = 0.4
o C = {c1, c2, c3, c4, c5, c6, c7, c8, c9, c10, c11, c12}
donde,
c1 = c(a1,DN,d1,NE) = -8000 –100 = -8100
c2 = c(a1,DN,d1,SE,NV) = -8000 –100 = -8100
c3 = c(a1,DN,d1,SE,SV) = 40000 –8000 –100 = 31900
c4 = c(a1,DN,d2) = -100
c5 = c(a1,DS,d1,NE) = -8000 –100 = -8100
c6 = c(a1,DS,d1,SE,NV) = -8000 –100 = -8100
c7 = c(a1,DS,d1,SE,SV) = 40000 –8000 –100 = 31900
c8 = c(a1,DS,d2) = -100
c9 = c(a2,d1,NE) = -8000
c10 = c(a2,d1,SE,NV) = -8000
c11 = c(a2,d1,SE,SV) = 40000 –8000 =32000
c12 = c(a2,d2) = 0
Supongamos que la utilidad es proporcional al dinero, i.e., u(cij) = cij.
La solución al problema de acuerdo con cada uno de los criterios es:
1) Optimista: a2 y d1 (no contratar el servicio y viajar)
2) Pesimista: a2 y d2 (no contratar el servicio y no viajar)
3) Consecuencia más probable: a2 y d2 (no contratar el servicio y no
viajar)
4) Utilidad esperada: d1 (viajar)
60
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
Las utilidades esperadas son:
Si contrata el servicio y dice que no va a estar: d2
E{u (a 1 , DN, d 1 )} = −8100(0.818) − 8100(0.182)(0.6) + 31900(0.182)(0.4)
= −5188
E{u (a 1 , DN, d 2 )} = −100(1) = −100
¿Cuál sería su decisión si le dice el servicio que el Sr. Fernández
no va a estar?. R = d2 (no viajar).
Si contrata el servicio y dice que sí va a estar: d1
E{u (a 1 , DS, d 1 )} = −8100(0.112) − 8100(0.888)(0.6) + 31900(0.888)(0.4)
= 6108
E{u (a 1 , DS, d 2 )} = −100(1) = −100
¿Cuál sería su decisión si le dice el servicio que el Sr. Fernández
sí va a estar?. R = d1 (viajar).
Si no contrata el servicio: d1 ó d2
E{u (a 2 , d 1 )} = −8000(0.5) − 8000(0.5)(0.6) + 32000(0.5)(0.4) = 0
E{u (a 2 , d 2 )} = 0(1) = 0
Finalmente,
E{u (a 1 )} = −100(0.55) + 6188(0.45) = 2693.6
E{u (a 2 )} = 0(1) = 0
¿le conviene a Juan contratar el servicio? R = a1 (sí contrata).
61
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
Árbol de decisión
NE
-$8100
P(NE|DN)=0.818
NV
SE
d1
-$8100
P(NV|SE,DN)=0.6
P(SE|DN)=0.182
DN
SV
$31900
P(SV|SE,DN)=0.4
P(DN)=0.55
d2
-$100
P(Ω)=1
NE
P(NE|DS)=0.112
a1
P(SE|DS)=0.888
DS
NV
P(NV|SE,DS)=0.6
SE
d1
-$8100
SV
P(SV|SE,DS)=0.4
-$8100
$31900
P(DS)=0.45
d2
-$100
P(Ω)=1
NE
P(NE)=0.5
a2
SE
d1
P(SE)=0.5
-$8000
NV
P(NV|SE)=0.6
SV
P(SV|SE)=0.4
P(Ω)=1
62
Módulo 3: Estadística Bayesiana
-$8000
$32000
$0
Descargar