Lógicas no clásicas: Juegos y lógica dinámica

Anuncio
Lógicas no clásicas:
Juegos y lógica dinámica
Pedro Arturo Góngora Luna
[email protected]
1.
Juegos
1.1.
Introducción
Algunos autores definen un juego como la interacción estratégica de dos o más agentes.
Dicha interacción estratégica incluye, desde luego, juegos recreativos como el póquer y el
ajedrez, donde los agentes son personas (o programas de computadora). Sin embargo, el
tratamiento que se le da a un juego es suficientemente abstracto para comprender otras
aplicaciones. Los agentes de un juego pueden ser cualquier entidad capaz de tomar decisiones
racionales, por ejemplo, corporaciones o mesas directivas decidiendo su estrategia en una
batalla de precios o su oferta en una licitación pública, y hasta individuos de una población
de insectos1 .
Debido al número creciente de aplicaciones que ha tenido la teoría de juegos en los últimos
años, se han propuesto trabajos en otras áreas aparentemente sin relación. Aquí vamos a
revisar el trabajo propuesto en [1], donde se modelan algunos aspectos de un juego usando
lógica modal. Para esto, nos vamos a concentrar en una clase muy particular de juegos: los
juegos secuenciales, finitos y con información perfecta y completa.
Por juego secuencial entendemos que las acciones que realizan los agentes suceden una
después de otra, y no simultáneamente. Por finito entendemos que, además de que las posibles
secuencias de acciones siempre son finitas, en cada momento un agente sólo puede elegir
una acción de un conjunto finito de éstas. Por información perfecta y completa entendemos
que todos los agentes siempre tienen acceso al estado en que se encuentra el juego (historia,
decisiones tomadas por otros agentes) y que conocen las preferencias de cada agente (saben
qué ganancia obtendría cada uno como resultado de cualquier secuencia de acciones).
Desde luego aquí no podemos dar una introducción ni mínimamente detallada a la teoría
de juegos, la forma de trabajo será mediante un ejemplo. Pero, si estás interesado, puedes
encontrar introducciones muy accesibles en los libros [3, 4] (disponibles en la biblioteca de
la facultad). También, si te interesa saber más de este tema puedes consultar [2].
1
Una decisión racional es aquella que busca maximizar la utilidad o ganancia de un agente, en este sentido,
las medidas para maximizar las posibilidades de supervivencia de un animal son racionales.
1
1.2.
Árboles y juegos extensivos
Existen dos posibles formas de representar un juego: la forma normal o estratégica y la
forma extensiva. La forma normal es más abstracta, se basa en matrices que sólo muestran el
resultado final del juego. La forma extensiva es menos abstracta, se representan los juegos
como árboles cuyos nodos son los turnos de los jugadores, los arcos sus acciones posibles en
ese momento, y las hojas los posibles resultados del juego.
Podríamos tomar un juego como ajedrez o gato para ejemplificar (ambos cumplen las
características de secuencialidad, finitud y son de información perfecta y completa), pero sus
árboles son muy grandes, incluso el del gato. En lugar de éstos vamos a concentrarnos en un
modelo de juguete: el ``dilema del prisionero''.
El dilema del prisionero no es estrictamente secuencial, pero puede analizarse como si lo
fuera, sin afectar el resultado. Básicamente, dice así:
La policía captura a una pareja cómplice de criminales, pero no tiene información
suficiente para condenarlos por todos sus delitos. Al interrogarlos por separado,
les pide que traicionen a su compañero. Los resultados son los siguientes: Si
ninguno traiciona al compañero (i.e., cooperan entre ellos) se les condena a 1
año de cárcel a cada uno. Si sólo uno traiciona, éste sale libre y al otro se le
condena a 10 años de cárcel. Si ambos se traicionan, entonces se les dan 5 años
a cada uno.
Podemos construir un árbol de juego de inmediato:
w0 TTT
TTT
jjjj
TTTcA
TTT
TTT
TTT
)
w2 F
x
FF
x
x
FFcB
tB xxxxxx
x
FF
x
x
x
x
F#
x
xx
tAjjjjjj
jjjj
jjjj
j
j
w1 Fqy
x
FF
x
x
FFcB
tB xxxxxx
FF
x
x
x
x
x
F"
x
w x
w3
(−5,−5)
w4
(0,−10)
w5
(−10,0)
w6
(−1,−1)
La descripción es la siguiente:
Tenemos dos agentes o jugadores, A y B.
En la raíz del árbol (w0 ) es el turno de A, en el siguiente nivel (w1 y w2 ) es el turno de
B.
En cada estado no final, el jugador i en turno tiene dos posibles acciones: ti para
traicionar al compañero o ci para cooperar. A estas acciones se les conoce como las
estrategias de i.
En las hojas (w3 w6 ) tenemos la utilidad de cada agente. Por ejemplo, si la secuencia
de acciones es tA , cB (i.e., el juego termina en w4 ), para el jugador A la utilidad es 0
(no se le condena a cárcel), pero para el jugador B la utilidad es de −10, pues se le
condena a 10 años de cárcel.
2
1.3.
Soluciones y equilibrio
Si fueras el jugador A, ¾cuál sería la estrategia racional a seguir?. Con el árbol de juego
podemos hacer el siguiente razonamiento:
Si elijo tA , entonces en w1 B tiene la opción de tB ó cB . Si B elige tB obtendría una
utilidad de −5, si elige cB tendría utilidad de −10. Por lo tanto B seguramente decidirá
tB , pues −5 > −10, y mi utilidad por elegir tA sería −5.
Si elijo cA , entonces en w2 B tiene la opción de tB ó cB . Si B elige tB obtendría una
utilidad de 0, si elige cB tendría utilidad de −1. Por lo tanto B seguramente decidirá
tB , pues 0 > −1, y mi utilidad por elegir cA sería −10.
Si mi utilidad por jugar tA es −5 y por jugar cA es −10, entonces la elección racional
es tA .
Intercambiando los turnos podemos hacer el mismo razonamiento desde el punto de vista
de B, y veríamos que el resultado es tB . Así que hemos resuelto el juego: encontramos una
tupla de estrategias (i.e., un perfil de estrategias), una para cada jugador, y encontramos que
la mejor respuesta de cada jugador a ese perfil es también la estrategia que se dicta ahí mismo.
En general, un perfil de estrategias es una función que asigna a cada nodo no final, una
acción a realizar. En el árbol del dilema del prisionero, el perfil está señalado con líneas
dobles. Nota que el nodo w2 no es accesible si se sigue el perfil desde el nodo inicial, pero,
aún así, la definición de perfil requiere que se le asigne una acción.
Un perfil es un equilibrio de Nash sii para todo agente i, las estrategias contenidas en ese
perfil representan la mejor respuesta para i, suponiendo que los demás agentes sólo seguirán
las estrategias determinadas por el perfil. En este sentido, el perfil dado por las estrategias tA
y tB (en el árbol representado con líneas dobles) es un equilibrio de Nash.
2.
Codificación en PDL
2.1.
Modelo
La codificación propuesta por Harrenstein et al es muy sencilla, básicamente construimos
un marco a partir de un árbol de juego. En el caso del dilema del prisionero, tenemos el
siguiente árbol:
w
mm 0 QQQQQ
QQQaA
QQQ
QQQ
Q(
w2
z DDD a
aB ,σ zz
DD B
z
DD
zz
D!
z
}z
aA ,σmmmmm
mm
mmm
m
m
w1 Dvm
DD a
z
aB ,σ zz
DD B
z
DD
z
z
D!
z
}z
w3
w4
w5
La descripción es la siguiente:
3
w6
Tenemos un programa atómico ai para cada agente i. De esta forma, un estado w está
relacionado con otro w0 por el programa ai sii el agente i tiene una estrategia que lleva
el juego de w a w0 .
Tenemos un programa σ para cada perfil de estrategia que queramos analizar. En este
caso σ representa el perfil que elige siempre traicionar.
Tenemos un programa atómico i para cada agente i. El programa i relaciona un estado
w con w0 sii la utilidad del agente i en el estadio w es menor o igual a su utilidad en
el estado w0 . En el árbol anterior omitimos estas relaciones para no saturarlo de líneas
A
B
(tendríamos, por ejemplo, un arco w3 → w4 , o un arco w4 → w3 ).
2.2.
Mejor respuesta y equilibrio
Ahora, considera el siguiente programa:
def
π(σ, {i1 , . . . , ik }) = while hσi> do (ai1 ∪ · · · ∪ aik ∪ σ)
donde {i1 , . . . , ik } es cualquier conjunto de agentes.
Particularmente nos interesan dos instancias del programa anterior:
π(σ, {i}) = while hσi> do (ai ∪ σ)
π(σ, ∅) = while hσi> do σ
El programa π(σ, {i}) representa los posibles resultados que puede forzar el agente i, si
suponemos que los demás agentes siguen el perfil σ. Por ejemplo, para A tenemos que si
empezamos en w0 , los posibles resultados son w3 y w5 , y para B los posibles resultados son
w3 y w4 .
El programa π(σ, ∅) representa el resultado en donde todos los agentes siguen el perfil σ.
En nuestro ejemplo tenemos que si empezamos en w0 , el único resultado posible es w5 .
También, considera el siguiente teorema.
Teorema 2.1. Sean F un marco, w un mundo posible de F , y ϕ cualquier fórmula. Entonces,
la afirmación:
F, w |= hai[b]ϕ ⇒ [c]ϕ
(i.e., la fórmula es válida en w en F ) se cumple sii para todo w0 y w00 : si (w, w0 ) ∈ JaK y
(w, w00 ) ∈ JcK, entonces (w0 , w00 ) ∈ JbK.
Utilizando el teorema anterior podemos caracterizar si un perfil es la mejor respuesta para
un agente:
F, w0 |= hπ(σ, {i})i[i]ϕ ⇒ [π(σ, ∅)]ϕ
Esto es, σ representa la mejor respuesta para i sii la fórmula anterior es válida en w0 en
F (el árbol de juego), que, a su vez, es cierto sii toda posible salida forzada por i es menor o
igual, en términos de utilidad, a la salida determinada por σ.
4
Finalmente, tenemos que si lo anterior se cumple para todos los agentes, entonces σ es un
equilibrio de Nash.
De nuestro ejemplo, tenemos que para el jugador A y el perfil de estrategias σ:
{(w0 , w3 ), (w0 , w5 )} ⊆ Jπ(σ, {A})K
{(w0 , w3 )} ⊆ Jπ(σ, ∅)K
{(w3 , w3 ), (w5 , w3 )} ⊆ JAK
F, w0 |= hπ(σ, {A})i[A]ϕ ⇒ [π(σ, ∅)]ϕ
Por lo tanto, por el teorema anterior σ representa una mejor respuesta para A.
También, aplicando el mismo análisis (ejercicio) para el agente B, obtenemos que también
es una mejor respuesta. Entonces, σ es un equilibrio de Nash.
Referencias
[1] Paul Harrenstein, Wiebe van der Hoek, John Jules Meyer & Cees Witteveen. On Modal Logic Interpretations of Games. En ECAI 2002. Online:
http://www.harrenstein.nl/Publications.dir/E0197.pdf
[2] Wiebe van der Hoek & Marc Pauly. Modal Logic for games and information. Online:
http://www.csc.liv.ac.uk/ frank/MLHandbook/20.pdf
[3] Ken Binmore. Fun and games : a text on game theory. 1991. D.C. Heath.
[4] Morton Davis. Introducción a la teoría de juegos. 1986. Alianza.
5
Descargar