Lógicas no clásicas: Juegos y lógica dinámica Pedro Arturo Góngora Luna [email protected] 1. Juegos 1.1. Introducción Algunos autores definen un juego como la interacción estratégica de dos o más agentes. Dicha interacción estratégica incluye, desde luego, juegos recreativos como el póquer y el ajedrez, donde los agentes son personas (o programas de computadora). Sin embargo, el tratamiento que se le da a un juego es suficientemente abstracto para comprender otras aplicaciones. Los agentes de un juego pueden ser cualquier entidad capaz de tomar decisiones racionales, por ejemplo, corporaciones o mesas directivas decidiendo su estrategia en una batalla de precios o su oferta en una licitación pública, y hasta individuos de una población de insectos1 . Debido al número creciente de aplicaciones que ha tenido la teoría de juegos en los últimos años, se han propuesto trabajos en otras áreas aparentemente sin relación. Aquí vamos a revisar el trabajo propuesto en [1], donde se modelan algunos aspectos de un juego usando lógica modal. Para esto, nos vamos a concentrar en una clase muy particular de juegos: los juegos secuenciales, finitos y con información perfecta y completa. Por juego secuencial entendemos que las acciones que realizan los agentes suceden una después de otra, y no simultáneamente. Por finito entendemos que, además de que las posibles secuencias de acciones siempre son finitas, en cada momento un agente sólo puede elegir una acción de un conjunto finito de éstas. Por información perfecta y completa entendemos que todos los agentes siempre tienen acceso al estado en que se encuentra el juego (historia, decisiones tomadas por otros agentes) y que conocen las preferencias de cada agente (saben qué ganancia obtendría cada uno como resultado de cualquier secuencia de acciones). Desde luego aquí no podemos dar una introducción ni mínimamente detallada a la teoría de juegos, la forma de trabajo será mediante un ejemplo. Pero, si estás interesado, puedes encontrar introducciones muy accesibles en los libros [3, 4] (disponibles en la biblioteca de la facultad). También, si te interesa saber más de este tema puedes consultar [2]. 1 Una decisión racional es aquella que busca maximizar la utilidad o ganancia de un agente, en este sentido, las medidas para maximizar las posibilidades de supervivencia de un animal son racionales. 1 1.2. Árboles y juegos extensivos Existen dos posibles formas de representar un juego: la forma normal o estratégica y la forma extensiva. La forma normal es más abstracta, se basa en matrices que sólo muestran el resultado final del juego. La forma extensiva es menos abstracta, se representan los juegos como árboles cuyos nodos son los turnos de los jugadores, los arcos sus acciones posibles en ese momento, y las hojas los posibles resultados del juego. Podríamos tomar un juego como ajedrez o gato para ejemplificar (ambos cumplen las características de secuencialidad, finitud y son de información perfecta y completa), pero sus árboles son muy grandes, incluso el del gato. En lugar de éstos vamos a concentrarnos en un modelo de juguete: el ``dilema del prisionero''. El dilema del prisionero no es estrictamente secuencial, pero puede analizarse como si lo fuera, sin afectar el resultado. Básicamente, dice así: La policía captura a una pareja cómplice de criminales, pero no tiene información suficiente para condenarlos por todos sus delitos. Al interrogarlos por separado, les pide que traicionen a su compañero. Los resultados son los siguientes: Si ninguno traiciona al compañero (i.e., cooperan entre ellos) se les condena a 1 año de cárcel a cada uno. Si sólo uno traiciona, éste sale libre y al otro se le condena a 10 años de cárcel. Si ambos se traicionan, entonces se les dan 5 años a cada uno. Podemos construir un árbol de juego de inmediato: w0 TTT TTT jjjj TTTcA TTT TTT TTT ) w2 F x FF x x FFcB tB xxxxxx x FF x x x x F# x xx tAjjjjjj jjjj jjjj j j w1 Fqy x FF x x FFcB tB xxxxxx FF x x x x x F" x w x w3 (−5,−5) w4 (0,−10) w5 (−10,0) w6 (−1,−1) La descripción es la siguiente: Tenemos dos agentes o jugadores, A y B. En la raíz del árbol (w0 ) es el turno de A, en el siguiente nivel (w1 y w2 ) es el turno de B. En cada estado no final, el jugador i en turno tiene dos posibles acciones: ti para traicionar al compañero o ci para cooperar. A estas acciones se les conoce como las estrategias de i. En las hojas (w3 w6 ) tenemos la utilidad de cada agente. Por ejemplo, si la secuencia de acciones es tA , cB (i.e., el juego termina en w4 ), para el jugador A la utilidad es 0 (no se le condena a cárcel), pero para el jugador B la utilidad es de −10, pues se le condena a 10 años de cárcel. 2 1.3. Soluciones y equilibrio Si fueras el jugador A, ¾cuál sería la estrategia racional a seguir?. Con el árbol de juego podemos hacer el siguiente razonamiento: Si elijo tA , entonces en w1 B tiene la opción de tB ó cB . Si B elige tB obtendría una utilidad de −5, si elige cB tendría utilidad de −10. Por lo tanto B seguramente decidirá tB , pues −5 > −10, y mi utilidad por elegir tA sería −5. Si elijo cA , entonces en w2 B tiene la opción de tB ó cB . Si B elige tB obtendría una utilidad de 0, si elige cB tendría utilidad de −1. Por lo tanto B seguramente decidirá tB , pues 0 > −1, y mi utilidad por elegir cA sería −10. Si mi utilidad por jugar tA es −5 y por jugar cA es −10, entonces la elección racional es tA . Intercambiando los turnos podemos hacer el mismo razonamiento desde el punto de vista de B, y veríamos que el resultado es tB . Así que hemos resuelto el juego: encontramos una tupla de estrategias (i.e., un perfil de estrategias), una para cada jugador, y encontramos que la mejor respuesta de cada jugador a ese perfil es también la estrategia que se dicta ahí mismo. En general, un perfil de estrategias es una función que asigna a cada nodo no final, una acción a realizar. En el árbol del dilema del prisionero, el perfil está señalado con líneas dobles. Nota que el nodo w2 no es accesible si se sigue el perfil desde el nodo inicial, pero, aún así, la definición de perfil requiere que se le asigne una acción. Un perfil es un equilibrio de Nash sii para todo agente i, las estrategias contenidas en ese perfil representan la mejor respuesta para i, suponiendo que los demás agentes sólo seguirán las estrategias determinadas por el perfil. En este sentido, el perfil dado por las estrategias tA y tB (en el árbol representado con líneas dobles) es un equilibrio de Nash. 2. Codificación en PDL 2.1. Modelo La codificación propuesta por Harrenstein et al es muy sencilla, básicamente construimos un marco a partir de un árbol de juego. En el caso del dilema del prisionero, tenemos el siguiente árbol: w mm 0 QQQQQ QQQaA QQQ QQQ Q( w2 z DDD a aB ,σ zz DD B z DD zz D! z }z aA ,σmmmmm mm mmm m m w1 Dvm DD a z aB ,σ zz DD B z DD z z D! z }z w3 w4 w5 La descripción es la siguiente: 3 w6 Tenemos un programa atómico ai para cada agente i. De esta forma, un estado w está relacionado con otro w0 por el programa ai sii el agente i tiene una estrategia que lleva el juego de w a w0 . Tenemos un programa σ para cada perfil de estrategia que queramos analizar. En este caso σ representa el perfil que elige siempre traicionar. Tenemos un programa atómico i para cada agente i. El programa i relaciona un estado w con w0 sii la utilidad del agente i en el estadio w es menor o igual a su utilidad en el estado w0 . En el árbol anterior omitimos estas relaciones para no saturarlo de líneas A B (tendríamos, por ejemplo, un arco w3 → w4 , o un arco w4 → w3 ). 2.2. Mejor respuesta y equilibrio Ahora, considera el siguiente programa: def π(σ, {i1 , . . . , ik }) = while hσi> do (ai1 ∪ · · · ∪ aik ∪ σ) donde {i1 , . . . , ik } es cualquier conjunto de agentes. Particularmente nos interesan dos instancias del programa anterior: π(σ, {i}) = while hσi> do (ai ∪ σ) π(σ, ∅) = while hσi> do σ El programa π(σ, {i}) representa los posibles resultados que puede forzar el agente i, si suponemos que los demás agentes siguen el perfil σ. Por ejemplo, para A tenemos que si empezamos en w0 , los posibles resultados son w3 y w5 , y para B los posibles resultados son w3 y w4 . El programa π(σ, ∅) representa el resultado en donde todos los agentes siguen el perfil σ. En nuestro ejemplo tenemos que si empezamos en w0 , el único resultado posible es w5 . También, considera el siguiente teorema. Teorema 2.1. Sean F un marco, w un mundo posible de F , y ϕ cualquier fórmula. Entonces, la afirmación: F, w |= hai[b]ϕ ⇒ [c]ϕ (i.e., la fórmula es válida en w en F ) se cumple sii para todo w0 y w00 : si (w, w0 ) ∈ JaK y (w, w00 ) ∈ JcK, entonces (w0 , w00 ) ∈ JbK. Utilizando el teorema anterior podemos caracterizar si un perfil es la mejor respuesta para un agente: F, w0 |= hπ(σ, {i})i[i]ϕ ⇒ [π(σ, ∅)]ϕ Esto es, σ representa la mejor respuesta para i sii la fórmula anterior es válida en w0 en F (el árbol de juego), que, a su vez, es cierto sii toda posible salida forzada por i es menor o igual, en términos de utilidad, a la salida determinada por σ. 4 Finalmente, tenemos que si lo anterior se cumple para todos los agentes, entonces σ es un equilibrio de Nash. De nuestro ejemplo, tenemos que para el jugador A y el perfil de estrategias σ: {(w0 , w3 ), (w0 , w5 )} ⊆ Jπ(σ, {A})K {(w0 , w3 )} ⊆ Jπ(σ, ∅)K {(w3 , w3 ), (w5 , w3 )} ⊆ JAK F, w0 |= hπ(σ, {A})i[A]ϕ ⇒ [π(σ, ∅)]ϕ Por lo tanto, por el teorema anterior σ representa una mejor respuesta para A. También, aplicando el mismo análisis (ejercicio) para el agente B, obtenemos que también es una mejor respuesta. Entonces, σ es un equilibrio de Nash. Referencias [1] Paul Harrenstein, Wiebe van der Hoek, John Jules Meyer & Cees Witteveen. On Modal Logic Interpretations of Games. En ECAI 2002. Online: http://www.harrenstein.nl/Publications.dir/E0197.pdf [2] Wiebe van der Hoek & Marc Pauly. Modal Logic for games and information. Online: http://www.csc.liv.ac.uk/ frank/MLHandbook/20.pdf [3] Ken Binmore. Fun and games : a text on game theory. 1991. D.C. Heath. [4] Morton Davis. Introducción a la teoría de juegos. 1986. Alianza. 5