III. JUEGOS DINÁMICOS CON INFORMACIÓN COMPLETA

Anuncio
Notas de clase de Teoría de Juegos - Marcela Eslava 23
III. JUEGOS DINÁMICOS CON INFORMACIÓN COMPLETA
•
•
Dinámicos: Al menos un jugador observa cómo actúa al menos otro jugador antes de tomar su
propia decisión. Movidas secuenciales (al menos algunas).
Información Completa: Cada jugador conoce la función objetivo de cada uno de sus
contrincantes.
Con frecuencia la representación más útil de estos juegos es la representación extensiva, que discutimos
en el capítulo I. Recuerde también que una estrategia para un jugador i es un plan de acción completo, es
decir, especifica una acción para cada posible situación en que i es llamada a actuar. Entonces en juegos
dinámicos, una estrategia de i especifica una acción para cada posible secuencia de movidas previas que
pueden llevar a un nodo de decisión de i. Por lo anterior, en juegos dinámicos las estrategias son
distintas a las acciones.
Solución de juegos dinámicos de información completa:
Ejemplo 3.2.
El alcalde va a someter a votación del concejo el presupuesto para el año siguiente. Sabe que para que el
presupuesto pase necesita los votos de 3 concejales que tienen gran apoyo en el norte de la ciudad. Estos
a su vez, querrían presionar al alcalde para que antes de pasar el presupuesto haga un parque en su zona
de la ciudad. La matriz de pagos es la siguiente:
Suponga que queremos encontrar los Equilibrios de Nash, para lo que hacemos la representación normal.
Usaremos la notación (X,Y) para una estrategia de los concejales, donde la primera componente
corresponde a lo que harían si el alcalde no hiciera parque, y la segunda lo que haría si el parque se
construyera. Usaremos las abreviaciones NP=no parque, P=parque, N=no aprobar, A=aprobar.
Concejo
Alcalde
NP
P
(A,A)
(A,N)
(N,A)
(N,N)
(5,1)
(3,4)
(5,1)
(0,5)
(0,0)
(3,4)
(0,0)
(0,5)
Notas de clase de Teoría de Juegos - Marcela Eslava 24
Como usted puede comprobar, hay 3 Equilibrios de Nash: ((NP, (A, N)), (NP, (A, A)), (P, (N, N)),
asociadas a los resultados posibles "se hace el parque y los concejales no aprueban" y "no se hace el
parque y los concejales aprueban". La primera de estas opciones, sin embargo, no parece tener mucho
sentido. En el árbol de juego es claro que si el alcalde no cede a la presión por hacer el parque, lo que
más convendrá a los concejales es aprobar el presupuesto, y esto maximizaría la utilidad del alcalde.
Tiene sentido entonces pensar que el alcalde no hará el parque. ¿Por qué hay entonces in Equilibrio de
Nash que no captura esta predicción? Note que en el equilibrio (P, (N, N)) la estrategia de los concejales
es óptima dado que el alcalde hizo parque (lo que refleja el carácter de EN), pero no todas las
componentes de la estrategia son óptimos individualmente. En particular, la estrategia de éstos les señala
no aprobar si no hay parque, lo que no es óptimo para ellos. Si se reconociera este hecho, el alcalde no
jugaría P.
¿Cómo solucionar este problema del concepto de EN aplicado a juegos dinámicos? Se utiliza un concepto
más restringido de solución, llamado Equilibrio Perfecto de Subjuegos (EPS).
3.1.
Equilibrio Perfecto de Subjuegos.
Subjuego: Es una porción del juego que:
• Empieza en un único nodo de decisión.
• Contiene todos los nodos que siguen a su nodo inicial.
• Si contiene cualquier punto de un conjunto de información, entonces contiene todo el conjunto
de información.
Ejemplo 3.3.
Es un Subjuego
Ejemplo 3.4. En el juego del alcalde hay 3 subjuegos:
Este no es un subjuego
(Le falta incluir la rama
inferior, que sigue al
nodo en el que
comienza el
subjuego)
Notas de clase de Teoría de Juegos - Marcela Eslava 25
Definición: Una combinación de estrategias (una para cada jugador) es un EPS si las estrategias
constituyen un Equilibrio de Nash en cada subjuego correspondiente.
Esta definición implica que el Equilibrio Perfecto de Subjuegos es un Equilibrio de Nash: El EPS es un
refinamiento de la noción de Equilibrio de Nash. Entonces, el conjunto de EPS de un juego es siempre un
subconjunto del conjunto de EN.
Equilibrio de Nash
Equilibrio Perfecto
de Subjuegos
¿Cómo hallar los EPS de un juego? Para juegos con horizonte finito, se utiliza un procedimiento conocido como
"Inducción hacia atrás"
3.2.
Inducción hacia atrás:
Es un proceso que analiza el juego de "atrás hacia adelante", es decir, desde el último período hasta el
primero. La intuición tiene que ver con lo que un jugador del periodo 1 en efecto hace cuando toma su
decisión: evalúa cuál sería la reacción de los siguientes jugadores a sus diferentes posibles decisiones, y
con base en esto determina su decisión óptima. Este proceso permite llegar a EPS porque analiza cada
uno de los subjuegos del juegos, y encuentra las mejores respuestas de cada jugador en los subjuegos en
los que le corresponde mover. El proceso de inducción hacia atrás se puede resumir como:
1.
2.
3.
Empezar por el final del juego (último periodo) y encontrar la (s) estrategia (s) óptima (s) del
jugador que tiene ese turno, en cada subjuego de ese periodo. Basado en esas deducciones,
"reducir" cada subjuego del último periodo a las opciones óptimas.
Devolverse a la etapa anterior del juego y encontrar las acciones óptimas en cada subjuego de ese
periodo, a partir de las "reducciones" de los subjuegos posteriores encontradas en el paso 1.
Reducir estos nuevos subjuegos a esas posibilidades óptimas.
Repetir el paso 2, hasta llegar a la primera etapa del juego.
En el ejemplo anterior (del alcalde y el Concejo):
1.
•
•
En el último periodo:
Si el alcalde hace parque (subjuego que empieza después de "parque") entonces los concejales no
aprueban y los pagos serian (0,5).
Si el alcalde no hace parque (subjuego que empieza después de "no parque") entonces los
concejales aprueban y los pagos llegarían a (5,1).
⎫
⎧
*
Funcion de Re acciónConcejo = ⎨ A , N ⎬ ⇒ SConcejo
= ( A, N )
⎩Si No Parque Si Parque⎭
2.
Luego devuélvase un periodo, sabiendo que el alcalde también puede deducir lo que los
concejales harán. Note que, para el alcalde , el juego se reduce a:
Notas de clase de Teoría de Juegos - Marcela Eslava 26
S Alcalde = NP ⇒ Concejo → A ⇒ (5,1)
S Alcalde = P ⇒ Concejo → N ⇒ (0,5)
Ante lo cual el alcalde claramente prefiere no hacer parque y desencadenar una aprobación, que
le genera utilidad de 5, mientras que hacer el parque lo llevaría a una utilidad de 0.
Hallamos entonces el siguiente Equilibrio: (NP, (A, N)). Resultado: El Alcalde no hace parque, concejales
aprueban presupuesto (NP, A).
El proceso de inducción hacia atrás y el concepto de EPS eliminan amenazas no creíbles. En este juego la
amenaza de no aprobar el presupuesto si no se hace el parque no es creíble, dados los pagos.
Ejemplo 3.4.: Duopolio de Stackelberg.
Considere dos firmas (i =1, 2) que producen el mismo bien y lo venden en el mismo mercado (entonces
ambas enfrentan el mismo precio). Cada firma escoge la cantidad que produce. La firma 1 actúa primero,
le informa a la firma 2 su decisión y sólo entonces la firma 2 escoge (en esta secuencia el juego se
diferencia del duopolio de Cournot). La curva de demanda en ese mercado esta dada por:
Q = a − P, Q = q1 + q 2
Objetivo de cada firma: Max Π i = Pqi − C (qi ) , donde C (qi ) = cqi .
qi
Espacios de estrategias:
S1 = {q1 ∈ [0, ∞ )}
S 2 = {q2 (q1 ) donde q1 ∈ [0, ∞ ), q 2 ∈ [0, ∞ )}
Solución por inducción hacia atrás:
Periodo 2: Encontramos la función de reacción para la firma 2 en términos de la producción de la
producción de la firma 1, que ya ha observado. La condición de primer orden de este problema, con q1
dado, implica la siguiente función d reacción: q 2 (q1 ) =
*
a − q1 − c
2
Periodo 1: La firma 1 decide teniendo en cuenta lo que prevé que sucederá en t = 2 (q2 (q1)) . Entonces
elimina opciones irrelevantes (todo q2 que no este en el recorrido de la función de reacción que hallamos
arriba). La firma 1 entonces usa q2*(q1) al resolver su problema:
⎛ a − c q2 ⎞
− ⎟
Max Pq1 − cq1 = q1 (a − q 2* (q1 ) − q1 ) − cq1 = q1 ⎜
2 ⎠
⎝ 2
La condición de primer orden de este problema lleva a la cantidad óptima que la firma 1 escoge, y nos
permite entonces determinar el siguiente equilibrio:
a − q1 − c ⎞
a−c
⎛
, q 2 (q1 ) =
⎜ q1 =
⎟
2
2
⎝
⎠
−
a
c
a −c⎞
⎛
Re sultado del equilibrio :
, q2 =
⎜ q1 =
⎟
2
4 ⎠
⎝
E.P.S .
Notas de clase de Teoría de Juegos - Marcela Eslava 27
3.3.
Aplicación: Juegos de Negociación.
Las técnicas vistas para estudiar juegos dinámicos son útiles para estudiar, desde el punto de vista
teórico, procesos de negociación. Por ejemplo:
• Negociación de precios entre compradores y vendedores.
• Negociación de salarios entre sindicatos y empresas.
• Negociación de acuerdo humanitario para canjear secuestrados políticos por guerrilleros presos.
Estos procesos se caracterizan, con frecuencia, por:
• Oferta y contraoferta
• Hay número máximo de periodos que se puede negociar, pero el juego se puede acabar
temprano si hay acuerdo.
• Los jugadores valoran un acuerdo temprano más que uno tardío (y se asume que ambas partes
quieren llegar al acuerdo). Entonces, hay un descuento ínter-temporal.
• A todos les conviene llegar a un acuerdo.
Ejemplo 3.5.
Alianza Summa (vendedor) y Germán Efromovich (comprador), están negociando la venta de Avianca.
Suponemos que el bien vale 0 para Alianza Summa y, por tanto
u Alianza Summa
⎧P1 , si se llega a un acuerdo en el periodo 1 por el precio P1 .
⎪
= ⎨δP2 , si se llega a un acuerdo en el periodo 2 por el precio P2 .
⎪ 2
⎩δ P3 , si se llega a un acuerdo en el periodo 3 por el precio P3 .
donde δ es una tasa de descuento intertemporal, que suponemos igual para ambos agentes (y representa
la valoración de llegar a un acuerdo temprano.
El bien vale 1 para Germán Efromovich (es lo que él cree que puede producir mientras opera), por lo que:
u Germán Efromovich.
⎧(1 - P1 ), si se llega a un acuerdo en el periodo 1 por el precio P1 .
⎪
= ⎨δ (1 − P2 ), si se llega a un acuerdo en el periodo 2 por el precio P2 .
⎪ 2
⎩δ (1 - P3 ), si se llega a un acuerdo en el periodo 3 por el precio P3 .
El juego sigue la siguiente secuencia:
1. Alianza Summa (AS) ofrece vender por un precio P1.
2. Germán Efromovich (GE) acepta o rechaza. Si acepta entonces toma el bien y paga el precio
solicitado por Alianza Suma.
3. Si rechaza entonces puede ofrecer otro precio P2. AS debe responder a esta oferta. Si la acepta, se
da la transacción. Si AS rechaza entonces el juego termina y AS recibe utilidad δP2 y GE recibe
δ(1-P2). Si AS rechaza este precio, no hay acuerdo y las utilidades son (uV,uc)=(0,0).
Usted puede comproba siguiendo un proceso de inducción hacia atrás que se llega a un acuerdo en el
periodo 1, pues la Alianza Summa pide el mayor precio posible que hace que Germán Efromovich
prefiera no llegar a la segunda ronda. El equilibrio perfecto de subjuegos tiene como acciones:
Alianza Summa : Ofrece P1 = 1 − δ − ε ≈ 1 − δ , Germán Efromovich : Acepta
donde ε es la menor unidad posible que Alianza Summa puede escoger (por ejemplo, 1 centavo).
Notas de clase de Teoría de Juegos - Marcela Eslava 28
Este tipo de juegos involucra un EPS tal que nunca se pasa de la primera ronda de negociación. Tal
resultado se debe a que el primer jugador puede ofrecer el precio que más le conviene, sujeto a que se lo
acepten, y además descuenta del futuro. Entonces tiene incentivos para detener el juego apenas
comienza.
3.4.
Juegos Repetidos.
Un juego puede repetirse varias veces, incluso al infinito. Al repetirse se convierte en un juego dinámico.
Se usará la siguiente notación: si G denota el juego, entonces (G, T) denota el juego repetido T veces.
Los juegos repetidos son una construcción interesante, pues ofrecen la posibilidad de generar premios y
castigos que coordinen a los agentes fuera del equilibrio del juego estático. Por ejemplo: ¿es posible que el
juego del prisionero tenga EPS donde los jugadores escogen (NC,NC) en cada periodo? Uno podría
pensar que puede coordinar a los jugadores en este resultado óptimo si los logra convencer de la
siguiente estructura de premios y castigos: si juegan (NC,NC) este período (NC,NC) será equilibrio en el
siguiente (un "premio, dados los pagos relativamente altos de (NC,NC)), de lo contrario el único
equilibrio posible será (C,C) (el "castigo"). En esta sección estudiamos la posibilidad de obtener tales
resultados deseables mediante estructuras de premios y castigos en periodos futuros. Vamos a ver cómo
el éxito de esta posibilidad depende de las características específicas del juego en dos dimensiones: 1) si
se repite un número finito o infinito de periodos, 2) si el juego estático tiene un equilibrio único o
múltiples equilibrios.
Con frecuencia se utiliza un descuento intertemporal para valorar las utilidades de distintos períodos. La
utilidad del jugador i en el juego repetido T veces está dada por:
T
u i = ∑ δ t −1u it , donde T denota el periodo final del juego, δ∈(0,1) es la tasa de descuento intertemporal
t =1
y uit es la utilidad que el jugador obtiene en el periodo t. Si
T = ∞ , el juego se repite al infinito.
Ejemplo 3.6.: Dilema del prisionero repetido finitos períodos.
Lo que propusimos atrás es una “estrategia desencadenante”, porque las acciones de un periodo
"desencadenan" premios o castigos:
⎧ En (t = 1 ) → ( NC,NC )
⎪
Estrategia ⎨
⎧( NC,NC ) Si en todo t < t se jugó (NC,NC)
⎪ En t = 2,3.......,T → ⎨(C,C ) En caso contrario
⎩
⎩
(
)
La idea de la estrategia desencadenante es tratar de obtener un resultado “conveniente” que no sería
posible si el juego básico se jugara una sola vez, usando una estructura de premios y castigos.
CASO T = 2: Dos períodos, t = 1 y t = 2.
Los pagos de cooperar siguiendo la estrategia desencadenante son:
Si se coopera en t = 1 ⇒ u ST = u RGi = u i1 + δu i 2 = (− 3) + δ (− 3)
Cooperar en lugar de jugar el EN de cada periodo conviene a ambos (dado que jugar el EN en cada
periodo daría utilidades de -6(1+δ)). La pregunta es: “¿puede la cooperación darse en EPS?”. En otras
palabras: “¿son las amenazas de premio y castigo creíbles?”. Note que la única forma de que en equilibrio
en el primer periodo no se juegue (C,C) es que los resultados del primer periodo condicionen lo que pase
Notas de clase de Teoría de Juegos - Marcela Eslava 29
en el segundo, de tal manera que se cambien los incentivos del juego completo visto desde el primer
periodo. Para analizar si esto es en efecto posible, hay que resolver el juego por inducción hacia atrás
(pues el problema de la credibilidad del premio y castigo equivale a preguntarse si la estrategia
desencadenante puede representar un EPS):
t=2: Note que en el periodo t=2 tenemos varios subjuegos, todos idénticos entre si, excepto porque en
cada uno se observó un resultado distinto en t = 1. Cada uno de esos subjuegos es idéntico al juego
estático, excepto por que a los pagos de cada posible combinación de acciones se les suma la utilidad
obtenida en el primer periodo (que dentro de cada subjuego es una constante). Por tanto, en cada uno de
esos subjuegos, el único EN posible es (C,C). Un EPS del juego completo, entonces, requiere que en
cualquier subjuego del segundo periodo se juegue (C,C).
t=1: dada la respuesta anterior, independientemente de lo que se haga en el primer periodo el único
equilibrio posible en el segundo es (C,C). De esta forma, las acciones del periodo 2 sólo tienen
repercusiones sobre la utilidad de ese periodo. El hecho de que se corten los vínculos entre los dos
periodos hace que el primer periodo sea idéntico también al juego estático. Por esta razón, en EPS los
jugadores también escogerían (C,C) en el primer período.
¿Es este un resultado general?¿Por qué no pudimos modificar aquí el resultado del juego estático
mediante la estructura de premios y castigos específicos? Hay dos características de este juego que nos
llevaron a ese resultado: el juego estático tiene un solo EN, y el dinámico sólo se repite por un número
finito de periodos. Entonces, una estrategia desencadenante como la propuesta no puede representar un
EPS, pues un EPS sólo puede permitir que en los subjuegos del último periodo se juegue el EN del juego
estático. Por tanto, o el premio o el castigo no podrían formar parte de un EPS en el último periodo. A su
vez, esto implica que en el período anterior no hay incentivos para desviarse del EN del juego estático,
pues las acciones de ese periodo no afectarán lo que suceda en el siguiente (que es el último). Usando este
raciocinio de forma iterativa llegamos al siguiente resultado:
Proposición: Si el juego estático (G) tiene exactamente un Equilibrio de Nash = (S1*,S2*…,SN*) entonces el juego
repetido (G, T) tiene exactamente un Equilibrio Perfecto de Subjuegos, en el que en cada uno de T periodos el
jugador (i) escoge la acción si*, independientemente de lo que se haya jugado anteriormente.
Note que esta lógica aplica no sólo a casos en que el juego G es estático. Si G es un juego dinámico finito
que se repite T veces, con un único EPS (del juego base), también aplica que en el juego repetido el único
EPS consiste en el EPS “base” repetido T veces.
Sin embargo, el resultado no se extiende a juegos repetidos donde el juego base tiene más de un EN.
Aunque de forma similar a la discusión anterior, en el último periodo sólo es creíble "premiar" o
"castigar" con un EN, la diferencia en este caso es que hay múltiples EN que se pueden usar como
premios y castigos. Se puede entonces lograr que las acciones del periodo T-1 condicionen el resultado de
T. Considere el siguiente ejemplo:
Ejemplo 3.7.
Tome el siguiente dilema del prisionero modificado (G,T=2)
Notas de clase de Teoría de Juegos - Marcela Eslava 30
Sonia
Simón trinidad
Confesar
No Confesar
Parcialmente
Confesar
No Confesar
Parcialmente
(-6,-6)
(-10,-1)
(-7,-3.5)
(-1,-10)
(-3,-3)
(-2,-7)
(-3.5,-7)
(-7,-2)
(-3.5,-3.5)
Es posible coordinar a los agentes en el primer periodo en el resultado óptimo (No Confesar, No Confesar)
si:
1. El premio por (No Confesar, No Confesar) en (T=2) y castigo por cualquiera diferente de (No
Confesar, No Confesar) son creíbles.
2. Los jugadores otorgan al futuro una importancia suficientemente elevada (δ suficientemente
alto).
Considere la siguiente estrategia desencadenante:
⎧( No Confesar , No Confesar ) en t = 1
⎪
⎧(Parcialmente, Parcialmente ) Si
⎪
Estrategia Desencadenante = ⎨
⎪
(No Confesar , No Confesar ) en t = 1
⎪en t = 2 ⎨
⎪(Confesar , Confesar ) en caso contrario.
⎪
⎩
⎩
El lector puede demostrar fácilmente, con un poco de álgebra, que esta estrategia desencadenante
hace parte de un EPS si δ>(2/2.5). La intuición es la siguiente: los subjuegos del último periodo son
idénticos al juego base, por lo que es creíble en el último periodo implementar cualquier EN del
juego base (porque cada jugador estaría jugando su mejor respuesta al otro). De esta forma, tanto el
premio como el castigo propuestos son creíbles. La estrategia desencadenante entonces condiciona de
manera creíble el resultado de t=2 a lo que suceda en t=1.
Si en t=1 los agentes se coordinan en (N,N) cada uno obtiene -3 vs. -1 que obtendría si se desviara
unilateralmente; esta diferencia de 2 "útiles" es el costo de corto plazo de la corrdinación. Sin
embargo, hay un beneficio que se obtiene en el siguiente período: obtener -3.5 del premio en lugar de
-6 del castigo (una diferencia de 2.5, que se valora como δ*2.5, porque sólo se obtiene en el futuro). El
requisito de que el beneficio de coordinarse sea mayor que el costo es capturado por la condición
δ>(2/2.5).
Algunas generalizaciones: En algunos juegos repetidos de forma finita es posible coordinar a los
agentes en un "óptimo social" que no sea EN del juego base, aunque solamente en los periodos
previos al último. Se requiere que haya múltiples EN del juego base, uno de los cuales debe tener
pagos suficientemente altos para que cada jugador lo considere un "premio", mientras otro debe
tener pagos suficientemente bajos para servir como "castigo" efectivo. Es también necesario que δ sea
suficientemente elevado.
El procedimiento general para encontrar las circunstancias en que una estrategia desencadenante
dada es EPS involucra inducción hacia atrás. En cada periodo, se puede dividir los subjuegos en dos
tipos: (1) no hubo desviaciones previas con respecto a la estrategia desencadenante, (2) hubo
desviaciones previas. En cada tipo de subjuego se analiza para cada jugador cuál es la mejor
respuesta, si su contendor jugara lo indicado por la estrategia desencadenante (pues se trata de ver
si lo sugerido por la Estrategia Desencadenante es Equilibrio de Nash de ese subjuego).
Notas de clase de Teoría de Juegos - Marcela Eslava 31
Note: En t = T cada subjuego es igual al juego base, por cuanto los únicos premios y castigos que
pueden ser Equilibrios de Nash de estos subjuegos son los Equilibrios de Nash del juego Base.
Descargar