Juegos Repetidos Los individuos muchas veces interactúan de

Anuncio
Juegos Repetidos
Los individuos muchas veces interactúan de forma repetida: Juegos repetidos.
Ejemplo: trabajador-empleado, vendedor-comprador, etc.
En estos ejemplos se puede observar que la decisión de cada jugador sobre cómo
comportarse en el presente tiene en cuenta el comportamiento futuro del resto de
jugadores (y el pasado).
La gente algunas veces está dispuesta a no obtener ganancias inmediatas porque
construir “reputación” les es beneficioso.
A menudo, las personas que poseen reputación son compensadas y las que no,
son castigadas.
Principal conclusión:
• Las personas que no son muy impacientes encuentran beneficioso construir
reputación cooperando.
• Existen múltiples SPE.
I.
Modelo General
El mismo juego se juega en períodos discretos de tiempo, t = 1,2,..., T
En cada momento de tiempo t , todos los jugadores han observado la historia del
juego (la secuencia del perfil de acciones) hasta el momento t − 1 .
Los pagos del juego completo se definen como la suma de los pagos de cada
etapa del juego (stage-game) desde el período 1 hasta el T (o sus pagos
descontados).
Etapa del juego (Stage-game): Es el juego que se juega en cada período t .
II. Modelo de 2 periodos (T=2)
Ejemplo 1:
El jugador 1 y 2 interactúan en dos períodos de tiempo t = 1,2 .
En cada período juegan el stage-game descrito a continuación.
1
2
X
Y
Z
A
4,3
0,0
1,4
B
0,0
2,1
0,0
La tasa de descuento de cada jugador es δ = 1.
Ver representación extensiva en el tablero!
Existen 7 sub-juegos: El juego completo y los 6 del segundo periodo.
Por ejemplo, si en t = 1 los jugadores escogieron ( A, Z ) , los pagos finales en el
sub-juego conformado en este nodo son:
1
2
X
Y
Z
A
5,7
1,4
2,8
B
1,4
3,5
1,4
En términos más generales, si en t = 1 los jugadores escogieron la acción ( a1, a2 )
con payoffs (b, c ), los pagos finales serán:
1
2
X
Y
Z
A
4+b , 3+c
0+b , 0+c
1+b , 4+c
B
0+b , 0+c
2+b , 1+c
0+b , 0+c
Miremos los equilibrios en este juego: Backward induction
Ya sabemos que para obtener un SPE requerimos que la estrategia sea un EN
para cada sub-juego. En nuestro caso, esto incluye cada stage-game.
El sub-juego que empieza después de que en t = 1 los jugadores escogieran
( A, Z ) posee dos EN: ( A, Z ) y (B, Y ).
Se puede demostrar que, independientemente del sub-juego en el que estemos,
los únicos EN en el período 2 son ( A, Z ) y ( B, Y ) (Los llamaremos también
Perfil de Estado de Nash):
1
2
X
Y
Z
A
4+b , 3+c
0+b , 0+c
1+b , 4+c
B
0+b , 0+c
2+b , 1+c
0+b , 0+c
¿Qué ocurre en el período 1?
Claim 1: jugar ( A, Z ) en t = 1 y ( A, Z ) en t = 2 , es un SPE (con payoffs (2,8)):
• Ya sabemos que jugar ( A, Z ) en el sub-juego (stage-game) definido en t = 2
es EN: Nadie tiene incentivos a desviar.
• Suponga que 1 desvía en t = 1 y escoge B: su payoff final será 0+1=1, lo
cual no es estratégico.
• Suponga que 2 desvía en t = 1 y escoge X: su payoff final será 3+4=7, lo
cual no es estratégico.
• Suponga que 2 desvía en t = 1 y escoge Y (lo cual no tiene mucho sentido!):
su payoff final será 0+4=4, lo cual no es estratégico.
♣
Claim 2: jugar ( A, Z ) en t = 1 y ( B, Y ) en t = 2 , es un SPE (con payoffs (3,5)):
Prueba igual que la anterior ♣
Esta conclusión se puede generalizar:
Teorema (parcial): Considere un juego repetido. Cualquier secuencia de Perfiles
de Estado de Nash puede ser soportada como un SPE.
¿Existen SPE que no contenga una secuencia de PEN? SI!
Claim 3: Un equilibrio en el ejemplo 1 es: Se juega ( A, X ) en t = 1 y:
• Si 2 no desvía en t = 1 de X, ( A, Z ) en t = 2 ,
• Sin 2 desvía en t = 1 (escoge Y o Z), entonces ( B, Y ) en t = 2
Note que ( A, X ) no pertenece al conjunto de EN encontrado en el stage-game
que se juega en t = 2 . Sin embargo, en t = 2 siempre se juega uno de los EN.
En este caso, la estrategia para t = 2 depende de lo que pase en t = 1:
• Si 2 coopera (crea reputación) jugando X en t = 1, existirá una recompensa
jugando un EN del sub-juego en t = 2 .
• Si 2 no crea reputación jugando Y o Z en t = 1, este es “castigado” en t = 2 .
Este SPE es fácil de soportar:
De nuevo, ( A, Z ) o ( B, Y ) son EN del sub-juego en t = 2 .
Nos queda probar que ( A, X ) en t = 1 hace parte del equilibrio:
Note que si ( A, X ) es jugado en t = 1, los payoffs finales so (5, 7).
• Suponga que 1 juega la estrategia anunciada. Note que si 2 desvía en t = 1,
sería por Z (con Y no consigue nada). En total obtendría 5<7. Así no posee
incentivos a desviar.
• Suponga que 2 juega la estrategia anunciada. Si 1 juega B en t = 1, obtendrá 0
en este período y como 2 no desvió en t = 1, obtendrá 1 en t = 2 : 1<5. Así no
posee incentivos a desviar.
♣
Conclusión:
• Solo un EN del stage-game jugado en t = 2 puede ser jugado en el período 2.
• Sin embargo, pueden existir equilibrios con reputación donde los jugadores no
escogen un Perfil de Estado de Nash en el período 1.
III. Juegos Repetidos Infinitamente
Ahora supongamos que T = ∞ .
Aunque la gente no vive un período de tiempo infinito, estos tipos de juegos son
útiles en muchas situaciones: Relaciones entre países, entre empresas, etc.
El elemento crucial es la tasa de descuento: δ ∈ (0,1).
Suponga que usted recibe un pago de 1 unidad en cada período de forma infinita.
Aplicando la tasa de descuento tenemos que el pago descontado es:
u = 1 + δ + δ 2 + δ 3 + ...
Se puede demostrar (hágalo usted mismo) que esta serie converge a:
u=
1
1− δ
Así, recibir un pago de a unidades cada período converge a: u =
a
1−δ
Tenga en cuenta que las estrategias en un juego infinito son complejas ya que
existen infinitos conjuntos de información.
Sin embargo, veremos que con algunas pocas estrategias sencillas podremos
hacer el análisis.
Un tipo de estrategia muy común es la “estrategia del disparador” (trigger
strategy).
Estrategia del disparador: Posee un perfil de estrategias cooperativo, pero si
algunos de los jugadores desvía (pierde la reputación), el otro jugador juega un
perfil de estrategias de castigo por el resto de su vida (la cual usualmente es un
EN del stage-game).
Ejemplo 2: Juego del prisionero jugado infinitas veces
1
2
I
C
I
1, 1
3, 0
C
0, 3
2, 2
El único equilibrio en cada stage-game es ( I , I ) .
Considere la siguiente trigger strategy:
• Jugar (C , C ) en cada período, si este perfil ha sido jugado siempre en el
pasado.
• Jugar ( I , I ) en cualquier otro caso.
Demostraremos que esta estrategia puede ser un SPE.
Suponga que el jugador 2 sigue esta estrategia. Considere al jugador 1:
Si 1 juega C siempre, entonces obtendrá:
2
.
1−δ
Si 1 desvía en t = 1, entonces obtendrá: 3 +
(
δ
1− δ
)
Note que: δ + δ + δ + ... = δ 1 + δ + δ + δ + ... =
2
Tenemos que:
3
δ
2
≥ 3+
1−δ
1− δ
2
⇔ δ≥
3
δ
1− δ
1
2
Así, si δ ≥ 1 2 (1 es suficientemente paciente), 1 no tendrá incentivos a desviar.
De hecho, para cualquier período t en el cual 1 decida desviar, esto no será
racional si δ ≥ 1 2 .
El mismo análisis aplica al jugador 2.
♣
Conclusión: En juegos repetidos, si los jugadores son lo suficientemente
pacientes, una estrategia cooperativa puede ser soportada como equilibrio.
Claramente, “suficientemente paciente” depende de los payoffs del juego.
Ejemplo 3:
1
2
I
C
I
-10, -10
0, -11
C
-11, 0
-1, -1
En este juego del prisionero, una trigger strategy se puede soporta para cualquier
δ.
pruébelo usted mismo….
♣
La estrategia jugada en el ejemplo 2 es tan solo un SPE de los muchos SPE que
pueden existir en este juego.
Por ejemplo, ya sabemos que el EN en cada stage-game ( I , I ) , es un SPE.
De hecho, el teorema más conocido en este tipo de juegos (Teorema “Popular” –
Folk Theorem) nos dice que hay mucho payoffs que pueden ser obtenidos
mediante perfiles de estrategia que son SPE.
Usemos el ejemplo 2 para ver esos payoffs.
Ejemplo 2:
1
2
I
C
I
1, 1
3, 0
C
0, 3
2, 2
Los posibles payoffs de equilibrio (área sombreada) pertenecen al diamante
formado por los payoffs de cada perfil de estrategia (Se grafica el payoff
promedio, multiplicando por (1 − δ ) ).
V2
3
1
1
3
V1
Teorema de Folk: Considere cualquier juego repetido infinitamente. Suponga
que existe un perfil de estado de Nash con un vector de payoffs wi = (w1,..., wn ) .
Llamemos v, cualquier vector factible de pagos promedio por periodo tal que
vi > wi para cada jugador i. El vector v puede ser soportado por un SPNE si δ es
suficientemente cercano a 1.
Descargar