8.5 Juegos repetidos con horizonte finito. Los equilibrios en los juegos repetidos con horizonte finito serán sustancialmente diferentes de los obtenidos en los juegos repetidos con horizonte infinito. La razón reside en la influencia determinante que tiene el último periodo del juego repetido en el razonamiento estratégico de los jugadores, ya que pueden utilizar la inducción hacia atrás. Estos adoptarán sus estrategias siendo conscientes de que el resultado que se consiga en el último periodo afectará al comportamiento de los jugadores en los periodos previos. Por ello, también será importante la estructura del juego constituyente para efectuar una predicción del resultado. Un juego de etapa con un único equilibrio Nash. Supongamos el siguiente juego simultáneo G como juego de etapa. I C D A 4,4 2,2 -1,-1 B 5,1 2,3 -1,-1 Consideremos la repetición dos periodos del juego G, donde al final de cada periodo los jugadores consiguen la información del resultado en ese periodo y sus pagos son la suma de los pagos por periodo. Es decir, por sencillez suponemos que el factor de descuento es la unidad. 1 Cuando este juego simultáneo se juega una sola vez, comprobamos que existe un único equilibrio Nash, el par de acciones (B, C), que proporciona unos pagos de (2,3). Sin embargo, la combinación de acciones (A,I) proporciona unos pagos de (4,4) que Pareto-domina el resultado (2,3), pero que no es un EN. De hecho, la acción B es la acción débilmente dominante del jugador 1. Obsérvese que este juego tiene estructura de dilema del prisionero, pero sólo por parte del jugador 1. Con otras palabras, para el jugador 1 es acción dominante la acción B y esto impide que el jugador 2 coopere, aunque para éste último cooperar (I) es mejor respuesta a A por parte del jugador 1. Veamos si es posible inducir a la cooperación al jugador 1 en el juego repetido con horizonte finito. Es decir, si podemos conseguir que juegue A en un EN del juego repetido, de forma que el jugador 2 pueda jugar I, obteniéndose el resultado eficiente (cooperativo). La primera conclusión sencilla que obtenemos es que la cooperación, es decir, jugar (A,I), no será posible en el último periodo (t = 2), pues no es equilibrio del juego constituyente. La idea es sencilla: la única forma de “obligar” a cooperar a jugadores egoístas es mediante la amenaza de un castigo futuro, como ya sabemos. Pero, ¡en el último periodo ya no existe futuro! 2 Por consiguiente, en cualquier EN de un juego repetido con horizonte finito, las estrategias deben estipular que se juegue un EN del juego constituyente en el último periodo. En nuestro caso, que se juegue el par de acciones no cooperativas (B, C). Luego, cuando hablamos de conseguir que el jugador 1 coopere, jugando A, nos referimos a hacerlo en los periodos anteriores, en nuestro ejemplo, en t = 1. El mecanismo para obtener dicha cooperación en los periodos anteriores a la fecha límite es el mismo que obtuvimos en juegos repetidos con horizonte infinito: la amenaza de castigo futuro si no se coopera. La siguiente estrategia del jugador 2 incorpora dicho castigo y junto con la estrategia que describimos del jugador 1, constituirán un EN del juego repetido. Estrategia del jugador 1: •En el primer periodo, t = 1, jugar A •En el segundo periodo, t = 2, jugar B, tras cualquier historia posible Estrategia del jugador 2: •En el primer periodo, t = 1, jugar I •En el segundo periodo, t = 2, jugar C , si el jugador 1 ha jugado A en t=1. jugar D si el jugador 1 ha jugado B en t= 1. El vector de pagos derivado de esta combinación de estrategias es (6,7), pues la senda de juego que observaríamos es (A,I) en t = 1 y (B,C) en t =2. 3 Estas estrategias constituyen un equilibrio Nash. Supongamos que el jugador 2 se mantiene fijo en su estrategia y que el jugador 1 se desvía y juega B en t = 1. Se puede observar que a priori, éste es el único jugador que tiene incentivos a desviarse. En este caso, obtendría un pago de 5 en el primer periodo, pero dada la estrategia del jugador 2, obtendría un pago de –1 en el último periodo, por lo que globalmente sus pagos serían de 4. Por tanto, el jugador 1 no tiene incentivos a desviarse. Puede comprobar que tampoco el jugador 2 tiene incentivos a desviarse. Por consiguiente, tendríamos un EN del juego repetido caracterizado por el hecho de que en el primer periodo se juegan las estrategias (A,I), que no constituyen un EN del juego de etapa, pero que proporcionan unos pagos superiores. Es decir, hemos obtenido cooperación en el primer periodo. De hecho, si el horizonte fuera más largo, pero finito, no habría problemas para obtener este mismo tipo de EN en el que los jugadores cooperan en todos los periodos menos en el último. 4 Sin embargo, estas estrategias no forman un equilibrio perfecto. Es decir, este EN del juego repetido está basado en la amenaza no creíble por parte del jugador 2 de jugar la acción D en el último periodo si el jugador 1 se desvía en el primer periodo. No es creíble porque si el jugador 1 se desvía y juega B en el primer periodo, ante este hecho consumado, la mejor respuesta del jugador 2 en el segundo periodo es jugar C, el EN del juego constituyente, obteniendo un pago de 3 y no jugar D, que le reporta un pago de -1. Luego, el único plan creíble del jugador 2 es que jugará C en t = 2, sea cual sea la historia, es decir, lo sucedido en t = 1. Por supuesto, esta ausencia de una amenaza de castigo creíble hace que el jugador 1 no cooperará en el periodo anterior, t = 1. En definitiva, el único equilibrio perfecto del juego repetido lo constituye el par de estrategias : Jugador 1: elegir B en t = 1, y elegir B en t = 2, para toda historia. Jugador 2 : elegir C en t = 1, y elegir C en t = 2, para toda historia. La senda de equilibrio a que da lugar este par de estrategias es la mera repetición del equilibrio Nash de etapa: {(B,C),(B,C)}. En definitiva, no es posible obtener la cooperación en equilibrio perfecto. 5 Obsérvese que el resultado obtenido en este ejemplo puede generalizarse: para cualquier juego repetido con horizonte finito G(T) con un único EN en el juego constituyente G, el único equilibrio perfecto viene dado por la repetición en cada periodo del EN del juego de etapa. La razón se debe a que como el juego repetido finito es un juego secuencial finito, al resolver el juego mediante la inducción hacia atrás, el resultado en el último periodo debe ser necesariamente el equilibrio Nash. Por tanto, en el penúltimo periodo, como ya se anticipa este resultado, no se puede construir una amenaza creíble que obligue a jugar en este periodo acciones que no sean las del EN del juego de etapa. El único plan creíble para el siguiente periodo es jugar las acciones de dicho EN tras cualquier historia, pero esto implica que también en el penúltimo periodo se jugará en cualquier caso el EN y, así sucesivamente hasta llegar al primer periodo. 6 Luego, según este resultado es imposible sostener la cooperación en un dilema de los prisioneros repetido con horizonte finito por largo que éste sea. Este resultado es paradójico pues contradice la evidencia experimental existente cuando el número de periodos es alto. Como veremos, la explicación a esta paradoja, puede residir en el supuesto que hasta el momento hemos mantenido de existencia de información completa sobre la motivación de los jugadores. En el tema 9 analizaremos este juego con ciertas dosis de información incompleta y comprobaremos como de forma natural nuestra predicción cambiará en una dirección más realista Pero, aún manteniendo el supuesto de información completa, si el juego de etapa tiene múltiples EN este resultado cambia, como ilustraremos mediante el siguiente ejemplo. Ejemplo 2: Un juego de etapa con varios equilibrios Nash. Consideremos la repetición dos periodos del siguiente juego simultáneo, donde nuevamente los pagos totales de los jugadores son la suma de los pagos por periodo. T N B L 7,7 8,2 1,2 M 2,8 5,5 1,1 R 1,2 1,1 2,3 7 En el juego constituyente existen dos EN: el equilibrio (N,M) que proporciona unos pagos de (5,5) y el equilibrio (B,R) que proporciona unos pagos de (2,3). Ahora bien, ninguno de estos EN es eficiente. Como vemos el resultado eficiente (cooperativo) es (T,L) con unos pagos (7,7). En este caso, la cooperación no es posible en el juego aislado, porque ambos jugadores se desviarían a una acción no cooperativa. Sabemos que en el segundo y último periodo se jugará un EN del juego de etapa. La pregunta nuevamente es si podemos sostener en equilibrio perfecto del juego repetido la cooperación en el primer periodo. Pero, obsérvese que ahora el juego constituyente tiene dos EN y, lo que es más importante, uno de ellos es “mejor” que el otro. Es decir, el EN (N,M) ofrece más pagos a ambos jugadores que el EN (B,R). Este hecho, nos permite construir amenazas creíbles que sostienen la cooperación. 8 Las estrategias que formarían dicho equilibrio perfecto son las siguientes: Estrategia del jugador 1: •En el primer periodo, t = 1, jugar T •En el segundo periodo, t = 2, jugar N, si en t = 1 se ha jugado (T,L). jugar B, si en t = 1 se ha jugado otra cosa. Estrategia del jugador 2: •En el primer periodo, t = 1, jugar L •En el segundo periodo, t = 2, jugar M, si en t = 1 se ha jugado (T,L) jugar R, si en t = 1 se ha jugado otra cosa. Por tanto, la senda de equilibrio perfecto del juego sería {(T,L), (N,M)} en la que se obtendrían unos pagos de (7,7) en el primer periodo y de (5,5) en el segundo. Obsérvese que se ha obtenido un EP en el que en el primer periodo se juegan acciones que no forman un EN del juego de etapa. Estas estrategias forman un equilibrio Nash porque, si mantenemos fija la estrategia del jugador 1, si el jugador 2 se desvía a M en t = 1 obtiene un pago de 8 en ese periodo, pero un pago de 3 en el segundo periodo, obteniendo un pago total de 11. Por tanto, el jugador 2 no tiene incentivos a desviarse. Los mismos argumentos se aplican para descartar posibles desviaciones del jugador 1. 9 Se trata de un equilibrio perfecto porque está basado en la amenaza creíble de jugar en el segundo periodo el EN inferior en pagos en vez del EN superior en pagos, para disuadir a los jugadores de que se desvíen para obtener 8 en lugar de 7 en el primer periodo. Esta es una amenaza creíble porque (B,R) es un EN del juego de etapa. Luego, la existencia de un EN del juego de etapa que Paretodomina a otro EN permite construir castigos creíbles que sostienen la cooperación aunque el horizonte sea finito. Debemos señalar que este no es el único EP de este juego repetido. En general, cualquier sucesión de EN constituyente sería un EP del juego repetido. del juego En concreto, para este juego repetido, las siguientes sendas también serían sendas de EP: {(N,M), (N,M)}, {(B,R),(B,R)}, {(B,R),(N,M)} o {(N,M),(B,R)}. Pero el hecho destacable es que con multiplicidad de equilibrios en el juego de etapa, también se pueden construir un EP del juego repetido con estrategias que dictan acciones que no formen parte de ningún EN del juego constituyente. 10 Muestre si existe un EP del juego repetido, en el que los jugadores cooperan en el primer periodo, si los jugadores tienen un δ = 0.4 En general, este par de estrategias será un EP cuando: para el jugador 2: 7 + 5δ δ >= 8 + 3δ δ, es decir, si δ>= 1/2 para el jugador 1 : 7 + 5δ δ >= 8 + 2δ δ, es decir, si δ>= 1/3 Es decir, si δ>= 0.5 habrá un EP donde se juegue cooperación en el primer periodo Como δ = 0.4 no existe cooperación en t=1 , ya que 2 se desviará 11