EL DILEMA DE LOS PRISIONEROS

Anuncio
Microeconomía – Prof. Eiras Roel – Alumno: Pablo D’Alesio Reg: 178.903
EL DILEMA DE LOS PRISIONEROS
(Criterio segunda mejor o mal menor, sin colusión, pero con ensilladura)
Alberto y Roberto fueron atrapados in fraganti robando un automóvil. Como se trata de casos muy
claros, se les sentenciará a dos años por su delito. En el curso de sus entrevistas con los dos prisioneros, el
fiscal de distrito empieza a sospechar que ha dado con dos personas responsables de un asalto
multimillonario a un banco, ocurrido algunos meses atrás. Sin embargo, el fiscal también sabe que se trata
de una sospecha. No tiene pruebas para condenarlos por ese delito mayor, a menos que logre que cada
uno confiese. Al fiscal se le ocurre la siguiente idea:
Coloca a los prisioneros en habitaciones separadas para que no se puedan comunicar. A cada
prisionero se le dice que es sospechoso del asalto a un banco y que si él y su cómplice confiesan ese
delito, recibirán una sentencia de tres años. También se informa a cada uno de que si sólo uno de ellos
confiesa y el cómplice no, recibirá una sentencia todavía más corta, de un año, en tanto que el cómplice
será sentenciado a diez años de prisión. Los prisioneros saben que si ninguno confiesa, entonces sólo
serán juzgados y condenados por el delito menos grave del robo del automóvil, que tiene una pena de dos
años de cárcel. ¿ En qué forma responden los prisioneros al fiscal?
Primero, observe que el dilema de los prisioneros es un juego de dos jugadores. Cada jugador tiene
dos estrategias: confesar el asalto multimillonario al banco o negar la acusación. Debido a que hay dos
estrategias, existen cuatro resultados posibles:




Ningún jugador confiesa
Ambos jugadores confiesan
Alberto confiesa, pero Roberto no
Roberto confiesa, pero Alberto no
Cada prisionero puede determinar qué pasará exactamente con él (su recompensa) en cada una de
estas cuatro situaciones. Podemos tabular las cuatro recompensas posibles para cada uno de los
prisioneros en lo que se llama matriz de recompensas de un juego.
Una matriz de recompensas es un tabla que muestra las recompensas de cada acción posible de un
jugador por cada acción posible del otro jugador.
El dilema aparece al considerar las consecuencias de confesar y no confesar. Cada prisionero sabe
que si él y su cómplice se quedan callados acerca del asalto al banco, se les condenará solamente a dos
años de cárcel por robar el automóvil. Sin embargo, ninguno de ellos tiene forma de saber si su cómplice
se quedará callado y rehusará confesar. Cada uno sabe que si el otro confiesa y él niega la acusación, el
otro recibirá una condena de sólo un año, en tanto que el que la niegue recibirá una condena de diez años.
Cada uno se plantea la siguiente pregunta: ¿Debo negar todo y confiar en que mi cómplice también lo
haga para que quizás sólo nos condenen a dos años? ¿O debo confesar con la esperanza de recibir
solamente un año (siempre y cuando mi cómplice niegue todo) pero sabiendo que si mi cómplice
confiesa,
ambos recibiremos tres años de prisión? La solución del dilema implica encontrar el equilibrio del juego.
El equilibrio de un juego se conoce como equilibrio de NASH, así llamado porque fue él quien lo
propuso primero. El equilibrio de Nash ocurre cuando el jugador A elige la mejor acción posible, dada la
acción del jugador B, y el jugador B elige la mejor acción posible, dada la acción del jugador A. En el
caso del dilema de los prisioneros, el equilibrio ocurre cuando Alberto hace su mejor elección, dada la
elección de Roberto y cuando Roberto hace su mejor elección, dada la elección de Alberto.
El dilema de los prisioneros es un juego que tiene una clase especial de equilibrio de NASH llamado
el equilibrio de la estrategia dominante. Una estrategia dominante es una estrategia que es la misma,
independientemente de lo que haga el otro jugador. En otras palabras, sólo hay una acción que es la
mejor, sin importar lo que haga el otro. El equilibrio de estrategia dominante ocurre cuando existe una
estrategia dominante para cada jugador. En el dilema de los prisioneros, no importa lo que haga Roberto,
la mejor estrategia de Alberto es confesar; y sin importar lo que haga Alberto, la mejor estrategia de
Roberto es confesar. Entonces el equilibrio del dilema de los prisioneros es que cada jugador confiese..
Si cada prisionero participa en este juego pensando en lo que más conviene a su interés propio, el
resultado del juego será que cada uno confesará. Para entender por qué cada jugador confiesa,
consideremos de nuevo sus estrategias y las recompensas de los cursos de acción alternativos.
Contemplemos la situación desde el punto de vista de Alberto. Alberto se da cuenta que su
resultado depende de las decisiones que Roberto tome. Si Roberto confiesa, a Alberto le conviene
confesar también, porque, en ese caso, se le condenará a tres años en vez de diez años. Pero si Roberto no
confiesa, a Alberto todavía le conviene confesar porque, en ese caso, recibirá un año en lugar de dos años.
Alberto razona que independientemente de lo que haga Roberto, lo mejor que él puede hacer es confesar.
El dilema, desde el punto de vista de Roberto, es idéntico al de Alberto. Roberto sabe que si
Alberto confiesa, él recibirá diez años de no hacerlo también, o tres años si lo hace. Por lo tanto, si
Alberto confiesa a Roberto le conviene confesar. De manera similar, si Alberto no confiesa, Roberto
recibirá dos años si tampoco lo hace y un año si confiesa. Nuevamente a Roberto le conviene confesar.
Lo mejor que puede hacer Roberto, independientemente de lo que haga Alberto, es confesar.
Cada prisionero entiende que independientemente de lo que haga el otro, su mejor acción es
confesar. Ya que la mejor acción de cada jugador es confesar, cada uno lo hace y recibe una condena de
tres años de cárcel; y así el fiscal ha resuelto el asalto al banco. Ese es el equilibrio del juego.
Para los prisioneros, el equilibrio del juego, cuando cada uno confiesa, no es el mejor resultado. Si
ninguno de los dos confiesa, cada uno recibirá solamente dos años por el delito menor. ¿Existe
algunaforma de obtener este mejor resultado? Parece que no, porque los jugadores no se pueden
comunicar.
Cada jugador se puede poner en el lugar del otro, y así cada jugador puede suponer que hay una estrategia
dominante para cada uno. Los prisioneros están de verdad en un dilema. Cada uno sabe que puede pasar
dos años en prisión solamente si confía en que el otro no confesará. Sin embargo, cada prisionero también
sabe que al otro le conviene confesar. Así que cada prisionero sabe que tiene que confesar y, de esa
forma, ocasiona un mal resultado para ambos.
Extractado del libro MICROECONOMÍA de Michael Parkin
Los mercados no competitivos
La Teoría de Juegos
En el oligopolio, los resultados que obtiene cada empresa dependen no sólo de su decisión sino de las
decisiones de las competidoras. En el mundo real, tanto en las relaciones económicas como en las
políticas o sociales, son muy frecuentes las situaciones cuyo resultado depende de la conjunción de
decisiones de diferentes agentes. La técnica para su análisis fue puesta a punto por un matemático, John
von Neumann, en colaboración con el economista Oskar Morgenstern. El libro que publicaron en 1944,
"Theory of Games and Economic Behavior", abrió un insospechadamente amplio campo de estudio en el
que actualmente trabajan miles de especialistas de todo el mundo.
Supongamos que dos empresas, Hipermercados Xauen y Almacenes Yuste, constituyen un duopolio
local en el sector de los grandes almacenes. Cuando llega la época de las tradicionales rebajas de enero,
ambas empresas acostumbran a realizar inversiones en publicidad tan altas que suelen implicar la
pérdida de todo el beneficio. Este año se han puesto de acuerdo y han decidido no hacer publicidad por
lo que cada una, si cumple el acuerdo, puede obtener unos beneficios en la temporada de 50 millones.
Sin embargo una de ellas puede preparar en secreto su campaña publicitaria y lanzarla en el último
momento con lo que conseguiría atraer a todos los consumidores. Sus beneficios en ese caso serían de
75 millones mientras que la empresa competidora perdería 25 millones.
Los posibles resultados se pueden ordenar en una Matriz de Pagos como la mostrada en el cuadro de la
derecha. Cada almacén tiene que elegir entre dos estrategias: respetar el acuerdo —Cooperar— o hacer
publicidad —Traicionar—. Los beneficios o pérdidas mostrados a la izquierda de cada casilla son los que
obtiene Xauen cuando elige la estrategia mostrada a la izquierda y Yuste la mostrada arriba. Los
resultados a la derecha en las casillas son los correspondientes para Yuste.
El que lo máximo que se puede obtener sea 75 M. o 85 M. no tiene mucha influencia sobre la decisión a
adoptar, lo único que importa en realidad es la forma en que están ordenados los resultados. Si
substituimos el valor concreto de los beneficios por el orden que ocupan en las preferencias de los
jugadores, la matriz queda como la mostrada en el cuadro. Las situaciones como las descritas en esta
matriz son muy frecuentes en la vida real y reciben el nombre de Dilema de los Presos.
DILEMA DE LOS PRESOS: MATRIZ DE PAGOS
COMPETENCIA DE MEDIAN PUBLICIDAD: MATRIZ DE PAGOS
Yuste
Cooperar
Yuste
Cooperar
Traicionar
2° , 2°
4° , 1°
Xauen
Cooperar
Traicionar
Cooperar
50 , 50
-25 , 75
Traicionar
75 , -25
0 , 0
Xauen
Traicionar
1° , 4°
3° , 3°
Veamos cuál debe ser la decisión a adoptar por esos almacenes. El director de la división de estrategia
de Xauen pensará: "Si Yuste no hace publicidad, a nosotros lo que más nos conviene es traicionar el
acuerdo, pero si ellos son los primeros en traicionar, a nosotros también nos convendrá hacerlo. Sea cual
sea la estrategia adoptada por nuestros competidores, lo que más nos conviene es traicionarles".
El director de la división de estrategia de Yuste hará un razonamiento similar. Como consecuencia de
ello ambos se traicionarán entre sí y obtendrán resultados peores que si hubieran mantenido el acuerdo.
La casilla de la matriz de pagos marcada con un asterisco es la única solución estable. Contrariamente a
las argumentaciones de Adam Smith, en las situaciones caracterizadas por el Dilema de los Presos si los
agentes actúan buscando de forma racional su propio interés, una "mano invisible" les conducirá a un
resultado socialmente indeseable.
Teoría de la Incertidumbre:
El esquema de la utilidad N-M satisface varios principios de comportamiento lógico y coherente, o
axiomas cruciales: de orden completo, de la continuidad, de la independencia, de la probabilidad desigual
y de la complejidad. El individuo puede así obtener su función de "utilidad esperada", enfrentándose con
una serie de elecciones entre un gasto cierto por un lado y una combinación probabilística de dos gastos
inciertos por el otro.
La función de utilidad así obtenida es única, incluyendo transformaciones lineales y proporciona un orden
de alternativas para estas situaciones que no implican riesto sino en este caso incertidumbre. Los
consumidores maximizan la utilidad esperada (UE) según N-M; estas UE son cardinales, en el sentido
de que pueden conbinarle para calcular las utilidades esperadas y comparar las diferencias de utilidad.
No funciona aquí la regla minimax, maximim, etc. ya que no hay aquí oponente activo con intereses
contrarios; solo contingencias que pueden o no ocurrir según la evolución de la naturaleza o cosas.
Utilidad Cardinal Neumann- Morgestern.
Medida de utilidad cardinal para la clasificación de situaciones que comportan riesgo.
Un billete de lotería puede calificarse con un índice de utilidad, mediante el cálculo N- M de la siguiente
manera. Si el individuo gana el premio el billete ofrece un premio A con una utilidad para el individuo de
U(A) y de perder, el premio B con utilidad U(B). Las probabilidades de ganar son P y las de perder 1-p.
De esta manera la utilidad del billete es,
U = P* U(A) + (1-P)* U(b).
Creando un billete de utilidad artificial que brinde como premio el bien que mas desee el individuo E y
que de perder, le asigne el bien d, con probabilidades p y (1-p) de ganar y perder, existirá siempre un
valor de p mayor a 0 y menor a 1, para el cual el individuo se sienta indiferente entre el billete de lotería
artificial y el bien A. Calculando la utilidad esperada del billete artificial puede calcularse la de un bien A
cualquiera. El individuo, cuando se le presentan dos situaciones con riesgo y probabilidades, elegirá la
opción que le de mayor utilidad esperada siempre y cuando cumpla con algunos supuestos de conducta.
5 Axiomas:
1- Transitividad. Si el individuo se muestra indiferente entre dos premios a y b, entre b y c, entonces es
indiferente entre a y c.
2- Continuidad de las preferencias como una función de p. Es posible establecer un valor intermedio
de probabilidades para el cual el individuo sea indiferente entre el billete artificial y un bien a.
3- Independencia. Si el individuo se muestra indiferente entre un Ford y un Chevrolet, será indiferente
entre dos billetes de lotería identicos en todos los sentidos, excepto que uno brinde como premio un ford y
el otro un chevrolet.
4- Deseo de grandes probabilidades de éxito. Dados dos billetes de lotería idénticos el individuo
prefiere el que tenga mayores probabilidades de ganar.
5- Probabilidades compuestas. Si a la persona se le ofrece un billete de lotería cuyos premios son a la
vez, otros billetes de lotería, su actitud respecto a este billete de lotería compuesta será la misma cual si
hubiese pasado por todos los cálculos de probabilidades de ganar el premio final.
Validez de la predicción.
Dado el billete de lotería que ofrece los premios A y B (A es preferido a B), con las probabilidades p de
ganar y 1-p de perder,
U(P, A, B) = PU (A) + (1-P) * U(B).
Por el axioma 2,
=P* U(Pa, E, D) + (1-P) *U(Pb, E, D).
Por el axioma 5,
= P* (Pa* U(E) + (1-Pa)* U(D)) + (1-P) (Pb* U(E) + (1-Pb)*U(D)).
= (P*Pa + (1- p)* Pb)* U(E) + (P* (1-Pa) +( 1-p)* (1-Pb))* U(D).
= (p*pa + (1-p)*pb) * U(E) + (1 – P*Pa- (1-p)* Pb)* U(d).
= r* U(E) + (1-r)* U(D).
Teoría de los Juegos.
Decisión bajo condiciones de conflicto
La Teoría de los Juegos constituye un singular enfoque del problema de la toma de decisiones en
situaciones conflictivas y constituyó una de las novedades más atrayentes para la teoría económica y el
estudio de problemas empresariales específicos.
El objetivo general de la Teoría de los juegos es la determinación de patrones de comportamiento racional
en situaciones en las que los resultados dependen de las acciones de "jugadores" interdependientes.
La esencia de este tipo de decisión radica precisamente en el conflicto de intereses entre los oponentes.
Llamamos "juego" a cualquier situación en la que intervienen dos o más oponentes racionales como el
tenis, el póker, la ruleta rusa o los mercados duopólicos. A diferencia de los problemas de decisión que
sólo involucran Estados Naturales , en los problemas de juegos, la elección de un curso de acción por
parte de uno de los competidores implica un análisis previo de las posibles reacciones de los restantes
competidores. En un juego suponemos que cada uno de los jugadores conoce todos los cursos de acción
posibles. A cada curso de acción particular lo llamamos "estrategia" la cual, por definición es una
especificación completa de las acciones que ejecutará un jugador ante cualquier contingencia que pueda
presentarse en el desarrollo del juego, supuesto que se satisface en pocas situaciones del mundo real.
En algunos casos se requiere todavía más información. En una amplia variedad de juegos (aleatorios) no
se conoce con certeza el resultado, que depende de una variable aleatoria. En estos casos , cuando el azar
entra en juego, debemos suponer un conocimiento absoluto de la probabilidad de cada uno de los
resultados posibles, correspondientes a cada una de las combinaciones de estrategias posibles de los
jugadores . Pero hay juegos, como en el duopolio, en los que la probabilidad de que se conozcan estas
probabilidades es insignificante.
Los juegos se clasifican generalmente según el número de participantes y el grado de oposición de
intereses en :
JUEGOS DE SUMA CERO:
Son aquellos en los cuales el conflicto de intereses es total, de manera que lo que gana un participante es
perdido por los restantes.
Ejemplo: la competencia establecida en términos de participación en el mercado por varias firmas que son
las únicas que venden cierto producto. En este caso las ganancias de un jugados son exactamente las
pérdidas del otro ( son estrictamente adversarios).
JUEGOS DE SUMA DISTINTA DE CERO:
Son aquellos en los cuales los intereses no son completamente opuestos. Ejemplo: Una campaña
publicitaria tiende a estimular tanto las propias ventas
pérdidas del otro ( son estrictamente adversarios).
JUEGOS DE SUMA CERO CON DOS ADVERSARIOS
Se ejemplifica este caso a través de una matriz de resultados que representa en sus filas, los 3 cursos de
acción alternativos de la empresa A para ganar participación en el mercado y en sus columnas los cursos
de acción alternativos de la empresa B para ganar participación en el mercado.
Estrategia Pura y Estrategia mixta:
La estrategia de un competidor es la regla de decisión que el mismo utiliza para elegir cúal de las posibles
alternativas debe jugar en cada paso. Se dice que ha elegido una estrategia pura cuando se opta por
utilizar o jugar en forma permanente con la misma alternativa.
Se dice que se ha elegido una estrategia mixta cuando se juegan las distintas alternativas según una
determinada distribución de probabilidades. Es una asignación de probabilidades a las estrategias puras
viables, de modo que la suma de las probabilidades es igual a la unidad para cada uno de los participantes.
Cabe entonces preguntarse como ha de escoger su estrategia la empresa A , teniendo en cuenta las
posibles reacciones de su adversario y las siguientes hipótesis planteadas por Von Neumann.
 Los jugadores son inteligentes. Si un jugador supiera la estrategia a utilizar por su adversario, el
adoptaría la mejor decisión posible.
 Cada jugador conoce la matriz de resultados.
 Cada jugador juega con la mayor seguridad posible, tratando de acotar el riesgo.
ESTRATEGIA PURA:
Esta actitud conservadora que plantea Von Neumann se traduce en la aplicación del Criterio de Wald.
Por este criterio, los responsables de la empresa A harían el siguiente razonamiento:
 Usando la estrategia A1 lo peor que le puede pasar es perder el 11%
 Usando la estrategia A2, lo peor que le puede pasar es ganar solo el 1%
 Usando la estrategia A3, lo peor que le puede pasar es perder el 5%
De acuerdo con el criterio Wald, la empresa debería escoger la máxima de estas compensaciones mínimas
(1%)correspondiente a la alternativa A2.
Pero hay que recordar que el adversario es racional y por lo tanto también se rige por el criterio Wald.
A1
A2
A3
*Minimax de empresa B
B1
6
7
-3
7
B2
-3
1
0
1
B3
15
9
-5
15
B4
-11
5
8
8
**Maximin de Empresa A
-11
-1
-5
* La empresa B querrá minimizar su pérdida máxima (minimax).
** La empresa A querrá maximizar sus compensaciones mínimas (maximin)
Vemos que de este modo que la mejores decisiones por parte de ambos competidores son que la Empresa
A juegue
su estrategia pura A2 y la Empresa B juegue su estrategia pura B2, con lo cual el resultado será un
aumento del 1% de la participación en el mercado de A con la consecuente disminución para B.
Sabiendo la A que B eligirá B2 no le queda otra alternativa que elegir A2, con la cual puede obtener el
mejor resultado en eses caso. A su vez teniendo B conocimiento de que A eligirá A2, no le queda mejor
opción que elegir B2, alternativa que le provoca una menor pérdida.
Por el contrario, si la empresa A tuviera información de que por alguna razón la empresa B no
seleccionará la alternativa B2 ( lo que se esperaba de ella), entonces podría determinar su estrategia
óptima de acuerdo con los criterios de decisión bajo riesgo, ajustándose a las probabilidades asociadas a
las estrategias competidoras (determinadas en base a la información que se disponga de B). Sin embargo,
en la medida que no se disponga de tal información o que esta no sea confiable, el criterio de decisión
será el dado por el criterio de Wald.
Algunas definiciones:
 Se llama "jugador maximizante" al jugador para el cual está construida la matriz de resultados, es
decir , al jugador para el cual los resultados positivos significan ganancias (Empresa A en este caso).
 Se llama "jugador minimizante" al jugador para el cual los resultados positivos significan pérdidas (
Empresa B en este caso).
 Se llama "Valor de Juego Máximo" a los valores maximin o minimax de la matriz de juego
correspondientes a cada jugador. Por lo general se puede demostrar que se cumple la relación
minimax > maximin que significa que lo que B espera perder jugando estrategias puras es mayor a lo
que A espera ganar. Sin embargo , en ciertos casos particulares, el valor del juego resulta ser el
mismo para ambos competidores.
 En los casos como el mencionado en el párrafo anterior, donde el valor del juego es el mismo para
amboscompetidores, como en el problema que estamos analizando , decimos que nos encontramos en
una situación de"Equilibrio Estable" (el valor maximin para la empresa A coincide con el valor
minimax para la empresa B).
 Cuando en un juego se cumple la condición descripta en el párrafo anterior, se dice que el juego
posee un"Punto de Ensilladura" por la forma que tiene la representación gráfica de esta situación.
(maximax =minimin).
 Dicho valor es el "Valor del juego" y representa tanto lo que el jugador A espera ganar como lo que
el jugador B espera perder. En este caso el valor del juego es 1%.
Matriz de pagos a “A”:
Empresa “A”
Radio
TV
Empresa “B”
Radio
TV
7
2
3
8
Comenzaré por definir algunos conceptos de este juego en particular.

El jugador maximizante en este caso será la empresa “A”, ya que es al que los resultados
positivos le significan una ganancia.

A su vez el jugador minimizante es la empresa “B” ya que para ella los resultados positivos
significan pérdidas.
En nuestro caso, y siguiendo la teoría de Wald podemos ir desarrollar un poco más la tabla
original:
Empresa “A”
Wald B
Radio (p1)
TV (1-p)
Empresa “B”
Radio (q1)
TV (1-q)
7
2
3
8
7
8
Wald A
2
3
Estamos ante un caso de no equilibrio, debido a que si B escogiera “Radio” a la empresa “A” le
convendría elegir Radio en lugar de TV para asegurarse una ganancia de 7 y no de 3. Pero si A escoge
Radio a B le convendrá mas elegir TV ya que sus pérdidas se reducirían a 2, lo que nos haría pensar que
A cambiará nuevamente a TV para aumentar su ganancia a 8; por lo tanto podemos afirmar que el juego
NO SE ESTABILIZARA NUNCA.
Debido a lo expresado anteriormente los oponentes deberán utilizar “Estrategias Mixtas” en
orden de solucionar este problema de inestabilidad.
En una estrategia mixta la elección es aleatoria basandose en un conjunto de probabilidades:
Analicemos primero a la empresa A:
Si escoge alternativas radio y TV con probabilidades p1 y 1-p1, su ganancia dependerá también
de la estrategia escogida por su adversario:
Si B juega como estrategia pura Radio tendremos:
VA (p1,Radio) = 7 . p1 + 3 . (1-p1) = 3 + 4p1
Si B juega como estrategia TV tendremos :
VA (p1, TV) = 2 . p1 + 8 . (1 – p1) = 8 – 6p1
Igualando:
8 – 6p1 = 3 + 4p1
5 = 10p1
0,5 = p1
(1-p) = 0,5
O sea que el VA es el mismo, y no importa la alternativa que la empresa B elija, por lo tanto ésta
es la estrategia óptima para la empresa A.
Si aplicamos lo mismo para la empresa B:
Si A juega como estrategia pura Radio tendremos:
VB (q1,Radio) = 7 . q1 + 2 . (1-q1) = 2 + 5q1
Si A juega como estrategia TV tendremos :
VB (q1, TV) = 3 . q1 + 8 . (1 – q1) = 8 – 5q1
Igualando:
8 – 5q1 = 2 + 5q1
6 = 10q1
0,6 = q1
(1-q) = 0,4
El valor que se espera para B es entonces de 5 sin importar la alternativa de A, situación por la
cual podemos decir que esta es la estrategia óptima de B.
Podemos concluir entonces que utilizando estrategias mixtas la empresa A jugara con sus
alternativas Radio y TV con una frecuencia del 50 % cada una y que la empresa B jugara estas
alternativas con frecuencia del 60 % Radio y 40 % TV. Los valores que esperan ambas empresas es el
mismo, en este caso 5 y le permite a la empresa A tener una tener una mejor situación (con respecto a
una estrategia pura) ya que espera ganar 5 en lugar de 3 y la empresa B espera perder 5 en lugar de 7.
Descargar