Juegos bipersonales de suma nula Juegos semi

Anuncio
y Juegos bipersonales de suma nula
y Juegos semi-infinitos
Mª Enriqueta Vercher González
Universitat de València
Índice
y Introducción
y Juego bipersonal de suma nula
y
Pares de equilibrio
y
Estrategias mixtas
y
Teorema del Minimax
y
Determinación de estrategias óptimas
y Juegos semi-infinitos
y Referencias
Homenaje a Marco A. López Cerdá. Alacant 2010
2
Teoría de Juegos
y La Teoría de Juegos es una colección de modelos
matemáticos formulados para estudiar la toma de
decisiones en ambiente de conflicto y/o cooperación.
y Un juego consta de n jugadores que deben elegir de una
lista de alternativas sobre las que tienen diferentes
preferencias (Von Neumann and Morgenstern, 1944)
y Un juego puede describirse mediante un árbol de
decisión (forma extensiva) o mediante la descripción de
todas las estrategias puras de cada jugador y los pagos
asociados a cada estrategia pura (forma normal).
Homenaje a Marco A. López Cerdá. Alacant 2010
3
Ejemplos
• Juegos n-personales
• Juegos bipersonales
• finitos
• rectangulares de suma nula
• cooperativos: dilema del prisionero
• multi-etápicos
• Juegos de supervivencia
• Juegos estocásticos
• infinitos
• Juegos sobre el cuadrado unidad
• semi-infinitos
Homenaje a Marco A. López Cerdá. Alacant 2010
4
Forma normal de un juego
y Una estrategia pura πi∈Εi para un jugador Ji, i=1,…,n es
un programa completo de acción, que en cualquier
instante del juego dicta la elección a tomar.
y La función de pago a cada jugador explicita el pago que
recibe cada jugador para cada conjunto de estrategias
puras:
Ρi: E1×E2 × … × En→ℜ i=1,…, n
y Un conjunto de estrategias π′ está en equilibrio si y solo si
∀πj∈Εj se tiene que Pj(πj, π′(n -1))≤Ρj(π′), j=1…n
Un jugador racional no deseará separarse de este conjunto
∀π 1 ∈ E1 P1 (π 1 , π 2 ) ≤ P1 (π )
y ∀π 2 ∈ E2 P2 (π 1 , π 2 ) ≤ P2 (π )
Homenaje a Marco A. López Cerdá. Alacant 2010
5
Juego bipersonal de suma nula
y Un juego bipersonal es de suma nula si y solo si para
todo
π ∈ E1 × E2 P1 (π ) + P2 (π ) = 0
y Un juego bipersonal de suma nula (rectangular) queda
definido por los dos conjuntos de estrategias puras y la
función de pago al jugador J1, respectivamente:
E1 = {α1 ,L , α m }, E2 = {β1 ,L , β n } y
P (α i , β j ) = aij
y La función de pago puede representarse mediante una
matriz (m×n), siendo J1 (I) el jugador fila y J2 (II) el
jugador columna.
Homenaje a Marco A. López Cerdá. Alacant 2010
6
Juego bipersonal de suma nula
y Los pares de equilibrio (αi0, βj0) verifican que:
∀i = 1,..., m aij0 ≤ ai0 j0 y ∀j = 1,..., n − ai0 j ≤ − ai0 j0
y Siendo el elemento ai0 j0 el máximo de la columna (j0) y el
mínimo de la fila (i0), es decir es un punto de silla de la
función de pago del jugador I:
∀i = 1,..., m aij0 = P(α i , β j0 ) ≤ ai0 j0 ≤ ai0 j = P (α i0 , β j ) ∀j = 1,..., n
y Los
pares
de
equilibrio
son
equivalentes
intercambiables, y conducen al pago de equilibrio ai0 j0
e
que se conoce como valor del juego.
Homenaje a Marco A. López Cerdá. Alacant 2010
7
Juegos sin puntos de silla
y Para juegos sin puntos de silla no se puede decidir que
estrategia dará mejor resultado al jugador. No se da una
situación de equilibrio y el juego no tiene valor.
y Ejemplo: Consideremos un juego donde E1 = {α1 , α 2 }, E2 = {β1 , β 2 }
con matriz de pagos ⎡4 2⎤
⎢1 3 ⎥
⎣
⎦
y
El beneficio máximo que puede asegurarse I
vI' = max i =1,..,m {min j =1,..,n aij } = max{2,1} = 2
y
El tope a la ganancia de I que puede imponer II
vII' = min j =1,..,n {max i =1,..,m aij } = min{4,3} = 3
Homenaje a Marco A. López Cerdá. Alacant 2010
8
Estrategias mixtas
y Una estrategia mixta es una distribución de probabilidad
sobre el conjunto de estrategias puras. Respectivamente:
m
n
⎧
⎫
⎫
⎧
m
n
X = ⎨ x ∈ ℜ : xi ≥ 0, ∑ xi = 1⎬ e Y = ⎨ y ∈ ℜ : y j ≥ 0, ∑ y j = 1⎬
i =1
j =1
⎭
⎩
⎩
⎭
y El pago esperado si se eligen las estrategias x e y es
m
n
P( x, y ) = ∑∑ xi aij y j = xT Ay
i =1 j =1
y El valor maximin vI y la estrategia maximin x∈X son, resp.
v I = max x∈ X v ( x ) = max x∈ X {min j =1,.., n P ( x , β j )} y v ( x ) = v I
y El valor minimax vII y la estrategia minimax y∈Y son, resp.
v II = min y∈Y v ( y ) = min y∈Y {max i =1,.., m P (α i , y )} y v ( y ) = v II
Homenaje a Marco A. López Cerdá. Alacant 2010
9
Estrategias mixtas
y El valor maximin vI es la ganancia esperada que puede
asegurarse el jugador I si elige una estrategia maximin
x∈X, tal que v(x)=vI.
y El valor minimax vII es el tope a la ganancia esperada del
jugador I si elige una estrategia minimax y∈Y, tal que
v(y)=vII. En particular, v(y0) es la pérdida máxima del
jugador II si elige una estrategia y0∈Y.
y Se tiene, además, que:
vI' ≤ vI ≤ vII ≤ vII'
Homenaje a Marco A. López Cerdá. Alacant 2010
10
Teorema del Minimax
y Un resultado fundamental en la Teoría de Juegos es el
Teorema del Minimax vI = vII mediante el cual se establece
la optimalidad de las estrategias maximin y minimax para
ambos jugadores.
y La primera demostración de este teorema se debe a Von
Neumann (1928), que utilizó un teorema de separación
estricta y un teorema de alternativa (véase Owen, 1968).
y En el libro de Parthasarathy and Raghavan (1971) puede
encontrarse una colección exhaustiva de teoremas
generales del minimax.
Homenaje a Marco A. López Cerdá. Alacant 2010
11
Teorema General del Minimax
X ∈ℜ
m
,Y ∈ℜ
n
Sean
dos conjuntos compactos
convexos no vacíos y sea f : X ×Y → ℜ
Sea fx(.) una función convexa y sc inf para todo x∈X,
f x : Y → ℜ, f x ( y ) = f ( x, y )
Sea fy(.) una función cóncava y sc sup para todo y∈Y,
f y : X → ℜ, f y ( x) = f ( x, y )
Entonces, se tiene que:
max x∈X min y∈Y f ( x, y ) = min y∈Y max x∈X f ( x, y )
Homenaje a Marco A. López Cerdá. Alacant 2010
12
Teorema General del Minimax
y Se sigue de la demostración que existe un punto de silla
(x0,y0) de la función f(x,y).
y Para un juego rectangular (X,Y,A) con función de pago
f(x,y)=xTAy, se demuestra que x0 es una estrategia
maximin e y0 es una estrategia minimax, cumpliéndose
que
max x∈X f ( x, y 0 ) = v = min y∈Y f ( x 0 , y )
y Los conjuntos de estrategias óptimas son:
n
m
⎧
⎫
⎧
⎫
n
m
T
X = ⎨ x ∈ ℜ : xi ≥ 0, ∑ xi = 1, x A ≥ (v,...v)⎬ e Y = ⎨ y ∈ ℜ : y j ≥ 0, ∑ y j = 1, Ay ≤ (v,...v)T ⎬
j =1
i =1
⎩
⎭
⎩
⎭
Homenaje a Marco A. López Cerdá. Alacant 2010
13
Determinación de estrategias óptimas
y Dado que los conjuntos de estrategias óptimas son
poliedros acotados no vacios, para su determinación será
suficiente calcular las estrategias óptimas básicas.
y Teorema (Shapley and Snow, 1950) Para un juego
rectangular (X,Y,A) con valor v≠0. Las estrategias óptimas
( x , y ) ∈ X × Y son básicas si, y solo si, existen S⊂{1,…,m} y
T⊂{1,…,n} tales que la submatriz
xi = 0 ∀ i ∉ S y x
T
A
j
AST
es regular,
= v ∀j∈ T ,
y j = 0 ∀j ∉ T y Ai y = v ∀i ∈ S .
Homenaje a Marco A. López Cerdá. Alacant 2010
14
Determinación de estrategias óptimas
y Aplicando el siguiente procedimiento iterativo se determina
tanto el valor del juego como las estrategias óptimas
básicas:
y Calcular todas las submatrices M (sxs) regulares de A
y Comprobar si se satisfacen simultáneamente:
(i ) v =
1
u sT M −1u s
(ii ) Para xsT = vu sT M −1 , completando con ceros xT A ≥ unT v
(iii ) Para ysT = vu sT M −1 , completando con ceros Ay ≤ u m v
y Tendríamos una solución óptima, siendo básicas las
estrategias óptimas obtenidas.
Homenaje a Marco A. López Cerdá. Alacant 2010
15
Juegos rectangulares y PL
y La equivalencia existente entre un juego rectangular y un
par
de
programas
lineales
duales
simétricos
fue
establecida por Dantzig en 1951.
y Determinar las estrategias óptimas de los jugadores I y II
se sigue de la resolución de los programas
xT um
( I ) Min
s.a. xT A ≥ unT
( II ) Max
s.a.
x ≥ 0m
umT y
Ay ≤ um
y ≥ 0n
y En particular, resulta más sencillo obtener las estrategias
optimas resolviendo el PL asociado al jugador II.
Homenaje a Marco A. López Cerdá. Alacant 2010
16
Juegos semi-infinitos
y Un juego bipersonal de suma nula semi-infinito está
definido por un conjunto de vectores {at , t ∈ T } ⊂ ℜ n
y Los conjuntos de estrategias puras son E1 = T y E2 = {1,..., n}
y La matriz semi-infinita de pagos seria P(t , j ) = atj
y Este tipo de juegos ha sido tratado por Soyster (1975),
cuando T es numerable, aplicando resultados de dualidad
sobre conos.
y Tijs (1979) aplica técnicas de aproximación, usando
subprogramas lineales finitos, para dar una demostración
alternativa del teorema del minimax y prueba que el
jugador II siempre tiene estrategias óptimas.
Homenaje a Marco A. López Cerdá. Alacant 2010
17
Juegos semi-infinitos lineales
Si los jugadores I y II eligen una distribución de probabilidad
discreta sobre sus correspondientes conjuntos de estrategias
puras, se sigue que los conjuntos de estrategias mixtas son:
Jugador I: Γ={λ= (λt)t ∈T/ nº finito de λt≠0, λt ≥0 y ∑ t ∈T λt=1}
Jugador II: Y:={y∈Rn/ ∑ i=1,..,n yi=1, yi ≥0}
Función de pago del jugador I:
P(λ, y)= ∑ t ∈T λt at´y
λ ∈ Γ, y ∈ Y
Los valores maximin y minimax:
vI:=sup λ ∈Γ{minj=1,..,n P(λ, ej)}
vII:= inf y∈Y {sup t ∈T at´y }
Homenaje a Marco A. López Cerdá. Alacant 2010
18
Juegos semi-infinitos lineales
Aplicando el Teorema de alternativa generalizado de
Stiemke: (I) ⇔ no (II) (López y Vercher, 1983), siendo
{
}
( I ) atT x ≤ 0, t ∈ T tiene una solución x 0 tal que atT x 0 ≠ 0 para algun t
( {
( II ) 0 n ∈ int r co at , t ∈ T
})
se demuestra que:
• Teorema del minimax. Cualquier juego semi-infinito lineal
verifica vI=vII.
• Para cualquier juego con valor finito el jugador II siempre
tiene estrategias óptimas.
• Condiciones adicionales para que el jugador I tenga
estrategias óptimas. Por ejemplo, que el conjunto de
vectores {at, t ∈ T} sea compacto (Goberna et al, 1984).
Homenaje a Marco A. López Cerdá. Alacant 2010
19
Juegos semi-infinitos convexos
Sea FT={ft, t ∈T} familia de funciones convexas. Una
estrategia pura del jugador I consiste en elegir una función
de FT.
Los conjuntos de estrategias mixtas se definen:
• Jugador I: Γ={λ= (λt)t ∈T/nº finito λt≠0, λt ≥0, ∑ t ∈T λt=1}
• Jugador II: C:=conjunto cerrado convexo no vacio de Rn
Función de pago del jugador I:
P(λ, x)= ∑ t ∈T λt ft(x)
λ ∈ Γ, x ∈ C
Los valores maximin y minimax son:
vI:=sup l ∈G{inf x∈C P(λ, x)}
vII:= inf x∈C {sup t ∈T ft(x)}
Homenaje a Marco A. López Cerdá. Alacant 2010
20
Teorema del Minimax
Condición (R). Las funciones convexas en FT no tienen
ninguna dirección de recesión común con las direcciones de
recesión de C, i.e. 0+C∩(∩ t ∈T rec ft) = {0}
Teorema (López y Vercher, 1986) Sea (FT, C) un juego semiinfinito que verifique la condición (R), entonces una y solo
una de las siguientes alternativas se cumple:
• Existe un vector x∈C tal que ft(x)≤0 para todo t ∈T
• Existen λ= (λt)t
∈T/nº
finito λt≠0, λt ≥0, tales que para
algun ξ>0 se tiene que ∑ t ∈T λt ft(x) ≥ ξ, para todo x∈C
Homenaje a Marco A. López Cerdá. Alacant 2010
21
Teorema del Minimax
Teorema del minimax (López y Vercher, 1986)
Para cualquier juego semi-infinito (FT, C) que verifique la
condición (R): vI=vII.
Se ha demostrado que:
• Para cualquier (R)-juego semi-infinito, cuyo valor del
juego es finito, el jugador II siempre tiene estrategias
óptimas.
• En las condiciones anteriores, si el conjunto de
vectores L(FT) es compacto (por ejemplo), también el
conjunto de estrategias óptimas del jugador I es no vacio.
Siendo
⎧ ⎡ ut ⎤
⎫
*
n +1
∈
∈
,
u
dom
(
f
),
t
T
⊂
ℜ
L( FT ) = ⎨⎢ *
⎬
⎥ t
f
(
u
)
⎩⎣ t t ⎦
⎭
Homenaje a Marco A. López Cerdá. Alacant 2010
22
Estrategias óptimas
Las estrategias óptimas de los juegos (FT, C) que verifican
la condición (R) y tienen valor cero admiten una curiosa
interpretación geométrica:
• Los únicos hiperplanos que separan L(FT) e hipo IC,
siendo IC(u):= inf x∈C u´x, tienen la ecuación
⎡u ⎤
− 1]⎢ ⎥ = 0
⎣ρ ⎦
[x *,
donde x* es una estrategia óptima de II.
• Si L(FT) es compacto: hipo IC∩co(L(FT) )≠∅. Los vectores
que pertenecen a esta intersección son
⎡u ⎤
⎢ρ ⎥ =
⎣ ⎦
⎡
u
⎤
λu ⎢ c t ⎥
∑
∑
t ∈T u ∈ dom ( f ) ⎣ f t ( u t ) ⎦
c
t
t
t
λt =
∑
ut ∈dom(ftc )
λut
y λ=(λ t) t ∈T es un estrategia óptima del jugador I.
Homenaje a Marco A. López Cerdá. Alacant 2010
23
Estrategias puras óptimas
Si T es el conjunto de estrategias puras del jugador I. Si T
es un conjunto compacto convexo de Rm hemos
caracterizado la existencia de estrategias puras óptimas:
• Sea (FT, C) un juego que verifica la condición (R), tal que
(i) ft(x) es cóncava en t y cont sobre T, para x ∈ C.
Entonces, el valor del juego es finito y el jugador I tiene
estrategias puras óptimas.
• Sea (FT, C) un juego convexo, siendo C compacto tal que
(i) ft(x) es continua sobre T, para cada x ∈ C
(ii) T(x):={t ∈ T/ft(x)=max t ∈ T ft(x)} es convexo.
Entonces, el valor del juego es finito y el jugador I tiene
estrategias puras óptimas.
Homenaje a Marco A. López Cerdá. Alacant 2010
24
Referencias
• G. B. Dantzig, en Activity Analysis of Production and Allocation, Koopmans
(ed), Wiley 1951.
• M. A. Goberna, M.A.Lopez . J. Pastor and E. Vercher (1984) Nieuw Archief
voor Wiskunde (4) 2, 218-234.
• M. A. Lopez and E. Vercher (1983) Cuadernos de Bioestadística y sus
Aplicaciones Informáticas I, 260-266.
• M. A. Lopez and E. Vercher (1986) Journal of Optimization Theory and
Applications 50, 289-312
• G. Owen, Game Theory, Saunders,1968.
• T. Parthasarathy and T. E. S. Raghavan, Some topics in two-person games,
American Elsevier 1971.
• R. T. Rockafellar, Convex Analysis, Princeton Univ. Press, 1970.
• L. S. Shapley and R. N. Snow, en Contributions to the theory of games, vol. I,
Kuhn and Tucker (eds), Princeton Univ. Press, 1950.
• A. L. Soyster (1975) Management Science 21, 806-812
• S. H. Tijs (1979) Nieuw Archief voor Wiskunde 27, 197-214
• J. Von Neumann (1928) Mathematische Annalen 100, 295-320
• J. Von Neumann and O. Morgenstern, Theory of games and Economic
behavior, Princeton Univ. Press, 1970.
Homenaje a Marco A. López Cerdá. Alacant 2010
25
Descargar