y Juegos bipersonales de suma nula y Juegos semi-infinitos Mª Enriqueta Vercher González Universitat de València Índice y Introducción y Juego bipersonal de suma nula y Pares de equilibrio y Estrategias mixtas y Teorema del Minimax y Determinación de estrategias óptimas y Juegos semi-infinitos y Referencias Homenaje a Marco A. López Cerdá. Alacant 2010 2 Teoría de Juegos y La Teoría de Juegos es una colección de modelos matemáticos formulados para estudiar la toma de decisiones en ambiente de conflicto y/o cooperación. y Un juego consta de n jugadores que deben elegir de una lista de alternativas sobre las que tienen diferentes preferencias (Von Neumann and Morgenstern, 1944) y Un juego puede describirse mediante un árbol de decisión (forma extensiva) o mediante la descripción de todas las estrategias puras de cada jugador y los pagos asociados a cada estrategia pura (forma normal). Homenaje a Marco A. López Cerdá. Alacant 2010 3 Ejemplos • Juegos n-personales • Juegos bipersonales • finitos • rectangulares de suma nula • cooperativos: dilema del prisionero • multi-etápicos • Juegos de supervivencia • Juegos estocásticos • infinitos • Juegos sobre el cuadrado unidad • semi-infinitos Homenaje a Marco A. López Cerdá. Alacant 2010 4 Forma normal de un juego y Una estrategia pura πi∈Εi para un jugador Ji, i=1,…,n es un programa completo de acción, que en cualquier instante del juego dicta la elección a tomar. y La función de pago a cada jugador explicita el pago que recibe cada jugador para cada conjunto de estrategias puras: Ρi: E1×E2 × … × En→ℜ i=1,…, n y Un conjunto de estrategias π′ está en equilibrio si y solo si ∀πj∈Εj se tiene que Pj(πj, π′(n -1))≤Ρj(π′), j=1…n Un jugador racional no deseará separarse de este conjunto ∀π 1 ∈ E1 P1 (π 1 , π 2 ) ≤ P1 (π ) y ∀π 2 ∈ E2 P2 (π 1 , π 2 ) ≤ P2 (π ) Homenaje a Marco A. López Cerdá. Alacant 2010 5 Juego bipersonal de suma nula y Un juego bipersonal es de suma nula si y solo si para todo π ∈ E1 × E2 P1 (π ) + P2 (π ) = 0 y Un juego bipersonal de suma nula (rectangular) queda definido por los dos conjuntos de estrategias puras y la función de pago al jugador J1, respectivamente: E1 = {α1 ,L , α m }, E2 = {β1 ,L , β n } y P (α i , β j ) = aij y La función de pago puede representarse mediante una matriz (m×n), siendo J1 (I) el jugador fila y J2 (II) el jugador columna. Homenaje a Marco A. López Cerdá. Alacant 2010 6 Juego bipersonal de suma nula y Los pares de equilibrio (αi0, βj0) verifican que: ∀i = 1,..., m aij0 ≤ ai0 j0 y ∀j = 1,..., n − ai0 j ≤ − ai0 j0 y Siendo el elemento ai0 j0 el máximo de la columna (j0) y el mínimo de la fila (i0), es decir es un punto de silla de la función de pago del jugador I: ∀i = 1,..., m aij0 = P(α i , β j0 ) ≤ ai0 j0 ≤ ai0 j = P (α i0 , β j ) ∀j = 1,..., n y Los pares de equilibrio son equivalentes intercambiables, y conducen al pago de equilibrio ai0 j0 e que se conoce como valor del juego. Homenaje a Marco A. López Cerdá. Alacant 2010 7 Juegos sin puntos de silla y Para juegos sin puntos de silla no se puede decidir que estrategia dará mejor resultado al jugador. No se da una situación de equilibrio y el juego no tiene valor. y Ejemplo: Consideremos un juego donde E1 = {α1 , α 2 }, E2 = {β1 , β 2 } con matriz de pagos ⎡4 2⎤ ⎢1 3 ⎥ ⎣ ⎦ y El beneficio máximo que puede asegurarse I vI' = max i =1,..,m {min j =1,..,n aij } = max{2,1} = 2 y El tope a la ganancia de I que puede imponer II vII' = min j =1,..,n {max i =1,..,m aij } = min{4,3} = 3 Homenaje a Marco A. López Cerdá. Alacant 2010 8 Estrategias mixtas y Una estrategia mixta es una distribución de probabilidad sobre el conjunto de estrategias puras. Respectivamente: m n ⎧ ⎫ ⎫ ⎧ m n X = ⎨ x ∈ ℜ : xi ≥ 0, ∑ xi = 1⎬ e Y = ⎨ y ∈ ℜ : y j ≥ 0, ∑ y j = 1⎬ i =1 j =1 ⎭ ⎩ ⎩ ⎭ y El pago esperado si se eligen las estrategias x e y es m n P( x, y ) = ∑∑ xi aij y j = xT Ay i =1 j =1 y El valor maximin vI y la estrategia maximin x∈X son, resp. v I = max x∈ X v ( x ) = max x∈ X {min j =1,.., n P ( x , β j )} y v ( x ) = v I y El valor minimax vII y la estrategia minimax y∈Y son, resp. v II = min y∈Y v ( y ) = min y∈Y {max i =1,.., m P (α i , y )} y v ( y ) = v II Homenaje a Marco A. López Cerdá. Alacant 2010 9 Estrategias mixtas y El valor maximin vI es la ganancia esperada que puede asegurarse el jugador I si elige una estrategia maximin x∈X, tal que v(x)=vI. y El valor minimax vII es el tope a la ganancia esperada del jugador I si elige una estrategia minimax y∈Y, tal que v(y)=vII. En particular, v(y0) es la pérdida máxima del jugador II si elige una estrategia y0∈Y. y Se tiene, además, que: vI' ≤ vI ≤ vII ≤ vII' Homenaje a Marco A. López Cerdá. Alacant 2010 10 Teorema del Minimax y Un resultado fundamental en la Teoría de Juegos es el Teorema del Minimax vI = vII mediante el cual se establece la optimalidad de las estrategias maximin y minimax para ambos jugadores. y La primera demostración de este teorema se debe a Von Neumann (1928), que utilizó un teorema de separación estricta y un teorema de alternativa (véase Owen, 1968). y En el libro de Parthasarathy and Raghavan (1971) puede encontrarse una colección exhaustiva de teoremas generales del minimax. Homenaje a Marco A. López Cerdá. Alacant 2010 11 Teorema General del Minimax X ∈ℜ m ,Y ∈ℜ n Sean dos conjuntos compactos convexos no vacíos y sea f : X ×Y → ℜ Sea fx(.) una función convexa y sc inf para todo x∈X, f x : Y → ℜ, f x ( y ) = f ( x, y ) Sea fy(.) una función cóncava y sc sup para todo y∈Y, f y : X → ℜ, f y ( x) = f ( x, y ) Entonces, se tiene que: max x∈X min y∈Y f ( x, y ) = min y∈Y max x∈X f ( x, y ) Homenaje a Marco A. López Cerdá. Alacant 2010 12 Teorema General del Minimax y Se sigue de la demostración que existe un punto de silla (x0,y0) de la función f(x,y). y Para un juego rectangular (X,Y,A) con función de pago f(x,y)=xTAy, se demuestra que x0 es una estrategia maximin e y0 es una estrategia minimax, cumpliéndose que max x∈X f ( x, y 0 ) = v = min y∈Y f ( x 0 , y ) y Los conjuntos de estrategias óptimas son: n m ⎧ ⎫ ⎧ ⎫ n m T X = ⎨ x ∈ ℜ : xi ≥ 0, ∑ xi = 1, x A ≥ (v,...v)⎬ e Y = ⎨ y ∈ ℜ : y j ≥ 0, ∑ y j = 1, Ay ≤ (v,...v)T ⎬ j =1 i =1 ⎩ ⎭ ⎩ ⎭ Homenaje a Marco A. López Cerdá. Alacant 2010 13 Determinación de estrategias óptimas y Dado que los conjuntos de estrategias óptimas son poliedros acotados no vacios, para su determinación será suficiente calcular las estrategias óptimas básicas. y Teorema (Shapley and Snow, 1950) Para un juego rectangular (X,Y,A) con valor v≠0. Las estrategias óptimas ( x , y ) ∈ X × Y son básicas si, y solo si, existen S⊂{1,…,m} y T⊂{1,…,n} tales que la submatriz xi = 0 ∀ i ∉ S y x T A j AST es regular, = v ∀j∈ T , y j = 0 ∀j ∉ T y Ai y = v ∀i ∈ S . Homenaje a Marco A. López Cerdá. Alacant 2010 14 Determinación de estrategias óptimas y Aplicando el siguiente procedimiento iterativo se determina tanto el valor del juego como las estrategias óptimas básicas: y Calcular todas las submatrices M (sxs) regulares de A y Comprobar si se satisfacen simultáneamente: (i ) v = 1 u sT M −1u s (ii ) Para xsT = vu sT M −1 , completando con ceros xT A ≥ unT v (iii ) Para ysT = vu sT M −1 , completando con ceros Ay ≤ u m v y Tendríamos una solución óptima, siendo básicas las estrategias óptimas obtenidas. Homenaje a Marco A. López Cerdá. Alacant 2010 15 Juegos rectangulares y PL y La equivalencia existente entre un juego rectangular y un par de programas lineales duales simétricos fue establecida por Dantzig en 1951. y Determinar las estrategias óptimas de los jugadores I y II se sigue de la resolución de los programas xT um ( I ) Min s.a. xT A ≥ unT ( II ) Max s.a. x ≥ 0m umT y Ay ≤ um y ≥ 0n y En particular, resulta más sencillo obtener las estrategias optimas resolviendo el PL asociado al jugador II. Homenaje a Marco A. López Cerdá. Alacant 2010 16 Juegos semi-infinitos y Un juego bipersonal de suma nula semi-infinito está definido por un conjunto de vectores {at , t ∈ T } ⊂ ℜ n y Los conjuntos de estrategias puras son E1 = T y E2 = {1,..., n} y La matriz semi-infinita de pagos seria P(t , j ) = atj y Este tipo de juegos ha sido tratado por Soyster (1975), cuando T es numerable, aplicando resultados de dualidad sobre conos. y Tijs (1979) aplica técnicas de aproximación, usando subprogramas lineales finitos, para dar una demostración alternativa del teorema del minimax y prueba que el jugador II siempre tiene estrategias óptimas. Homenaje a Marco A. López Cerdá. Alacant 2010 17 Juegos semi-infinitos lineales Si los jugadores I y II eligen una distribución de probabilidad discreta sobre sus correspondientes conjuntos de estrategias puras, se sigue que los conjuntos de estrategias mixtas son: Jugador I: Γ={λ= (λt)t ∈T/ nº finito de λt≠0, λt ≥0 y ∑ t ∈T λt=1} Jugador II: Y:={y∈Rn/ ∑ i=1,..,n yi=1, yi ≥0} Función de pago del jugador I: P(λ, y)= ∑ t ∈T λt at´y λ ∈ Γ, y ∈ Y Los valores maximin y minimax: vI:=sup λ ∈Γ{minj=1,..,n P(λ, ej)} vII:= inf y∈Y {sup t ∈T at´y } Homenaje a Marco A. López Cerdá. Alacant 2010 18 Juegos semi-infinitos lineales Aplicando el Teorema de alternativa generalizado de Stiemke: (I) ⇔ no (II) (López y Vercher, 1983), siendo { } ( I ) atT x ≤ 0, t ∈ T tiene una solución x 0 tal que atT x 0 ≠ 0 para algun t ( { ( II ) 0 n ∈ int r co at , t ∈ T }) se demuestra que: • Teorema del minimax. Cualquier juego semi-infinito lineal verifica vI=vII. • Para cualquier juego con valor finito el jugador II siempre tiene estrategias óptimas. • Condiciones adicionales para que el jugador I tenga estrategias óptimas. Por ejemplo, que el conjunto de vectores {at, t ∈ T} sea compacto (Goberna et al, 1984). Homenaje a Marco A. López Cerdá. Alacant 2010 19 Juegos semi-infinitos convexos Sea FT={ft, t ∈T} familia de funciones convexas. Una estrategia pura del jugador I consiste en elegir una función de FT. Los conjuntos de estrategias mixtas se definen: • Jugador I: Γ={λ= (λt)t ∈T/nº finito λt≠0, λt ≥0, ∑ t ∈T λt=1} • Jugador II: C:=conjunto cerrado convexo no vacio de Rn Función de pago del jugador I: P(λ, x)= ∑ t ∈T λt ft(x) λ ∈ Γ, x ∈ C Los valores maximin y minimax son: vI:=sup l ∈G{inf x∈C P(λ, x)} vII:= inf x∈C {sup t ∈T ft(x)} Homenaje a Marco A. López Cerdá. Alacant 2010 20 Teorema del Minimax Condición (R). Las funciones convexas en FT no tienen ninguna dirección de recesión común con las direcciones de recesión de C, i.e. 0+C∩(∩ t ∈T rec ft) = {0} Teorema (López y Vercher, 1986) Sea (FT, C) un juego semiinfinito que verifique la condición (R), entonces una y solo una de las siguientes alternativas se cumple: • Existe un vector x∈C tal que ft(x)≤0 para todo t ∈T • Existen λ= (λt)t ∈T/nº finito λt≠0, λt ≥0, tales que para algun ξ>0 se tiene que ∑ t ∈T λt ft(x) ≥ ξ, para todo x∈C Homenaje a Marco A. López Cerdá. Alacant 2010 21 Teorema del Minimax Teorema del minimax (López y Vercher, 1986) Para cualquier juego semi-infinito (FT, C) que verifique la condición (R): vI=vII. Se ha demostrado que: • Para cualquier (R)-juego semi-infinito, cuyo valor del juego es finito, el jugador II siempre tiene estrategias óptimas. • En las condiciones anteriores, si el conjunto de vectores L(FT) es compacto (por ejemplo), también el conjunto de estrategias óptimas del jugador I es no vacio. Siendo ⎧ ⎡ ut ⎤ ⎫ * n +1 ∈ ∈ , u dom ( f ), t T ⊂ ℜ L( FT ) = ⎨⎢ * ⎬ ⎥ t f ( u ) ⎩⎣ t t ⎦ ⎭ Homenaje a Marco A. López Cerdá. Alacant 2010 22 Estrategias óptimas Las estrategias óptimas de los juegos (FT, C) que verifican la condición (R) y tienen valor cero admiten una curiosa interpretación geométrica: • Los únicos hiperplanos que separan L(FT) e hipo IC, siendo IC(u):= inf x∈C u´x, tienen la ecuación ⎡u ⎤ − 1]⎢ ⎥ = 0 ⎣ρ ⎦ [x *, donde x* es una estrategia óptima de II. • Si L(FT) es compacto: hipo IC∩co(L(FT) )≠∅. Los vectores que pertenecen a esta intersección son ⎡u ⎤ ⎢ρ ⎥ = ⎣ ⎦ ⎡ u ⎤ λu ⎢ c t ⎥ ∑ ∑ t ∈T u ∈ dom ( f ) ⎣ f t ( u t ) ⎦ c t t t λt = ∑ ut ∈dom(ftc ) λut y λ=(λ t) t ∈T es un estrategia óptima del jugador I. Homenaje a Marco A. López Cerdá. Alacant 2010 23 Estrategias puras óptimas Si T es el conjunto de estrategias puras del jugador I. Si T es un conjunto compacto convexo de Rm hemos caracterizado la existencia de estrategias puras óptimas: • Sea (FT, C) un juego que verifica la condición (R), tal que (i) ft(x) es cóncava en t y cont sobre T, para x ∈ C. Entonces, el valor del juego es finito y el jugador I tiene estrategias puras óptimas. • Sea (FT, C) un juego convexo, siendo C compacto tal que (i) ft(x) es continua sobre T, para cada x ∈ C (ii) T(x):={t ∈ T/ft(x)=max t ∈ T ft(x)} es convexo. Entonces, el valor del juego es finito y el jugador I tiene estrategias puras óptimas. Homenaje a Marco A. López Cerdá. Alacant 2010 24 Referencias • G. B. Dantzig, en Activity Analysis of Production and Allocation, Koopmans (ed), Wiley 1951. • M. A. Goberna, M.A.Lopez . J. Pastor and E. Vercher (1984) Nieuw Archief voor Wiskunde (4) 2, 218-234. • M. A. Lopez and E. Vercher (1983) Cuadernos de Bioestadística y sus Aplicaciones Informáticas I, 260-266. • M. A. Lopez and E. Vercher (1986) Journal of Optimization Theory and Applications 50, 289-312 • G. Owen, Game Theory, Saunders,1968. • T. Parthasarathy and T. E. S. Raghavan, Some topics in two-person games, American Elsevier 1971. • R. T. Rockafellar, Convex Analysis, Princeton Univ. Press, 1970. • L. S. Shapley and R. N. Snow, en Contributions to the theory of games, vol. I, Kuhn and Tucker (eds), Princeton Univ. Press, 1950. • A. L. Soyster (1975) Management Science 21, 806-812 • S. H. Tijs (1979) Nieuw Archief voor Wiskunde 27, 197-214 • J. Von Neumann (1928) Mathematische Annalen 100, 295-320 • J. Von Neumann and O. Morgenstern, Theory of games and Economic behavior, Princeton Univ. Press, 1970. Homenaje a Marco A. López Cerdá. Alacant 2010 25