Master en Economía y desarrollo Matemáticas II

1 Master en Economía y desarrollo Matemáticas II Teoría d...
Author: Silvia Olivera Alvarado
0 downloads 4 Views

1 Master en Economía y desarrollo Matemáticas II Teoría de juegos y oligopolio Fundamentos Jesús Muñoz San Miguel

2 Análisis económicos de los mercados de competencia imperfecta Antoine A. Cournot (1801‑1877) Recherches sur les principes mathématiques de la théorie des richesses, 1838 Joseph L. F. Bertrand ( ) Théorie Mathématique de la Richesse Sociale 1883 Francis Y. Edgeworth ( ) The pure theory of monopoly 1889 Fundamentos teóricos John von Neumann ( ) Theory of Games and Economic Behavior (1944) John F. Nash ( ) Equilibium Points in n-person Games (1950) Lloyd S. Shapley (1923-) A Value for n-person Games (1953) Reinhard Selten (1930-) Equilibrio perfecto en subjuegos (1965) John Harsanyi ( ) Juegos bayesianos (1967) Premios Nobel de Economía John Harsanyi , John Nash y Reinhard Selten 1994. Thomas Schelling y Robert Aumann 2005 Roger Myerson, Leonid Hurwicz y Eric Maskin 2007 Lloyd Shapley y Alvin Roth 2012 Precursores: Análisis económicos de los mercados de competencia imperfecta Origen estrategia militar

3 Games Theory Notes based on Strategies and Games: theory and practice by Prajit K. DuttaIntroduction Block I: Strategic Form Games Theme 1: Strategic Form Theme 2: Dominance Solvability Theme 3: Nash Equilibrium Theme 4: Mixed Strategies Theme 5: Symmetric Games Theme 6: Zero-Sum Games Block II: Extensive Form Games Theme 7: Extensive Form Theme 8: Backward Induction Theme 9: Subgame Perfect Equilibrium Theme 10: Finitely Repeated Games Theme 11: Infinitely Repeated Games Theme 12: Dynamic Games

4 Teoría de juegos Estudia las decisiones de un conjunto de individuos cuyos resultados se ven afectados por las decisiones tomadas por cada individuo dentro del grupo. Teoría formal que analiza la interacción entre un grupo de agentes racionales que se comportan estratégicamente. Grupo En cualquier juego hay más de un individuo que toma decisiones, cada individuo que toma decisiones es un "jugador". Interacción Lo que cualquier jugador individual hace afecta directamente al menos a otro jugador en el grupo. Estratégica Un jugador individual tiene en cuenta esta interdependencia para decidir qué acción tomar. Racional Cada jugador escoge su mejor acción.

5 Tipos de Juegos Juegos Cooperativos: Los jugadores pueden llegar a acuerdos Juegos No Cooperativos: No hay acuerdo previo. Juegos estáticos: las decisiones se toman simultáneamente (cada jugador decide sin saber lo que han decidido los demás) Juegos dinámicos: las decisiones se toman secuencialmente Juegos con información completa: todos los jugadores conocen las consecuencias del conjunto de decisiones tomadas. Juegos con información incompleta: algún jugador desconoce alguna de esas consecuencias.

6 INTRODUCCIÓN El dilema del prisionero: Dos delincuentes son detenidos y encerrados en celdas de aislamiento de forma que no pueden comunicarse entre ellos. El alguacil sospecha que han participado en el robo del banco, delito cuya pena es 15 años de cárcel, pero no tiene pruebas. Sólo tiene pruebas y puede culparles de un delito menor, tenencia ilícita de armas, cuyo castigo es de un año de cárcel. Promete a cada uno de ellos un trato si confiesan. Si uno confiesa y el otro no, el que confiesa quedará libre y si confiesan ambos los condenará a siete años. La Batalla de los Sexos Antonio y Rosa deben decidir entre ir a la opera o ir al fútbol. Antonio prefiere el fútbol y Rosa la ópera, aunque ambos prefieren ir juntos sea a lo que sea. No pueden acordar previamente la cita y tienen que tomar una decisión simultánea e independiente. Juego de las monedas (matching pennies) Dos jugadores, cada uno con una moneda de un euro, deciden simultánea e independientemente escoger cara o cruz. Si la selección es la misma, el jugador 2 le da su moneda al jugador 1. Si no es así, el jugador 1 le da su moneda al jugador 2. Juego del gallina (chicken) o del halcón frente a la paloma (hawk-dove) Dos conductores conducen uno hacia el otro. Justo antes de alcanzarse, cada jugador decide si mantenerse recto o desviarse. Si ambos cambian de dirección salvan sus vidas y si la mantienen mueren. Si uno cambia de dirección y el otro la mantiene el que cambia de dirección pierde su prestigio y queda como un gallina (pero vivo) y el que no cambia queda como campeón.

7 INTRODUCCIÓN Soluciones de un juego Una solución de un juego es una descripción sistemática del resultado esperable de la interacción de los jugadores en el juego. Dominancia identificación de estrategias que un jugador racional no jugaría Estabilidad equilibrio mediante estrategias en las cuales no existen incentivos a desviarse Seguridad identificación de estrategias que garantizan cierta utilidad en el peor caso Suponemos que todos los jugadores son racionales, escogen su estrategia de forma independiente de los demás y buscan maximizar su pago neto Suponemos que todos los jugadores conocen todos los elementos del juego y que saben que los demás jugadores saben que los demás son racionales e inteligentes (la racionalidad de los jugadores y la inteligencia de los mismos es conocimiento común). Se utiliza el concepto de inteligencia para hablar del conocimiento que tienen los jugadores del juego (se pueden considerar diferentes niveles de inteligencia) Todo concepto de solución de un juego está basado en un supuesto sobre la racionalidad, el nivel de inteligencia de los agentes y las restricciones sobre las estrategias

8 El dilema del prisioneroFORMA ESTRATÉGICA DE UN JUEGO. Un juego en forma estratégica viene definido por: 1 La lista completa de jugadores 2 Los conjuntos de todas las posibles estrategias para cada uno de los jugadores 3 Las función de pagos de cada uno de los jugadores Cuando hay 2 jugadores y un número finito de estrategias para cada jugador se representará en formato tabla (matriz estratégica). Las filas representan las estrategias del jugador 1. Las columnas representan las estrategias del jugador 2. Cada par en la celda representa las respectivas funciones de pagos de cada jugador asociada al correspondiente perfil de estrategias El dilema del prisionero CONFESAR NO CONFESAR 0,0 7,-2 -2,7 5,5

9 FORMA ESTRATÉGICA DE UN JUEGO.Conjunto de estrategias del jugador i, 𝑆 𝑖 ={ 𝑠 𝑖 1 , 𝑠 𝑖 2 ,…, 𝑠 𝑖 𝑚 𝑖 } Una estrategia concreta del jugador i se denotará por 𝑠 𝑖 ∈𝑆 𝑖 Perfil de estrategias : Vector de estrategias, una para cada jugador (una elección estratégica de todos los jugadores), 𝑠=( 𝑠 1 , 𝑠 2 ,…, 𝑠 𝑛 ) Conjunto total de perfiles de estratégias 𝑆= 𝑆 1 × 𝑆 2 ×…× 𝑆 𝑛 Perfil de estrategias de todos los jugadores excepto i (elección estratégica de todos los demás jugadores distintos de i), 𝑠 −𝑖 =( 𝑠 1 ,…, 𝑠 𝑖−1, 𝑠 𝑖+1 ,…, 𝑠 𝑛 ) Por tanto, cualquier perfil de estrategias s =( 𝑠 𝑖, 𝑠 −𝑖 ) ∈𝑆 𝑖 × 𝑆 −𝑖 Función de pagos para el jugador i: 𝜋 𝑖 :𝑆→ℝ 𝜋 𝑖 𝑠 1 , 𝑠 2 ,…, 𝑠 𝑛 = 𝜋 𝑖 ( 𝑠 𝑖, 𝑠 −𝑖 )

10 FORMA ESTRATÉGICA DE UN JUEGO.La Batalla de los Sexos Juego de las monedas (matching pennies) Juego del gallina (chicken) o del halcón frente a la paloma (hawk-dove) OPERA FUTBOL 1,3 0,0 3,1 CARA CRUZ 1,-1 -1.1 -1,1 CEDE MANTIENE 5,5 0,10 10,0 -1,-1

11 MODELOS DE OLIGOPOLIO competencia perfecta empresas numerosas y de reducida dimensión ninguna es capaz de influir notablemente en la producción total de mercado o en el precio. monopolio una única empresa domina el mercado reduce la producción y eleva los precios para maximizar sus beneficios oligopolio número reducido de empresas controlan gran parte de la oferta del mercado y buscan maximizar sus beneficios influyendo en el precio o la producción El oligopolista sabe que su tamaño es suficiente para que su decisión final influya sobre el precio o la producción del mercado y que sus rivales son de dimensión similar y sus decisiones también influyen sobre el precio o la producción del mercado

12 MODELOS DE OLIGOPOLIO Las empresas están interrelacionadas, son conscientes de esta interrelación y desarrollan estrategias para intentar conseguir una ventaja sobre sus rivales. La cantidad producida para el mercado y el precio al que se vende depende completamente de las decisiones del grupo de empresas modelo de Cournot el oligopolista compite fijando los niveles de producción modelo de Bertrand el oligopolista elige el precio al que vender sus productos Si la capacidad y producción pueden ser fácilmente modificadas, el modelo de Bertrand es generalmente el mejor modelo de competencia. Contrariamente, si la producción y la capacidad son difíciles de ajustar, el de Cournot es generalmente un modelo mejor.

13 (lineal f Q =𝑎−𝑏𝑄, 0MODELOS DE OLIGOPOLIO modelo de Cournot   Las empresas venden productos homogéneos. La variable estratégica es la cantidad de producción del bien 𝑞 𝑖 ∈ℝ. Cada empresa decide independiente y simultáneamente la cantidad que producirá. No enfrentan restricciones de capacidad y pueden servir toda la demanda que reciban. El precio depende de la producción total del mercado, Q, y viene dado por una función inversa de demanda, p=f Q (lineal f Q =𝑎−𝑏𝑄, 0 Los costes dependen de la producción de la empresa y vienen dados por una función 𝐶 𝑖 q i Los beneficios de cada empresa dependen de la cantidad producida por ella y por sus rivales vía precio π i q i , Q i = q i f Q − 𝐶 𝑖 q i

14 MODELOS DE OLIGOPOLIO modelo de Bertrand  Las empresas venden productos homogéneos. La variable estratégica es el precio del bien 𝑝 𝑖 ∈ℝ. Cada empresa decide independiente y simultáneamente el precio al que venderá. No enfrentan restricciones de capacidad y pueden servir toda la demanda que reciban. Los consumidores compran todo a la empresa con el precio más bajo. Si todas las empresas cobran el mismo precio, la demanda se reparte entre las empresas que cobran el menor precio. La curva de demanda es decreciente y está dada por Q (p), donde p es el menor de los precios (lineal Q(p)=𝛼−𝛽𝑝) Los costes dependen de la producción de la empresa y vienen dados por una función 𝐶 𝑖 q i Los beneficios de cada empresa dependen del precio fijado por ella y por sus rivales π i p i , P i = 0 ∃ 𝑝 𝑗 : 𝑝 𝑗 < p i 𝑝𝑄 𝑝 − 𝐶 𝑖 (𝑄 𝑝 ) ∀ 𝑝 𝑗 : 𝑝 𝑗 > p i 𝑝𝑄 𝑝 /𝑘− 𝐶 𝑖 (𝑄 𝑝 /𝑘) ∃ 𝑝 𝑗 1 ,…, 𝑝 𝑗 𝑘 : p i =𝑝 𝑗 1 =…= 𝑝 𝑗 𝑘 (𝑐.𝑐.)

15 MODELOS DE OLIGOPOLIO Duopolio de Bertrand con precios discretos Cada empresa decide independiente y simultáneamente el precio al que venderá. Los consumidores compran todo a la empresa con el precio más bajo. Si las empresas cobran el mismo precio, la demanda se reparte entre ellas La curva de demanda es lineal y está dada por Q(p)=6-p, donde p es el menor de los precios. Los precios están en unidades de dólar y pueden ser 0, 1, 2, 3, 4, 5, o 6. No hay costes de producción. 1 2 3 4 5 6 0,0 2.5,2.5 5,0 0,5 4,4 8,0 0,8 4.5,4.5 9,0 0,9

16 RESOLUCIÓN POR DOMINANCIAEstrategias Dominantes Se dirá que la estrategia 𝑠 𝑖 ′ , domina fuertemente a 𝑠 𝑖 ∗ si 𝜋 𝑖 ( 𝑠 𝑖 ′ ,)> 𝜋 𝑖 ( 𝑠 𝑖 ∗ , 𝑠 −𝑖 ) ∀ 𝑠 −𝑖 Si la estrategia 𝑠 𝑖 domina fuertemente a todas las demás estrategias del jugador i se dirá que es fuertemente dominante y cualquier otra estrategia se dirá que es fuertemente dominada. Se dirá que la estrategia 𝑠 𝑖 ′ domina débilmente a 𝑠 𝑖 ∗ si 𝜋 𝑖 ( 𝑠 𝑖 ′ , 𝑠 −𝑖 )≥ 𝜋 𝑖 ( 𝑠 𝑖 ∗ , 𝑠 −𝑖 ) ∀ 𝑠 −𝑖 ∃ 𝑠 −𝑖 𝜋 𝑖 ( 𝑠 𝑖 ′ , 𝑠 −𝑖 )> 𝜋 𝑖 ( 𝑠 𝑖 ∗ , 𝑠 −𝑖 ) Si la estrategia 𝑠 𝑖 ′ i domina débilmente a cualquier otra estrategia se dirá que es débilmente dominante y cualquier otra estrategia se dirá que es débilmente dominada. Un jugador tiene a lo sumo una estrategia dominante (fuerte o débil). Si todos los jugadores tienen una estrategia dominante (fuerte o débil) se dirá que el juego tiene una solución estratégica dominante (ésta será la solución del juego). CONFESAR NO CONFESAR 0,0 7,-2 -2,7 5,5

17 RESOLUCIÓN POR DOMINANCIADuopolio de Bertrand con precios discretos Demostrar que la estrategia de fijar un precio de 5$ domina la estrategia de fijar un precio de 6$. ¿Débilmente o fuertemente? ¿Existen otras estrategias dominadas para la empresa 1? ¿Existe una estrategia dominante para la empresa 1? 1 2 3 4 5 6 0,0 2.5,2.5 5,0 0,5 4,4 8,0 0,8 4.5,4.5 9,0 0,9

18 RESOLUCIÓN POR DOMINANCIAEl equilibrio en estrategias dominantes es un concepto de equilibrio muy fuerte desde el punto de vista estratégico (requiere de la existencia de estrategias dominantes para cada jugador). Sin embargo, es muy débil desde el punto de vista de la racionalidad e inteligencia que se supone de los jugadores. El equilibrio en estrategias dominantes estrictamente se basa en una hipótesis de comportamiento débil: los individuos no juegan estrategias dominadas estrictamente. Luego, al existir una estrategia dominante estrictamente, es la única a considerar como racional Estas características hacen que este concepto de solución sea muy fuerte y que no exista en muchos ejemplos. El concepto de estrategias dominadas y la racionalidad de los jugadores sugiere una forma de identificar un conjunto de estrategias de las cuales se podría afirmar que en cualquier resultado de un juego deberían estar.

19 RESOLUCIÓN POR DOMINANCIASOLUCIÓN IEDS (iterated elimination of dominated strategies) Partiendo de la matriz de pagos, en el primer paso, se eliminan las estrategia dominadas. Esto se traduce en un nuevo juego más pequeño. Este primer paso se repite sucesivamente creando cada vez un juego más pequeño hasta que el proceso se detiene. Cuando la eliminación de estrategias dominadas deje como resultado una única estrategia para cada jugador, ese conjunto de estrategias se denomina solución por IEDS Ejemplo (Modelo simple de Bertrand) Firm 1 \ Firm 2 high medium low High 4, 4 0, 9 0, 8 9, 0 4.5, 4.5 Low 8, 0 Firm 1 \ Firm 2 medium low 4.5, 4.5 0,8 8,0 4,4 Firm 1 \ Firm 2 low 4,4

20 RESOLUCIÓN POR DOMINANCIAEl concepto de estrategias no dominadas iterativamente enmarca los requerimientos mínimos que debe tener cualquier candidato a solución de un juego y es un concepto muy débil desde el punto de vista estratégico que en ocasiones no provee de ninguna información adicional sobre cómo se comportarán los jugadores en un juego. La idea de eliminación de estrategias dominadas iterativamente supone algo más de inteligencia por parte de los jugadores, relacionada con qué conoce uno sobre lo que los demás hacen. Específicamente, la hipótesis de comportamiento es que ningún jugador juega una estrategia dominada y se supone una forma débil de inteligencia, la idea de que todo jugador sabe que el otro no jugará una estrategia dominada y a su vez, cada uno de ellos sabe que el otro sabe, etc. Las hipótesis de racionalidad y conocimiento común sobre la inteligencia de los jugadores permiten, en principio, considerar como irracionales algunas otras estrategias que no son eliminadas por el proceso de eliminación de estrategias dominadas estrictamente. El conjunto de estrategias que sobrevive al proceso de eliminación cambia si se permite la eliminación de estrategias débilmente dominadas pudiendo obtener un menor número de estrategias como resultado del proceso (el orden de eliminación puede influir en el resultado)

21 RESOLUCIÓN POR DOMINANCIA Ejercicio Duopolio de Bertrand con precios discretos Demostrar que la fijación de un precio de 6 dólares es una estrategia débilmente dominada. ¿Qué pasa con la estrategia de fijar un precio de $4? ¿Y de $5? Calcular el precio al que una empresa monopolista maximiza beneficios. Dar una razón por la cual en un modelo de competencia de precios una firma en duopolio nunca querría fijar el precio por encima del precio de monopolio. ¿Qué sucede con la estrategia de fijar un precio de 0 dólares? Demostrar que cuando restringimos la atención a los precios de 1, 2 y 3 dólares, el (monopolio) precio de 3 dólares es una estrategia dominada. Argumentar que el resultado único por IEDS es para las dos empresas fijar el precio en 1 dólar (menor precio al que tienen beneficios positivos) 1 2 3 4 5 6 0,0 2.5,2.5 5,0 0,5 4,4 8,0 0,8 4.5,4.5 9,0 0,9

22 RESOLUCIÓN POR DOMINANCIA (ejercicio evaluable 1)Bertrand price competition There is a more general result about price competition. In any model of duopoly price competition with zero costs the IEDS outcome is the lowest price at which each firm makes a positive profit, that is, a price equal to a dollar.  a) Suppose, without loss of generality, that the monopoly price pm is 2 dollars or greater and Q(p)=D(p), where D(p) is a downward sloping function  Show, by using similar logic to previous question, that charging a price above the monopoly price pm is a dominated strategy. Show that, as a consequence, charging price pm - 1 dominates the monopoly price. Hint: Show that 𝑝 𝑚 𝐷 𝑝 𝑚 ≤ (𝑝 𝑚 −1)𝐷 𝑝 𝑚 −1 . Hint for the hint: What about 𝑝 𝑚 versus 𝑝 𝑚 −1? What about D(pm) versus D( 𝑝 𝑚 −1)? Generalize the above argument to show that if it is known that no price greater than p will be charged by either firm, then p is dominated by the strategy of undercutting to a price of p - 1, provided 2≤ p. Conclude from above that the IEDS price must be, again, 1 dollar for each firm. b) Suppose, finally, that costs are not zero. Can you sketch an argument to show that all of the previous results hold as long as the profits from undercutting to price p - 1 (and serving the entire market as a consequence) are higher than the profits from sharing the market at price p?

23 U M D ESTRATEGIAS RACIONALIZABLESDado un jugador i y fijado un perfil de estrategias para el resto de jugadores 𝑠 −𝑖 se dirá que la estrategia 𝑠 𝑖 es una mejor respuesta a 𝑠 −𝑖 si se verifica que: 𝜋 𝑖 𝑠 𝑖 ; 𝑠 −𝑖 ≥ 𝜋 𝑖 𝑠′ 𝑖 ; 𝑠 −𝑖 ∀ 𝑠′ 𝑖 Una mejor respuesta del jugador i a un perfil de estrategias del resto de jugadores 𝑠 −𝑖 i se denotará por 𝑏 𝑖 ( 𝑠 −𝑖 ) Una estrategia 𝑠 𝑖 nunca es una mejor respuesta si no existe 𝑠 −𝑖 tal que 𝑠 𝑖 sea una mejor respuesta a 𝑠 −𝑖 Las estrategias que sobreviven a un proceso de eliminación iterativo de estrategias que nunca son mejor respuesta reciben el nombre de estrategias racionalizables Ejemplo L C R U 1,1 2,2 3,0 M 2,4 1,3 2,0 D 4,2 0,1

24 ESTRATEGIAS RACIONALIZABLES Duopolio de Bertrand con precios discretos¿Cuál es el conjunto de estrategias racionalizables? Una estrategia estrictamente dominada nunca es una mejor respuesta pero una estrategia dominada débilmente si puede ser una mejor respuesta Las estrategias racionalizables sobreviven al IEDS mediante dominancia estricta pero pueden no sobrevivir al IEDS mediante dominancia débil. Consecuencia El concepto de eliminación iterativa de estrategias débilmente dominadas no tiene bases racionales tan sólidas como el concepto basado en eliminación estricta. 1 2 3 4 5 6 0,0 2.5,2.5 5,0 0,5 4,4 8,0 0,8 4.5,4.5 9,0 0,9

25 EQUILIBRIO DE NASH Un perfil de estrategias 𝑠′ 1 ; 𝑠′ 2 ;…; 𝑠′ 𝑁 es un equilibrio de Nash si la estrategia de todo jugador en el perfil es mejor respuesta a las estrategias de los rivales en el perfil . 𝑠′ 𝑖 =𝑏 𝑖 𝑠′ −𝑖 ∀i = 1; 2; ; N Equivalentemente, para todo jugador i y para todo perfil de estrategias del jugador 𝑠 𝑖 𝜋 𝑖 𝑠′ 𝑖 ; 𝑠′ −𝑖 ≥ 𝜋 𝑖 𝑠 𝑖 ; 𝑠 ′ −𝑖 ∀ 𝑠 𝑖 ∀i = 1; 2; ; N Si un perfil de estrategias no es un equilibrio de Nash al menos a un jugador le interesa cambiar de estrategia (desviarse del perfil) El equilibrio de Nash es un concepto más débil en términos estratégicos que el equilibrio en estrategias dominantes pero más fuerte en términos de la inteligencia que se supone tienen los jugadores. En éste es necesario que los agentes tengan una expectativa correcta sobre lo que los demás van a jugar y viceversa Todo equilibrio de Nash sobrevive el proceso de eliminación de estrategias dominadas estrictamente pero puede no sobrevivir a la eliminación de estrategias dominadas débilmente.

26 EQUILIBRIO DE NASH El dilema del prisionero La Batalla de los Sexos Juego de las monedas (matching pennies) Juego del gallina (chicken) o del halcón frente a la paloma (hawk-dove) CONFESAR NO CONFESAR 0,0 7,-2 -2,7 5,5 OPERA FUTBOL 1,3 0,0 3,1 CARA CRUZ 1,-1 -1, 1 -1,1 CEDE MANTIENE 5,5 0,10 10,0 -1,-1

27 MODELOS DE COMPETENCIA EN CANTIDADESModelo de Cournot (duopolio con demanda lineal y costes marginales constantes) En el operan 2 empresas que compiten fijando la producción simultáneamente. El objetivo de las empresas es obtener el máximo beneficio posible, por lo la empresa 1 se enfrenta al problema de optimización max { 𝑞 1 ∈ℝ} 𝜋 1 𝑞 1 , 𝑞 2 = max 𝑞 1 ∈ℝ 𝑞 1 𝑎−𝑏( 𝑞 1 + 𝑞 2 ) −𝑐 𝑞 1 . la condición de primer orden es 𝜕 𝜋 1 𝑞 1 , 𝑞 2 𝜕 𝑞 1 = 𝑎−2𝑏 𝑞 1 −𝑏 𝑞 2 −𝑐=0 la condición de segundo orden es 𝜕 2 𝜋 1 𝑞 1 , 𝑞 2 𝜕 𝑞 =−2𝑏≤0 Resolviendo la condición de primer orden para 𝑞 𝑖 obtenemos su curva de reacción 𝑞 1 =𝑅 𝑞 2 = 𝑎−𝑐 2𝑏 − 1 2 𝑞 2 Análogamente para la empresa 2 𝑞 2 =𝑅 𝑞 1 = 𝑎−𝑐 2𝑏 − 1 2 𝑞 1 El equilibrio de Cournot-Nash verifica 𝑞 1 = 𝑞 2 = 𝑎−𝑐 3𝑏 𝑝= 𝑎+2𝑐 3 𝜋 𝑖 = ( 𝑎−𝑐) 2 9𝑏

28 MODELOS DE COMPETENCIA EN CANTIDADES Colusión en cartel (con demanda lineal y costes marginales constantes) El problema de optimización es max { 𝑞 1 , 𝑞 2 ∈ℝ} ( 𝜋 1 𝑞 1 , 𝑞 𝜋 2 𝑞 1 , 𝑞 2 ) Cuando ambas empresas producen lo mismo ( 𝑞 1 = 𝑞 2 = 𝑞 2 ) max 𝑞∈ℝ 𝑞 𝑎−𝑏𝑞 −𝑐𝑞 la condición de primer orden es 𝜕 𝜋 1 𝑞 𝜕𝑞 = 𝑎−2𝑏𝑞−𝑐=0 la condición de segundo orden es 𝜕 2 𝜋 1 𝑞 1 , 𝑞 2 𝜕 𝑞 =−2𝑏<0 La cantidad producida por cada una es 𝑞 𝐶 = 𝑞 2 = 𝑎−𝑐 4𝑏 El precio es 𝑝= 𝑎+𝑐 2 El Beneficio para cada empresa en el cártel es 𝜋 𝑖 = ( 𝑎−𝑐) 2 8𝑏 Incumplimiento del acuerdo La mejor respuesta a la cantidad de cártel es 𝑞 𝑅 =𝑅 𝑞 𝐶 = 3(𝑎−𝑐) 8𝑏 El Beneficio para la empresa que incumple el acuerdo 9( 𝑎−𝑐) 2 64𝑏 El Beneficio para la empresa que cumple el acuerdo 3( 𝑎−𝑐) 2 32𝑏

29 MODELOS DE COMPETENCIA EN CANTIDADESModelo de Stackelberg (las dos empresas eligen cantidades de forma secuencial) Si la empresa 1 decide sobre su cantidad antes que la empresa 2, la decisión de la empresa 2 se toma cuando ya se sabe lo que la empresa 1 se ha comprometido a producir y la empresa 2 no puede hacer nada mejor que dar su mejor respuesta R2 (Q1) a la producción Q1 de la empresa 1 En otras palabras, la empresa 1 debe resolver el siguiente problema de optimización. 𝑀𝑎𝑥 𝑄1 𝜋 1 [𝑄1+ 𝑅 2 𝑄1 ]= 𝑀𝑎𝑥 𝑄1 [𝑎−𝑏(𝑄1+ 𝑅 2 (𝑄1))−𝑐)𝑄1]= 𝑀𝑎𝑥 𝑄 [(𝑎−𝑏𝑄1−𝑐)𝑄1]  Se desprende de la condición de primer orden que la elección óptima es 𝑄 1 ∗ = 𝑎−𝑐 2𝑏 Podemos concluir a partir de la función de reacción de la empresa 2 que 𝑄 2 ∗ = 𝑎−𝑐 4𝑏 Los beneficios de la empresa 1 son más altos en la solución de Stackelberg que en el equilibrio de Nash, pero los de la empresa 2 son más pequeños. Al comprometerse a producir más que en el equilibrio de Nash, la empresa 1 fuerza a la empresa 2 a una reducción en la producción propia. Este compromiso mantiene el precio relativamente alto (menor que en la solución de cártel) La empresa 1 obtiene dos tercios del mercado y la empresa 2 un tercio (a diferencia de la cuota de mercado de la mitad para cada uno en el equilibrio de Nash).

30 MODELOS DE COMPETENCIA EN CANTIDADESOptimalidad en el sentido de Pareto Un perfil de estrategias 𝑠 1 ; 𝑠 2 ;…; 𝑠 𝑁 es dominado en el sentido de Pareto por otro perfil 𝑠′ 1 ; 𝑠′ 2 ;…; 𝑠′ 𝑁 si 𝜋 𝑖 𝑠′ 1 ; 𝑠′ 2 ;…; 𝑠′ 𝑁 ≥ 𝜋 𝑖 𝑠 1 ; 𝑠 2 ;…; 𝑠 𝑁 y es estrictamente mayor para algún jugador. Un resultado es óptimo en el sentido de Pareto si no es Pareto dominado por ningún otro resultado. Duopolio de Cournot El ejemplo del dilema del prisionero y el problema de la colusión muestran que un equilibrio de Nash puede ser dominado en el sentido de Pareto. Dicho de otro modo, en el equilibrio de Nash nadie tiene incentivo para desviarse unilateralmente, pero todos pueden beneficiarse de un desvío coordinado y simultáneo. Competir Coludir ( 𝑎−𝑐) 2 9𝑏 , ( 𝑎−𝑐) 2 9𝑏 9( 𝑎−𝑐) 2 64𝑏 , 3( 𝑎−𝑐) 2 32𝑏 3( 𝑎−𝑐) 2 32𝑏 , 9( 𝑎−𝑐) 2 64𝑏 ( 𝑎−𝑐) 2 8𝑏 , ( 𝑎−𝑐) 2 8𝑏

31 MODELOS DE COMPETENCIA EN CANTIDADES (ejercicio evaluable 2)Differentiated goods duopoly model Suppose that the two firms produce slightly different products and, as a consequence, the first firm's price is more sensitive to its own product than that of firm 2. Any quantity can be produced and cost of producing a unit is the same for both firms and equal to c dollars (outputs be denoted by q1 and q2). The demand curves are (b, d> 0 ; a > c) 𝑝 1 =𝑎−𝑏 𝑞 1 −𝑑 𝑞 𝑝 2 =𝑎−𝑑 𝑞 1 −𝑏 𝑞 2 . Set up the best response problem for firm 1 and show that its best response function is given by 𝑅 1 𝑄2 = 𝑎−𝑐−𝑑𝑄2 2𝑏 𝑄2≤ 𝑎−𝑐 𝑑 0 𝑄2≥ 𝑎−𝑐 𝑑 Compute the Cournot Nash equilibrium of this model. Show that even in this model, the cartel produces less than what gets produced in the Cournot Nash equilibrium. Show that the ratio of cartel output to Nash equilibrium output is greater than the corresponding ratio in the homogeneous-good case (3/4) if and only if b > d. Suppose instead that the effect of the other firm's production is positively felt; that is, d << 0 (assume also that b + d > 0). Compute the Cournot Nash equilibrium of this model and the cartel quantities. How does the Nash equilibrium output compare with the cartel output?

32 ESTRATEGIAS MIXTAS Una estrategia mixta es una distribución de probabilidad sobre el conjunto de estrategias puras del jugador i. 𝑆 𝑖 ={ 𝑠 𝑖 1 , 𝑠 𝑖 2 ,…, 𝑠 𝑖 𝑚 𝑖 }. Es decir, un vector de probabilidad 𝜎 𝑖 ={ 𝜎 𝑖 1 , 𝜎 𝑖 2 ,…, 𝜎 𝑖 𝑚 𝑖 } que determina la probabilidad con la que se jugará cada una de las estrategias puras. Se denotará por ∆(Si) al conjunto de estrategias mixtas del jugador i: Nota: Toda estrategia pura es, en particular, una estrategia mixta: Supongamos que i juega la estrategia mixta 𝜎 𝑖 ={ 𝜎 𝑖 1 , 𝜎 𝑖 2 ,…, 𝜎 𝑖 𝑚 𝑖 } (y el resto de jugadores juega 𝑠 −𝑖 entonces la función de pagos asociada viene dado por la función de utilidad esperada de Von Neuman-Morgensten 𝜋 𝑖 ( 𝜎 𝑖 , 𝑠 −𝑖 )= 𝜎 𝑖 1 𝜋 𝑖 ( 𝑠 𝑖 1 , 𝑠 −𝑖 )+ 𝜎 𝑖 2 𝜋 𝑖 ( 𝑠 𝑖 2 , 𝑠 −𝑖 )+…+ 𝜎 𝑖 𝑚 𝑖 𝜋 𝑖 ( 𝑠 𝑖 𝑚 𝑖 , 𝑠 −𝑖 ) Si los otros jugadores juegan también una estrategia mixta 𝜎 −𝑖 ={ 𝜎 −𝑖 1 , 𝜎 −𝑖 2 ,…, 𝜎 −𝑖 𝑚 −𝑖 } entonces la función de pagos es 𝜋 𝑖 ( 𝜎 𝑖 , 𝜎 −𝑖 )= 𝜎 −𝑖 1 𝜋 𝑖 ( 𝜎 𝑖 ,𝑠 −𝑖 1 ) + 𝜎 −𝑖 2 𝜋 𝑖 ( 𝜎 𝑖 , 𝑠 −𝑖 2 )+…+ 𝜎 −𝑖 𝑚 −𝑖 𝜋 𝑖 ( 𝜎 𝑖 ,𝑠 −𝑖 𝑚 −𝑖 ) Nota (dos jugadores) Si un jugador juega p=( p 1 , p 2 ,…, p 𝑚1 ) y el otro q=( q 1 , q 2 ,…, q m2 ) π i p,q = k,j p k q j π i ( s i k , s −i j )

33 Player 1 \ Player 2 L M1 M2 R U 1,0 4,2 2,4 3,1 M 2,0 2,2 2,1 D 1,4ESTRATEGIAS MIXTAS Ejemplo Si el jugador 1 juega la estrategia mixta 𝜎 1 =( 1 2 ;0; 1 2 ) se tiene que: u1(1; L) = 5/2 u1(1;M) = 5/2 u1(1; N) = 2 u1(1; R) = 3 u2(1; L) = 1 u2(1;M) = 3 u2(1; N) = 2 u2(1; R) = 1 Si el jugador 2 juega la estrategia mixta 𝜎 2 = 1 3 ; 1 3 ; 1 3 ;0 se tiene que: u1(U; 2) = 7/3 u1(H; 2) = 2 u1(D; 2) = 7/3 u2(U; 2) = 2 u2(H; 2) = 2 u2(D; 2) = 2 Si ambos jugadores juegan las estrategias mixtas =( 𝜎 1 ,𝜎 2 ) se tiene que: u1(1; 2) = 7/3 u2(1; 2) = 2 Player 1 \ Player 2 L M1 M2 R U 1,0 4,2 2,4 3,1 M 2,0 2,2 2,1 D 1,4

34 Player 1 \ Player 2 L M1 M2 R U 1,0 4,2 2,4 3,1 M 2,0 2,2 2,1 D 1,4ESTRATEGIAS MIXTAS Dada una estrategia mixta 𝜎 𝑖 ={ 𝜎 𝑖 1 , 𝜎 𝑖 2 ,…, 𝜎 𝑖 𝑚 𝑖 } el soporte de dicha estrategia viene dado por todas aquellas estrategias puras 𝑠 𝑖 𝑘 tales que 𝜎 𝑖 𝑘 >0 Fijada una estrategia del resto de jugadores 𝜎 −𝑖 , una estrategia mixta del jugador i, es una mejor respuesta a si y sólo si cada una de las estrategias puras de su soporte es, asimismo, una mejor respuesta a 𝜎 −𝑖 Si todas las estrategias puras del soporte de 𝜎 𝑖 son una mejor respuesta a 𝜎 −𝑖 entonces cualquier estrategia mixta sobre ese mismo soporte será una mejor respuesta a 𝜎 −𝑖 Ejemplo: Fijada la estrategia R del jugador 2, cualquier estrategia mixta del jugador 1 que en su soporte tenga exclusivamente a U y D es una mejor respuesta a R Player 1 \ Player 2 L M1 M2 R U 1,0 4,2 2,4 3,1 M 2,0 2,2 2,1 D 1,4

35 Player 1 \ Player 2 L M1 M2 R U M DESTRATEGIAS MIXTAS Resolución por dominancia La incorporación de estrategias mixtas no afecta al hecho de que exista o no una solución dominante pero sí puede afectar a la solución IEDS, ya que las estrategias mixtas pueden dominar a algunas estrategias puras Ejemplo Racionalidad La eliminación iterativa de estrategias que nunca son mejor respuesta a alguna conjetura sobre los rivales (distribución de probabilidad sobre las estrategias rivales) da lugar al conjunto de estrategias racionalizables. Una estrategia racionalizable es una respuesta óptima a alguna conjetura sobre las estrategias racionalizables del resto de jugadores El conjunto de estrategias mixtas no dominadas iterativamente contiene al conjunto de estrategias racionalizables y en juegos de dos jugadores las estrategias que nunca son mejor respuesta coinciden con las estrategias estrictamente dominadas Player 1 \ Player 2 L M1 M2 R 𝝈 𝟐 U 1,0 4,2 2,4 3,1 7/3,2 M 2,0 2,2 2,1 D 1,4 𝝈 𝟏 5/2,1 5/2,3

36 ESTRATEGIAS MIXTAS Ventajas del uso de Estrategias Mixtas El uso de estrategias mixtas asegura la existencia del equilibrio de Nash. Teorema (Nash 1950) Todo juego finito (i.e., el número de jugadores y conjunto de estrategias de cada jugador es finito) tiene un equilibrio de Nash en estrategias mixtas. Si los espacios de estrategias son no vacíos, compactos, convexos y las funciones de utilidad de cada jugador son continuas y cuasi-cóncavas como función de su propia estrategia entonces existe un equilibrio de Nash. Ejemplo (Juego de las monedas). Este juego no tiene equilibrio de Nash en estrategias puras pero si se consideran las estrategias mixtas (p; 1 -p) y (q; 1 -q) se consigue un equilibrio de Nash si p = q = 1/2. CARA CRUZ 1,-1 -1, 1 -1,1

37 ESTRATEGIAS MIXTAS Ejemplo (Juego de las monedas) Determinación de la función de respuesta del jugador 1 Se determinan los pagos de las estrategias puras frente a las estrategias mixtas 𝜋 1 𝐶,𝑞 = 𝑞𝜋 1 𝐶,𝐶 + 1−𝑞 𝜋 1 𝐶,𝑋 =2𝑞−1 𝜋 1 𝑋,𝑞 = 𝑞𝜋 1 𝑋,𝐶 + 1−𝑞 𝜋 1 𝑋,𝑋 =1−2𝑞 Se comparan los pagos y se determina la función de respuesta 𝑏1 𝑞 = 𝑋(𝑝=0) 𝑞<1/2 𝐼𝑛𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒 𝑞=1/2 𝐶(𝑝=1) 𝑞>1/2 CARA CRUZ 1,-1 -1, 1 -1,1

38 ESTRATEGIAS MIXTAS Ejemplo (Juego de las monedas) Determinación de la función de respuesta del jugador 2 Se determinan los pagos de las estrategias puras frente a las estrategias mixtas 𝜋 2 𝑝,𝐶 = 𝑝𝜋 2 𝐶,𝐶 + 1−𝑝 𝜋 2 𝑋,𝐶 =1−2𝑝 𝜋 2 𝑝,𝑋 = 𝑝𝜋 2 𝐶,𝑋 + 1−𝑝 𝜋 2 𝑋,𝑋 =2𝑝−1 Se comparan los pagos y se determina la función de respuesta 𝑏2 𝑝 = 𝐶(𝑞=1) 𝑝<1/2 𝐼𝑛𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒 𝑝=1/2 𝑋(𝑞=0) 𝑝>1/2 CARA CRUZ 1,-1 -1, 1 -1,1

39 ESTRATEGIAS MIXTAS Ejemplo (Juego de las monedas). Determinación del equilibrio Funciones de respuesta 𝑏1 𝑞 = 𝑋(𝑝=0) 𝑞<1/2 𝐼𝑛𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒 𝑞=1/2 𝐶(𝑝=1) 𝑞>1/ 𝑏2 𝑝 = 𝐶(𝑞=1) 𝑝<1/2 𝐼𝑛𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒 𝑝=1/2 𝑋(𝑞=0) 𝑝>1/2 Se determina ( 𝑝 ∗ , 𝑞 ∗ ) con 𝑝 ∗ =𝑏1 𝑞 ∗ 𝑞 ∗ =𝑏2 𝑝 ∗ CARA CRUZ 1,-1 -1, 1 -1,1

40 ESTRATEGIAS MIXTAS Ejercicio (Método abreviado) Calcular los equilibrios de Nash en estrategias mixtas (hay dos equilibrios de Nash en estrategias puras (F, F) y (O, O) con pagos asimétricos) La Batalla de los Sexos Suponemos que los jugadores juegan opera con probabilidades respectivas p y q. En un equilibrio de Nash ambos jugadores están dando mejores respuestas. Como están mezclando sus estrategias éstas tienen que tener los mismos pagos. Las estrategias del marido tienen los pagos 𝜋 1 O,q =q y 𝜋 1 F,q =3 1−q . Estos pagos son iguales si q=3 1−q o equivalentemente q=3/4 Las estrategias de la esposa tienen los pagos 𝜋 2 p,O =3p y 𝜋 2 p,F = 1−p . Estos pagos son iguales si 3p=1−p o equivalentemente p=1/4. En este equilibrio los pagos de ambos jugadores son iguales. OPERA FUTBOL 1,3 0,0 3,1

41 ESTRATEGIAS MIXTAS Ejercicio En el siguiente juego Calcular los equilibrios de Nash mediante las funciones de respuesta Calcular los equilibrios de Nash por el método abreviado y comparar los resultados Determinar el equilibrio por IEDS y comentar su racionalidad Left Right Up 3,1 1, 5 Dowm 2,2 4,2

42 ESTRATEGIAS MIXTAS Ejercicio (a) Determinación de la función de respuesta del jugador 1 Se determinan los pagos de las estrategias puras frente a las estrategias mixtas 𝜋 1 𝑢,𝑞 = 𝑞𝜋 1 𝑢,𝑙 + 1−𝑞 𝜋 1 𝑢,𝑟 =2𝑞+1 𝜋 1 𝑑,𝑞 = 𝑞𝜋 1 𝑑,𝑙 + 1−𝑞 𝜋 1 𝑑,𝑟 =4−2𝑞 Se comparan los pagos y se determina la función de respuesta 𝑏1 𝑞 = 𝑑(𝑝=0) 𝑞<3/4 𝐼𝑛𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒 𝑞=3/4 𝑢(𝑝=1) 𝑞>3/4 Left Right Up 3,1 1, 5 Dowm 2,2 4,2

43 ESTRATEGIAS MIXTAS Ejercicio (a) Determinación de la función de respuesta del jugador 2 Se determinan los pagos de las estrategias puras frente a las estrategias mixtas 𝜋 2 𝑝,𝑙 = 𝑝𝜋 1 𝑢,𝑙 + 1−𝑝 𝜋 2 𝑑,𝑙 =2−𝑝 𝜋 2 𝑝,𝑟 = 𝑝𝜋 2 𝑢,𝑟 + 1−𝑝 𝜋 2 𝑑,𝑟 =2+3𝑝 Se comparan los pagos y se determina la función de respuesta 𝑏2 𝑝 = 𝐼𝑛𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒 𝑝=0 𝑟(𝑞=0) 𝑝>0 Left Right Up 3,1 1, 5 Dowm 2,2 4,2

44 ESTRATEGIAS MIXTAS Ejercicio (a) Determinación del equilibrio Funciones de respuesta 𝑏1 𝑞 = 𝑑(𝑝=0) 𝑞<3/4 𝐼𝑛𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒 𝑞=3/4 𝑢(𝑝=1) 𝑞>3/ 𝑏2 𝑝 = 𝐼𝑛𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒 𝑝=0 𝑟(𝑞=0) 𝑝>0 Se determina ( 𝑝 ∗ , 𝑞 ∗ ) con 𝑝 ∗ =𝑏1 𝑞 ∗ 𝑞 ∗ =𝑏2 𝑝 ∗ Left Right Up 3,1 1, 5 Dowm 2,2 4,2

45 Un juego de dos jugadores es simétrico si 𝜋 2 (𝑠,𝑠′)= 𝜋 1 𝑠 ′ ,𝑠 JUEGOS SIMÉTRICOS Juego del gallina (chicken) o del halcón frente a la paloma (hawk-dove) Un juego es simétrico si todos los jugadores tienen el mismo conjunto de estrategias y los pagos son iguales para el mismo perfil de estrategias (con los jugadores intercambiados a posiciones equivalentes) Un juego de dos jugadores es simétrico si 𝜋 2 (𝑠,𝑠′)= 𝜋 1 𝑠 ′ ,𝑠 Los pagos del jugador dos se pueden obtener de los pagos del jugador 1 𝜋 2 (𝐶,𝐶)= 𝜋 1 (𝐶,𝐶) 𝜋 2 (𝑀,𝑀)= 𝜋 1 (𝑀,𝑀) 𝜋 2 (𝐶,𝑀)= 𝜋 1 𝑀,𝐶 𝜋 2 (𝑀,𝐶)= 𝜋 1 (𝐶,𝑀) Un equilibrio de Nash en el que todos los jugadores juegan la misma estrategia recibe el nombre de equilibrio de Nash simétrico Un juego simétrico con sólo dos estrategias siempre tiene un equilibrio en estrategias puras (posiblemente no simétrico) Un juego simétrico finito siempre tiene un equilibrio simétrico (posiblemente en estrategias mixtas) En el juego del gallina en el equilibrio de Nash simétrico cada uno se mantiene con una probabilidad de 5/6 y cede con una probabilidad de 1/6. El pago esperado es 5/6 para cada jugador CEDE MANTIENE 5,5 0,10 10,0 -1,-1

46 0, 0 0, π 0, 2π π, 0 -c, -c -c, π-c 2π, 0 π-c, -c -2c, -2cJUEGOS SIMÉTRICOS (ejercicio evaluable 3) Natural Monopoly A natural monopoly is an industry in which technological or demand conditions are such that it is "natural" that there be only one firm in the market. One technological reason for a natural monopoly to arise is seen when the costs per unit of production decline with the size of output. This phenomenon might occur if there are increasing returns to scale in production or there are large unavoidable costs of doing business. Natural monopoly can also arise when demand is low (and consequently the only way to make any money is to keep the price relatively high). The question that economists are most interested in is: how will a natural monopoly become an actual monopoly? In particular when, to begin with, there are two (or more) essentially identical firms in the market. Exercise Consider a duopoly that will last two more years, in which each firm is currently suffering losses of c dollars per period. If one of the firms were to drop out, then the remaining firm would make a monopoly profit of π dollars per period for the remainder of the two years, where we assume that π> c . Each firm can choose when to drop out: today (date 0), or a year from now (date 1), or it can stay till the end (date 2). Compute the pure-strategy Nash equilibria and the symmetric mixed-strategy Nash equilibrium of this game Firm 1 \ Firm 2 date 0 date 1 date 2 0, 0 0, π 0, 2π π, 0 -c, -c -c, π-c 2π, 0 π-c, -c -2c, -2c

47 JUEGOS DE SUMA CERO Un juego de suma cero es aquel en el que para todas las estrategias S1 y S2 las ganancias de los dos jugadores siempre suman cero π1 (S1, S2) + π2 (s1, s2) = 0. En un juego de suma cero el jugador 2 lo hace bien si y sólo si el jugador 1 lo hace mal. Se representan sólo los pagos del primer jugador y se tiene en cuenta que los pagos del jugador 2 son de signo opuesto En el juego de las monedas (matching-pennies) queda Un juego de suma constante es aquel en la que las ganancias de los dos jugadores siempre suman una constante. Si restamos esta constante de todos los pagos de uno de los jugadores el juego se convierte en un juego de suma cero. CARA CRUZ 1 -1

48 JUEGOS DE SUMA CERO Para cualquier estrategia s1 del jugador 1 hay una estrategia b (s1) que el jugador 2 puede seleccionar de forma que su recompensa sea la más alta posible y al mismo tiempo la del jugador 1 sea la más baja. La estrategia b (s1) cumple 𝜋 𝑠 1 ,𝑏( 𝑠 1 ) = min 𝑠 2 𝜋 𝑠 1 , 𝑠 2 El jugador 1 asume que el jugador 2 anticipará su respuesta y jugará la estrategia de minimización de ganancia b (S1). Por lo tanto el jugador debe jugar la estrategia cuya rentabilidad en el peor de los casos es mayor que el peor pago posible de cualquier otra estrategia (en la elección de su mejor peor pago el jugador considera estrategias mixtas). 𝑚 1 = max 𝑝 min 𝑠 2 𝜋 𝑝, 𝑠 2 Este valor recibe el nombre de valor maxmin o valor de seguridad del jugador 1. La estrategia que garantiza al jugador 1 su valor maximin (p*) recibe el nombre de estrategia de seguridad del jugador 1 y lo es si y sólo si 𝜋 𝑝 ∗ ,𝑏( 𝑝 ∗ ) = 𝑚 1 El enfoque conservador da el jugador 1 una forma unilateral de jugar el juego. Sabe que no puede obtener nada peor que m1 si juega su estrategia de seguridad p*. Si su oponente no juega un mejor respuesta sus beneficios sólo pueden ser mayores. Este unilateralismo tiene un precio y puede no ser tan rentable como un equilibrio de Nash

49 JUEGOS DE SUMA CERO Valor maxmin en el juego de las monedas (si el jugador sólo utiliza estrategias puras sus beneficios son en ambos casos como mínimo -1 por lo que su valor maxmin sería -1). Supongamos que el jugador 1 usa estrategias mixtas y que p indica la probabilidad con la que juega cara. Si el jugador 2 juega cara el pago esperado del jugador 1 es p-(1-p)=2p-1, mientras que si el jugador 2 juega cruz su pago esperado es –p+(1-p)=1-2p. Los dos conjuntos de pagos esperados se representan gráficamente y el pago mínimo es el menor de los dos pagos (envolvente inferior de las dos líneas de pago esperado). El mayor beneficio mínimo se obtiene donde se cruzan las dos líneas de pago esperado que corresponde a p* = ½ y el valor maxmin es 0. CARA CRUZ 1 -1

50 JUEGOS DE SUMA CERO En lugar de jugar para protegerse de los resultados en el peor de los casos, el jugador 1 puede jugar más agresivamente y jugar mejores respuestas contra las estrategias del jugador 2 Se podría pensar en esto como un enfoque más optimista. Intentar predecir el juego del adversario y hacer lo mejor en su contra El concepto asociado se llama pago minmax, es el peor de los mejores pagos (mejores respuestas) y se denota por M1 𝑀 1 = min 𝑞 max 𝑠 1 𝜋 𝑠 1 ,𝑞 = min 𝑞 𝜋 𝑏(𝑞),𝑞 donde, de nuevo, π (s1, q) es el pago esperado para el jugador 1 cuando juega la estrategia pura s1 y su oponente juega la estrategia mixta q.

51 JUEGOS DE SUMA CERO Valor minmax en el juego de las monedas (si el jugador 2 sólo utiliza estrategias puras los pagos del jugador 1 son como máximo 1 por lo que su valor minmax sería 1). Supongamos que el jugador 2 usa estrategias mixtas y que q indica la probabilidad con la que juega cara. Si el jugador 1 juega cara el pago esperado del jugador 1 es q-(1-q)=2q-1, mientras que si el jugador 1 juega cruz su pago esperado es –q+(1-q)=1-2q. Los dos conjuntos de pagos esperados se representan gráficamente y el pago máximo es el mayor de los dos pagos (envolvente superior de las dos líneas de pago esperado). El menor beneficio máximo se obtiene donde se cruzan las dos líneas de pago esperado que corresponde a q* = ½ y el valor minmax es 0. CARA CRUZ 1 -1

52 JUEGOS DE SUMA CERO Proposición (Minmax es mejor que Maxmin). El valor minmax del jugador 1 es al menos tan alto como su valor maxmin (m1≤M1). (igualmente el valor minmax del jugador 2 es al menos tan alto como su valor maxmin). Nota El que el valor minmax de un jugador sea al menos tan alto como su valor maxmin se cumple en todos los juegos; ya sean de suma cero o no y ya se trate de dos jugadores o mas (esto es cierto independientemente de si consideramos estrategias puras o mixtas). Proposición (El minmax de un jugador es el maxmin del otro). La recompensa MinMax del jugador 1 es precisamente (el negativo de) la recompensa maxmin del jugador 2, es decir, m1 = -M2 (A la inversa, la recompensa minmax del jugador 2 es el negativo de la maxmin del jugador 1.)

53 JUEGOS DE SUMA CERO Proposición (Caracterización de los equilibrios de Nash en juegos de suma cero) Un par de estrategias mixtas es un equilibrio de Nash de un juego de suma cero si para todas las estrategias s1y s2 puras 𝜋(𝑠1,𝑞∗)≤𝜋(𝑝∗,𝑞∗)≤𝜋(𝑝∗,𝑠2) Nota La primera desigualdad dice que p * es una mejor respuesta contra q *. Por otra parte, la segunda desigualdad dice que los pagos del jugador 1 se reducen al mínimo, entre todas las posibles estrategias de jugador 2, por la elección de q *. Esta afirmación, por supuesto, es lo mismo que decir que q * es una mejor respuesta para el jugador 2 en contra de p *. Proposición Si (p*, q*) constituyen un equilibrio de Nash de un juego de suma cero se tiene que q* y p* son las estrategias de seguridad y los valores maxmin y minmax son iguales entre sí y a 𝜋(𝑝∗,𝑞∗). Recíprocamente, si los pagos minmax y maxmin son iguales entonces las estrategias de seguridad constituyen un equilibrio de Nash del juego.

54 JUEGOS DE SUMA CERO (ejercicio evaluable 4)(game of squash) In the middle of a rally you have to decide whether to position your next shot in the front of the court or hit it to the back. Your opponent likewise has to move in anticipation of your shot; he could start moving forward or backward. Of course, if he does move forward, he is likely to finish off the rally if you dropped your shot in front, but you are likely to win if you did in fact hit the hard shot behind him. If he moves backward, converse reasoning applies. In the following table are displayed the chances of winning the rally in four possible cases: Transform the game in a zero-sum game. Compute the maxmin payoff Compute the minmax payoff Compute the Nash equilibrium Forward (F) Backward (B) Front (f) 20,80 70,30 Back (b) 90,10 30,70

55 JUEGOS EN FORMA EXTENSIVAHay dos representaciones principales de representar un juego y sus reglas La forma normal o forma estratégica se emplea para estudiar juegos simultáneos. La forma extensiva se emplea para estudiar juegos secuenciales. Las dos representaciones son intercambiables, cada juego en forma extensiva se puede escribir en forma estratégica y, del mismo modo, todos los juegos en forma estratégica se puede representar en forma extensiva. quién: ¿qué grupo de jugadores interactúa de manera estratégica?. qué: ¿qué acciones alternativas u opciones tiene cada jugador disponibles? cuándo: ¿en qué orden actúa cada jugador? cuánto: ¿qué cantidad pueden ganar (o perder) ?

56 JUEGOS EN FORMA EXTENSIVA El juego del teatro (simultáneo) Dos jugadores van a ver un musical de Broadway que tiene gran demanda por lo que sólo queda una entrada y el que llegue primero será el que lo consiga (si llegan a la vez hay una probabilidad del 50 por ciento para cada jugador). Tienen que decidir qué forma de transporte tomar: b (autobús), c (taxi), o s (metro). Un taxi es más rápido que el metro, que, a su vez, es más rápido que el autobús. Los pagos dependen de la obtención de la entrada, así como del modo de transporte. c s b 𝜋 1 (T,c)+ 𝜋 1 (N,c) 2 , 𝜋 2 (T,c)+ 𝜋 2 (N,c) 2 𝜋 1 (T,c), 𝜋 2 (N,s) 𝜋 1 (T,c), 𝜋 2 (N,b) 𝜋 1 (N,s), 𝜋 2 (T,c) 𝜋 1 (T,s)+ 𝜋 1 (N,s) 2 , 𝜋 2 (T,s)+ 𝜋 2 (N,s) 2 𝜋 1 (T,s), 𝜋 2 (N,b) 𝜋 1 (N,b), 𝜋 2 (T,c) 𝜋 1 (N,b), 𝜋 2 (T,s) 𝜋 1 (T,b)+ 𝜋 1 (N,b) 2 , 𝜋 2 (T,b)+ 𝜋 2 (N,b) 2

57 JUEGOS EN FORMA EXTENSIVAForma extensiva de un juego: Representación gráfica que adquiere forma de árbol. Comienza con el nodo raíz (nodo que representa el comienzo del juego) Del nodo raíz salen varias ramas (representan las posibles elecciones del primer jugador que toma una decisión) Cada rama termina en un nodo de uno de estos dos tipos: nodo de decisión (situación en la que un jugador realiza una nueva elección que da lugar a nuevas ramas) nodo terminal (corresponde al final del juego) Cada nodo terminal está etiquetado con los pagos de los jugadores El juego del teatro (secuencial)

58 JUEGOS EN FORMA EXTENSIVARepresentación de movimientos simultáneos Un jugador actúa igual si elige simultáneamente a sus oponentes que si elige después pero desconoce la elección de éstos. Sustituimos los nodos en los que un jugador no puede distinguir la elección realizada por un óvalo que los envuelve, que recibe el nombre de conjunto de información. El juego del teatro (simultáneo)

59 JUEGOS EN FORMA EXTENSIVAEstrategia: regla de decisión que le dice a un jugador cómo actuar en cada momento. Cada estrategia da lugar a una acción en cada nodo de decisión o, en su caso, en cada conjunto de información. Si tenemos una y sólo una estrategia para cada jugador podemos determinar como se desarrollará el juego exactamente Una estrategia mixta es una distribución de probabilidad sobre las estrategias puras Forma extensiva del juego del teatro (secuencial) Forma estratégica del juego del teatro (secuencial) ccc …. scb c 𝜋 1 𝑇,𝑐 , 𝜋 2 (𝑁,𝑐) 𝜋 1 𝑇,𝑐 , 𝜋 1 (𝑁,𝑠) s 𝜋 1 𝑁,𝑠 , 𝜋 2 (𝑇,𝑐) b 𝜋 1 𝑁,𝑏 , 𝜋 2 (𝑇,𝑐) 𝜋 1 𝑇,𝑏 , 𝜋 2 (𝑁,𝑐)

60 JUEGOS EN FORMA EXTENSIVA Estrategia: regla de decisión que le dice a un jugador cómo actuar en cada momento. Cada estrategia da lugar a una acción en cada nodo de decisión o, en su caso, en cada conjunto de información. Si tenemos una y sólo una estrategia para cada jugador podemos determinar como se desarrollará el juego exactamente Una estrategia mixta es una distribución de probabilidad sobre las estrategias puras Forma extensiva del juego del teatro (simultáneo) Forma estratégica del juego del teatro (simultáneo) c s b 𝜋 1 (T,c)+ 𝜋 1 (N,c), 𝜋 2 (T,c)+ 𝜋 2 (N,c) 𝜋 1 (T,c), 𝜋 2 (N,s) 𝜋 1 (T,c), 𝜋 2 (N,b) 𝜋 1 (N,s), 𝜋 2 (T,c) 𝜋 1 (T,s)+ 𝜋 1 (N,s), 𝜋 2 (T,s)+ 𝜋 2 (N,s) 𝜋 1 (T,s), 𝜋 2 (N,b) 𝜋 1 (N,b), 𝜋 2 (T,c) 𝜋 1 (T,b)+ 𝜋 1 (N,b), 𝜋 2 (T,b)+ 𝜋 2 (N,b)

61 JUEGOS EN FORMA EXTENSIVAConsistencia del árbol del juego Los predecesores de un nodo A son todos los nodos desde los que se puede ir a A a través de una secuencia de ramas. Si imponemos las siguientes restricciones sobre los predecesores de los nodos podemos garantizar la consistencia Un nodo no puede ser un predecesor de si mismo. El predecesor de un predecesor de un nodo es también su predecesor: si A es un predecesor de un nodo B y B es un predecesor del nodo C entonces A es un predecesor de C Los nodos pueden ordenarse: si A y B son ambos predecesores de C o bien A es un predecesor de B o bien B es un predecesor de A Debe haber un antecesor común: si dos nodos A y B no son predecesores uno del otro debe haber un tercer nodo C que preceda a ambos.

62 JUEGOS EN FORMA EXTENSIVAJuego de entrada I Coca-Cola tiene que decidir si entra (E=enter) o no entra (O=out) en un nuevo mercado dominado por su rival Pepsi. La decisión de Coca-Cola se guía por la rentabilidad potencial de este nuevo mercado, que depende de la reacción de Pepsi. Si Pepsi contraataca y actúa duro (T=tough), Coca-Cola tiene pérdidas. Por el contrario, si Pepsi no contraataca y se acomoda (a=accommodate) lo que tiene es ganancias Juego de entrada II Después de observar la respuesta de Pepsi, Coca-Cola tiene que decidir si reacciona contraatacando y actúa duro (T) o no lo hace y se acomoda (a) Juego de entrada III En este juego de entrada, Coca-Cola tiene que decidir si reacciona contraatacando o no sin conocer la reacción de Pepsi

63 JUEGOS CON INFORMACIÓN PERFECTASon juegos en forma extensiva con exactamente un nodo en cada conjunto de información (no hay movimientos simultáneos). En un juegos de información perfecta no existe ambigüedad y cada vez que un jugador juega conoce exactamente la historia del juego Una predicción razonable sobre un juego tiene que incluir la racionalidad secuencial La racionalidad implica que un jugador escogerá la mejor respuesta a su disposición en un nodo de decisión teniendo en cuenta su percepción sobre el futuro del juego. La secuencialidad implica que en el futuro los jugadores razonarán de la misma manera y en un nodo posterior escogerán la mejor respuesta teniendo en cuenta su percepción sobre lo que resta del futuro del juego. Juego de entrada I (continuación) Comprobar, utilizando la forma estratégica del juego, que el juego de entrada I tiene como equilibrios de Nash (E,A) y (O, T) El único equilibrio razonable es (E,A), en el que Coca-Cola entra en el mercado y Pepsi no contraataca. Tough Acommodate Enter -2,-1 1,2 Out 0,5

64 JUEGOS CON INFORMACIÓN PERFECTA Juego de entrada II (continuación) Cada estrategia de Coca-Cola tiene tres componentes: la primera le dice si entrar o no en el mercado, la segunda le dice que hacer si Pepsi actúa duro la tercera le dice que hacer si Pepsi se acomoda. Coke \ Pepsi T A ETT -2, -1 0,-3 ETA 1, 2 EAT -3,1 EAA -3, 1 OTT 0, 5 OTA OAT OAA Hay esencialmente tres equilibrios de Nash en estrategias puras: Equilibrios de Nash en los que Pepsi actúa duro (T) y Coca-Cola juega cualquiera de las cuatro estrategias en las que se mantiene fuera (O.T.T , O.T.A, O.A.T y O.A.A) (ETA,A) con el resultado de que Coca-Cola entra y se acomodan ambas empresas. (EAA,A) con el mismo resultado que en el segundo equilibrio. La única estrategia secuencialmente racional para Coca-Cola es ETA El único equilibrio de Nash secuencialmente racional es (ETA,A) .

65 JUEGOS CON INFORMACIÓN PERFECTAEl poder del compromiso. Aunque parece que es peor tener menos opciones, hay juegos en los que tener menos opciones puede suponer tener más pagos. Si un jugador tiene más opciones se puede comportar de manera muy diferente en el futuro. Este comportamiento afecta al juego actual y a los demás jugadores. Este cambio puede ser beneficioso o perjudicial para el jugador con mayores opciones. Juego de entrada I’ (variante del juego de entrada I). En el juego de entrada I reducimos las opciones de Pepsi después de la entrada de Coca-Cola eliminando acomodar. Pepsi sólo tiene la opción de competir y jugar duro Juego de entrada II’ (variante del juego de entrada II). En el juego de entrada II reducimos las opciones de Coca-Cola después de su entrada en el mercado y suponemos que Coca-Cola no se puede acomodar. Coca-Cola sólo tiene la opción de competir y jugar duro

66 INDUCCIÓN HACIA ATRÁS En un nodo de decisión final la única predicción razonable es la que tiene en cuenta que el jugador tomará la acción que maximiza sus ganancias (la decisión del jugador que elige termina el juego). En el penúltimo nodo de decisión el jugador conoce la consecuencia exacta de cada una de sus elecciones porque sabe la decisión que se tomará en el nodo de decisión final (en el penúltimo nodo de decisión puede calcular el pago exacto de cada una de sus decisiones y elegir la mejor opción). En el nodo anterior el jugador conoce la consecuencia exacta de sus elecciones porque sabe que elección se tomará en el penúltimo nodo de decisión y la elección que se hará en el nodo final. La inducción hacia atrás es la repetición de este proceso hasta llegar al nodo inicial Permite obtener una solución secuencialmente razonable siempre y cuando haya un último nodo desde el que empezar- Teorema de Kuhn: todo juego de información perfecta con un número finito de nodos tiene una solución por inducción hacia atrás y si todos los pagos de cada jugador son distintos la solución es única

67 INDUCCIÓN HACIA ATRÁS Y ELIMINACIÓN DE ESTRATEGIAS DOMINADAS.Si dos estrategias son idénticas en todo excepto en la decisión en un nodo final, la estrategia con la mejor decisión en este nodo domina la estrategia alternativa y cualquier otra estrategia que no tome esta decisión en ese nodo. Si dos estrategias son idénticas excepto en un penúltimo nodo de decisión, dado que sabemos cuál va a ser la decisión en el posterior nodo, hay una mejor decisión y la estrategia que contiene la mejor decisión en este nodo domina a las otras (todas las estrategias son eliminadas excepto la que tiene la mejor decisión en el penúltimo nodo). Al final del proceso tenemos la solución por inducción hacia atrás en la forma extensiva y la solución por eliminación iterada de estrategias dominadas en la forma estratégica. Juego de entrada I Comprobar que el resultado por IEDS es (E,A) y que es el mismo que obtuvimos por inducción hacia atrás en la forma extensiva. Tough Acommodate Enter -2,-1 1,2 Out 0,5

68 INDUCCIÓN HACIA ATRÁS Y ELIMINACIÓN DE ESTRATEGIAS DOMINADAS. Si dos estrategias son idénticas en todo excepto en la decisión en un nodo final, la estrategia con la mejor decisión en este nodo domina la estrategia alternativa y cualquier otra estrategia que no tome esta decisión en ese nodo. Si dos estrategias son idénticas excepto en un penúltimo nodo de decisión, dado que sabemos cuál va a ser la decisión en el posterior nodo, hay una mejor decisión y la estrategia que contiene la mejor decisión en este nodo domina a las otras (todas las estrategias son eliminadas excepto la que tiene la mejor decisión en el penúltimo nodo). Al final del proceso tenemos la solución por inducción hacia atrás en la forma extensiva y la solución por eliminación iterada de estrategias dominadas en la forma estratégica. Juego de entrada II Comprobar que el resultado por IEDS es (ETA,A) y que es el mismo que obtuvimos por inducción hacia atrás en la forma extensiva. Coke \ Pepsi T A ETT -2, -1 0,-3 ETA 1, 2 EAT -3,1 EAA -3, 1 OTT 0, 5 OTA OAT OAA

69 INDUCCIÓN HACIA ATRÁS Y ELIMINACIÓN DE ESTRATEGIAS DOMINADAS. Si dos estrategias son idénticas en todo excepto en la decisión en un nodo final, la estrategia con la mejor decisión en este nodo domina la estrategia alternativa y cualquier otra estrategia que no tome esta decisión en ese nodo. Si dos estrategias son idénticas excepto en un penúltimo nodo de decisión, dado que sabemos cuál va a ser la decisión en el posterior nodo, hay una mejor decisión y la estrategia que contiene la mejor decisión en este nodo domina a las otras (todas las estrategias son eliminadas excepto la que tiene la mejor decisión en el penúltimo nodo). Al final del proceso tenemos la solución por inducción hacia atrás en la forma extensiva y la solución por eliminación iterada de estrategias dominadas en la forma estratégica. Juego de entrada II Comprobar que el resultado por IEDS es (ETA,A) y que es el mismo que obtuvimos por inducción hacia atrás en la forma extensiva. Coke \ Pepsi T A ETT -2, -1 0,-3 ETA 1, 2 EAT -3,1 EAA -3, 1 OTT 0, 5 OTA OAT OAA

70 INDUCCIÓN HACIA ATRÁS Y ELIMINACIÓN DE ESTRATEGIAS DOMINADAS. Si dos estrategias son idénticas en todo excepto en la decisión en un nodo final, la estrategia con la mejor decisión en este nodo domina la estrategia alternativa y cualquier otra estrategia que no tome esta decisión en ese nodo. Si dos estrategias son idénticas excepto en un penúltimo nodo de decisión, dado que sabemos cuál va a ser la decisión en el posterior nodo, hay una mejor decisión y la estrategia que contiene la mejor decisión en este nodo domina a las otras (todas las estrategias son eliminadas excepto la que tiene la mejor decisión en el penúltimo nodo). Al final del proceso tenemos la solución por inducción hacia atrás en la forma extensiva y la solución por eliminación iterada de estrategias dominadas en la forma estratégica. Juego de entrada II Comprobar que el resultado por IEDS es (ETA,A) y que es el mismo que obtuvimos por inducción hacia atrás en la forma extensiva. Coke \ Pepsi T A ETT -2, -1 0,-3 ETA 1, 2 OTT 0, 5 OTA

71 INDUCCIÓN HACIA ATRÁS Y ELIMINACIÓN DE ESTRATEGIAS DOMINADAS. Si dos estrategias son idénticas en todo excepto en la decisión en un nodo final, la estrategia con la mejor decisión en este nodo domina la estrategia alternativa y cualquier otra estrategia que no tome esta decisión en ese nodo. Si dos estrategias son idénticas excepto en un penúltimo nodo de decisión, dado que sabemos cuál va a ser la decisión en el posterior nodo, hay una mejor decisión y la estrategia que contiene la mejor decisión en este nodo domina a las otras (todas las estrategias son eliminadas excepto la que tiene la mejor decisión en el penúltimo nodo). Al final del proceso tenemos la solución por inducción hacia atrás en la forma extensiva y la solución por eliminación iterada de estrategias dominadas en la forma estratégica. Juego de entrada II Comprobar que el resultado por IEDS es (ETA,A) y que es el mismo que obtuvimos por inducción hacia atrás en la forma extensiva. Coke \ Pepsi T A ETA -2, -1 1, 2 OTA 0, 5

72 INDUCCIÓN HACIA ATRÁS Y ELIMINACIÓN DE ESTRATEGIAS DOMINADAS. Si dos estrategias son idénticas en todo excepto en la decisión en un nodo final, la estrategia con la mejor decisión en este nodo domina la estrategia alternativa y cualquier otra estrategia que no tome esta decisión en ese nodo. Si dos estrategias son idénticas excepto en un penúltimo nodo de decisión, dado que sabemos cuál va a ser la decisión en el posterior nodo, hay una mejor decisión y la estrategia que contiene la mejor decisión en este nodo domina a las otras (todas las estrategias son eliminadas excepto la que tiene la mejor decisión en el penúltimo nodo). Al final del proceso tenemos la solución por inducción hacia atrás en la forma extensiva y la solución por eliminación iterada de estrategias dominadas en la forma estratégica. Juego de entrada II Comprobar que el resultado por IEDS es (ETA,A) y que es el mismo que obtuvimos por inducción hacia atrás en la forma extensiva. Coke \ Pepsi A ETA 1, 2 OTA 0, 5

73 INDUCCIÓN HACIA ATRÁS Y ELIMINACIÓN DE ESTRATEGIAS DOMINADAS. Si dos estrategias son idénticas en todo excepto en la decisión en un nodo final, la estrategia con la mejor decisión en este nodo domina la estrategia alternativa y cualquier otra estrategia que no tome esta decisión en ese nodo. Si dos estrategias son idénticas excepto en un penúltimo nodo de decisión, dado que sabemos cuál va a ser la decisión en el posterior nodo, hay una mejor decisión y la estrategia que contiene la mejor decisión en este nodo domina a las otras (todas las estrategias son eliminadas excepto la que tiene la mejor decisión en el penúltimo nodo). Al final del proceso tenemos la solución por inducción hacia atrás en la forma extensiva y la solución por eliminación iterada de estrategias dominadas en la forma estratégica. Juego de entrada II Comprobar que el resultado por IEDS es (ETA,A) y que es el mismo que obtuvimos por inducción hacia atrás en la forma extensiva. Coke \ Pepsi A ETA 1, 2

74 INDUCCIÓN HACIA ATRÁS (ejercicio evaluable 5)Consider entry game II again, but now suppose that Coke's decision on the FSU market is reversible in the following sense: after it has entered and after Pepsi has chosen T or A, Coke has any one of three options to choose from: T, A, and O (out). Suppose that exiting at that point nets Coke a payoff of -1 and Pepsi a payoff of 3 if it had been Tough and 4 had it accommodated. Write down the extensive form of this game and solve the game by backward induction. Explain any connection to the power of commitment. Write down the strategic form of the game and solve the game by IEDS. Explain connection between steps of iterated elimination and of backward induction.

75 EQUILIBRIO PERFECTO EN SUBJUEGOSJuego de entrada III Coca-Cola tiene que decidir si entra o no entra en un nuevo mercado dominado por su rival Pepsi. La decisión de Coca-Cola se guía por la rentabilidad potencial de este nuevo mercado, que depende de la reacción de Pepsi. Si Pepsi contraataca y actúa duro, Coca-Cola tiene pérdidas. Por el contrario, si Pepsi no contraataca y se acomoda lo que tiene son ganancias. Coca-Cola tiene que decidir si reacciona contraatacando sin conocer la reacción de Pepsi Coke \ Pepsi T A ET -2,-1 0,-3 EA -3,1 1,2 OT 0,5 OA Coke \ Pepsi T A -2,-1 0,-3 -3,1 1,2

76 EQUILIBRIO PERFECTO EN SUBJUEGOSUn subjuego es una parte de un juego en forma extensiva formada por una colección de nodos que satisface: El subjuego comienza en un nodo de decisión simple. El subjuego contiene todos los sucesores del nodo inicial. Si el subjuego contiene parte de un conjunto de información lo contiene completo. Una estrategia especifica que hacer en cualquier momento del juego, por tanto también lo hace en el subjuego y es una estrategia para el subjuego. Si una estrategia se denota por si y un subjuego del juego original por g, la estrategia para el subjuego se denota por si(g). Un perfil de estrategia es un equilibrio perfecto en subjuegos (EPS) si especifica un equilibrio de Nash en cada subjuego. Es decir, un perfil de estrategias 𝑠 𝑖 , 𝑠 −𝑖 es un EPS de un juego en forma extensiva G si 𝑠 𝑖 (𝑔), 𝑠 −𝑖 (𝑔) es un equilibrio de Nash de g para cada subjuego g de G. Todo EPS es un equilibrio de Nash (pero no al revés). En un juego con información perfecta los EPS son las soluciones por inducción hacia atrás (si la solución por inducción hacia atrás es única hay un único EPS).

77 EQUILIBRIO PERFECTO EN SUBJUEGOSJuego de entrada III En el juego post-entrada tenemos dos equilibrios puros, (T, T) y (A,A) y un equilibrio en estrategias mixtas (1/3, 1/2), donde estas probabilidades son las probabilidades de T. Los únicos equilibrios perfectos en subjuegos son (E.A,A), (O.T, T) y (O,1/3, 1/2), Coke \ Pepsi T A ET -2,-1 0,-3 EA -3,1 1,2 OT 0,5 OA Coke \ Pepsi T A -2,-1 0,-3 -3,1 1,2

78 EQUILIBRIO PERFECTO EN SUBJUEGOS (ejercicio evaluable 6)Exercise Let us modify the timing structure of the game of entry III. Suppose that Coke's entry decision is made at the same time that Pepsi decides between tough and accommodate. Then, if Coke chooses to enter, it has a further decision between tough and accommodate. Suppose that the payoffs at every terminal node that follow enter are as before. If Coke stays out, then the payoffs are (0, -1) if Pepsi plays T and (0, 0) if it plays A. Write down the extensive form of this game. How many subgames are there in this game? Solve the game by backward induction. Be sure to detail every step. Suppose the payoffs when Coke stays out are (0, 1) and (0, 0) instead when, respectively, Pepsi plays T and A. Solve this game by backward induction. Exercise Let us yet again modify the game of entry III. Suppose as before that Coke's entry decision and Pepsi's T/A decisions are simultaneous. Suppose, furthermore, that when Coke makes its subsequent choice between T and A it is unaware of Pepsi's choice. Write down the extensive form. How many subgames are there in this game? How many strategies does Coke have? (Use the payoffs of previous exercise) Explain why this timing structure is equivalent to Coke and Pepsi making a single simultaneous decision. What are the strategies involved? Find the Nash equilibria of the game.

79 𝜋 𝑖0 + 𝛿𝜋 𝑖1 + 𝛿 2 𝜋 𝑖2 +…+ 𝛿 𝑇 𝜋 𝑖𝑇 +…JUEGOS REPETIDOS Definición Un juego repetido se define por un juego de etapa G en forma estratégica, que se juega de forma repetida en tiempo discreto: G = {Si, πi, i = 1,. . ., N} con Si es el conjunto de estrategias del jugador i y πi (s1, s2, ..., Sn) su función de pagos. Nota En cada etapa del juego todos los jugadores conocen la historia del proceso. Definición Si el número de repeticiones, T, es finito, el juego es un juego repetido finitamente y si el juego no tiene un fin fijo es un juego infinitamente repetido. En juegos finitamente repetidos los pagos son la suma de los pagos en cada etapa. En juegos infinitamente repetidos los pagos se descuentan con un factor δ: 0 <δ <1, 𝜋 𝑖0 + 𝛿𝜋 𝑖1 + 𝛿 2 𝜋 𝑖2 +…+ 𝛿 𝑇 𝜋 𝑖𝑇 +… Nota Las estrategias se pueden expresar como acciones a realizar dependiendo de la historia del juego hasta la etapa correspondiente El dilema del prisionero en dos etapas Tras la primera interacción entre los prisioneros, y una vez reveladas sus decisiones, vuelven a interactuar y los pagos que obtienen son la suma de los pagos correspondientes. El único equilibrio perfecto en subjuegos se obtiene cuando los dos prisioneros confiesan en cualquier circunstancia

80 JUEGOS REPETIDOS El dilema del prisionero modificado en T etapas. En el dilema del prisionero modificado los prisioneros tienen también la opción de confesar parcialmente con la matriz de pagos Este proceso se repite T veces y los pagos son la suma de los pagos de cada etapa Player 1 \ Player 2 c p n 0, 0 3, -1 7, -2 -1, 3 3, 3 6, 0 -2, 7 0, 6 5, 5 El juego de etapa tiene dos equilibrios • (C,C) con pagos (0, 0). • (P, P) con pagos (3, 3).

81 JUEGOS REPETIDOS FINITAMENTEEl dilema del prisionero modificado en 2 etapas. Player 1 \ Player 2 c p n 0, 0 3, -1 7, -2 -1, 3 3, 3 6, 0 -2, 7 0, 6 5, 5 Tenemos un EPS si ambos jugadores juegan con la siguiente estrategia: Jugar N en la primera etapa. Si en la etapa anterior todos los jugadores han jugado N jugar P. En caso contrario jugar C.

82 JUEGOS REPETIDOS FINITAMENTEEl dilema del prisionero modificado en dos etapas. En el dilema del prisionero modificado en 2 etapas tenemos equilibrios perfectos es subjuegos si ambos jugadores repiten el mismo equilibrio del juego de etapa Jugar siempre C Jugar siempre P Player 1 \ Player 2 c p n 0, 0 3, -1 7, -2 -1, 3 3, 3 6, 0 -2, 7 0, 6 5, 5

83 JUEGOS REPETIDOS FINITAMENTEEl dilema del prisionero modificado en T etapas. Player 1 \ Player 2 c p n 0, 0 3, -1 7, -2 -1, 3 3, 3 6, 0 -2, 7 0, 6 5, 5 Tenemos un EPS si ambos jugadores juegan con la siguiente estrategia: Jugar N en la primera etapa. Si en las etapas anteriores todos los jugadores han jugado N jugar N, salvo en la última etapa que jugamos P. En caso contrario jugar C.

84 JUEGOS REPETIDOS FINITAMENTEEquilibrios básicos Ambos jugadores juegan C en cualquier caso. Ambos jugadores juegan P en cualquier caso. Otros equilibrios. El comportamiento de los jugadores en cada etapa depende del comportamiento observado en etapas anteriores En dos etapas tenemos un EPS si ambos jugadores juegan con la estrategia En la primera etapa jugar N. Si en la primera etapa se ha jugado (N,N) jugar P. En caso contrario jugar C. En T etapas tenemos un EPS si ambos jugadores juegan con la estrategia: Si en las etapas anteriores todos los jugadores han jugado N jugar N, salvo en la ultima etapa que jugamos P. El comportamiento en cada etapa depende del comportamiento observado en etapas anteriores

85 JUEGOS REPETIDOS FINITAMENTEProposición En un juego repetido cuyo juego de etapa G = {Si, πi, i = 1,. . ., N} tiene exactamente un equilibrio de Nash, (s1*, s2*, ..., Sn*), hay un único EPS. En este equilibrio, el jugador i si juega si* en cada una de las etapas, independientemente de lo que podría haber sido interpretado por él mismo o cualquiera de los otros, en cualquier etapa anterior El dilema del prisionero en T etapas. El juego de etapa tiene un único equilibrio $(C,C)$. Los jugadores pueden jugar en todo momento como si les quedara una única etapa. El juego completo tiene un único equilibrio: los dos jugadores confiesan siempre y en cualquier contingencia Nota Si hay más de un equilibrio de Nash, siempre existe la posibilidad de mantener un buen comportamiento en las primeras etapas de interacción. Buen comportamiento en las interacciones tempranas puede ser recompensado por el juego de mejores equilibrios de Nash en subjuegos futuros Cualquier desviación de esta conducta puede ser castigado por el juego de malos equilibrios de Nash en subjuegos futuras.

86 JUEGOS REPETIDOS FINITAMENTE (ejercicio evaluable 7)Exercise Write down the extensive form of the once-repeated Battle of the Sexes and sketch the extensive form of the T-times-repeated game. Show that in the T-times-repeated game, a subgame perfect equilibrium is to play (football, opera) in every stage regardless of what got played in the previous stages. Show as well that other subgame perfect equilibrium is to play (opera, football) in every stage regardless of what got played in the previous stages. Exercise Show that in every finitely repeated game, if there is more than one stage-game Nash equilibrium one subgame perfect equilibrium is to alternate between these equilibria

87 0,0 7,-2 -2,7 5,5 𝜋 𝑖0 + 𝛿𝜋 𝑖1 + 𝛿 2 𝜋 𝑖2 +…+ 𝛿 𝑇 𝜋 𝑖𝑇 +…JUEGOS REPETIDOS INDEFINIDAMENTE El dilema del prisionero iterado (infinitamente). En el dilema del prisionero iterado se considerara que tras la primera interacción entre los prisioneros, y una vez reveladas sus decisiones, vuelven a interactuar y los pagos que obtienen son la suma de los pagos descontados. 𝜋 𝑖0 + 𝛿𝜋 𝑖1 + 𝛿 2 𝜋 𝑖2 +…+ 𝛿 𝑇 𝜋 𝑖𝑇 +… Interpretación del factor δ Cada vez que se juega el juego de etapa, hay una probabilidad p de que la interacción actual sea la última (la probabilidad de que estos jugadores jueguen el juego de etapa de nuevo es 𝛿=1−𝑝). Los beneficios se calculan como el pago esperado. El pago de la etapa t + 1 se valora como una fracción 𝛿= 1 1+𝑖 en la etapa t. La fracción δ asociada es un factor de descuento y se valoran los beneficios como el valor actual. Calvin \ Klein Confess Not Confess 0,0 7,-2 -2,7 5,5

88 0,0 7,-2 -2,7 5,5 JUEGOS REPETIDOS INDEFINIDAMENTEEl dilema del prisionero iterado (infinitamente). En el dilema del prisionero iterado se considerara que tras la primera interacción entre los prisioneros, y una vez reveladas sus decisiones, vuelven a interactuar y los pagos que obtienen son la suma de los pagos descontados. Estrategia del disparador severo: Jugar N en la primera etapa. Si en las etapas anteriores los jugadores han jugado siempre N entonces jugar N. En caso contrario jugar C de ahora en adelante. Si ambos jugadores juegan con la estrategia del disparador severo tenemos un EPS En las estrategias del tipo disparador hay un perfil de estrategias cooperativo tras el cual si algunos de los jugadores se desvía, el jugador juega un perfil de estrategias de castigo Calvin \ Klein Confess Not Confess 0,0 7,-2 -2,7 5,5

89 0,0 7,-2 -2,7 5,5 JUEGOS REPETIDOS INDEFINIDAMENTEEl dilema del prisionero iterado infinitamente Demostración Clasificamos los subjuegos de una etapa t en dos tipos Tipo I: Los subjuegos que siguen a un juego (N,N) en todas las etapas. Tipo II:: El resto de subjuegos (se ha confesado alguna vez). En los juegos tipo II la estrategia especifica jugar C siempre. Es un equilibrio de Nash y ningún jugador incrementa sus pagos jugando N contra C. En los juegos tipo I los incentivos para desviarse y jugar C frente al otro jugando N dependen del pago: Si juega C obtiene un pago de 7, pero sus pagos futuros desaparecen y el incremento de su pago será de 7. Si juega N obtiene un pago de 5, pero sus pagos futuros serán también de 5 con lo que el incremento de su pago 5+5𝛿+5 𝛿 𝛿 3 +…= 5 1−𝛿 No tiene incentivos para desviarse si 5 1−𝛿 >7 (δ> 2 7 ) Calvin \ Klein Confess Not Confess 0,0 7,-2 -2,7 5,5

90 0,0 7,-2 -2,7 5,5 JUEGOS REPETIDOS INDEFINIDAMENTEEl dilema del prisionero iterado infinitamente Estrategia del disparador con perdón: Jugar N en la primera etapa. Si en las etapas anteriores ambos jugadores han jugado siempre N entonces jugar N. Si algún jugador ha jugado C entonces jugar C en las T etapas siguientes y jugar N en la etapa T + 1 con la estrategia en mente Si ambos jugadores juegan con esta estrategia tenemos un EPS cuyos pagos son mayores que en el disparador severo Calvin \ Klein Confess Not Confess 0,0 7,-2 -2,7 5,5

91 JUEGOS REPETIDOS INDEFINIDAMENTEUn ciclo de comportamiento (behavior cycle) es una sucesión de acciones que se repite. Jugar (N,N) T1 etapas Jugar (C,C) T2 etapas Jugar (N,C) T3 etapas Jugar (C,N) T4 etapas Tras las T=T1+T2+T3+T4 etapas repetir el ciclo Un ciclo de comportamiento es individualmente racional si cada jugador obtiene pagos estrictamente positivos dentro del ciclo Teorema popular (Folk theorem) Comportamiento en equilibrio. Cualquier ciclo de comportamiento individualmente racional es factible como EPS (siempre que el factor de descuento δ sea cercano a 1). Estrategia Equilibrio. Una estrategia que constituye un equilibrio es el disparador severo: comenzar con el ciclo de la conducta deseada y continuar con él. Si cualquier jugador se desvía entonces jugar (c, c) siempre después

92 JUEGOS REPETIDOS INDEFINIDAMENTE (ejercicio evaluable 8)Model of price competition Consider the model of price competition with a market whose demand curve is p=6-Q, where p is the lower of the two prices. The lower priced firm gets the entire market, and if the two firms post the same price, then each gets half the market. Suppose that prices can only be quoted in dollar units and costs of production are zero. Suppose, finally, that price competition continues indefinitely; that is, every time the two firms compete they think that there is a probability d that they will compete again. Write down the extensive form of the game. Identify the subgames. Write down the strategies for each firm in the game. Define a subgame perfect equilibrium. Consider the following strategy: Price at 2 dollars each and continue with that price if it has been maintained by both firms in the past. Otherwise, switch to a price of a dollar. For what values of δ is this strategy a subgame perfect equilibrium? Explain. Show that there is also a subgame perfect equilibrium in which the price is always 2 dollars but which is sustained by a forgiving trigger. Be explicit about the nature of the forgiving trigger. Suppose that δ = 0.9. What is the maximum price that can arise in a subgame perfect equilibrium of this model? Explain. State a version of the folk theorem that is applicable for this price competition model and provide an argument in support of your stated result.

93 Entorno del juego=tamaño del recursoJUEGOS DINÁMICOS MARKOVIANOS LA TRAGEDIA DE LOS COMUNES Planteamiento del problema Fuentes de externalidad en el uso de un recurso de propiedad común: el uso de cada persona puede disminuir los beneficios para el uso de las otras personas (externalidad actual) la utilización conjunta puede afectar a la condición futura del recurso (externalidad futura). Juego dinámico El juego de etapa cambia en cada etapa y hay un entorno de juego (game environment) que cambia de un período a otro y afecta a las ganancias en el juego de etapa de cualquier período. Entorno del juego=tamaño del recurso Características del entorno Evoluciona a través del tiempo de acuerdo con el patrón de uso en el pasado Cuantas más personas utilizan el recurso o cuanto más intensamente es utilizado menos hay en el futuro. Afecta a los pagos en cada juego de etapa. El resultado del uso hoy en día marca el uso futuro. La pregunta clave es cuánto aprovechamiento supone este "mejor" uso del recurso.

94 Sólo hay un periodo más de consumoJUEGOS DINÁMICOS MARKOVIANOS LA TRAGEDIA DE LOS COMUNES: MODELO SIMPLE (dos períodos de tiempo) Formalización del problema Recurso de propiedad común de tamaño y> 0. Cada uno de los dos jugadores puede retirar una cantidad c1 o c2 no negativa La función de utilidad es logarítmica y a un consumo c le corresponde una utilidad log(c) La cantidad total consumida no puede sobrepasar el recurso, c1 + c2 ≤ y. El intento de consumir en exceso se traduce en que la cantidad total se reparte entre ellos, es decir, cada jugador termina por consumir y/2. Cuando el consumo total es menor que y, la cantidad sobrante, y-(c1 + c2), es la futura base del recurso y, por tanto, del consumo futuro. Sólo hay un periodo más de consumo

95 JUEGOS DINÁMICOS MARKOVIANOSLA TRAGEDIA DE LOS COMUNES: MODELO SIMPLE (dos períodos de tiempo) Caso 1: Extracción unilateral (cada jugador maximiza su propia utilidad) Período 2 Cada jugador decide la cantidad a consumir de la cantidad a su disposición y- (c1 + c2). Puesto que no hay más períodos, cada jugador consumirá tanto como sea posible. En el período 2, la cantidad total se divide entre ellos y cada uno tiene (y - (c1 + c2)) / 2 Periodo 1 El primer jugador determina la cantidad a consumir a partir del stock disponible Su utilidad depende de la cantidad que el jugador 2 decida consumir (su consumo determina el tamaño de los recursos que quedarán para el segundo periodo). El jugador 1 determina su nivel de consumo mediante un problema de mejor respuesta en función de la cantidad que el jugador 2 va a consumir en el primer período, c2

96 log (y /3) + log (y/ 6)=2log (y )- log 18JUEGOS DINÁMICOS MARKOVIANOS LA TRAGEDIA DE LOS COMUNES: MODELO SIMPLE (dos períodos de tiempo) Caso 1: Extracción unilateral (cada jugador maximiza su propia utilidad) Solución La mejor respuesta de consumo del jugador 1 es R1 (c2) = (y - c2) / 2 La mejor respuesta de consumo del jugador 2 es R2 (c1) = (y - c1) / 2 El equilibrio de Nash viene dado por los niveles de consumo de c1* y c2* tales que R1 (c2*) = R2 (c1*). Sustituyendo en las funciones de reacción, el equilibrio de Nash es c1* = c2* = y /3. En el primer período, cada jugador consume y/3, dejando un total de y/3 para el segundo período, En el segundo período esta cantidad se divide por la mitad con un consumo de y/6 cada uno. La utilidad para cada jugador log (y /3) + log (y/ 6)=2log (y )- log 18

97 JUEGOS DINÁMICOS MARKOVIANOSLA TRAGEDIA DE LOS COMUNES: MODELO SIMPLE (dos períodos de tiempo) Caso 2: Uso socialmente óptimo (se maximiza la utilidad total) Los dos jugadores constituyen una sociedad y se reúnen para decidir cuánto debe consumir cada uno por el "bien común“. Bien común supone asegurarse de que la utilidad total se maximiza. Un patrón de consumo, (c1*, c2*), es socialmente óptimo si se maximiza la suma de la utilidad de los dos jugadores, es decir, si se soluciona el problema siguiente: Este procedimiento conduce a una solución socialmente óptima C1*= C2 *=y/4 Cada jugador consume un cuarto del recurso en cada período La utilidad para cada jugador es 2log (y /4)=2log (y) –log 16

98 JUEGOS DINÁMICOS MARKOVIANOS LA TRAGEDIA DE LOS COMUNES: MODELO SIMPLE (dos períodos de tiempo) Comparación del equilibrio de Nash con el uso socialmente óptimo Equilibrio de Nash dos terceras partes de los recursos se utilizan en el primer período. Uso socialmente óptimo la mitad del recurso se utiliza en el primer período Tragedia de los comunes. Exceso de extracción del recurso en el equilibrio de Nash Criterio individual (utilidad propia) Si el jugador 1 recorta su consumo en el primer periodo en una unidad, hace que haya una unidad disponible para el consumo de ambos jugadores en el segundo período Es capaz de recuperar sólo la mitad de esta unidad adicional en el segundo período, debido a que la otra mitad queda para el jugador 2. Criterio social (utilidades de ambos jugadores) Una unidad de consumo dejada para mañana por cualquiera de los jugadores sigue siendo en el segundo periodo una unidad de consumo para la sociedad en su conjunto.

99 JUEGOS DINÁMICOS MARKOVIANOSLA TRAGEDIA DE LOS COMUNES: MODELO SIMPLE (dos períodos de tiempo) Problema en grandes poblaciones Sea N el número de jugadores y c1,…,cN sus consumos En el equilibrio de Nash Cada jugador consume la misma cantidad con un nivel de consumo en equilibrio de c1* = c2* =... = cN* =y/ (N +1). El consumo total es Ny/(N +1). La cantidad que queda después del primer período es y/(N +1). Si N es grande una pequeña cantidad del recurso alcanza el segundo periodo En el uso social El consumo que maximiza la utilidad conjunta de todos los jugadores es c1= c2=... = cn = y/2N y/2 Independientemente de N la mitad del recurso alcanza el segundo periodo A medida que el número de jugadores aumenta la tragedia es aún más grave.

100 JUEGOS DINÁMICOS MARKOVIANOSLA TRAGEDIA DE LOS COMUNES: MODELO SIMPLE (dos períodos de tiempo) Recursos renovables En la siguiente variante del modelo en el primer período el jugador 1 extrae una cantidad c1 y el jugador 2 una cantidad c2. Lo que no se extrae, es decir, la cantidad y-c1 - c2, se regenera y se convierte en una cantidad igual a y− c1 − c2 en el periodo 2. El resto del modelo es idéntico, en particular, la función de utilidad es log c y la regla de asignación si el total deseado es más de lo disponible sigue siendo dar la mitad a cada uno. Plantear el problema de mejor respuesta del jugador 1. Demostrar que la función de mejor respuesta viene dada por R1 (c2) = 2 (y-c2)/ 3. Calcular el equilibrio de Nash. Demostrar que la extracción socialmente óptima es y/3 para cada jugador. ¿En qué se diferencia del modelo de recurso agotable en el que la extracción socialmente óptima es y/4 para cada jugador? Analizar el problema de los recursos renovables para N jugadores. ¿Es cierto que todos los recursos se extrae en el primer período si N tiende a infinito?

101 x(t) =y(t )-(c1(t)+c2(t))≥ 0.JUEGOS DINÁMICOS MARKOVIANOS LA TRAGEDIA DE LOS COMUNES: Interacción continua y recursos renovables Formalización del problema El consumo del jugador i en el período t es ci (t) , con ci(t) ≥ 0 . El consumo da a los jugadores una utilidad log(ci(t)) El entorno del juego en el período t es el tamaño de los recursos, y(t), con y (t) ≥ 0 . El valor de y(t) limita el consumo total c1(t) +c2(t) ≤ y (t) . La base de inversión que genera el recurso futuro, x(t), es la cantidad no extraída x(t) =y(t )-(c1(t)+c2(t))≥ 0. La inversión produce el recurso del próximo período (función de producción) y(t +1)=10 x(t) El juego continúa siempre y cuando exista un nivel de recursos positivos y, por tanto, potencialmente, puede continuar para siempre.

102 JUEGOS DINÁMICOS MARKOVIANOSLA TRAGEDIA DE LOS COMUNES: Interacción continua y recursos renovables Solución socialmente óptima (inducción hacia atrás) Supongamos que sólo queda un periodo En el último periodo si el stock es y tenemos que resolver max 𝑐1+𝑐2≤𝑦 log 𝑐1 + log 𝑐2 En este último periodo nunca queda ningún stock sin uso, es decir, c1 + c2 = y. Por lo tanto el problema de maximización puede reescribirse como max 𝑐1 log 𝑐1 + log 𝑦−𝑐1 Con solución c1 = c2 = y/2. En consecuencia, la utilidad social óptima de cada jugador cuando sólo queda una etapa corresponde al stock disponible y está dada por 𝑉 1 𝑦 = log 𝑦 2 = log 𝑦 − log 2 = log 𝑦 +𝐴(1) donde A (1) es una abreviatura para la constante.

103 JUEGOS DINÁMICOS MARKOVIANOSLA TRAGEDIA DE LOS COMUNES: Interacción continua y recursos renovables Solución socialmente óptima (inducción hacia atrás) Supongamos que quedan dos períodos la extracción social óptima se encuentra al resolver el siguiente problema: max 𝑐1+𝑐2≤𝑦 log 𝑐1 + log 𝑐2 +2𝛿 𝑉 𝑦−𝑐1−𝑐2 donde la utilidad del segundo periodo se descuenta un periodo mediante el factor de descuento δ. Después de algunos cálculos, podemos reescribir el problema un poco más simple como max 𝑐1+𝑐2≤𝑦 log 𝑐1 + log 𝑐2 +𝛿 log 𝑦−𝑐1−𝑐2 donde hemos suprimido las constantes aditivas. Las condiciones de primer orden hacen que el consumo sea c1 = c2 = y / (2 + δ). La utilidad social óptima por jugador cuando quedan dos etapas depende del stock disponible y viene dada por V 2 y = log y 2+δ +δ V y− y 2+δ − y 2+δ Que puede escribirse como V 2 y = 1+ δ 2 log y +A(2)

104 JUEGOS DINÁMICOS MARKOVIANOSLA TRAGEDIA DE LOS COMUNES: Interacción continua y recursos renovables Solución socialmente óptima (inducción hacia atrás) Supongamos que quedan tres períodos de uso de recursos. En el primer período tenemos que resolver el siguiente problema: max 𝑐1+𝑐2≤𝑦 log 𝑐1 + log 𝑐2 +2𝛿 𝑉 𝑦−𝑐1−𝑐2 Después de sustituir V2 y suprimir todas las constantes irrelevantes, podemos reescribirlo max 𝑐1+𝑐2≤𝑦 log 𝑐1 + log 𝑐2 +𝛿 1+ 𝛿 2 log 𝑦−𝑐1−𝑐2 El consumo social óptimo es c1=c2=y/2 1+ δ 2 + δ 2 4 La utilidad social óptima per cápita es de la forma V 3 y = 1+ δ 2 + δ log y +A(3) En esta etapa podemos ver un patrón y hacer una conjetura Cuando el número de períodos restantes es T, el consumo social óptimo es c1=c2= 𝑦 2 1+ δ 2 + δ …+ δ 2 T−1

105 100δ / 2 (punto fijo de la ecuación)JUEGOS DINÁMICOS MARKOVIANOS LA TRAGEDIA DE LOS COMUNES: Interacción continua y recursos renovables Solución socialmente óptima (inducción hacia atrás) En el modelo de infinitos períodos en cada etapa hay exactamente el mismo número de períodos restantes y la fracción de consumo de cada etapa es idéntica. El consumo viene dada por el límite del consumo óptimo cuando T tiende a infinito. c y = 𝑦 2 1+ δ 2 + δ …+ δ 2 T−1 +… = 𝑦 − δ 2 = 1− δ 2 𝑦 2 La función de inversión es x(t)=y(t)−2c y t = δ 2 y(t). Por lo tanto, la fracción de la inversión óptima asociada es δ / 2 La utilidad socialmente óptima, por extrapolación, viene dada por V y = 1+ δ 2 + δ … log y +A Obsérvese que y(t+1)=10 𝑥(𝑡) =10 δ 2 𝑦(𝑡) El stock de recurso sostenible socialmente óptimo es 100δ / 2 (punto fijo de la ecuación)

106 JUEGOS DINÁMICOS MARKOVIANOSLA TRAGEDIA DE LOS COMUNES: Interacción continua y recursos renovables Extracción unilateral del recurso (inducción hacia atrás) En cada periodo los jugadores van a consumir una fracción del recurso c1= θ1y, c2 = θ2y Supongamos que estamos en el último período El stock se divide a partes iguales entre los dos. El consumo de equilibrio de cada jugador es c1 = c2 = y/2. La utilidad del consumo de equilibrio para el jugador 1 cuando sólo queda un periodo es 𝑊 1 𝑦 = log 𝑦 2 = log 𝑦+𝐵(1) Supongamos que queda un período La utilidad para el jugador uno es log 𝑐1 +𝛿 W 1 (10 y− 𝑐 1 − 𝑐 2 ) El jugador 1 se enfrenta al siguiente problema de mejor respuesta max 𝜃1 log 𝜃 1 𝑦 +𝛿 𝑊 𝑦− 𝜃 1 𝑦− 𝜃 2 𝑦 Este problema puede ser escrito de forma equivalente como max 𝜃1 log 𝜃 1 + 𝛿 2 log (1− 𝜃 1 − 𝜃 2 )

107 JUEGOS DINÁMICOS MARKOVIANOSLA TRAGEDIA DE LOS COMUNES: Interacción continua y recursos renovables Extracción unilateral del recurso (inducción hacia atrás) Supongamos que quedan dos períodos. El jugador 1 se enfrenta al siguiente problema de mejor respuesta que puede ser escrito de forma equivalente como max 𝜃1 log 𝜃 1 + 𝛿 2 log (1− 𝜃 1 − 𝜃 2 ) Se puede demostrar que la mejor respuesta de consumo es 𝜃 1 =𝑏 𝜃 2 = 1− 𝜃 𝛿 2 En equilibrio, θ 1 =b θ 2 y θ 2 =b θ 1 Cada jugador consume con la misma tasa de extracción (equilibrio simétrico) θ 1 = θ 2 = 1 2+ δ 2 Supongamos que quedan T períodos Se puede demostrar que la tasa de extracción de equilibrio es 𝜃 1 = 𝜃 2 = 1 2+ 𝛿 2 +…+ 𝛿 2 T−1

108 100δ 4−δ (punto fijo de la ecuación)JUEGOS DINÁMICOS MARKOVIANOS LA TRAGEDIA DE LOS COMUNES: Interacción continua y recursos renovables Extracción unilateral del recurso (inducción hacia atrás) En el modelo con infinitos períodos, La función de consumo de equilibrio, c* (y) = θy, vendrá dada por el límite del consumo de equilibrio cuando T tiende a infinito c ∗ y = 1 2+ 𝛿 2 +…+ 𝛿 2 T−1 +… y= 1− 𝛿 2 2− 𝛿 2 y La base de inversión es x t =y−2 c ∗ y = δ 4−δ y. Obsérvese y(t+1)=10 𝑥(𝑡) =10 δ 4−δ 𝑦(𝑡) el stock del recurso sostenible en equilibrio es 100δ 4−δ (punto fijo de la ecuación)

109 JUEGOS DINÁMICOS MARKOVIANOSLA TRAGEDIA DE LOS COMUNES: Interacción continua y recursos renovables Comparación del óptimo social y los resultados del equilibrio de Nash Consideremos dos sociedades distintas, una en la que se gestiona el consumo socialmente y otra en la que se determina de manera unilateral. La función de consumo socialmente óptima c (y) es siempre menor que la función de consumo en equilibrio (dando cada individuo su mejor respuesta) c*(y) c t = 1− δ 2 2 𝑦< 1− 𝛿 2 2− 𝛿 2 y =c ∗ y Imaginemos que ambas sociedades comienzan con el mismo stock En el período 2, la primera sociedad tendría un stock más grande, ya que invirtió más en el primer período. Este aumento implica a su vez que esta sociedad vuelve a invertir más en el periodo 2. La primera sociedad invierte una fracción más grande de cualquier stock. La primera sociedad cuenta con un stock de recursos más grande disponible. El stock sostenible, y (t +1) = y (t), es más alto en el primer caso que en el segundo. En el primer caso el stock sostenible es y = 100δ/2 En el segundo caso el stock sostenible es y* = 100δ / (4-δ)

110 JUEGOS DINÁMICOS MARKOVIANOSLA TRAGEDIA DE LOS COMUNES: Interacción continua y recursos renovables Conclusiones En el juego con horizonte infinito cada jugador decide cuánto consumir sólo mirando el tamaño del recurso actual (estrategia markoviana) no requiere que el jugador tenga información de lo que ha hecho su rival en el pasado o de cómo el recurso ha evolucionado en períodos anteriores. Un equilibrio perfecto en subjuegos mediante estrategias markovianas recibe el nombre de equilibrio perfecto de Markov (MPE). Si el número de entornos es finito siempre existe un MPE. Si el número de entornos es infinito no podemos garantizar que exista un MPE La conclusión final sobre este equilibrio es que está siempre por debajo de la solución socialmente óptima. Se extrae demasiado recurso y las utilidades de equilibrio son más bajas que las utilidades socialmente óptimas. Usando estrategias del disparador a veces se puede remediar este problema. Si los jugadores creen que en el futuro el buen comportamiento será recompensado y el mal comportamiento castigado son propensos a cooperar.

111 JUEGOS DINÁMICOS MARKOVIANOS (ejercicio evaluable 9)(Calculus problem) Suppose that the production function is given by 𝑥 but the utility functions are the same as those in the text; that is, player i's utility is log ci. Formulate the social optimality problem when there is just one more period of extraction left. What is the socially optimal utility level? Formulate the social optimality problem when there are two more periods of extraction left. What is the socially optimal consumption rule? What is the socially optimal utility level? (You do not have to write down all of the constants in the optimal utility.) Repeat the previous question for three remaining periods of extraction. What can you infer about the general case of T remaining extraction periods? What if there are an infinite number of periods? Explain your answers carefully. How do your answers compare with those found in the text? Explain your finding. What is the socially optimal sustainable resource level? How does your answer compare with that in the text?

112 JUEGOS DINÁMICOS MARKOVIANOS (ejercicio evaluable 10)(Calculus problem) Suppose that the production function is given by 𝑥 but the utility functions are the same as those in the text; that is, player i's utility is log ci. Formulate the equilibrium problem when there is just one more period of extraction left. What is the equilibrium utility level? Formulate the best-response problem of player 1 when there are two more periods of extraction left and player 2 is expected to consume a fraction q of the current stock level. What is the best-response consumption fraction? What is the symmetric equilibrium to this game? What is the equilibrium utility level? (You do not have to write down all of the constants in the equilibrium utility.) Repeat previous question for the case in which there are three remaining periods of extraction. What can you infer about the general case of T remaining extraction periods? What if there are an infinite number of periods? Explain your answers carefully. How do your answers compare with those found in the text? Explain your finding. What is the socially optimal sustainable resource level? How does your answer compare with that in the text?