完美体育完全且完美信息动态博弈

Classification

完美动态

400-123-4657

传真：+86-123-4567
手机：13800000000
邮箱：admin@gzcanna.com
地址：广东省广州市天河区88号

完美体育完全且完美信息动态博弈

发布时间：2022-09-27 03:04:49 丨浏览次数：651

　　完全且完美信息动态博弈本章分六节31动态博弈的表示法和特点32可信性和纳什均衡的问题33子博弈和子博弈完美纳什均衡34几个经典动态博弈模型35有同时选择的动态博弈模型36动态博弈分析的问题和扩展讨论312动态博弈的基本特点结果是上述“计划型”策略的策略组合，构成一条路径动态博弈的非对称性——先后次序决定动态博弈必然是非对称的。32可信性和纳什均衡的问题321相机选择和策略中的可信性问题322纳什均衡的问题323逆推归纳法321相机选择和策略中的可信性问题不同版本的开金矿博弈——分钱和打官司的可信性（0，4）（2，2）（1，0）不借不分开金矿博弈不借（1，0）不打（0，4）（1，0）（2，2）有法律保障的开金矿博弈——分钱打官司都可信（2，2）不分（0完美体育，4）（-1，0）不打（1，0）法律保障不足的开金矿博弈——分钱打官司都不可信322纳什均衡的问题第三种开金矿博弈中，（不借-不打，不分）和（借-打，分）都是纳什均衡。但后者不可信，不可能实现或稳定。结论：纳什均衡在动态博弈可能缺乏稳定性，也就是说，在完全信息静态博弈中稳定的纳什均衡，在动态博弈中可能是不稳定的，不能作为预测的基础。根源：纳什均衡本身不能排除博弈方策略中包含的不可信的行为设定，不能解决动态博弈的相机选择引起的可信性问题323逆推归纳法定义：从动态博弈的最后一个阶段博弈方的行为开始分析，逐步倒推回前一个阶段相应博弈方的行为选择，一直到第一个阶段的分析方法，称为“逆推归纳法”。逆推归纳法是动态博弈分析最重要、基本的方（0，4）（2，2）33子博弈和子博弈完美纳什均衡331子博弈332子博弈完美纳什均衡331子博弈定义：由一个动态博弈第一阶段以外的某阶段开始的后续博弈阶段构成的，有初始信息集和进行博弈所需要的全部信息，能够自成一个博弈的原博弈的一部分，称为原动态博弈的一个“子博弈”。（1，0）（0，4）（2，2）（-1，0）332子博弈完美纳什均衡定义：如果一个完美信息的动态博弈中，各博弈方的策略构成的一个策略组合满足，在整个动态博弈及它的所有子博弈中都构成纳什均衡，那么这个策略组合称为该动态博弈的一个“子博弈完美纳什均子博弈完美纳什均衡能够排除均衡策略中不可信的威胁和承诺，因此是真正稳定的。逆推归纳法是求完美信息动态博弈子博弈完美纳什均衡的基本方法。34几个经典动态博弈模型341寡占的斯塔克博格模型342劳资博弈343讨价还价博弈344委托人—代理人理论341寡占的斯塔克博格模型把古诺模型改为厂商1先选择，厂商2后选择，而非同时选择即可。产量得益厂商13单位45厂商215单位225先行优势342劳资博弈先由工会决定工资率，再由厂商决定雇用多少劳动力343讨价还价博弈三回合讨价还价不接受，出S接受不接受，出S2接受出S三回合讨价还价博弈结果的讨论益越大甲的得益越小，乙的得越大，益越小甲的得益越大，乙的得越大，344委托人—代理人理论一、委托人——代理人关系经济活动和社会活动中有很多委托人——代理人关系，有明显的，也有隐蔽的。工厂和工人、店主和店员、客户和律师、市民和政府、基金购买者和基金管理人等都是。委托人——代理人关系的关键特征：不能直接控制，监督不完全，信息不完全，利益的相关性委托人——代理人涉及问题：激励机制设计、机制设计理论，委托合同设计问题等二、无不确定性的委托人—代理人模型偷懒努力拒绝接受不委托委托代理人的选择激励相容约束：wS+E-S参与约束：拒绝接受拒绝接受接受：wE-E0接受：wS-S0参与约束不委托委托委托数值例子[12,[0,0][0,0]偷懒努力拒绝接受不委托委托[7，1]三、有不确定性但可监督的委托人—代理人博弈[0，0][0，0][10-wS,不委托高产01低产09低产01高产09努力偷懒接受拒绝委托偷懒：委托：01*[20-wS]+09*[10-wS]0不委托：01*[20-wS]+09*[10-wS]0努力委托：09*[20-wE]+01*[10-wE]0不委托：09*[20-wE]+01*[10-wE]0因为可监督，因此代理人报酬与成果无关，只与努力情况有关。不确定性风险由委托人承担。代理人选择同无不确定性情况。四、有不确定性且不可监督的委托人—代理人博弈[0，0][0，0][10-wS,w10-S][20-w20,w20-S][10-w10,w10-E][20-w20,w20-E]不委托高产01低产09低产01高产09努力偷懒接受拒绝委托只能根据成果付酬，w是成果函数，而非努力程度函数。不确定性对代理人利益、选择有影响。努力：09*[w20-E]+01*[w10-E]01*[w20-S]+09*[w10-S]接受：09*[w20-E]+01*[w10-E]0委托：09*[20-w20]+01*[10-w10]0激励相容约束促使代理人努力的激励相容约束、参与约束，以及委托人选择委托的条件参与约束对于委托人来说，就是要根据上述两个条件，以及E、S的值，选择最佳的工资水平w20和w10，或者它们的差额w20-w10五、选择报酬和连续努力水平的委托人—代理人博弈委托人希望的代理人努力水平（满足参与约束）激励相容约束：参与约束：店主和店员的问题商店的利润是均值为0的随机变量店员的负效用是店员的努力机会成本为1店主采用的报酬计算公式店员的得益店员期望得益为店主的得益为参与约束：当店员风险中性时符合其最大利益店主选择下限代入得益公式得：，期望得益为，易求得35有同时选择的动态博弈模型351标准模型352间接融资和挤兑风险353国际竞争和最优关税354工资奖金制度351标准模型第一阶段是博弈方1和博弈方2的选择阶段，他们同时在各自的可选策略（行为）集合第二阶段是博弈方3和博弈方4的选择阶段，他们在看到博弈方1和博弈方2的选择以后，同时在各自的可选策略（行为）集合各博弈方的得益都取决于所有博弈方的策略即博弈方i的得益是各个博弈方所选择策略的多元函数352间接融资和挤兑风险下一阶段1，11，11，1不存存款客户2不存存款第一阶段08，0806，11，06 12，12 提前到期客户2 提前到期第二阶段（到期，到期）（存款，存款）（提前，提前）（不存，不存） 12，12 第二阶段建立信贷保证、保险制度，对存款进行保护、保险的原因非法集资问题现代更容易引发金融、社会风险的主要是不正规的非法金融活动，如和非法集资等。因为非法金融活动常常通过恶意欺骗的手段吸引人们参加，用借新债还旧债的方法，而不是经营利润偿还到期资金，信用差、管理差而且缺乏保险措施，引起金融风险并引发社会问题的可能性要大得多。 353 国际竞争和最优关税厂商的得益函数为：第二阶段厂商选择：第一阶段政府选择：先把第二阶段根据厂商选择得到结果代入政府得益，再求最优化： 354工资奖金制度模型假设：1雇员ii=1,2的产出函数为为雇员努力水平，为随机扰动。服从分布密度，均值为0的随机变量。雇员努力的负效用函数为 2产量高的雇员得到高工资，产量低的得到低工资雇员选择雇主决定了工资以后，雇员同时决定努力程度：一阶条件这是雇员所选择努力程度必须满足的基本条件。 maxmax 利用条件概率的贝叶斯法则：代入得：两雇员情况一样，对努力程度的选择也相同，即：样就得到：这就是两雇员之间的静态博弈纳什均衡。若进一步假设，那么雇主选择由于雇员之间博弈的均衡是对称均衡，因此双方赢得竞赛的机会都是 05，假设雇能得到其他工作机会提供的得益是，则保证雇员接受工作的基本条件是：此即“参与约束”。由于在雇员接受工作的前提下，雇主必然尽可能压低工资，因此约束条件可取等号：于是得到：设上述参与约束条件满足，雇主的利润函数为雇主的期望利润为，因此雇主有如下的最优化问题：上述雇主决策可转化为促使雇员的努力程度满足：一阶条件为：代入两雇员的最优努力水平决定公式得到： 36动态博弈分析的问题和扩展讨论 361 逆推归纳法的问题 362 颤抖手均衡和顺推归纳法 363 蜈蚣博弈问题 361 逆推归纳法的问题逆推归纳法只能分析明确设定的博弈问题，要求博弈的结构，包括次序、规则和得益情况等都非常清楚，并且各个博弈方了解博弈结构，相互知道对方了解博弈结构。这些可能有脱实际的可能在遇到两条路径利益相同的情况时逆推归纳法也会发生选择困难对博弈方的理性要求太高，不仅要求所有博弈方都有高度的理性，不允许犯任何错误，而且要求所有博弈方相互了解和信任对方的理性，对理性有相同的理解，或进一步有“理性的共同知识” 362 颤抖手均衡和顺推归纳法颤抖手均衡10, 顺推归纳法0，0 1，3 0，0 3，1 VanDamme 博弈 3，1 0，0 2，2 2，2 0，0 1，3 Ds 博弈方2Van Damme 博弈策略形 363 蜈蚣博弈问题 98,9897,100 98,101100,100 第四章重复博弈本章介绍基本博弈重复进行构成的重复博弈。虽然形式上是基本博弈的重复进行，但重复博弈中博弈方的行为和博弈结果却不一定是基本博弈的简单重复，因为博弈方对于博弈会重复进行的意识，会使他们对利益的判断发生变化，从而使他们在重复博弈过程中的行为选择受到影响。这意味着不能把重复博弈当作基本博弈的简单叠加，必须把整个重复博弈过程作为整体进行研究。本章分三节 41 重复博弈引论 42 有限次重复博弈 43 无限次重复博弈 41 重复博弈引论 411 为何研究重复博弈 412 基本概念 411 为何研究重复博弈有无确定的结束时间412 基本概念有限次重复博弈：给定一个基本博弈G（可以是静态博弈，也可以是动态博弈），重复进行T次G，并且在每次重复G 之前各博弈方都能观察到以前博弈的结果，这样的博弈过程称为“G的T次重复博弈”，记为GT。而G则称为GT 的“原博弈”。GT中的每次重复称为GT的一个“阶无限次重复博弈：一个基本博弈G一直重复博弈下去的博弈，记为G 子博弈：从某个阶段（不包括第一阶段）开始，包括此后所有的重复博弈部分重复博弈的得益的平均得益相同的现在值，则称得益序列阶段的得益，能产生与无限次重复博弈）各个重复博弈或作为重复博弈（有限次：如果一常数虑贴现问题无限次重复博弈必须考考虑贴现因素有限次重复博弈不一定 42 有限次重复博弈 421 两人零和博弈的有限次重复博弈 422唯一纯策略纳什均衡博弈的有限次重复博弈 423多个纯策略纳什均衡博弈的有限次重复博弈 424 有限次重复博弈的民间定理 421 两人零和博弈的有限次重复博弈零和博弈是严格竞争的，重复博弈并不改变这一点。以零和博弈为原博弈的有限次重复博弈与猜硬币博弈的有限次重复博弈一样完美体育，博弈方的正确策略是重复一次性博弈中的纳什均衡策略。 422唯一纯策略纳什均衡博弈的有限次重复博弈定理：设原博弈G有唯一的纯策略纳什均衡,则对任意整数T，重复博弈一的子博弈完美纳什均衡，即各博弈方每个阶段都采用G的纳什均衡策略。各博弈方在GT中的总得益为在G中得益的T倍，平均得益的与原博弈G中的得益。 -5，-5 0，-8 -8，0 -1，-1 坦白不坦白囚徒2 坦白不坦白（-5，-5）-10，-10 -13，-5 -5，-13 -6，-6 坦白不坦白囚徒2 坦白不坦白（-10，-10）有限次重复削价竞争博弈 100，100 20，150 150，20 70，70 高价低价寡头2 削价竞争博弈有唯一纯策略纳什均衡（70，70）有限次重复的结果仍然是（低价，低价） 423多个纯策略纳什均衡博弈的有限次重复博弈 5，5 3，3 2，0 0，2 2，0 6，0 0，2 0，6 1，1 三价博弈2，2 3，1 3，1 1，3 4，4 7，1 1，3 1，7 8，8 两次重复三价博弈的等价模型触发策略：两博弈方先试探合作，一旦发现对方不合作则也用不合作报复博弈方1：第一次选h；如第一次结果为H,H，则第二次选M，否则选L 博弈方2：同博弈方1 两市场博弈的重复博弈（重复两次） B,A+A,B——22,25轮换策略一次纯策略+一次混合策略——15,33,150，0 4，1 1，3 3，3 两市场博弈重复博弈不同策略、均衡及一次性博弈得益比较不同策略组合完美动态、均衡得益图示厂商2 得益厂商1得益 1,4 3,3 25,25 2,2 3,15 4,1 15,3 424 有限次重复博弈的民间定理个体理性得益：不管其它博弈方的行为如何，一博弈方在某个博弈中只要自己采取某种特定的策略，最低限度保证能获得的得益可实现得益：博弈中所有纯策略组合得益的加权平均数组定理：设原博弈的一次性博弈有均衡得益数组优于w，那么在该博弈的多次重复中所有不小于个体理性得益的可实现得益，都至少有一个子博弈完美纳什均衡的极限的平均得益来实现它们厂商2 得益厂商1得益 1,4 3,3 1，1 4,1 w=11 43 无限次重复博弈 431 两人零和博弈的无限次重复博弈 432 唯一纯策略纳什均衡博弈的无限次重复博弈 433 无限次重复古诺模型 434 有效工资率 431 两人零和博弈的无限次重复博弈两人零和博弈无限次重复的所有阶段都不可能发生合作，博弈方会一直重复原博弈的混合策略纳什均衡 432唯一纯策略纳什均衡博弈的无限次重复博弈两寡头削价竞争博弈该博弈一次性博弈均衡是都采用低价，是囚徒困境型博弈 4，4 0，5 5，0 1，1 无限次重复两寡头削价博弈触发策略：第一阶段采用H，如果前t-1阶段的结果都是H,H，则继续采用H，否则采用L。如果博弈方2采用L，总得益现值为如果博弈方2采用H，总得益现值为因此当时，此触发策略纳什均衡策略两寡头削价竞争无限次重复博弈的民间定理厂商2 得益厂商1得益 1,4 3,3 1,1 4,1 5,0 5,0 均得益为什均衡，各博弈方的平完美纳中一定存在一个子博弈次重复博弈，那么无限足够接近都成立，而对任意博弈方的任意可实现得益。如表示的静态博弈。用是一个完全信息 433无限次重复古诺模型假定：，边际成本都为2。在无限次重复古诺模型中，当贴现率满足一定条件时，两厂商采用下列触发策略构成一个子博弈完美纳什均在第一阶段生产垄断产量的一半15；在第t阶段，如果前t-1 阶段结果都是15,15，则继续生产15，否则生产古诺产量2。设厂商1已采用该触发策略，若厂商2也采用该触发策略，则每期得益45，无限次重复博弈总得益的现值为：如果厂商2偏离上述触发策略，则他在第一阶段所选产量应为给定厂商1产量为15时，自己的最大利润产量，即满足：，此时利润为50625，高于触发策略第一阶段得益45。但从第完美体育二阶段开始，厂商1将报复性地永远采用古诺产量2，这样厂商2也被迫永远采用古诺产量，从此得利润4。因此，无限次重复博弈第一阶段偏离的情况下总得益的现上述策略是厂商2对厂商1的同样触发策略的最佳反应，否则偏离是最佳反应。 434有效工资率模型设定：首先厂商选择工资率为，然后工人选择接受或拒绝。如果拒绝，则他作个体户得到收入小于，如果接，则工人选择努力工作（负效用）还是偷懒（无负效用）。厂商只能看到产量高低，高产量为，低产量0。工人努力工作时一定是高产量，不努力时却并不一定是0，而是高产量的概率为，低产量0的概率工人努力工作时，厂商得益为，工人得益工人偷懒时，厂商期望得益为，工人得益为考虑如下的触发策略：厂商在第一阶段给工资率，在第t阶段，如果前面t-1 阶段结果都是则继续给，否则从此永远工人的策略是如果则接受，否则宁愿作个体户得到，并在以前各期结果都是和当前工资率时努力工作，否则偷懒。设厂商已采用上述触发策略。由于，工人接受工作是最佳反应。用记工人努力工作时无限次重复博弈得益的现值，则时，努力是工人的最佳选择。反过来，设工人已采用上述触发策略。若厂商给的工资率满足上式条件，并且威胁一旦产量降低就解雇工人，则各阶段的得益为，无限次重复博弈得益现值为。若不愿给，则解雇工人，以后得益为0。因此只要，厂商选择前述触发策略就是最佳反应。综上所述，在满足的条件下，双方的触发策略构成一个纳什均衡。而上述两式实际上意味着即工人努力的产出扣除努力负效用后的剩余，必须不小于工人作个体户的收入即机会成本，加上一定比例的取决于努力负效用、贴现系数和偷懒可能得高产量概率的附加部分。最后这个不等式正是存在有效工资率，工作激励有效的基本条件。

网站首页

关于完美体育

产品中心

完美动态

成功案例

荣誉资质

技术支持

联系我们

在线留言

最新公告：

友情链接：