完美体育第三章完全且完美信息动态博弈a

Classification

完美动态

400-123-4657

传真：+86-123-4567
手机：13800000000
邮箱：admin@gzcanna.com
地址：广东省广州市天河区88号

立即咨询

当前位置：完美体育 > 完美动态

完美体育第三章完全且完美信息动态博弈a

发布时间：2022-09-25 23:53:49 丨浏览次数：873

　　完美体育（1）是不是信息越多越有利？（2）过程是否重要？（3）动态博弈与静态博弈有哪些异同之处？（4）人们对已经过去的博弈是更注重结果还是更注重过程？其意义何在？

　　在动态博弈中，由于过程十分重要，类似于对未来过程的了解，它本身依赖于其它博弈方的行为。那么就存在一个对其博弈方所可能采取策略的可信性问题。可信性：动态博弈中先行为的博弈方是否应该相信后行为博弈方会采取某种策略或行为。后行为博弈方将来采取对先行为博弈方有利的行为为 “许诺”，采取对先行方不利的行为为“威胁”。

　　条件：甲去开采一价值4万元的金矿，缺1万元，乙恰好有1万元可以投资。甲向乙借1万元可以可开金矿，并“许诺”成功后与对半分成。问题：乙是否该借钱给甲？

　　即甲可能成功之后不与乙分钱（分当然好），则乙损失1 万元。由此，乙决策的关键在于他是否相信甲的“许诺”，而结局取决于甲是否遵守他的“许诺”。接下来乙可采取一些方法以使甲尽可能兑现他的许诺－－打官司。

　　根据自身利益最大化借不原则，甲在轮到行为借（乙不分时的唯一选择是不分， 1 分（甲，（而乙清楚甲的行为准 0 0 2 ），，则，则选择不借。对乙来讲，本博弈中甲有一个不可 4 2 信的肯定不会信守的许诺。））怎样使甲的许诺变为可信的呢？关键在于必须增加一些对甲行为的约束。结点，信息集

　　在本博弈中，乙的唯一选择是打官司，对甲来讲，乙打官司的威胁是可信的，是肯定会信守的，他最理智的选择就是分。即，乙的策略是在第一阶段借，如甲在第二阶段选择不分，则第三阶段选择打；甲的策略是如乙在第一阶段选择借，则他在第二阶段选择分。在双方这样的策略组合下，本博弈的路径是（借，分），双方得益为（2，2），实现有效率的理想的结果。

　　在此博弈中，后进入者博弈方1要决定是否进入市场竞争，而先进入市场的博弈方2有打击和不打击两种选择。

　　根据利润最大化原则，博弈方2的唯一选择是无情打击对手，这时博弈方2的打击的威胁是可信的。了解博弈方2决策原则的博弈方1在第一阶段只会选择不进。该博弈的结果为（0，10），即先占领市场者独享利润。

　　当得益变成右图情况以后，博弈方2的打击的 1 不进进威胁就不再是可信的了。这样，博弈方1在第一阶（0，1 2 打击不打击段的合理选择当然只有进。博弈的结果选择路径为（－3，6）（5，8）（进，不打击），双方得益为（5，8）。后进者信息多，但利润不如先进入者。后来者不一定总是从前者利益中分出一部分，而可能创造更大的总利益，而先进入者的损失也不一定很大。

　　动态博弈中的子博弈逆推归纳法子博弈完美纳什均衡寡占的斯塔克博格模型工会和厂商的博弈讨价还价博弈

　　定义：子博弈即能够自成一个博弈的某个动态博弈的从其某个阶段开始的后续阶段，它必须有一个初始信息集，且具备进行博弈所需的各种信息。

　　注意： – 原博弈的初始节点开始的博弈为原博弈本身，不称它为原博弈的子博弈； – 第五章将说明在不完美信息博弈中有其它的不作为子博弈的起始信息集的节点。

　　在动态博弈中如何求解？动态博弈的特点是：在采取某一种决策时必须对其后可能进行的子博弈有充分的了解，这样才能很好的进行博弈并得到合理的结果（基于理性和可信性，相当于对后博弈行为的合理假设）。由此，对于完全且完美信息的动态博弈其基本求解方法可由最后阶段的子博弈逆推来决定采取合适的策略－逆推归纳法。

　　定义：逆推归纳法就是从动态博弈的最后一个阶段或最后一个子博弈开始，逐步向前倒推以求解动态博弈的方法。例乙

　　案例：5个海盗抢到了100颗宝石，每一颗都一样的大小和价值连城。他们决定这么分：1.抽签决定自己的号码（1，2，3，4，5）2.首先，由 1号提出分配方案，然后大家5人进行表决，当且仅当超过半数的人同意时，按照他的提案进行分配，否则将被扔进大海喂鲨鱼。3.如果1号死后，再由2号提出分配方案，然后大家4人进行表决，当且仅当超过半数的人同意时，按照他的提案进行分配，否则将被扔入大海喂鲨鱼。 4.以次类推…… 条件：每个海盗都是很聪明的人，都能很理智的判断得失，从而做出选择问题：第一个海盗提出怎样的分配方案才能够使自己的收益最大化

　　动态规划的理论基础是最优性原理。它是一种解决多阶段决策（序贯决策）过程最优化的一种数学方法。应用：最优路径问题、资源分配问题、生产调度、库存、装载、排序、设备更新、最优工艺等

　　它认为整个过程的最优策略有这样的特点：即无论过去的状态和决策如何，对于前面的决策所形成的状态而言，余下的诸决策必定构成最优策略。这就是说，任何一个完整的最优策略的子策略总是最优的。根据这个重要的原理，用动态规划方法求解一个优化问题首先应把问题的过程分成几个相互联系的阶段，这些阶段的状态可以用阶段的某种特征来描述，而决策过程可以通过状态的演变来说明。于是就可以根据问题的实际意义，找出由一个状态演变到另一状态的状态转移方程，再根据所求问题的有关效益指标，建立起能够联系局部与全局最优性的动态规划基本方程。

　　在动态博弈中由于博弈过程是逐步深入的，这一过程由每个阶段所采取的策略构成，由此引出“路径”的概念。路径：从第一阶段开始通过每阶段一个行为，最后达到博弈结束的一个终端各博弈方的行为组合。找到了路径也就找到了一个分阶段的策略组合，这一策略组合恰似一个完整的计划，计划的最终实现取决于过程中各阶段的实现。

　　在开金矿案例中，策略组合（借，分）是一个稳定的策略组合，因为如果不分，则有乙打官司的威胁，这是双方都不愿得到的结果。 “稳定”意味着博弈方都不会单独改变策略，这恰似纳什均衡的概念。

　　由于动态博弈与静态博弈有较大的差异，那么如何才能使静态博弈中的纳什均衡在动态博弈中亦有相应的概念发展？以开金矿为例（注意此例与以前开金矿例子的差异）

　　此时打官司对乙亦无好处借（此情况在现实中可能出分不现）。在此情况中，逆推分（可以得出乙不借完美体育，原因在打 2 于乙在第三阶段打官司的，（ 2 威胁是不可信的。由此导－开） 1 致甲在第二阶段分的许诺也变为不可信。结局金，矿是，甲开不成金矿，乙保本，甲失去挣钱的机 0 ）会。

　　如果按照静态博弈的分析方法，则（借，分，打）的策略组合为一个纳什均衡，因为任何一方都不会单独改变策略而降低自己的得益。这与逆推归纳法得到的结论相矛盾，原因在于路径（借，分）的纳什均衡策略组合包含了一个不可信的威胁，即乙在第三阶段会选择打官司的行为是不可信的。

　　由此需要对静态博弈中的纳什均衡的概念有所调整，即应满足： – 是纳什均衡，从而具有策略稳定性 – 不能包含任何的不会信守的许诺或威胁

　　定义（Selten塞尔顿）：如果动态博弈中各博弈方的策略在动态博弈本身和所有子博弈中都构成一个纳什均衡，则称该策略组合为一个“子博弈完美纳什均衡”。

　　注意，用逆推归纳法所得到的解应为子博弈完美纳什均衡。动态博弈所应注意的两点： – 要求各博弈方的策略对每阶段每种可能的情况都设定一个行为方案。其意义在于避免出现不会信守的许诺或威胁，从而使子博弈完美纳什均衡可以用。 – 假定所有博弈方都是理性的且不会犯错误的完美体育。

　　与实际情况的差异： – 后续可能性太多而无法分析，于是考虑仅知道有限后续阶段的情况？ – 许诺有限非理性，如何考虑？比如假设非理性的次数小于等于k？下棋… – K叉树算法 – 博弈构成的“长短”与稳定性，不可预测性等

　　它是古诺模型在动态博弈中的体现例如，在古诺模型中二厂商同时决定产量q1，q2，Q= q1 q2，市场出清价格P=8－Q，边际成本C1=C2=2。解得q1*= q2*=2，总得益为44=8。

　　然而，许多实际问题为各厂商进入市场有先后，尤其是厂家有强弱之分，且后一厂商（跟随者）在决策时是看着前一厂商的选择的，由此引出斯塔克博格模型。斯塔克博格模型与古诺模型相比，唯一的不同是前者有一个选择的次序问题，其他如博弈方、策略空间和得益函数等完全都是相同的。

　　设两寡头为厂商1和厂商2；他们的策略空间（q1、q2的集合）都是〔0，Qmax）中的所有实数，其中Qmax可看做不至于使价格降到亏本的最大限度产量，或者是该产量与厂商生产能力之间的最大值；厂商1为先进入企业，设价 P 格函数  P(Q)  8  Q(其中Q＝q1  q2 ) ，边际生产成 C1  C2 本，固定成本为零。

　　注意此时策略空间为连续变量，所以利用反应函数的方法和逆推归纳法结合来求解。解得q1*=3， q2*=1.5，双方收益分别为4.5，2.25。以上分析是基于二厂商都很理性的情况下得到的均衡解。

　　以上模型说明： – 在信息不对称的博弈中，信息较多的博弈方（如厂商2 决策之前已知厂商1的实际选择，因此他有较多的信息）不一定能得到较多的得益。 – 原因：先行为或信息较少者认为后行为方或知识较多者作为理性的博弈方，不可能为了公平或赌气而采取任何对双方不利的行为，从而先发制人选择比同静态决策时更大的产量而获得利益和好处。

　　Leontief1964年提出的一个工会与厂商之间关于工资与雇佣的博弈模型。条件：假设完全由工会决定工资，而厂商则根据工资的高低来决定雇佣工人的数量。注意，此时应有一个均衡解，原因在于工资过高则雇佣的人数就会减少；而如果人数过多的，则工资过少亦非工会的希望，那就一定会存在一个较合适的值，促使工资和人数都比较合适。

　　工会的目标就是求出适合的工资和人数，其效用函数应为工资W 和人数L两者的函数 u=u(W,L) ，工会的的决策就是如何选择W*, 使 *

　　厂商关心的只有一个目标， max  (W,L)= max  R(L)-WL L0 L0 即利润最大化。用逆推归纳法来求解，注意到此处只给出了示意性函数，

　　在实际问题上可以构造对应的函数，并可得到相应的工会的无差异 R L）, W,L）,u（W,L）（（曲线讨价还价博弈－三阶段讨价还价博弈

　　每个阶段包括一方提出一个方案和另一方选择是否接受该方案。每个阶段的费用（如谈判成本，利息等）导致收益减少，折扣率为δ，0δ1 过程（阶段）： 1.甲S1，乙10000-S1；乙接受则终止，否则进行阶段二 2.甲S2，乙10000-S2；甲接受则终止，否则进行阶段三注意此时甲的收益为δ S2，乙为δ （10000-S2） 3.甲S，乙10000-S，此时乙必须接受。收益分别为δ2S，δ2 （10000-S）

　　注意此博弈的条件：（1）第三阶段的收益是必须接受的。（2）过程越长，双方的收益之和越小。由此，如果双方是理性的话，则选择合适的时期及早结束谈判则对双方都有利。

　　用逆推归纳法来进行求解 - 第三阶段的收益δ2S和δ2（10000-S）对于双方都是知道的。于是第二阶段乙应该使自己的利益最大而不进行第三阶段（即甲也接受），那么乙应该如何出价呢？ - 如果出S2后，甲的收益小于第三阶段的收益，则甲会进行第三阶段。于是乙的策略就是第二阶段使甲的收益不少于甲在第三阶段的收益而使自己的收益最大（比第三阶段大）。

　　- 于是乙的选择为δS2＝ δ2S，即S2＝ δS（使甲二、三阶段收益相同）；那么，乙的收益为δ（10000-δS） δ2 （10000-S）。 - 同样的分析可应用于甲在第一阶段的策略，即甲在第一阶段给乙δ（10000-δS），甲的收益s1＝10000- δ （10000-δS）由此分析，双方的得益为（ 10000-10000δδ2S，10000δ-δ2S ），这是双方都比较好的均衡解，即可以在第一阶段结束。

　　讨论： – 第三阶段甲的出价S是双方已知的，如果不知道，结果如何？ – 如果S为如何值乙却必须接受，则S＝10000是合理的，于是S1＝10000（1-δδ2），乙的收益为10000 （ δ-δ2）。

　　导致最后得益取决于δ-δ2的大小， δ-δ2越大甲的收益比例越小，乙的则越大。考察函数δ-δ2，其在 δ＝0.5时，取极大值0.25；当0.5δ1时，随δ的增大，甲的收益增加，乙的收益减少；当0δ0.5时，随δ的增大，甲的收益减少，乙的收益增加。结论：谈判阶段越多，甲就会损失δ-δ2，这是乙可以利用的。仅当δ＝0时，甲不怕与乙进行谈判。

　　奇数由甲提方案（不接受）；偶数由乙提方案（不接受）。如此下去对双方都没有利益，只有损失。注意，在这种情况下，无法用逆推归纳法。1984年， Shaked和Sutton提出一个解决思路，实际上甲乙是轮流提方案的，那么可用如下思路来处理：对一个无限阶段博弈，从第三阶段开始（如果可以达到的话），还是从第一阶段开始，结果应该是完全一样的。

　　由此可推出（在理性的前提下）第一阶段结果与第三阶段结果应该是一样的。（此处实际上假设了收敛，由 0δ1决定），因为δn趋于0，于是总收益趋于0。  在第一阶段出价甲 S1＝10000-10000δδ2S；乙 10000- S1＝ 10000δ-δ2S 第三阶段的S应等于S1，于是 S ＝S1 ＝10000-10000δδ2S 得S＝10000/（1δ）。此即该博弈的均衡解。

　　1 委托人（principle) —代理人(Agents)  委托不委托之间的博弈关系是现代经济学研究的   2 重要内容，是动态博弈。接受拒绝 [R(0),0] 如企业—工人，店主—店员，政府—国  有企业，公司法人—经理等。 2  委托人-代理人关系可根据松散程度委  努力偷懒 [R(0),0] 托内容监督难易等的不同可分为不同  的情况。机制设计或激励机制设计。 [R(E)-w(E),w(E)-E] [R(S)-w(S),w(s)-s] 一无不确定性的委托人—代理人模型设定：代理人的工作成果没有不确定性， 46 不存在监督问题。 2013-8-27

　　利用逆推归纳法求解子博弈纳什均衡解 1。先看第三阶段代理人是否努力的选择

　　如果w(E)-Ew(s)-s 即w(E)w(s) E -s （努力的激励相容约束）时，代理人会选择努力。反之，如果w(s)-s w(E)-E（偷懒的激励相容约束）时，代理人会选择偷懒。 2。第二阶段代理人是否接受委托的选择。选择接受的条件： w(E)-E0, w(s)-s0;称为参与约束条件。既接受委托的基本条件。 3。若第2阶段接受的情况下，有两种情况： 47 2013-8-27

　　b.如果R(s)-w(s) R(0),委托人选择委托，反之则否。子博弈完美纳什均衡

　　努力成果不确定且不可监督，委托人可选择报酬函数（薪酬制度）。  代理人在连续区间选择努力水平。  代理人的机会成本为U  努力的负效用函数C=C(e)是单调递增凸函数。  代理人的产出函数是R=R(e)为一随机函数。  由于是不完全监督，委托人的支付函数为w=w(R),有记件工资或利润提成。w=w(R)=w(R(e))  代理人的得益函数w-C=w[R(e)]53 C(e)

　　商店的收益R=R(e)=4eu,其中u是均值为0的随机扰动项；店员的负效用函数为C(e)=e2 ,店员接受该工作的机会成本为U=1。

　　结论：店员支付承包费，获得全额利润提成；店主不发固定工资完美体育，收取承包费或租金，是一种承包或租赁制。子博弈完美纳什均衡。与博弈方的风险类型有关

　　与前面讨论的动态博弈一样，也是多阶段并且在后一阶段前，博弈方能看到此前的博弈过程，但在同一个阶段有两个或两个以上博弈方同时选择。严格而言，这种博弈并不是完美信息的，它们介于完美信息和被完美信息之间。可用逆推法来求解，不同的是最后阶段（每一阶段）不是单一方求利益最大化，而是由一个博弈结果来决定的。因而与以往的不有一个的差异，要详细分析才可以。

　　基本形式：（1）四个博弈方1，2，3，4 （2）博弈方1、2在第一阶段同时选择各自的可选策略集 a1∈A1， a2∈A2 （3）博弈方3、4在看到1、2的选择（a1，a2）后，第二阶段同时在各自选择的可选策略集合A3， A4中选择 a3∈A3， a4∈A4 （4）所有博弈方的得益取决于a1，a2，a3，a4。即博弈方i的得益ui（ a1，a2，a3，a4）是各方效率的函数。

　　问题：客户1、2在同一银行各存有100元，银行将其投资于一个项目到期收入280元，若在到期前抽回投资，则只能收回140元；对客户来讲，抽回存款的日期也分同样的两种。各博弈方的策略和收益如下：

　　采用逆推归纳法，从第二阶段日期2的博弈看起，其唯一的纳什均衡为（抽回，抽回）完美动态，双方得益为（140，140）。再回到第一阶段，日期1，由于两博弈方对第二阶段的博弈结果都十分清楚，这样可直接将（140，140）作为第一阶段双方都选不抽时的得益代入日期1的得益矩阵，即得下图所示矩阵

　　银行挤兑中得益矩阵有两个纳什均衡（抽回，抽回）和（不抽，不抽），对应的得益分别为（70，70）和（140,140），这说明在银行挤兑中的一种可能的低效率均衡（70，70）的存在，不过还有一个有效率的纳什均衡（140，140），稍加控制即可使结果达到有效的均衡，比如保证金等信誉手段。这就回答了为什么各政府要建立信誉保证保障制度等的原意，同时这也是一个机制设计问题。

　　两个国家各有一个企业（可理解为国内企业关系）， Qi 为国家i市场上的商品总量；Pi为市场出清价格 Pi ＝ Pi （ Qi）＝a- Qi，i＝1，2；Qi＝hiei i，j＝ 1，2 ， i＝1，j＝2 ； i＝2，j＝1其中 hi为内销ei为出口；边际生产成本为c，总成本为c（ hiei）；j国的关税率为tj时，企业i的出口成本为cei tjei，内销成本为chi 假设：两国政府制定关税t1，t2，企业1、2的销量由t1，t2 同时决定，内销和出口量分别为（h1，e1），（h2，e2）

　　企业的得益πi＝ πi（ti，tj，hi，hj，ei，ej）＝PihiPjei-c（hiei）-tjei 利用逆推求解，得 hi*＝（a-cti）/3 ei*＝（a-c-2ti）/3 可以看出hi*为ti的增函数，ei*为ti的减函数，所以一个国家的关税具有保护本国企业，提高本国企业在国内市场的市场占有率，打击国外企业竞争的作用。若无关税，则为古诺模型。

　　问题的提出：设有两个工人1，2在一个老板手下工作。工人i（i＝1， 2）的产出函数为yi=eiεi,其中ei为工人i的努力而εi则是随机扰动。进一步假设（1）两工人在本博弈中同时独立选择自己的努力程度ei，ei≥0；（2）扰动项ε1，ε2相当于是从分布密度为f（ε），均值为零的概率分布中独立抽取；（3）工人的产出看得见而他们的努力程度却看不见，因此无法根据工人的努力程度给工资，只能根据产量给工资。

　　模型（Lazear & Rosen)：老板通过让工人进行竞赛的方法激发他们努力工作。老板宣布产量高的工人（竞赛的获胜者）将得到较高的工资wh，而产量低的工人就只能得到较低的工资wl。这也是一个有同时选择的动态博弈问题。

网站首页

关于完美体育

产品中心

完美动态

成功案例

荣誉资质

技术支持

联系我们

在线留言

最新公告：

友情链接：