完美体育完全且完美信息动态博弈--逆向归纳法

Classification

完美动态

400-123-4657

传真：+86-123-4567
手机：13800000000
邮箱：admin@gzcanna.com
地址：广东省广州市天河区88号

发布时间：2022-10-29 02:47:36 丨浏览次数：697

　　动态博弈的核心问题之一是可信性问题。动态博弈中博弈方的策略是他们自己预先设定的。在各个博弈阶段针对各种情况的相应行为选择的计划，这些策略实际上并没有强制力，而且实施起来有一个过程完美动态，因此只要有符合博弈方自己眼前利益的机会，他们完全可以在博弈过程中改变计划。这种情况叫做动态博弈中的“相机选择”问题。相机选择的存在使得博弈方的策略中，所设定的各个阶段、各种情况下可能会采取的行动或策略的“可信性”有了疑问，这使得动态博弈分析比静态博弈分析要复杂。我们来举个例子：

　　某投资人A投资一个价值6万元的项目时缺少2万元资金，而B此时有2万元闲置资金可以投资。A希望B将2万元资金借给自己，并答应在年终赚钱后和B对半分，那B是否该将钱借给A呢？假设投资该项目肯定可以赢利，则B最担心的就是A赚钱后是否会真的与自己平分利润，因为如果A赚钱后不仅不和B平分，而且还卷款潜逃就会连自己的本钱都收不回来

　　下图最上方的圆圈表示B的选择信息集或称选择节点，B在此处有“借和“不借”两种可能的行为选择，“借”和“不借”就是B策略集。如果B选择“不借”，则博弈结束，他可以无顾虑地继续拥有2万元本钱，而A则不能投资得到6万元的利润，如B选择“借”则博弈进行到A的选择信息集，轮到A开始选择。A在选择节点也有两种可选择的行为，分别是“分”与“不分”，同样，“分”与“不分”就构成A的策略空间。不管A选择“分”还是“不分”博弈都自动结束。A选择“分”则两方获益，A得到3万元的投资利润，而B的2万元本钱也增值成了3万元。若A选择“不分”则独吞6万元，B一无所有。图中三个终端处的数组，表示由各博弈方各阶段行为依次构成的，到达这些终端的“路径”所实现的各博弈方的收益，第一个数字是B的收益，第二个数字是A的收益。

　　在该两阶段动态博弈中，B决策的关键是要判断A的许诺是否可信。根据理性人准则，A在决策时的选择应该是“不分”，独吞6万元的利润，实现自己的利益最大化。B清楚自己借钱给A后所可能面临的风险，因此他不会被A的不可信的承诺迷惑，因此B最合理的选择是“不借”，保住自己的本钱，实现自己利益最大化。

　　因为有不可信的许诺，A、B的合作最终成为不可能，这时对A、B两方来说都不是佳结果

　　为了使A的许诺变成可信的，从而使B愿意选择“借”，然后A遵守诺言选择“分”，最终实现双方的最佳利益，现假设B威胁在A违约时,“打官司”保护自己的利益。由于打官司也要产生成本，非常劳民伤完美体育财，因此假设打官司的结果是B能收回本钱2万而A则会失去全部收入。这样博弈就成为下图表示的两博弈方之间的三阶段动态博弈。

　　有了这个第三阶段，博弈的结果就完全不同。当博弈进行到第三阶段，即A选择“不分”时，B可以选择“打官司”来讨回公道。如果B选择“不打”官司，则A独吞6万元，B什么好处也没有。当B选择“打”官司时，则能收回自己的2万元本钱，B“打”官司的得益比“不打官司的得益大，因此B的唯一选择是“打”官司。对A来说，他完全清楚B的上述思路，知道B打”官司”的威胁是可信的，因此A理性的选择是“分”,双方共享利益各得3万元。这时A“分”的许诺成了可信的诺言。可见，B在增加对A的一个法律约束条件之后，自身的利益受到法律保障，A的“分”钱许诺就变成可信的许诺，B在第一阶段可以放心大胆地选择“借”了。博弈结果是B在第一阶段选择“借”，A在第二阶段选择“分”，从而结束博弈，双方各得到得益3。此时B的完整策略是第一阶段选择借，若第二阶段A选择“不分”，第三阶段选择‘’打”，A的完整策略就是“第二阶段选择分”。这就是这个三阶段动态博弈的解。

　　现在我们假设B威胁的不是“打官司”，而是威胁使用“手雷”炸死A，即B威胁在A选择“不分”时，将用“手雷”炸死A，此时收益为下图所示的扩展形。

　　这时候B在第三阶段“炸”的威胁对A来说是一种不可信的威胁，因为这种情况下虽然让A损失10万元，但B自己也损失了10万，而“不炸”让B只损失2万元，所以理性的B是不会选择“炸”的。如果A清楚B的想法，虽然他在第二阶段选择时会考虑如果第三阶段B选择“炸”对自己很不利，但对B第三阶段“炸”的威胁仍然会无所顾忌，他最终还是会选择“不分”。

　　动态博弈中的博弈是一个相机行事的过程，即在动态博弈中各博弈方是在等到博弈轮到自己选择时再决定如何行动。这种相机选择引出了动态博弈中的一个中心问题，即可信性问题。

　　在静态博弈中，纳什均衡具有良好的稳定性，即各博弈方都没有动力去改变这一策略组合。由于纳什均衡具有稳定性，各博弈方能够一致预测该均衡的最终形式，即各博弈方似乎是在博弈开始之前就制定出一个完全的行动选计划。但在动态博弈中，由于相机行为的存在，并进而导致不可信问题，这样就使得静态博弈下的纳什均衡可能会缺乏稳定性。

　　纳什均衡在动态博弈中可能缺乏稳定性的根源，正是在于它不能排除博弈方策略中所包含的不可信的行为设定，不能解决动态博弈的相机选择引起的可信性问题。纳什均衡概念的这种缺陷，使得它在分析动态博弈时往往不能作出可靠的判断和预测，其作用和价值受到限制，也使得我们思考要引进更有效的分析动态博弈的概念和方法。这些概念和方法在动态博弈分析中除了要符合纳什均衡的基本要求以外，还必须能够排除博弈方策略中不可信的行为设定，如各种不可信的威胁和承诺，从而排除“合理”的或者稳定的纳什均衡进而排除掉“不合理”或不稳定的纳什均衡。只有满足这样要求的均衡概念在动态博弈分析中才有真正的稳定性，才能对动态博弈作出有效的分析和预测。这就是我们下面及后面要介绍的逆向归纳法及子博弈纳什均衡理论。

　　在博弈论中经常用“可置信”和“不可置信”来区分博弈者选择的策略。在对动态博时弈的分析中，我们会分析什么样的策略是可置信的，什么样的策略是不可置信的，而分析”威胁”或“承诺”是可置信的还是不可置信的方法就是“逆向归纳法 ”。

　　在上面的博弈中，我们采用了一种分析动态博弈的有效方法，从动态博弈的最后一个阶段博弈方的行为开始分析，逐步倒推回前一个阶段相应博弈方的行为选择，一直到第一个阶段的分析方法。这种分析方法称为“逆向归纳法”又称倒推法。它是从博弈的最后一个决策阶段开始分析完美体育，确定该阶段博弈方的策略选择，然后再确定前一阶段博弈方的策略选择，一直推到起始点。

　　逆向归纳法的特征是：博弈行为是顺序发生的。先行动的理性博弈方在前面阶段选择行为时必然会先考虑后行动博弈方在后面阶段中将会怎样选择行为，只有在博弈的最后一个阶段选择的，不再有任何后续阶段影响的博弈方，才能直接作出明确选择后面的行动者在进行行为选择前，所有以前的行为都可以被观察到，而当后面阶段博弈方的选择定以后，前一阶段博弈方的行为也就容易确定了。

　　逆向归纳法的方法是：博弈分析从动态博弈的最后一个阶段开始，每一次确定出所分析阶段博弈方的策略选择和路径，然后再确定前一个阶段博弈方的策略选择和完美体育路径。当逆推归纳到某个阶段时完美体育，这个阶段及后续的博弈结果就可以肯定下来，该阶段的选择节点等于一个结束终端。不断重复上述逆向递推过程，直至第一阶段，最后得到各博弈方在不同阶段的策略选择及其行为路径组合。

　　理逆向归纳法实质上就是各阶段动态规划的库恩算法。因此，先了解运筹学中动态规划再来了解这里的逆向归纳法的特征和方法步骤就非常容易。

　　对于上图所示的博弈来说的逆向归纳法的第一步是先分析第三阶段B是否“炸”的选择，由于“炸”比“不炸”损失更大，他必然会选择“不炸”。因此一旦博弈进行到这个阶段，结果必然是B选择“不炸”,双方得益为(0,6)。

　　如果我们对上述两阶段博弈运用逆向归纳法，可知A在第二阶段的选择必然是“不分”,因此该博弈可进一步化为下图中的等价弈。这是一个单人博弈，B“不借”的选择是很显然的，因为B如果选择“借”，A会选择“不分”，那么B得到0的收益，如果B选择不借，他会得到2的收益。

　　我们知道，动态规划的库恩算法( Kuhn Algorithm)是通过逆向求解，把一个多阶段动态规划问题分解为一个个单阶段的优化问题完美体育，通过求解每一个单阶段的最优解，来得到整体规划完美体育的最优解。同样，在动态博弈中，逆向归纳法也就是把多阶段动态博弈化为一系列的单人博弈，通过对一系列单人博弈的分析，确定博弈方在各自选择阶段的选择最终对动态博弈结果，包括博弈的路径和各博弈方的得益等作出判断，归纳各个博弈方各阶段的选择则可得到各个博弈方在整个动态博弈中的策略。

网站首页

关于完美体育

产品中心

完美动态

成功案例

荣誉资质

技术支持

联系我们

在线留言

最新公告：

友情链接：