完美体育

咨询热线

400-123-4657

Classification

完美动态

400-123-4657
传真:+86-123-4567
手机:13800000000
邮箱:admin@gzcanna.com
地址:广东省广州市天河区88号
当前位置: 完美体育 > 完美动态

完美体育第三章 完全且完美信息动态博弈a

发布时间:2022-09-25 23:53:49 丨 浏览次数:873

  完美体育(1)是不是信息越多越有利? (2)过程是否重要? (3)动态博弈与静态博弈有哪些异同之处? (4)人们对已经过去的博弈是更注重结果还是更注重过程?其意义何 在?

  在动态博弈中,由于过程十分重要,类似于对未来过 程的了解,它本身依赖于其它博弈方的行为。那么就 存在一个对其博弈方所可能采取策略的可信性问题。 可信性:动态博弈中先行为的博弈方是否应该相信后 行为博弈方会采取某种策略或行为。 后行为博弈方将来采取对先行为博弈方有利的行为为 “许诺”,采取对先行方不利的行为为“威胁”。

  条件:甲去开采一价值4万元的金矿,缺1万元,乙恰 好有1万元可以投资。甲向乙借1万元可以可开金矿, 并“许诺”成功后与对半分成。 问题:乙是否该借钱给甲?

  即甲可能成功之后不与乙分钱(分当然好),则乙损失1 万元。 由此,乙决策的关键在于他是否相信甲的“许诺”,而结 局取决于甲是否遵守他的“许诺”。 接下来乙可采取一些方法以使甲尽可能兑现他的许诺-- 打官司。

  根据自身利益最大化 借 不 原则,甲在轮到行为 借 ( 乙 不 分 时的唯一选择是不分, 1 分 ( 甲 , ( 而乙清楚甲的行为准 0 0 2 ) , , 则,则选择不借。对乙来讲,本博弈中甲有一个不可 4 2 信的肯定不会信守的许诺。 ) ) 怎样使甲的许诺变为可信的呢?关键在于必须增加一 些对甲行为的约束。结点,信息集

  在本博弈中,乙的唯一选择是打官司,对甲来讲, 乙打官司的威胁是可信的,是肯定会信守的,他最理 智的选择就是分。 即,乙的策略是在第一阶段借,如甲在第二阶段 选择不分,则第三阶段选择打;甲的策略是如乙在第 一阶段选择借,则他在第二阶段选择分。在双方这样 的策略组合下,本博弈的路径是(借,分),双方得 益为(2,2),实现有效率的理想的结果。

  在此博弈中,后进入者博弈方1要决定是否进入市 场竞争,而先进入市场的博弈方2有打击和不打击两种 选择。

  根据利润最大化原则,博弈方2的唯一选择是无情 打击对手,这时博弈方2的打击的威胁是可信的。了解 博弈方2决策原则的博弈方1在第一阶段只会选择不进。 该博弈的结果为(0,10),即先占领市场者独享利润。

  当得益变成右图情况 以后,博弈方2的打击的 1 不进 进 威胁就不再是可信的了。 这样,博弈方1在第一阶 (0,1 2 打击 不打击 段的合理选择当然只有进。 博弈的结果选择路径为 (-3,6) (5,8) (进,不打击),双方得益为(5,8)。 后进者信息多,但利润不如先进入者。后来者不一定总是从前 者利益中分出一部分,而可能创造更大的总利益,而先进入者的损 失也不一定很大。

  动态博弈中的子博弈 逆推归纳法 子博弈完美纳什均衡 寡占的斯塔克博格模型 工会和厂商的博弈 讨价还价博弈

  定义: 子博弈即能够自成一个博弈的某个动态博弈的 从其某个阶段开始的后续阶段,它必须有一个初始信 息集,且具备进行博弈所需的各种信息。

  注意: – 原博弈的初始节点开始的博弈为原博弈本身,不称 它为原博弈的子博弈; – 第五章将说明在不完美信息博弈中有其它的不作为 子博弈的起始信息集的 节点。

  在动态博弈中如何求解? 动态博弈的特点是:在采取某一种决策时必须对其后 可能进行的子博弈有充分的了解,这样才能很好的进 行博弈并得到合理的结果(基于理性和可信性,相当 于对后博弈行为的合理假设)。由此,对于完全且完 美信息的动态博弈其基本求解方法可由最后阶段的子 博弈逆推来决定采取合适的策略-逆推归纳法。

  定义:逆推归纳法就是从动态博弈的最后一个阶段或 最后一个子博弈开始,逐步向前倒推以求解动态博弈 的方法。 例 乙

  案例:5个海盗抢到了100颗宝石,每一颗都一样的大小和价值连城。他 们决定这么分:1.抽签决定自己的号码(1,2,3,4,5)2.首先,由 1号提出分配方案,然后大家5人进行表决,当且仅当超过半数的人同 意时,按照他的提案进行分配,否则将被扔进大海喂鲨鱼。3.如果1号 死后,再由2号提出分配方案,然后大家4人进行表决,当且仅当超过 半数的人同意时,按照他的提案进行分配,否则将被扔入大海喂鲨鱼。 4.以次类推…… 条件:每个海盗都是很聪明的人,都能很理智的判断得失,从而做出选 择 问题:第一个海盗提出怎样的分配方案才能够使自己的收益最大化

  动态规划的理论基础是最优性原理。它是一种解决多 阶段决策(序贯决策)过程最优化的一种数学方法。 应用:最优路径问题、资源分配问题、生产调度、库 存、装载、排序、设备更新、最优工艺等

  它认为整个过程的最优策略有这样的特点:即无论过去的状 态和决策如何,对于前面的决策所形成的状态而言,余下的诸决 策必定构成最优策略。这就是说,任何一个完整的最优策略的子 策略总是最优的。根据这个重要的原理,用动态规划方法求解一 个优化问题首先应把问题的过程分成几个相互联系的阶段,这些 阶段的状态可以用阶段的某种特征来描述,而决策过程可以通过 状态的演变来说明 。于是就可以根据问题的实际意义,找出由一 个状态演变到另一状态的状态转移方程,再根据所求问题的有关 效益指标,建立起能够联系局部与全局最优性的动态规划基本方 程。

  在动态博弈中由于博弈过程是逐步深入的,这一过程 由每个阶段所采取的策略构成,由此引出“路径”的 概念。 路径:从第一阶段开始通过每阶段一个行为,最后达 到博弈结束的一个终端各博弈方的行为组合。 找到了路径也就找到了一个分阶段的策略组合,这一 策略组合恰似一个完整的计划,计划的最终实现取决 于过程中各阶段的实现。

  在开金矿案例中,策 略组合(借,分)是 一个稳定的策略组合, 因为如果不分,则有 乙打官司的威胁,这 是双方都不愿得到的结果。 “稳定”意味着博弈方都不会单独 改变策略,这恰似纳什均衡的概念。

  由于动态博弈与静态博弈有较大的差异,那么如何才 能使静态博弈中的纳什均衡在动态博弈中亦有相应的 概念发展? 以开金矿为例(注意此例与以前开金矿例子的差异)

  此时打官司对乙亦无好处 借 (此情况在现实中可能出 分 不 现)。在此情况中,逆推 分 ( 可以得出乙不借完美体育,原因在 打 2 于乙在第三阶段打官司的 , ( 2 威胁是不可信的。由此导 - 开 ) 1 致甲在第二阶段分的许诺也变为不可信。结局 金 , 矿 是,甲开不成金矿,乙保本,甲失去挣钱的机 0 ) 会。

  如果按照静态博弈的分析方法,则(借,分, 打)的策略组合为一个纳什均衡,因为任何一方 都不会单独改变策略而降低自己的得益。这与逆 推归纳法得到的结论相矛盾,原因在于路径(借,分)的 纳什均衡策略组合包含了一个不 可信的威胁,即乙在第三阶段会选择打官司的行 为是不可信的。

  由此需要对静态博弈中的纳什均衡的概念有所调整, 即应满足: – 是纳什均衡,从而具有策略稳定性 – 不能包含任何的不会信守的许诺或威胁

  定义(Selten塞尔顿):如果动态博弈中各博弈方的 策略在动态博弈本身和所有子博弈中都构成一个纳什 均衡,则称该策略组合为一个“子博弈完美纳什均 衡”。

  注意,用逆推归纳法所得到的解应为子博弈完美纳什均衡。 动态博弈所应注意的两点: – 要求各博弈方的策略对每阶段每种可能的情况都设定一 个行为方案。其意义在于避免出现不会信守的许诺或威 胁,从而使子博弈完美纳什均衡可以用。 – 假定所有博弈方都是理性的且不会犯错误的完美体育。

  与实际情况的差异: – 后续可能性太多而无法分析,于是考虑仅知道有限后 续阶段的情况? – 许诺有限非理性,如何考虑?比如假设非理性的次数 小于等于k?下棋… – K叉树算法 – 博弈构成的“长短”与稳定性,不可预测性等

  它是古诺模型在动态博弈中的体现 例如,在古诺模型中二厂商同时决定产量q1,q2,Q= q1 q2,市场出清价格P=8-Q,边际成本C1=C2=2。解得q1*= q2*=2,总得益为44=8。

  然而,许多实际问题为各厂商进入市场有先后,尤其是 厂家有强弱之分,且后一厂商(跟随者)在决策时是看 着前一厂商的选择的,由此引出斯塔克博格模型。 斯塔克博格模型与古诺模型相比,唯一的不同是前者有 一个选择的次序问题,其他如博弈方、策略空间和得益 函数等完全都是相同的。

  设两寡头为厂商1和厂商2;他们的策略空间(q1、q2的 集合)都是〔0,Qmax)中的所有实数,其中Qmax可看做不 至于使价格降到亏本的最大限度产量,或者是该产量与 厂商生产能力之间的最大值;厂商1为先进入企业,设价 P 格函数  P(Q)  8  Q(其中Q=q1  q2 ) ,边际生产成 C1  C2 本 ,固定成本为零。

  注意此时策略空间为连续变量,所以利用反应函数的 方法和逆推归纳法结合来求解。解得q1*=3, q2*=1.5,双方 收益分别为4.5,2.25。 以上分析是基于二厂商都很理性的情况下得到的均衡解。

  以上模型说明: – 在信息不对称的博弈中,信息较多的博弈方(如厂商2 决策之前已知厂商1的实际选择,因此他有较多的信息) 不一定能得到较多的得益。 – 原因:先行为或信息较少者认为后行为方或知识较多 者作为理性的博弈方,不可能为了公平或赌气而采取 任何对双方不利的行为,从而先发制人选择比同静态 决策时更大的产量而获得利益和好处。

  Leontief1964年提出的一个工会与厂商之间关于工资与 雇佣的博弈模型。 条件:假设完全由工会决定工资,而厂商则根据工资的 高低来决定雇佣工人的数量。 注意,此时应有一个均衡解,原因在于工资过高则雇佣 的人数就会减少;而如果人数过多的,则工资过少亦非 工会的希望,那就一定会存在一个较合适的值,促使工 资和人数都比较合适。

  工会的目标就是求出适合的工资和人数,其效用函数应为工资W 和人数L两者的函数 u=u(W,L) ,工会的的决策就是如何选择W*, 使 *

  厂商关心的只有一个目标, max  (W,L)= max  R(L)-WL L0 L0 即利润最大化。 用逆推归纳法来求解,注意到此处只给出了示意性函数,

  在实际问题上可以构造对应的函数,并可得到相应的工会的无差异 R L), W,L),u(W,L) ( ( 曲线 讨价还价博弈-三阶段讨价还价博弈

  每个阶段包括一方提出一个方案和另一方选择是否接受 该方案。每个阶段的费用(如谈判成本,利息等)导致收益 减少,折扣率为δ,0δ1 过程(阶段): 1.甲S1,乙10000-S1;乙接受则终止,否则进行阶段二 2.甲S2,乙10000-S2;甲接受则终止,否则进行阶段三 注意此 时甲的收益为δ S2,乙为δ (10000-S2) 3.甲S,乙10000-S,此时乙必须接受。收益分别为δ2S,δ2 (10000-S)

  注意此博弈的条件: (1)第三阶段的收益是 必须接受的。 (2)过程越长,双方的 收益之和越小。 由此,如果双方是理 性的话,则选择合适的时 期及早结束谈判则对双方 都有利。

  用逆推归纳法来进行求解 - 第三阶段的收益δ2S和δ2(10000-S)对于双方都是知 道的。于是第二阶段乙应该使自己的利益最大而不进行 第三阶段(即甲也接受),那么乙应该如何出价呢? - 如果出S2后,甲的收益小于第三阶段的收益,则甲会进 行第三阶段。于是乙的策略就是第二阶段使甲的收益不 少于甲在第三阶段的收益而使自己的收益最大(比第三 阶段大)。

  - 于是乙 的选择为δS2= δ2S,即S2= δS(使甲二、三阶 段收益相同); 那么,乙的收益为δ(10000-δS) δ2 (10000-S)。 - 同样的分析可应用于甲在第一阶段的策略,即甲在第一阶 段给乙δ(10000-δS) ,甲的收益s1=10000- δ (10000-δS) 由此分析,双方的得益为 ( 10000-10000δδ2S,10000δ-δ2S ),这是双方都比较 好的均衡解,即可以在第一阶段结束。

  讨论: – 第三阶段甲的出价S是双方已知的,如果不知道,结 果如何? – 如果S为如何值乙却必须接受,则S=10000是合理的, 于是S1=10000(1-δδ2),乙的收益为10000 ( δ-δ2)。

  导致最后得益取决于δ-δ2的大小, δ-δ2越大甲的 收益比例越小,乙的则越大。考察函数δ-δ2,其在 δ=0.5时,取极大值0.25;当0.5δ1时,随δ的增 大,甲的收益增加,乙的收益减少;当0δ0.5时, 随δ的增大,甲的收益减少,乙的收益增加。 结论:谈判阶段越多,甲就会损失δ-δ2,这是乙可 以利用的。仅当δ=0时,甲不怕与乙进行谈判。

  奇数由甲提方案(不接受);偶数由乙提方案(不接 受)。如此下去对双方都没有利益,只有损失。 注意,在这种情况下,无法用逆推归纳法。1984年, Shaked和Sutton提出一个解决思路,实际上甲乙是轮 流提方案的,那么可用如下思路来处理:对一个无限 阶段博弈,从第三阶段开始(如果可以达到的话), 还是从第一阶段开始,结果应该是完全一样的。

  由此可推出(在理性的前提下)第一阶段结果与第三阶 段结果应该是一样的。(此处实际上假设了收敛,由 0δ1决定),因为δn趋于0,于是总收益趋于0。  在第一阶段出价 甲 S1=10000-10000δδ2S; 乙 10000- S1= 10000δ-δ2S 第三阶段的S应等于S1,于是 S =S1 =10000-10000δδ2S 得S=10000/(1δ)。此即该博弈的均衡解。

  1 委托人(principle) —代理人(Agents)  委托 不委托 之间的博弈关系是现代经济学研究的   2 重要内容,是动态博弈。 接受 拒绝 [R(0),0] 如企业—工人,店主—店员,政府—国  有企业,公司法人—经理等。 2  委托人-代理人关系可根据松散程度委  努力 偷懒 [R(0),0] 托内容监督难易等的不同可分为不同  的情况。机制设计或激励机制设计。 [R(E)-w(E),w(E)-E] [R(S)-w(S),w(s)-s] 一 无不确定性的委托人—代理人模型 设定:代理人的工作成果没有不确定性, 46 不存在监督问题。 2013-8-27

  利用逆推归纳法求解子博弈纳什均衡解 1。先看第三阶段代理人是否努力的选择

  如果w(E)-Ew(s)-s 即w(E)w(s) E -s (努力的激励相容约束) 时,代理人会选择努力。 反之,如果w(s)-s w(E)-E(偷 懒的激励相容约束)时,代理 人会选择偷懒。 2。第二阶段代理人是否接受委托 的选择。选择接受的条件: w(E)-E0, w(s)-s0;称为参与约 束条件。既接受委托的基本条 件。 3。若第2阶段接受的情况下,有 两种情况: 47 2013-8-27

  b.如果R(s)-w(s) R(0),委托人选 择委托,反之则否。 子博弈完美纳什均衡

  努力成果不确定且不可监督,委托 人可选择报酬函数(薪酬制度)。  代理人在连续区间选择努力水平。  代理人的机会成本为U  努力的负效用函数C=C(e)是单调递 增凸函数。  代理人的产出函数是R=R(e)为一随 机函数。  由于是不完全监督,委托人的支付 函数为w=w(R),有记件工资或利润 提成。w=w(R)=w(R(e))  代理人的得益函数w-C=w[R(e)]53 C(e)

  商店的收益R=R(e)=4eu,其中u是 均值为0的随机扰动项;店员的负效 用函数为C(e)=e2 ,店员接受该工作 的机会成本为U=1。

  结论:店员支付承包费,获得 全额利润提成;店主不发固定 工资完美体育,收取承包费或租金,是 一种承包或租赁制。 子博弈完美纳什均衡。与博弈 方的风险类型有关

  与前面讨论的动态博弈一样,也是多阶段并且在后一 阶段前,博弈方能看到此前的博弈过程,但在同一个 阶段有两个或两个以上博弈方同时选择。严格而言, 这种博弈并不是完美信息的,它们介于完美信息和被 完美信息之间。 可用逆推法来求解,不同的是最后阶段(每一阶段) 不是单一方求利益最大化,而是由一个博弈结果来决 定的。因而与以往的不有一个的差异,要详细分析才 可以。

  基本形式: (1)四个博弈方1,2,3,4 (2)博弈方1、2在第一阶段同时选择各自的可选策略集 a1∈A1, a2∈A2 (3)博弈方3、4在看到1、2的选择(a1,a2)后,第二 阶段同时在各自选择的可选策略集合A3, A4中选择 a3∈A3, a4∈A4 (4)所有博弈方的得益取决于a1,a2,a3,a4。即博弈 方i的得益ui( a1,a2,a3,a4)是各方效率的函数。

  问题:客户1、2在同一银行各存有100元,银行将其投 资于一个项目到期收入280元,若在到期前抽回投资, 则只能收回140元;对客户来讲,抽回存款的日期也分 同样的两种。各博弈方的策略和收益如下:

  采用逆推归纳法,从第二阶段日期2的博弈看起,其唯一 的纳什均衡为(抽回,抽回)完美动态,双方得益为(140,140)。 再回到第一阶段,日期1,由于两博弈方对第二阶段的博 弈结果都十分清楚,这样可直接将(140,140)作为第一 阶段双方都选不抽时的得益代入日期1的得益矩阵,即得 下图所示矩阵

  银行挤兑中得益矩阵有两个纳什均衡(抽回,抽回)和 (不抽,不抽),对应的得益分别为(70,70)和 (140,140),这说明在银行挤兑中的一种可能的低效率均 衡(70,70)的存在,不过还有一个有效率的纳什均衡 (140,140),稍加控制即可使结果达到有效的均衡,比如 保证金等信誉手段。 这就回答了为什么各政府要建立信誉保证保障制度等的 原意,同时这也是一个机制设计问题。

  两个国家各有一个企业(可理解为国内企业关系), Qi 为国家i市场上的商品总量;Pi为市场出清价格 Pi = Pi ( Qi)=a- Qi,i=1,2;Qi=hiei i,j= 1,2 , i=1,j=2 ; i=2,j=1其中 hi为内销ei为出口;边际 生产成本为c,总成本为c( hiei);j国的关税率为tj时, 企业i的出口成本为cei tjei,内销成本为chi 假设:两国政府制定关税t1,t2,企业1、2的销量由t1,t2 同时决定,内销和出口量分别为(h1,e1), (h2,e2)

  企业的得益πi= πi(ti,tj,hi,hj,ei,ej) =PihiPjei-c(hiei)-tjei 利用逆推求解,得 hi*=(a-cti)/3 ei*=(a-c-2ti)/3 可以看出hi*为ti的增函数,ei*为ti的减函数,所以一 个国家的关税具有保护本国企业,提高本国企业在国内市 场的市场占有率,打击国外企业竞争的作用。 若无关税,则为古诺模型。

  问题的提出: 设有两个工人1,2在一个老板手下工作。工人i(i=1, 2)的产出函数为yi=eiεi,其中ei为工人i的努力而εi则 是随机扰动。进一步假设(1)两工人在本博弈中同时独立 选择自己的努力程度ei,ei≥0;(2)扰动项ε1,ε2相当 于是从分布密度为f(ε),均值为零的概率分布中独立抽 取;(3)工人的产出看得见而他们的努力程度却看不见, 因此无法根据工人的努力程度给工资,只能根据产量给工 资。

  模型(Lazear & Rosen):老板通过让工人进行竞赛的 方法激发他们努力工作。老板宣布产量高的工人(竞 赛的获胜者)将得到较高的工资wh,而产量低的工人 就只能得到较低的工资wl。 这也是一个有同时选择的动态博弈问题。

Copyright © 2012-2022 完美体育 版权所有
电 话:400-123-4657    手 机:13800000000   传 真:+86-123-4567    E-mail:admin@gzcanna.com
地 址:广东省广州市天河区88号
粤ICP备17070116号

扫一扫关注完美体育

免费咨询 投诉建议
网站地图