纳什均衡学习笔记
1.简介
纳什平衡(Nash equilibrium),又称为非合作博弈均衡,是博弈论的一个重要术语,以约翰·纳什命名。
在一个博弈过程中,无论对方的策略选择如何,当事人一方都会选择某个确定的策略,则该策略被称作支配性策略。如果两个博弈的当事人的策略组合分别构成各自的支配性策略,那么这个组合就被定义为纳什平衡。
一个策略组合被称为纳什平衡,当每个博弈者的平衡策略都是为了达到自己期望收益的最大值,与此同时,其他所有博弈者也遵循这样的策略。
2.经典案例
1.囚徒困境
假设有两个小偷A和B联合犯事、私入民宅被警察抓住。
警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:如果一个犯罪嫌疑人坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪。
如果另一个犯罪嫌疑人也作了坦白,则两人各被判刑8年;如果另一个犯罪嫌人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者有功被减刑8年,立即释放。
如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年。
显然,最好的结果是双方都抵赖,结果是大家都只被判一年。由于两人处于隔离的情况,从心理学角度来看,双方都会怀疑对方出卖自己以求自保。
假设两个人都很聪明,都是从自己的角度去进行选择,这时候两个人都会有一个思考过程:假设他坦白,而我抵赖,我就得坐十年牢;
而我坦白也才最多八年;假设是他抵赖,我坦白,那我就可以不用坐牢;如果我们两个人都抵赖,也才一年。
综上,无论他怎么样,我的最优策略都是坦白。 两个人都会这么做选择,所以,两个人都被判了八年。
2.智猪博弈
猪圈里有两头猪,一头大猪,一头小猪。猪圈的一边有个踏板,每踩一下踏板,在远离踏板的猪圈的另一边的投食口就会落下少量的食物。
如果有一只猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物。
当小猪踩动踏板时,大猪会在小猪跑到食槽之前刚好吃光所有的食物;若是大猪踩动了踏板,则还有机会在小猪吃完落下的食物之前跑到食槽,争吃到另一半残羹。
那两只猪分别会采取什么策略?
答案是:小猪会选择不踩踏板,而大猪会在踏板和食槽间来回跑动。
为什么?因为小猪踩踏板会一无所获,不踩还说不定能吃到食物,所以,无论大猪怎么做,它不踩是更好的选择;
反观大猪,它明知道小猪是不会踩踏板的,踩了能有一半的食物,不踩什么也没得吃,所以只好去踩踏板了;