基礎知識
策略:參與人在給定信息集的情況下選擇行動的規則,它規定參與人在什麼情況下選擇什麼行動,是參與人的“相機行動方案”。
純策略:如果一個策略規定參與人在每一個給定的信息情況下只選擇一種特定的行動,稱為純策略,簡稱“策略” ,即參與人在其策略空間中選取唯一確定的策略。
混合策略:如果一個策略規定參與人在給定的信息情況下以某種機率分布隨機地選擇不同的行動,稱為混合策略。參與人採取的不是明確唯一的策略,而是其策略空間上的一種機率分布。
混合策略擴展博弈:博弈方在混合策略的策略空間(機率分布空間)的選擇看作一個博弈,就是原博弈的“混合策略擴展博弈”。
納什均衡:一般將嚴格占優策略均衡、重複剔除的占優策略均衡、純策略納什均衡和
混合策略納什均衡統稱為
納什均衡。嚴格占優策略均衡是重複剔除的占優策略均衡的特例;重複剔除的占優策略均衡是純策略納什均衡的特例;純策略納什均衡是混合策略納什均衡的特例。
混合策略納什均衡(MNE):由最優的混合策略構成的混合策略組合。
區別
在
完全信息博弈中,如果在每個給定信息下,只能選擇一種特定策略,這個策略為
純策略。如果在每個給定信息下只以某種機率選擇不同策略,稱為混合策略。
混合策略是純策略在空間上的
機率分布。純策略可以理解為混合策略的特例,即在諸多策略中,選擇該純策略的機率為1,選其他純策略的機率為0。純策略的收益可以用效用表示,混合策略的收益只能以預期效用表示。
舉例
兩個參與人各拿一枚硬幣,並選擇出正面向上還是反面向上。若兩枚硬幣是一致的(即全部正面或全部反面),則參與人2贏走參與人1的硬幣;若兩枚硬幣不一致(一正一反),參與人1贏得參與人2的硬幣。支付如表1:
上述博弈的特徵是:
| 參與人2 |
參與人1 | | 正 | 反 |
正 | -1,1 | 1,-1 |
反 | 1,-1 | -1,1 |
在這類博弈中,不存在純策略納什均衡;
參與人的支付取決於其他參與人的策略,以某種機率分布隨機地選擇不同的行動;
每個參與人都想猜透對方的策略,而每個參與人又不願意讓對方猜透自己的策略。
這種博弈的類型是混合策略。
相關計算
混合策略納什均衡由最優的混合策略構成的混合策略組合。由於混合策略伴隨的是支付的不確定性,因此參與人關心的是其期望效用。最優混合策略是指在給定對方的混合策略的情況下,使期望效用函式最大的混合策略。在兩人博弈里,混合策略納什均衡是兩個參與人的最優混合策略的組合。
求解方法:
2.收益相等法:根據前面分析的猜硬幣博弈中參與人的策略的思路,每個參與人的混合策略都使其餘參與人的任何純策略的期望收益相等,因此,解混合策略納什均衡可以令參與人的各個純策略收益相等,構成方程組求解。
3.最優反應函式法:在連續純策略均衡時(如
古諾模型),可以使用反應對應的概念來描述一個參與人對應於其他參與人混合策略的最優選擇。
舉例:社會福利博弈
| 流浪漢 |
政府 | | 尋找工作 | 流浪 |
救濟 | 3,2 | -1,3 |
不救濟 | -1,1 | 0,0 |
上述模型有混合策略納什均衡:參與人以一定的機率選擇某種策略,然後計算相應於不同機率的期望效用。
設:政府救濟的機率θ=1/2 ,不救濟的機率1-θ=1/2。流浪漢尋找工作的期望效用:1/2×2+1/2 ×1=1.5;
流浪的期望效用: 1/2×3+1/2 ×0=1.5。此時,流浪漢選擇任何混合策略的期望效用都是1.5,則流浪漢的任何一種策略(純的γ=1或γ=0或混合的0<γ<1)都是政府所選擇的混合策略的最優反應。
而當流浪漢遊蕩的機率為γ=0.2,尋找工作的機率為1-γ=0.8。救濟:3×0.2-1×0.8=-0.2;不救濟:-1×0.2+0×0.8=-0.2。
如果流浪漢選擇這個混合策略,政府的任何策略(混合的或純的)帶給政府的期望效用為-0.2。特別的,以1/2的機率分別選擇救濟和不救濟當然也是政府對於流浪漢所選擇的混合策略的最優反應。這樣可以得到一個混合策略組合,每一個參與人的混合策略都是給定對方混合策略是的最優選擇,從而構成混合策略納什均衡。
套用
混合策略在生活、工作、學習等都有廣泛的套用。基於混合策略,可以進行競合博弈分析,也可以進行混合策略納什均衡研究等。例如,在研究桌球競賽發球與接發球博弈上,可以知道桌球戰術行為博弈的"混合策略"是純策略的機率組合,混合策略是連續策略的一種特例。最優反應分析能夠用來求解桌球戰術行為博弈的混合策略均衡,在運動實踐中桌球運動員(博弈方)博弈過程中都存在各自的最優反應規則,並能夠根據這一規則構建最優反映曲線,最終得出桌球戰術行為
混合策略納什均衡解。桌球戰術行為中"混合策略"的重要性在於揭示了博弈雙方也就是桌球運動員一定不能使自己的戰術行為表現出很強的規律性,因為一旦被對手發覺那么就將處於劣勢狀態。