博弈論(博奕論):博弈論的定義,理論歷史,發展過程,諾貝爾獎,要素,博弈類型,納什

博弈論，又稱為對策論（Game Theory）、賽局理論等，既是現代數學的一個新分支，也是運籌學的一個重要學科。

博弈論主要研究公式化了的激勵結構間的相互作用，是研究具有鬥爭或競爭性質現象的數學理論和方法。博弈論考慮遊戲中的個體的預測行為和實際行為，並研究它們的最佳化策略。生物學家使用博弈理論來理解和預測進化論的某些結果。

博弈論已經成為經濟學的標準分析工具之一。在金融學、證券學、生物學、經濟學、國際關係、計算機科學、政治學、軍事戰略和其他很多學科都有廣泛的套用。

基本介紹

中文名：博弈論
外文名：Game Theory
別名：對策論、賽局理論
所屬學科：套用數學
創始人：馮·諾依曼與奧斯卡·摩根斯特恩
套用範圍：金融學、生物學、經濟學等

博弈論的定義,理論歷史,發展過程,諾貝爾獎,要素,博弈類型,納什均衡,案例一,案例二,案例三,套用,

博弈論的定義

《博弈聖經》博弈論的定義：我們把動物利用大自然移動的癮魂，在決策人期待的空間裡，形成三維均衡的學術理論，稱為博弈論。

基本概念中包括局中人、行動、信息、策略、收益、均衡和結果等。其中局中人、策略和收益是最基本要素。局中人、行動和結果被統稱為博弈規則。

理論歷史

發展過程

博弈論是二人在平等的對局中各自利用對方的策略變換自己的對抗策略，達到取勝的目的。博弈論思想古已有之，中國古代的《孫子兵法》等著作就不僅是一部軍事著作，而且算是最早的一部博弈論著作。博弈論最初主要研究象棋、橋牌、賭博中的勝負問題，人們對博弈局勢的把握只停留在經驗上，沒有向理論化發展。

博弈論考慮遊戲中的個體的預測行為和實際行為，並研究它們的最佳化策略。近代對於博弈論的研究，開始於策梅洛（Zermelo），波萊爾（Borel）及馮·諾依曼（von Neumann）。

1928年，馮·諾依曼證明了博弈論的基本原理，從而宣告了博弈論的正式誕生。1944年，馮·諾依曼和摩根斯坦共著的劃時代巨著《博弈論與經濟行為》將二人博弈推廣到n人博弈結構並將博弈論系統地套用於經濟領域，從而奠定了這一學科的基礎和理論體系。

1950～1951年，約翰·福布斯·納什（John Forbes Nash Jr）利用不動點定理證明了均衡點的存在，為博弈論的一般化奠定了堅實的基礎。納什的開創性論文《n人博弈的均衡點》（1950），《非合作博弈》（1951）等等，給出了納什均衡的概念和均衡存在定理。此外，萊因哈德·澤爾騰、約翰·海薩尼的研究也對博弈論發展起到推動作用。今天博弈論已發展成一門較完善的學科。

諾貝爾獎

從1994年諾貝爾經濟學獎授予3位博弈論專家開始，共有7屆的諾貝爾經濟學獎與博弈論的研究有關，分別為：1994年，授予加利福尼亞大學伯克利分校的約翰·海薩尼（J.Harsanyi）、普林斯頓大學約翰·納什（J.Nash）和德國波恩大學的賴因哈德·澤爾滕（Reinhard Selten）。以表彰這三位數學家在非合作博弈的均衡分析理論方面做出了開創性的貢獻，對博弈論和經濟學產生了的重大影響。

1996年，授予英國劍橋大學的詹姆斯·莫里斯（James A. Mirrlees）與美國哥倫比亞大學的威廉·維克瑞（William Vickrey）。前者在信息經濟學理論領域做出了重大貢獻，尤其是不對稱信息條件下的經濟激勵理論，後者在信息經濟學、激勵理論、博弈論等方面都做出了重大貢獻。

2001年，授予加利福尼亞大學伯克利分校的喬治·阿克爾洛夫（George A. Akerlof ）、美國史丹福大學的麥可·斯賓塞（A. Michael Spence ）和美國哥倫比亞大學的約瑟夫·斯蒂格利茨（Joseph E. Stiglitz）。他們的研究為不對稱信息市場的一般理論奠定了基石，他們的理論迅速得到了套用，從傳統的農業市場到現代的金融市場，他們的貢獻來自於現代信息經濟學的核心部分。

2005年，授予美國馬里蘭大學的托馬斯·克羅姆比·謝林(Thomas Crombie Schelling)和耶路撒冷希伯來大學的羅伯特·約翰·奧曼(Robert John Aumann）。二者的研究通過博弈論分析促進了對衝突與合作的理解。

2007年，授予美國明尼蘇達大學的里奧尼德·赫維茨（Leonid Hurwicz）、美國普林斯頓大學的埃里克·馬斯金(Eric S. Maskin）以及美國芝加哥大學的羅傑·邁爾森(Roger B. Myerson）。三者的研究為機制設計理論奠定了基礎。

2012年，授予美國經濟學家埃爾文·羅斯（Alvin E. Roth）與羅伊德·沙普利（Lloyd S. Shapley）。他們創建“穩定分配”的理論，並進行“市場設計”的實踐。

作為一門工具學科能夠在經濟學中如此廣泛運用並得到學界垂青實為罕見。

2014年，授予法國經濟學家梯若爾。他在產業組織理論以及串謀問題上，採用了博弈論的思想，讓理論和問題得以解決。在規制理論上也有創新。

要素

1.局中人：在一場競賽或博弈中，每一個有決策權的參與者成為一個局中人。只有兩個局中人的博弈現象稱為“兩人博弈”,而多於兩個局中人的博弈稱為 “多人博弈”。
2.策略：一局博弈中，每個局中人都有選擇實際可行的完整的行動方案，即方案不是某階段的行動方案，而是指導整個行動的一個方案，一個局中人的一個可行的自始至終全局籌劃的一個行動方案，稱為這個局中人的一個策略。如果在一局博弈中局中人都總共有有限個策略，則稱為“有限博弈”，否則稱為“無限博弈”。
3.得失：一局博弈結局時的結果稱為得失。每個局中人在一局博弈結束時的得失，不僅與該局中人自身所選擇的策略有關，而且與全局中人所取定的一組策略有關。所以，一局博弈結束時每個局中人的“得失”是全體局中人所取定的一組策略的函式，通常稱為支付（payoff）函式。
4.對於博弈參與者來說，存在著一博弈結果。
5.博弈涉及到均衡：均衡是平衡的意思，在經濟學中，均衡意即相關量處於穩定值。在供求關係中，某一商品市場如果在某一價格下，想以此價格買此商品的人均能買到，而想賣的人均能賣出，此時我們就說，該商品的供求達到了均衡。所謂納什均衡，它是一穩定的博弈結果。

博弈論研究的假設：

決策主體是理性的，最大化自己的利益；
完全理性是共同知識；
每個參與人被假定為對所處環境及其他參與者的行為形成正確信念與預期。

博弈類型

博弈的分類根據不同的基準也有不同的分類。

一般認為，博弈主要可以分為合作博弈和非合作博弈。合作博弈和非合作博弈的區別在於相互發生作用的當事人之間有沒有一個具有約束力的協定，如果有，就是合作博弈，如果沒有，就是非合作博弈。從行為的時間序列性，博弈論進一步分為靜態博弈、動態博弈兩類：靜態博弈是指在博弈中，參與人同時選擇或雖非同時選擇但後行動者並不知道先行動者採取了什麼具體行動；動態博弈是指在博弈中，參與人的行動有先後順序，且後行動者能夠觀察到先行動者所選擇的行動。通俗的理解："囚徒困境"就是同時決策的，屬於靜態博弈；而棋牌類遊戲等決策或行動有先後次序的，屬於動態博弈。

按照參與人對其他參與人的了解程度分為完全信息博弈和不完全信息博弈。完全博弈是指在博弈過程中，每一位參與人對其他參與人的特徵、策略空間及收益函式有準確的信息。不完全信息博弈是指如果參與人對其他參與人的特徵、策略空間及收益函式信息了解的不夠準確、或者不是對所有參與人的特徵、策略空間及收益函式都有準確的信息，在這種情況下進行的博弈就是不完全信息博弈。

經濟學家們所談的博弈論一般是指非合作博弈，由於合作博弈論比非合作博弈論複雜，在理論上的成熟度遠遠不如非合作博弈論。非合作博弈又分為：完全信息靜態博弈，完全信息動態博弈，不完全信息靜態博弈，不完全信息動態博弈。與上述四種博弈相對應的均衡概念為：納什均衡(Nash equilibrium），子博弈精煉納什均衡（subgame perfect Nash equilibrium），貝葉斯納什均衡(Bayesian Nash equilibrium），精煉貝葉斯均衡(perfect Bayesian equilibrium）。

博弈論還有很多分類，比如：以博弈進行的次數或者持續長短可以分為有限博弈和無限博弈；以表現形式也可以分為一般型（戰略型）或者展開型；以博弈的邏輯基礎不同又可以分為傳統博弈和演化博弈。

納什均衡

納什均衡(Nash Equilibrium)：在一策略組合中，所有的參與者面臨這樣一種情況，當其他人不改變策略時，他此時的策略是最好的。也就是說，此時如果他改變策略他的支付將會降低。在納什均衡點上，每一個理性的參與者都不會有單獨改變策略的衝動。納什均衡點存在性證明的前提是“博弈均衡偶”概念的提出。所謂“均衡偶”是在二人零和博弈中，當局中人A採取其最優策略a*，局中人B也採取其最優策略b*,如果局中人仍採取b*，而局中人A卻採取另一種策略a，那么局中人A的支付不會超過他採取原來的策略a*的支付。這一結果對局中人B亦是如此。

這樣，“均衡偶”的明確定義為：一對策略a*(屬於策略集A)和策略b*（屬於策略集B）稱之為均衡偶，對任一策略a(屬於策略集A)和策略b（屬於策略集B），總有：偶對(a, b*) ≤ 偶對(a*,b*) ≥偶對(a*,b)。

對於非零和博弈也有如下定義：一對策略a*（屬於策略集A）和策略b*（屬於策略集B）稱為非零和博弈的均衡偶，對任一策略a(屬於策略集A）和策略b（屬於策略集B），總有：對局中人A的偶對（a, b*） ≤偶對(a*,b*);對局中人B的偶對（a*，b）≤偶對(a*,b*)。

有了上述定義，就立即得到納什定理：

任何具有有限純策略的二人博弈至少有一個均衡偶。這一均衡偶就稱為納什均衡點。

納什定理的嚴格證明要用到不動點理論，不動點理論是經濟均衡研究的主要工具。通俗地說，尋找均衡點的存在性等價於找到博弈的不動點。納什均衡點概念提供了一種非常重要的分析手段，使博弈論研究可以在一個博弈結構里尋找比較有意義的結果。但納什均衡點定義只局限於任何局中人不想單方面變換策略，而忽視了其他局中人改變策略的可能性，因此，在很多情況下，納什均衡點的結論缺乏說服力，研究者們形象地稱之為“天真可愛的納什均衡點”。

塞爾頓（R·Selten)在多個均衡中剔除一些按照一定規則不合理的均衡點，從而形成了兩個均衡的精煉概念：子博弈完全均衡和顫抖的手完美均衡。

案例一

囚徒困境

在博弈論中，含有占優戰略均衡的一個著名例子是由塔克給出的“囚徒困境”（prisoner's dilemma）博弈模型。該模型用一種特別的方式為我們講述了一個警察與小偷的故事。假設有兩個小偷A和B聯合犯事、私入民宅被警察抓住。

警方將兩人分別置於不同的兩個房間內進行審訊，對每一個犯罪嫌疑人，警方給出的政策是：如果兩個犯罪嫌疑人都坦白了罪行，交出了贓物，於是證據確鑿，兩人都被判有罪，各被判刑8年；如果只有一個犯罪嫌疑人坦白，另一個人沒有坦白而是抵賴，則以妨礙公務罪（因已有證據表明其有罪）再加刑2年，而坦白者有功被減刑8年，立即釋放。如果兩人都抵賴，則警方因證據不足不能判兩人的偷竊罪，但可以私入民宅的罪名將兩人各判入獄1年。下表給出了這個博弈的支付矩陣。

囚徒困境博弈 [Prisoner's dilemma]

A╲B	坦白	抵賴
坦白	8，8	0，10
抵賴	10，0	1，1

對A來說，儘管他不知道B作何選擇，但他知道無論B選擇什麼，他選擇“坦白”總是最優的。顯然，根據對稱性，B也會選擇“坦白”，結果是兩人都被判刑8年。但是，倘若他們都選擇“抵賴”，每人只被判刑1年。在表2.2中的四種行動選擇組合中，（抵賴、抵賴）是帕累托最優，因為偏離這個行動選擇組合的任何其他行動選擇組合都至少會使一個人的境況變差。但是，“坦白”是任一犯罪嫌疑人的占優戰略，而（坦白，坦白）是一個占優戰略均衡，即納什均衡。不難看出，此處納什均衡與帕累托存在衝突。

單從數學角度講，這個理論是合理的，也就是選擇都坦白。但在這樣多維信息共同作用的社會學領域顯然是不合適的。正如中國古代將官員之間的行賄受賄稱為“陋規”而不是想方設法清查，這是因為社會體系給人行為的束縛作用迫使人的決策發生改變。比如，從心理學角度講，選擇坦白的成本會更大，一方坦白害得另一方加罪，那么事後的報復行為以及從而不會輕易在周圍知情人當中的“出賣”角色將會使他損失更多。

而8年到10年間的增加比例會被淡化，人的尊嚴會使人產生復仇情緒，略打破“行規”。我們正處於大數據時代，想更接近事實的處理一件事就要儘可能多地掌握相關資料併合理加權分析，人的活動動影像動因複雜，所以囚徒困境只能作為簡化模型參考，具體決策還得具體分析。

案例二

智豬博弈

一、經濟學中的“智豬博弈”（Pigs’payoffs）這個例子講的是：

假設豬圈裡有一頭大豬、一頭小豬。豬圈的一頭有豬食槽，另一頭安裝著控制豬食供應的按鈕，按一下按鈕會有10個單位的豬食進槽，但是誰按按鈕就會首先付出2個單位的成本，若大豬先到槽邊，大小豬吃到食物的收益比是6∶4；同時到槽邊，大小豬收益比是7∶3；小豬先到槽邊，大小豬收益比是9∶1。那么，在兩頭豬都有智慧的前提下，最終結果是小豬選擇等待。

"智豬博弈"由納什於1950年提出。實際上小豬選擇等待，讓大豬去按控制按鈕，而自己選擇“坐船”(或稱為搭便車)的原因很簡單：在大豬選擇行動的前提下，小豬選擇等待的話，小豬可得到4個單位的純收益，而小豬行動的話，則僅僅可以獲得大豬吃剩的1個單位的純收益，所以等待優於行動；在大豬選擇等待的前提下，小豬如果行動的話，小豬的收入將不抵成本，純收益為-1單位，如果小豬也選擇等待的話，那么小豬的收益為零，成本也為零，總之，等待還是要優於行動。

用博弈論中的報酬矩陣可以更清晰的刻畫出小豬的選擇：

		小豬
		行動	等待
大豬	行動	5,1	4,4
	等待	9,-1	0,0

從矩陣中可以看出，當大豬選擇行動的時候，小豬如果行動，其收益是1，而小豬等待的話，收益是4，所以小豬選擇等待；當大豬選擇等待的時候，小豬如果行動的話，其收益是-1，而小豬等待的話，收益是0,所以小豬也選擇等待。綜合來看，無論大豬是選擇行動還是等待，小豬的選擇都將是等待，即等待是小豬的占優策略。

在小企業經營中，學會如何“搭便車”是一個精明的職業經理人最為基本的素質。在某些時候，如果能夠注意等待，讓其他大的企業首先開發市場，是一種明智的選擇。這時候有所不為才能有所為！

高明的管理者善於利用各種有利的條件來為自己服務。“搭便車”實際上是提供給職業經理人面對每一項花費的另一種選擇，對它的留意和研究可以給企業節省很多不必要的費用，從而使企業的管理和發展走上一個新的台階。這種現象在經濟生活中十分常見，卻很少為小企業的經理人所熟識。

在智豬博弈中，雖然小豬的“撿現成”的行為從道義上來講令人不齒，但是博弈策略的主要目的不正是使用謀略最大化自己的利益嗎？

案例三

美女的硬幣

一位陌生美女主動過來和你搭訕，並要求和你一起玩個遊戲。美女提議：“讓我們各自亮出硬幣的一面，或正或反。如果我們都是正面，那么我給你3元，如果我們都是反面，我給你1元，剩下的情況你給我2元就可以了。”聽起來不錯的提議。如果我是男性，無論如何我是要玩的，不過經濟學考慮就是另外一回事了，這個遊戲真的夠公平嗎？

紳士/美女	女正面	女反面
正面	3，－3	-2，+2
反面	-2，+2	1，－1

假設我們出正面的機率是x，反面的機率是1-x。為了使利益最大化，應該在對手出正面或反面的時候我們的收益都相等，不然對手總是可以改變正反面出現的機率讓我們的總收入減少，由此列出方程就是3x+(-2)*(1-x)=(-2)*x+1*(1-x)

這個方程通俗的說就是在對手一直出正面你得到的利益，和你對手一直出反面得到利益是一樣的且最大。解方程得x=3/8,也就是說平均每八次出示3次正面，5次反面是我們的最優策略。而將x=3/8代入到收益表達式3*x+(-2)*(1-x)中就可得到每次的期望收入，計算結果是-1/8元。

同樣，設美女出正面的機率是y，反面的機率是1-y，列方程-3y+2(1-y)=2y+(-1)*(1-y)

解得y也等於3/8，而美女每次的期望收益則是2(1-y)-3y=1/8元。這告訴我們，在雙方都採取最優策略的情況下，平均每次美女贏1/8元。其實只要美女採取了(3/8,5/8)這個方案，不論你再採用什麼方案，都是不能改變局面的。如果全部出正面，每次的期望收益是(3+3+3-2-2-2-2-2)/8=-1/8元

如果全部出反面，每次的期望收益也是(-2-2-2+1+1+1+1+1)/8=-1/8元。而任何策略無非只是上面兩種策略的線性組合，所以期望還是-1/8元。但是當你也採用最佳策略時，至少可以保證自己輸得最少。否則，你肯定就會被美女採用的策略針對，從而賠掉更多。看起來這個博弈模型似乎沒有什麼用處，但是其實這可能牽涉了金融市場定價中最重要的一個模型：定價權重模型了。

總的來說“博弈論”其本質是將日常生活中的競爭矛盾以遊戲的形式表現出來，並使用數學和邏輯學的方法來分析事物的運作規律。既然有遊戲的參與者那么也必然存在遊戲規則的制定者。深入的了解競爭行為的本質，有助於我們分析和掌握競爭中事物之間的關係，更方便我們對規則進行制定和調整，使其最終按照我們所預期的目的進行運作。

套用

《孫子兵法》是我國乃至世界最早的一部經典博弈論著作，近幾年由於博弈論在全球的大範圍流行，出現了多部收集整理博弈論知識的書籍，如《博弈論的詭計》、《最神奇的博弈論定律》等。

中國經緯智庫是最早研究新型博弈理論的民間智庫之一，由理事宋雪峰牽頭研究以公布的《多腿凳定律》《定量無窮大》《十字弓博弈基礎》已經被引用到社會經濟發展的方方面面。

“博弈論”與傳統諮詢工具相結合，可以幫助企業開啟解決戰略定位、股權分配、股權融資、價值塑造、商業模式等疑難雜症的新視角。

博弈論(經濟學學科分支)