演化博弈論(多學科融合的理論):概述,發展,基本資料,產生髮展,理論淵源,領域擴展

演化博弈論 (Evolutionary Game Theory)不再將人模型化為超級理性的博弈方，而是認為人類通常是通過試錯的方法達到博弈均衡的，與生物進化原理具有共性，所選擇的均衡是達到均衡的均衡過程的函式，因而歷史、制度因素以及均衡過程的某些細節均會對博弈的多重均衡的選擇產生影響。在理論應符合現實意義上，該理論對於生物學、經濟學、金融學和證券學等學科均大有用場。

基本介紹

中文名：演化博弈論
外文名：evolutionary game theory
整合了：理性經濟學與演化生物學的思想

概述,發展,基本資料,產生髮展,理論淵源,領域擴展,套用研究,國內關注,基本特徵,套用優勢,方法論,認識論,時間的不可逆性,隨機因素,選擇機制及均衡,理論評述,

概述

在傳統博弈理論中，常常假定參與人是完全理性的，且參與人在完全信息條件下進行的，但在現實的經濟生活中的參與人來講，參與人的完全理性與完全信息的條件是很難實現的。在企業的合作競爭中，參與人之間是有差別的，經濟環境與博弈問題本身的複雜性所導致的信息不完全和參與人的有限理性問題是顯而易見的。

與傳統博弈理論不同。有限理性這一概念最早是由西蒙(Simon.H.A.)在研究決策問題時提出的，因為個人在以別人能夠理解的方式通過語句、數字或圖表來表達自己的知識或感情時是有限制的(這或許是因為他們沒有掌握到所必需的辭彙，或許是因為這些辭彙還不存在）。

發展

演化博弈理論最早源於Fisher，Hamilton，Tfive~等遺傳生態學家對動物和植物的衝突與合作行為的博弈分析，他們研究發現動植物演化結果在多數情況下都可以在不依賴任何理性假設的前提下用博弈論方法來解釋。但直到Smith and Price(1973)在他們發表的創造性論文中首次提出演化穩定策略(evolutionary stable strategy)概念以後，才標誌著演化博弈理論的正式誕生。生態學家Taylor and Jonker(1978)在考察生態演化現象時首次提出了演化博弈理論的基本動態概念——模仿者動態(replicator dy—namic)，這是演化博弈理論的又一次突破性發展。模仿者動態與演化穩定策略(RD&ESS)一起構成了演化博弈理論最核心的一對基本概念，它們分別表征演化博弈的穩定狀態和向這種穩定狀態的動態收斂過程，ESS概念的拓展和動態化構成了演化博弈論發展的主要內容。

基本資料

演化博弈論演化博弈論與傳統博弈理論不同，演化博弈理論並不要求參與人是完全理性的，也不要求完全信息的條件。有限理性這一概念最早是由西蒙（Simon。H。A。）在研究決策問題時提出的，它是指人的行為只能是“意欲合理，但只能有限達到”。威廉姆森在研究影響交易費用的因素時，對有限理性的問題進行了歸納總結人的有限理性是由兩方面的原因引起的：一方面是由於人的感知認識能力限制，它包括個人在獲取、儲存、追溯和使用信息的過程中不可能做到準確無誤；人的有限理性的另一方面則是來自語言上的限制，因為個人在以別人能夠理解的方式通過語句、數字或圖表來表達自己的知識或感情時是有限制的（這或許是因為他們沒有掌握到所必需的辭彙，或許是因為這些辭彙還不存在），不管多么努力，人們都將發現，語言上的限制會使他們在行動中感到挫折。從這兩個方面而言，完全理性的人根本就不可能存在。

演化博弈論是把博弈理論分析和動態演化過程分析結合起來的一種理論。在方法論上，它不同於博弈論將重點放在靜態均衡和比較靜態均衡上，強調的是一種動態的均衡。演化博弈理論源於生物進化論，它曾相當成功地解釋了生物進化過程中的某些現象。如今，經濟學家們運用演化博弈論分析社會習慣、規範、制度或體制形成的影響因素以及解釋其形成過程，也取得了令人矚目的成績。演化博弈論是演化經濟學的一個重要分析手段，並逐漸發展成一個經濟學的新領域。

產生髮展

理論淵源

經濟演化思想很早就存在於經濟理論中，即使是在以靜態分析為主的新古典經濟學盛行的年代，演化思想也仍然在經濟學中占有一席之地。馬歇爾（Marshall，1948）就曾指出，演化的概念比靜態的概念更複雜，因此大量的經濟基礎理論研究還是以機械類比、均衡、穩定、決定性為主；阿爾欽（Alchian，1950）建議在經濟分析中用自然選擇的概念代替利潤最大化的概念，認為適度的競爭可以作為決定各種制度形式存在的動態選擇機制。在這種選擇機制下，即使不把行為主體看作是理性的，但來自社會的演化壓力（優勝劣汰）也將促使每個行為主體採取最適合自身生存的行動，從而使得達到的演化均衡為納什均衡。阿爾欽的這種演化觀不僅為新制度經濟學研究制度的選擇提供了一個思路，而且也為演化博弈論的發展提供了思路；納什（Nash，1950）的“群體行為解釋”，則認為是包含較完整的演化博弈思想的最早理論成果。納什認為，不需要假設參加者有關於總體博弈結構的充分知識，也不要求參加者有進行任何複雜推理的願望和能力，只需假定參加者能夠積累關於各種純策略被採用時的相對優勢的實證信息，納什均衡仍可達到。

領域擴展

演化博弈理論能夠在各個不同的領域得到極大的發展應歸功於斯密斯（Smith，1973）與普瑞斯（Price，1974），他們提出了演化博弈理論中的基本概念——演化穩定策略（Evolutionary Stable Strategy）。斯密斯和普瑞斯的工作把人們的注意力從博弈論的理性陷阱中解脫出來，從另一個角度為博弈理論的研究尋找到可能的突破口。自此以後，演化博弈論迅速發展起來。20世紀80年代，隨著對演化博弈論研究的深入，許多經濟學家把演化博弈理論引入到經濟學領域，用於分析社會制度變遷、產業演化以及股票市場等等，同時對演化博弈理論的研究也開始由對稱博弈向非對稱博弈深入，並取得了一定的成果。20世紀90年代以來，演化博弈理論的發展進入了一個新的階段。威布爾（W。Weibull，1995）比較系統、完整地總結了演化博弈理論，其中包含了一些最新的理論研究成果。其他的一些理論成果包括克瑞斯曼（Cressman，1992）以及薩繆爾森（Samuelson，1997）的著作。

套用研究

與此同時，演化博弈論在經濟學中的套用研究也飛速發展。弗里德曼（Friedman，1991）認為演化博弈在經濟領域有著極大的套用前景，並對一些具體套用前景的動態系統進行了探討；巴蘇（Basu，1995）研究了公民規範和演化之間的關係，認為規範的長期存活依賴於演化過程和自然選擇；弗里德曼和方（Friedman& Fung，1996）以日本和美國的企業組織模式為背景，用演化博弈分析了在無貿易和有貿易情形下企業組織模式的演化；拜斯特和古斯（Bester&Guth，1998）用演化博弈理論研究人類在經濟活動中利他行為的存在性及其演化穩定性。登弗伯格和古斯（Dufwenberg&Guth，1999）在雙寡頭壟斷競爭的情形下比較了兩種解釋經濟制度的方法：間接演化方法和策略代理方法，研究了在怎樣的市場環境中這兩種方法會導致相似的市場結果；戈特曼（Guttman，2000）用演化博弈理論研究了互惠主義在有機會主義存在的群體中是否能夠存活的問題；青木昌彥（2001）從認知的角度提出了一個關於進化博弈的主觀博弈模型；哈如威和普拉賽德（Haruvy& Prasad，2001）運用演化博弈的方法研究在具有網路外部性的條件下免費軟體的最優價格和質量；科斯菲爾德（Kosfeld，2002）建立了德國超市購物時間反常的演化博弈模型；奈寶格和瑞戈（Nyborg&Rege，2003）用演化博弈理論研究了顧及別人感受的吸菸行為的社會規範的形成；加斯米那和約翰（Jasmina&John，2004）研究了三種不同的學習規則在公共物品博弈中仿製人類行為時誰表現得更好的問題；丹尼爾、阿瑟和托德（Daniel，Arce& Todd，2005）研究了四種不同類型的囚徒困境博弈，指出這四種囚徒困境要達成合作所需的演化和信息要求。

國內關注

進入2l世紀以來，國內的學者也開始關注演化博弈論。謝識予（2001）、張良橋（2001）、盛昭瀚和蔣德鵬（2002）介紹了演化博弈理論的一些基本概念和相關內容；崔浩、陳曉劍和張道武（2004 ）用演化博弈論的方法分析了有限理性的利益相關者在共同治理結構下參與企業所有權配置並達到納什均衡的演化博弈過程；胡支軍和黃登仕（2004 ）給出證券組合選擇的一個演化博弈方法；高潔和盛昭瀚（2004）研究了發電側電力市場競價的演化穩定策略；周峰和徐翔（2005）運用演化博弈論探討了農村稅費改革問題；劉振彪和陳曉紅（2005）創建了從單階段創新投資決策到多階段創新投資決策的演化博弈均衡模型研究企業家創新投資決策問題；石巋然和肖條軍（2004）在一個三階段Hotelling博弈模型的基礎上研究雙寡頭零售市場價格策略的演化穩定性問題；易余胤等（2003；2004；2005）運用演化博弈方法研究了信貸市場、雙寡頭市場、自主創新行為、合作研發中的機會主義行為等一系列問題。從以上的研究成果來看，近一兩年來有越來越多國內學者關注該領域，並且套用演化博弈論探討了經濟學領域中的很多問題。但國內的研究成果仍然存在著不少問題，主要體現在：（1）對演化博弈論的特徵以及基本概念不夠清晰，演化博弈並不是演化的觀點和博弈的思想簡單相加，動態演化的博弈模型也不一定就是演化博弈模型；（2）運用演化博弈論解釋某些問題顯得“牽強附會”，讓人感覺只是單純套用演化博弈論，或是不清楚演化博弈論的理論框架；（3）只能運用一些非常簡單的演化博弈模型，研究不夠深入。事實上，問題（2）、（3）的產生至少部分是由於（1）引起的，因此，有必要把演化博弈論（模型）的特徵以及基本概念界定清楚。

基本特徵

演化博弈論一般的演化博弈理論具有如下特徵：它的研究對象是隨著時間變化的某一群體，理論探索的目的是為了理解群體演化的動態過程，並解釋說明為何群體將達到的這一狀態以及如何達到。影響群體變化的因素既具有一定的隨機性和擾動現象（突變），又有通過演化過程中的選擇機制而呈現出來的規律性。大部分演化博弈理論的預測或解釋能力在於群體的選擇過程，通常群體的選擇過程具有一定的慣性，同時這個過程也潛伏著突變的動力，從而不斷地產生新變種或新特徵。

幾乎所有的演化博弈理論都具有上述特徵。然而，演化博弈論在經濟學領域的套用與運用演化博弈理論解釋生物進化現象有所不同，演化博弈論中的一些生物進化的概念在經濟學領域中無法套用。比如，性別和交配，染色體和代際等等，這些概念很難被引入到經濟學領域中來。演化博弈論在經濟學領域的套用主要是考慮微觀個體在演化的過程中可以學習和模仿其他個體的行為，即沿用拉馬克的遺傳基因理論。

一般的演化博弈模型的建立主要基於兩個方面：選擇（Selection）和突變（Mutation）。選擇是指能夠獲得較高支付的策略在以後將被更多的參與者採用；突變是指部分個體以隨機的方式選擇不同於群體的策略（可能是能夠獲得高支付的策略，也可能是獲得較低支付的策略）。突變其實也是一種選擇，但只有好的策略才能生存下來。突變是一種不斷試錯的過程，也是一種學習與模仿的過程，這個過程是適應性且是不斷改進的。不具備這兩個方面的模型不能稱為演化博弈模型。比如，艾格則等（Agiza，Hegazi&Elsadany，2001）提出了一個動態演化的博弈模型，它在有限理性的企業都採取一定的行為規則（產量調整機制）下研究企業重複博弈是否可以達到納什均衡。這個模型雖然研究的是有限理性個體和動態演化過程，但不屬於演化博弈模型，因為沒有包含選擇和突變的過程。如果把這個模型作如下修改，便可以看作演化博弈模型：假設企業有許多不同的行為規則，而採用某些行為規則的企業比那些不採用這些行為規則的企業獲益更大；隨著時間的推移，採用這些行為規則的企業生存下來，而不採用這些行為規則的企業被淘汰。這樣修改後的模型既有選擇過程又有突變過程，便成為一個演化博弈模型。

總之，演化博弈模型有如下幾個特徵：第一，以參與人群體為研究對象，分析動態的演化過程，解釋群體為何達到以及如何達到這一狀態；第二，群體的演化既有選擇過程也有突變過程；第三，經群體選擇下來的行為具有一定的慣性。

套用優勢

方法論

新古典經濟學以原子論和機械力學為理論基礎，它假定參與人是完全理性和一致偏好的。參與人在既定的條件下可以得到一個最優方案，比如生產商在技術和資源一定的情況下可以找到一個獲得最大收益的生產方案，消費者在既定的預算條件下可以獲得一個最大效用的消費方案等等。博弈論在新古典經濟學的基礎上增加了行為主體之間的互動，使得理論更貼近現實，但總的來說，博弈論仍然沒有跳出新古典經濟學的框架。因此，在運用博弈論建立模型時，對各種關係做出的假設往往不切合實際，因此，根據此類模型做出的決策往往和現實相差較遠，容易導致失誤。

演化博弈論摒棄了完全理性的假設，以達爾文生物進化論和拉馬克的遺傳基因理論為思想基礎，從系統論出發，把群體行為的調整過程看作為一個動態系統，在其中每個個體的行為及其與群體之間的關係得到了單獨的刻畫。

認識論

博弈論假設行為主體具有完美的理性思維，即行為主體始終以自身最大利益為目標，具有各種環境中追求自身利益最大化的判斷和決策能力，具有在存在互動作用的博弈環境中完美的判斷和預測能力，不會犯錯、不會衝動、沒有不理智。另外，博弈論中的一個最重要的假設就是博弈雙方行為人的“共同知識”假設，即所有參與人都是理性的，所有參與人知道所有參與人都是理性的，如此類推，以至無限。這是一個令人難以想像的無限推理過程，就行為人對現實世界的認識能力而言，是一條非常嚴格的假設。很顯然，現實世界這種假設通常是得不到保證的。

演化博弈論對於行為主體採取的是有限理性假設，因此，這些個體不具備博弈論中行為主體的“全知全能”，無法在經濟活動中瞬間能夠獲得最優的結果。

時間的不可逆性

博弈論注重均衡狀態的研究，忽視達到均衡的過程。在博弈論中，行為主體能夠立即對外部環境作出完美判斷，達到均衡狀態。博弈論忽視時間問題，強調行為主體瞬問的均衡，即使考慮時間問題，也把時間看作對稱或可逆的。

在演化博弈論中，時間占有非常重要的地位。行為主體在演化過程中不斷修正和改進自己的行為，模仿成功的策略等等。

隨機因素

在博弈論模型中，不確定因素以隨機變數的形式出現，通過給定隨機變數的分布，模型的研究將最終集中於一些重要變數的平均值上，而不確定因素往往被忽略。因此，在博弈論中，即使存在不確定性因素，理性的行為人仍可實現最最佳化的結果。在演化博弈模型中，隨機（突變）因素起著關鍵的作用。在多數情況下，用機率分布來描述這種不確定性是不可能的，這種不確定使長期最最佳化決策難以實現，演化過程的長期趨勢很難預測，但如果選擇過程的適應性標準確定，演化過程呈現一定的規律性，此時，演化過程的長期趨勢又是可預測的。

選擇機制及均衡

傳統的博弈理論中的行為主體是完全理性的，通常，在完全理性的假設下，如果納什均衡存在，那么博弈雙方博弈一次就可直接達到納什均衡。這個結果不依賴於市場的初始狀態，所以不需要任何的動態調整過程。而演化博弈論認為，納什均衡的達到應當是在多次博弈後才能達到的，需要有一個動態的調整過程，均衡的達到依賴於初始狀態，是路徑依賴的。

另外，在有多個納什均衡的情況下，若某個納什均衡一定會被採用時，必須存在有某種能夠導致每個博弈方都預期到的某個均衡出現的機制。然而，博弈論中的納什均衡概念本身卻不具有這種機制。因此，當博弈存在多個納什均衡時，即使假設博弈方都是完全理性的，也無法預測博弈的結果是什麼，如果博弈方只有有限理性，就更難預測博弈的結果了。當然，在博弈論中，當存在多個納什均衡時，可以利用後向歸納法來實現對納什均衡的精煉，但這種方法的前提條件是參與人需要滿足一個比完全理性更強的理性假定——序貫理性。這在現實中是無法達到的。而在演化博弈理論中，均衡的精煉通過前向歸納法來實現，即參與人根據博弈的歷史來選擇其未來的行為策略，是一個動態的選擇及調整過程。因此，儘管參與人都是有限理性的，但動態的選擇機制將使得在有多個納什均衡存在的情形下達到其中的某一個納什均衡，實現納什均衡的精練。

最常見的選擇機制動態方程有三類：第一類為正支付動態方程，在這類動態方程中，所有獲得的支付大於群體的平均支付的純策略都有正增長率，所有獲得的支付小於群體的平均支付的純策略都有負增長率；第二類為單調動態方程，在這類動態方程中，若一個純策略或混合策略獲得的支付大於另一個純策略所獲得的支付，則前者的增長率大於後者；第三類為弱正支付動態方程，在這類動態方程中，至少有某些獲得支付比群體的平均支付高的純策略（若存在）有正的增長率。顯然，弱正支付動態方程包含了正支付動態方程和單調動態方程。

在演化博弈理論中運用最為廣泛的選擇機制動態方程是泰勒和朱克（Taylor&Jonker，1978）提出的複製者動態方程，當時他們僅僅研究了對稱兩人博弈。隨後，泰勒（Taylor，1979）把對稱情形推廣到不對稱情形。在複製者動態方程中，純策略的增長率與相對支付或適應度（純策略所獲得的支付與群體的平均支付之差）成正比。顯然，複製者動態方程包括在前三類選擇機制動態方程中。複製者動態方程在經濟領域的套用最為廣泛，學者們運用複製者動態方程對社會習俗、制度、行為規範等一系列社會經濟問題進行了成功的研究。

那么，怎樣把演化博弈論的基本概念——演化穩定策略與選擇機制動態方程聯繫起來呢？是否通過選擇機制所獲得的均衡的精練就是演化穩定策略？從直觀看來，演化穩定策略似乎可以保證均衡是穩定的。但正式的穩定性的定義針對的是動態系統，而不是博弈的支付或適應度函式，並且演化穩定策略只能描述系統的局部動態性質，它不能夠表現均衡與動態的選擇過程之間的關係。因此，演化穩定策略與選擇機制動態方程所達到的動態均衡並不一定是同一個概念。因此，為了更好地描述動態的演化過程，把演化博弈理論中的靜態概念與動態過程統一起來，荷什勒佛（Hirshleifer，1982）提出了演化均衡的概念。按照荷什勒佛的概念，若從使得動態系統的某平衡點的任意小鄰域內出發的軌線最終都演化趨向於該平衡點，則稱該平衡點是局部漸近穩定的，這樣的動態穩定平衡點就是演化均衡（Evolutionary Equilibrium）。

眾所周知，演化穩定策略是納什均衡的精煉。那么，演化均衡與演化穩定策略、納什均衡之間的關係是怎樣的呢？弗里德曼（Friedman，1998）指出：

（1）每一個納什均衡都是動態系統的平衡點；

（2）演化均衡一定是納什均衡；

（3）演化穩定策略不一定是演化均衡。

複製者動態方程可以保證演化穩定策略為演化均衡，但在一般的動態方程中演化穩定策略卻既不是演化均衡的充分條件也不是演化均衡的必要條件。弗里德曼還認為，演化博弈論中最為有用、運用最為廣泛的均衡概念並不是演化穩定策略，而是演化均衡。因為行為按照某種動態隨時間變化的假設是合乎情理的。

理論評述

演化博弈論摒棄了完全理性的假設以達爾文生物進化論和拉馬克的遺傳基因理論為思想基礎，從系統論出發，把群體行為的調整過程看作為一個動態系統，在其中每個個體的行為及其與群體之間的關係得到了單獨的刻畫，可以把從個人行為到群體行為的形成機制以及其中涉及到的各種因素都納入到演化博弈模型中去，構成一個具微觀基礎的巨觀模型，因此能夠更真實地反映行為主體的多樣性和複雜性，並且可以為巨觀調控群體行為提供理論依據。

在演化博弈論中，行為主體被假設為程式化地採用某一既定行為，它對於經濟規律或某種成功的行為規則、行為策略的認識是在演化的過程中得到不斷的修正和改進的，成功的策略被模仿，進而產生出一些一般的“規則”和“制度”作為行為主體的行動標準。在這些一般的規則下，行為主體獲得“滿意”的收益。

行為主體在演化過程中不斷修正和改進自己的行為，模成功的策略等等，都需要一個相對較長的時間。演化博弈論認為，時間是不可逆的，過去時間內的狀態與未來時間的狀態是不對稱的，因而，行為主體狀態的演化跟初始的時間狀態息息相關。在演化博弈模型中，隨機(突變)因素起著關鍵的作用，演化過程常被看成是一種試錯的過程。行為人會嘗試各種不同的行為策略，並且每一次都將發生部分替代。

演化博弈論(多學科融合的理論)