進化對策論:概述,簡介,研究目的,基本內容,進化穩定策略概念,複製動力學,學習模型

進化對策論理論中，一個關鍵概念是進化穩定策略，這一概念的提出歸功於約翰·梅納德·史密斯和普萊斯在1973年的“動物衝突的邏輯”一文。此種策略在特定的意義上對進化壓力而言是穩健的：群體執行該種策略對執行任何其他策略而言是非入侵的。假定一對個體是重複隨機地來自於大的群體，去參與一個對稱並有限的兩人博弈。

基本介紹

中文名：進化對策論
提出者：約翰·梅納德·史密斯和普萊斯
提出時間：1973
套用學科：生物

概述,簡介,研究目的,基本內容,進化穩定策略概念,複製動力學,學習模型,簡介,強化學習模型,模仿學習模型,在經濟學中的套用,研究顯示,

概述

簡介

最近10多年裡，不像對策論的傳統分析方法那樣——考慮有限理性的經濟行為人以及在嚴格的認知局限之下必須學習執行策略，這樣的對策論理論及其套用有了迅速的發展。這方面的大量研究工作是在稱為進化對策論所提供的框架下進行的。正如此學科標題所表示的，這一新學科的原理借用生物學中的進化模型所具有的與眾不同的一些特徵。然而，此學科本身也發展了一些新的方法和技術，特別地適合於有限理性基本假設下對社會和經濟體制方面的分析。進化對策論在10多年裡以快速的步伐取得長足的發展。

研究目的

進化對策淪為人們提供一種具有廣泛適用性的工具。其潛在的套用領域從進化生物學延伸到一般的社會科學，特別是經濟學中。進化理論在經濟學中有著悠久的歷史傳統。直到最近，這種方法在非合作對策論框架中才得到套用。

進化對策論是研究策略行為的穩健性，它是針對有限理性行為人所組成的大群體中多次博弈背景下的進化力量而言的。這種新的組成部分在經濟理論里導致一種新的預測方法，並且為其他社會科學開闢一條嶄新的研究途徑。

基本內容

進化穩定策略概念

進化對策論理論中，一個關鍵概念是進化穩定策略(ESS)，這一概念的提出歸功於約翰·梅納德·史密斯（John Maynard Smith）和普萊斯在1973年的“動物衝突的邏輯”一文。此種策略在特定的意義上對進化壓力而言是穩健的：群體執行該種策略對執行任何其他策略而言是非入侵的。假定一對個體是重複隨機地來自於大的群體，去參與一個對稱並有限的兩人博弈，還假定所有的個體在博弈中起初都執行某一個純的或混合的策略x是進化穩定的，那么對於每一個變異策略y，都存在一個正的“入侵障礙”，使得執行變異策略y的個體群體所獲得的支付低於此障礙，從而x贏得的預期支付比執行的y所得要高。

注意到，進化穩定性準則沒有解釋種群是如何達到這種策略的。然而，一旦達到這種策略，則這樣的策略對進化壓力來說是穩健的。同時，人們發現，進化穩定性沒有處理種群中具有兩個或更多“變異”同時出現的情況。因而，它隱含地把變異當成稀少事件，以致於種群有時間在另一個變異出現之前回響這種狀況。

雖然，進化穩定性準則是一個生物學上的概念，但是它為各種各樣的人類行為提供一種有關的穩健性準則。這樣，進化穩定性要求人類群體中企圖採用可選擇的策略的任何一個小團體不比已經採用“固有”策略的那些個體所構成的團體收益好。相反，採用固有策略的那些個體所構成的團體缺乏激勵來改變他們的策略。但是，那些採用可選策略的小團體卻受激勵而具有轉變固有策略的行為。在這種社會背景下，進化穩定策略被人們看成是傳統習慣或者已經確立起來的行為規則。比如，社會風氣、企業管理模式等都可以看為是某種人類群體的規則，而極個別的人群社會行為、習氣的變化就會被認為是“變異”。當然，在這種背景下，如果那些極少數的人群或企業的收益比不變異的人群或企業高時，那么這些變異分子會生存得更好！反之，則被淘汰掉。

可惜的是，許多博弈沒有進化穩定策略。於是，研究人員探討各種比進化穩定性稍弱一些的形式，以及集值形式的進化穩定性概念等。此外，ESS概念不能推廣到n人對策的情況上。在本質上，ESS要求強的納什均衡來實施，也就是每一個策略對於策略組而言應是唯一的最佳反應。

複製動力學

複製動力學是選擇過程的顯性模型，它說明種群是如何分配博弈中有聯繫的不同純策略隨時間而演化的。複製動力學的數學公式是由 Taylor和Jonker於1978年在“進化穩定策略和對策動力學”一文中提出的。他們認為由隨機配對的個體所構成的一個大種群執行有限對策的兩人博弈，猶如進化穩定性的設定一樣。然而，此處的個體僅僅採用純策略。種群狀態是指在純策略上的一個分布x。這種狀態在數學上與博弈中的混合策略是等價的。

如果博弈中的收益表示成生物學上的適合性，也就是後代的數目，同時每一個後代繼續其父母的策略，因此，採用純策略i的個體數目(在大的種群中)將以某一比率指數增長，而此等於對純策略i的預期收益u(ei，x)，當執行著表示種群中當前策略分布的混合策略x時，採用任何純策略i的種群分布的增長率等於此策略的收益與種群中平均收益的差。後者，等同於混合策略x當與其自身博弈時的預期收益u(x，x)。這是一個單種群的對稱兩人博弈的複製動力學。

Xi=[u(ei,x)-u(x,x)]xi………………(2)

注意到，對當前種群狀態x的最佳反應具有最高的增長率。第二最佳反應具有第二高的增長率，如此等等。然而，雖然更成功的純策略比欠成功的純策略增長得快，但是種群中的平均收益不必隨時間而增長。產生這一原因的可能性是，如果一個個體由採用最佳策略的個體所代替，那么遇見這個新個體的成員會得到比較低的收益。例如，這正是囚徒困境博弈的情況。如果最初幾乎所有個體採用“合作”，那么個體中將逐漸地轉向“抵賴”，從而平均收益將下降。然而，如果博弈在兩個人總是獲得相等的收益意義上是一個雙對稱的，那么自然選擇的基本規律將成立：種群中收益隨時間而增長，即使沒有必要成為全局最大的。例如，這就是合作博弈的情況，其中所有個體逐漸地轉向到執行同一個純策略上。複製動力學能夠推廣到n人博弈的情況上，這可以看成是來自於 n種群、中的個體隨機地以n類型配對，其中每一個參與者的地位狀況正如納什所給出的群體行為解釋的那樣。目前，存在兩種形式的n種群複製動力學，其中一個是由Taylor在 1979年提出的，另一個是由Maynard Smith在1982年給出的。

學習模型

簡介

人們把學習模型分成三種類型，即基於信念的學習、強化學習以及模仿學習。最近的一些研究表明，複製動力學是由後面兩類的某種模型所促成的。

強化學習模型

Bush和Mosteller的強化學習模型及其他的推廣形式，已經在一系列的人類主觀執行博弈中得到運用。可惜，這些模型的通常數學性質，人們還知道得很少。然而，Borgers和Sarin在1997年發表的“通過強化和複製動力學的學習”文章把Cross的Bush—Mosteller學習模型的形式與Taylor的兩種群複製動力學進行了理論上的對比研究。雖然這種學習過程在離散時間背景中是隨機的、演化的，而複製動力學在連續時間背景中是確定的、演化的。他們證明，在適當地構造連續時間的界限下，他們的學習過程在有限時間區間內可通過複製動力學來說明。

模仿學習模型

博弈論學者Gale，Binmore和Samuelon在1995年提出一個所有個體參與者都採用純策略的大群體，但是有限博弈的社會學習的簡單模型。每一個參與者在博弈中都贏得一個渴望水平的收益。在離散時間0，δ，2δ，…上，任意從群體中抽取個體δ部分，把其當前收益與他們的渴望水平收益相比較，其中δ>0是很小的數。如果個體實現的收益低於其生存水平收益，那么該個體就會隨機地模仿已抽取的個體，在相同的參與者群體中，所有其他個體都具有相同的機率被抽取。由此可見，如果渴望水平收益具有均勻分布(某一個區間上包含所有可能的收益值)，那么模仿的機率對於個體的當前策略而言，在預期收益上是線性遞減的。對於很小的δ，他們證明這個過程可以由有限時間區間上的複製動力學來說明。

在經濟學中的套用

進化對策論的產生、發展在本質上就是起因於對策論中關於理性行為人的假設與經濟套用中行為人“試驗——失誤”(即試錯法)學習過程相偏離的事實而引發的。從上述的闡述中，我們可以看到，進化對策論在經濟學裡的套用前景是十分廣闊的和吸引人的。

最近，Routledge探討了金融市場上個體行為人是如何通過適應性或者進化學習來發現內生變化並運用這種內生關係的一種學習模型。他通過對來自於模仿過程和經驗過程來對個體的投資行為建模，而不是運用傳統上的顯性最最佳化方法放鬆關於知識和理性的假設。Routledge運用Grossman和Stiglitz的1980年發表的經濟模型的形式。Grossman和Stiglitz模型(GS模型)提供了考察適應學習過程的一種良好的框架，因為它是獲得內生信息的標準模型，這點已經被後來的其他許多關於學習方面的模型都是基於GS而提出的事實所證明。

如果假設交易者能夠觀察到他們自己的適應度和其他行為人的行為，那么模仿是如何發生的許多特殊細節就顯得不重要了。

研究顯示

Routledge的研究結果表明：首先，作為單調選擇動力學的適應學習會促成GS均衡；其次，由單凋適應學習驅使的模仿的穩健性可從隨機實驗中來獲得噪聲來研究。他發現，適應學習是缺少穩健性的。特別，他運用Binmore和Samuelson的技術來對模仿和經驗建模。為了使帶有漂移的適應學習產生GS理性預期均衡，必要的條件是在風險資產供給中的噪聲與學習過程中的經驗水平有很大的關係。

進化對策論