200,而改為開放式的不定數(我之後會解釋這麼做的理由)。
我們依然将得分評判為基準分“永遠合作”分數的百分比,不過現在基準分需要更為複雜的計算,并不再是固定的600分。
第二次競賽的程序員們都得到了第一次競賽的結果,還收到了阿克塞爾羅德對“針鋒相對”與善良與寬容策略獲勝的分析。
這麼做是為了讓參賽者們能從某種方向上了解比賽的背景信息,來權衡自己的判斷。
事實上,這些參賽者分成兩種思路。
第一種參賽者認為,已經有足夠證據證明善良與寬容确實是獲勝因素,他們便随即提交了善良與寬容的策略。
一位參賽者約翰·梅納德·史密斯(JohnMaynardSmith)提交了一個最為寬容的“三報還一報”(TitforThreeTats)的策略。
另一組參賽者則認為,既然對手們已經讀過了阿克塞爾羅德的分析,估計都會提交善良寬容的策略。
他們于是便提交了惡意的策略,以期在善意對手中占到便宜。
然而,惡意再一次沒有得到好報。
阿納托爾提交的“針鋒相對”策略再一次成為赢家,獲得了滿分的96%。
而善意策略又再一次赢了惡意策略。
前15名中隻有一個策略是惡意策略,而倒數15名中隻有一個是善意策略。
然而,最為寬容的、可以在第一次競賽中勝出的“兩報還一報”策略,這次卻沒有成功。
這是因為本次競賽中有了一些更為狡猾的惡意策略,它們善于僞裝自己,無情地抛棄那些善良的人們。
這揭曉了這些競賽中非常重要的一點:成功的策略取決于你的對手的策略。
這是唯一能解釋兩次競賽中的不同結果的理由。
然而,就像我之前說過的那樣。
這本書并不是關于計算機程序員的創造力的,那麼,是否有一個廣泛客觀的标準來讓我們判斷,哪些是真正好的策略?前幾章的讀者們估計已經開始準備從生物進化穩定策略理論中尋找答案了。
當時的我也是阿克塞爾羅德傳播早期結果的小圈子中的一員,我也被邀請在第二次競賽中提交策略。
我并沒有參賽,但我給阿克塞爾羅德提了一個建議。
阿克塞爾羅德已經開始考慮“進化穩定策略”(EES)這個理論了。
但我覺得這個想法太重要了,于是寫信給他建議,讓他與漢密爾頓(W.D.Hamilton)聯系一下。
雖然當時阿克塞爾羅德并不認識漢密爾頓,但漢密爾頓正與阿克塞爾羅德在同一所大學——密歇根大學的另一個系裡。
阿克塞爾羅德迅速聯系了漢密爾頓。
最終,他們合作的結果是一篇卓越的論文,發表在1981年的《科學》雜志上,也獲得了美國科學促進會(AAAS)的紐科姆·克裡夫蘭獎(NewcombClevelandPrize)。
阿克塞爾羅德和漢密爾頓除了讨論重複“囚徒困境”在生物學上有趣的例子外,我還覺得他們給予了進化穩定策略方法應有的認可。
讓我們來比較一下進化穩定策略與阿克塞爾羅德兩次競賽中的“循環賽”機制。
循環賽好比足球聯盟中的比賽。
每一個策略都與其他策略對戰同等次數。
策略的最後得分則是它與所有其他策略對弈後的所得總分。
如果一個策略想要在競争中成功,它必須在所有提交的策略中都富有競争力。
阿克塞爾羅德給勝出其他對手的策略定義為“強勁”。
“針鋒相對”便是一個強勁的策略。
但參與競賽的策略對手們則相當主觀,隻取決于參賽者所提交的策略水平。
這一點使我們相當頭疼。
阿克塞爾羅德的第一個競賽裡,剛好參賽的策略基本都是善意策略,所以“針鋒相對”赢得了競賽,而如果“兩報還一報”參賽了,則會赢了“針鋒相對”。
但如果幾乎所有參賽策略都為惡意策略,情況就不同了。
這個假設發生的概率還是很大的,畢竟所提交的14個策略中有6個是惡意策略。
假如13個策略全為惡意策略,“針鋒相對”則不可能成功,因為“環境”太差了。
提交策略的不同,決定了策略所赢得的金錢和它們的排名位置。
也就是說,競賽結果将取決于參賽者的心血來潮。
那麼,我們如何減少競賽的主觀性呢?答案是:進化穩定策略。