這裡,我們不關心某一個策略是否優于另一個策略。
我們隻關心哪個策略在與15個對手博弈後,最終赢得最多的“錢”。
在這裡,“錢”指的是赢得的分數。
相互合作的獎賞為3分,背叛的誘惑為5分,互相背叛的懲罰為1分(相當于我們早先例子中的輕判),失敗的代價為0分(等同于之前例子中的重罰)。
zsdjy3
無論是哪一種策略,理論上它們能得到的最高分都是15000分(每一回合5分,15個對手共有200回合),最低分則是0分。
不用說,這兩個極端都沒有實現。
實際上,一個策略如果能超過15個對手中的平均水平,最多也隻能獲得比600分高出一些的分數。
因為如果對手雙方決定他們持續合作,每人在200場博弈中都能得到3分,總共便是600分。
我們可以将600分作為基準分,将所有分數表達為600分的百分比。
這麼算來,理論上的最高分将是166%(1000分)。
但事實上,沒有任何一個策略的平均分超過600分。
要知道,競賽中的博弈者并不是人類,而是計算機事先設定好的程序。
而基因則在這些程序的作者裡事先設定了“程序”,使得它們身體力行地扮演同樣的角色(想想第四章中的計算機對弈與“仙女座”超級計算機)。
你可以将這些策略想象成這些作者的微型代理。
雖然一個作者原本可以提交一個以上的策略,但這其實是作弊,這表示作者将在競争本身中加入策略,使得其中一個角色從另一個角色的犧牲中得到合作的好處。
阿克塞爾羅德應該不會接受這一點。
交上來的有一些很聰明的策略,當然它們遠沒有其作者聰明。
然而,最後勝出的策略卻是一個最簡單的、而且看起來最不聰明的一個。
這個策略稱為“針鋒相對”(TitforTat),它來自多倫多一位著名心理學家和博弈學家阿納托爾(AnatolPapoport)教授。
這個策略在第一回合時采取合作行動,然後在接下來的所有步驟裡,隻是簡單複制對手上一步的行動。
有了“針鋒相對”策略的博弈将如何進行呢?一如尋常,下一步的出牌完全取決于對手。
假設另一對手也選擇了“針鋒相對”的策略(每一個策略不止與其他14個對手競争,也與自己本身博弈),雙方都選擇以“合作”而開場。
第二步中,雙方都複制對方上一步的策略,仍然采取“合作”。
這樣,博弈雙方持續合作,直到遊戲結束,雙方都能獲得100%的600分基準分。
那麼,假設“針鋒相對”與另一個策略“老實人探測器”(NativeProber)開始博弈。
事實上,“老實人探測器”并沒有出現在阿克塞爾羅德的博弈競賽中,但它依然是一個富有指導性的策略。
這個策略基本等同于“針鋒相對”,但每隔一會兒,比如在每十步中任意選擇一步,這個策略會打出惡意的“背叛”牌,而獲得最高的分數“背叛的誘惑”。
如果“老實人探測器”不打出其試探的“背叛”牌,博弈雙方便是兩個“針鋒相對”,打出一場漫長且互利的合作牌,彼此安穩地獲得100%的基準分。
但突然間(假設在第8回合),“老實人探測器”出其不意地“背叛”了。
“針鋒相對”卻依然不知情地堅持“合作”,也便隻能付出“失敗者的代價”,得到0分。
而“老實人探測器”則能得到最高成績5分。
但在下一步裡,“針鋒相對”開始報複,複制了對手上一步的行動,打出了“背叛”牌。
而“老實人探測器”則盲目地繼續原本設定的程序,複制對手上一步的“合作”牌。
于是它隻能獲得0分,而“針鋒相對”則得到5分。
再下一步,“老實人探測器”極其不公正地又開始了報複,“背叛”了“針鋒相對”。
反之亦然。
在每一輪交替報複的回合裡,雙方各自平均獲得2.5分(5分與0分的平均值)。
這依然低于雙方持續雙向合作所能輕而易舉獲得的3分(這也是本章前文中尚未解釋的“特殊情況”的原因)。
于是,當“老實人探測器”與“針鋒相對”開始博弈,雙方都未能獲得兩個“針鋒相對”博弈時所得的分數。
而如果“老實人