返回

第十二章 好人終有好報 · 2

首頁
    這裡,我們不關心某一個策略是否優于另一個策略。

    我們隻關心哪個策略在與15個對手博弈後,最終赢得最多的“錢”。

    在這裡,“錢”指的是赢得的分數。

    相互合作的獎賞為3分,背叛的誘惑為5分,互相背叛的懲罰為1分(相當于我們早先例子中的輕判),失敗的代價為0分(等同于之前例子中的重罰)。

     zsdjy3 無論是哪一種策略,理論上它們能得到的最高分都是15000分(每一回合5分,15個對手共有200回合),最低分則是0分。

    不用說,這兩個極端都沒有實現。

    實際上,一個策略如果能超過15個對手中的平均水平,最多也隻能獲得比600分高出一些的分數。

    因為如果對手雙方決定他們持續合作,每人在200場博弈中都能得到3分,總共便是600分。

    我們可以将600分作為基準分,将所有分數表達為600分的百分比。

    這麼算來,理論上的最高分将是166%(1000分)。

    但事實上,沒有任何一個策略的平均分超過600分。

     要知道,競賽中的博弈者并不是人類,而是計算機事先設定好的程序。

    而基因則在這些程序的作者裡事先設定了“程序”,使得它們身體力行地扮演同樣的角色(想想第四章中的計算機對弈與“仙女座”超級計算機)。

    你可以将這些策略想象成這些作者的微型代理。

    雖然一個作者原本可以提交一個以上的策略,但這其實是作弊,這表示作者将在競争本身中加入策略,使得其中一個角色從另一個角色的犧牲中得到合作的好處。

    阿克塞爾羅德應該不會接受這一點。

     交上來的有一些很聰明的策略,當然它們遠沒有其作者聰明。

    然而,最後勝出的策略卻是一個最簡單的、而且看起來最不聰明的一個。

    這個策略稱為“針鋒相對”(TitforTat),它來自多倫多一位著名心理學家和博弈學家阿納托爾(AnatolPapoport)教授。

    這個策略在第一回合時采取合作行動,然後在接下來的所有步驟裡,隻是簡單複制對手上一步的行動。

    有了“針鋒相對”策略的博弈将如何進行呢?一如尋常,下一步的出牌完全取決于對手。

    假設另一對手也選擇了“針鋒相對”的策略(每一個策略不止與其他14個對手競争,也與自己本身博弈),雙方都選擇以“合作”而開場。

    第二步中,雙方都複制對方上一步的策略,仍然采取“合作”。

    這樣,博弈雙方持續合作,直到遊戲結束,雙方都能獲得100%的600分基準分。

     那麼,假設“針鋒相對”與另一個策略“老實人探測器”(NativeProber)開始博弈。

    事實上,“老實人探測器”并沒有出現在阿克塞爾羅德的博弈競賽中,但它依然是一個富有指導性的策略。

    這個策略基本等同于“針鋒相對”,但每隔一會兒,比如在每十步中任意選擇一步,這個策略會打出惡意的“背叛”牌,而獲得最高的分數“背叛的誘惑”。

    如果“老實人探測器”不打出其試探的“背叛”牌,博弈雙方便是兩個“針鋒相對”,打出一場漫長且互利的合作牌,彼此安穩地獲得100%的基準分。

    但突然間(假設在第8回合),“老實人探測器”出其不意地“背叛”了。

    “針鋒相對”卻依然不知情地堅持“合作”,也便隻能付出“失敗者的代價”,得到0分。

    而“老實人探測器”則能得到最高成績5分。

    但在下一步裡,“針鋒相對”開始報複,複制了對手上一步的行動,打出了“背叛”牌。

    而“老實人探測器”則盲目地繼續原本設定的程序,複制對手上一步的“合作”牌。

    于是它隻能獲得0分,而“針鋒相對”則得到5分。

    再下一步,“老實人探測器”極其不公正地又開始了報複,“背叛”了“針鋒相對”。

    反之亦然。

    在每一輪交替報複的回合裡,雙方各自平均獲得2.5分(5分與0分的平均值)。

    這依然低于雙方持續雙向合作所能輕而易舉獲得的3分(這也是本章前文中尚未解釋的“特殊情況”的原因)。

    于是,當“老實人探測器”與“針鋒相對”開始博弈,雙方都未能獲得兩個“針鋒相對”博弈時所得的分數。

    而如果“老實人
上一章 章節目錄 下一頁
推薦內容