-
合作行为在自然界和社会中广泛存在,极大地促进了物种的进化和人类社会的发展。但是自私个体永远在追求将自身利益最大化,利他行为与达尔文的进化理论相矛盾,因此如何令合作在自私个体之间涌现和维持受到众多领域学者的关注[1-3]。演化博弈理论为研究和解释这一现象提供了有力的理论支持,其中囚徒困境博弈是描述个体之间博弈行为的经典博弈模型之一[4-5]。捐助博弈是一个特殊的囚徒困境博弈模型,它描述了这样一个场景,参与个体会在博弈开始时选择合作(捐赠一个成本c)或者背叛(不捐助)。如果一方选择合作,她的对手将获得一个收益b;反之,她的对手将不会有任何收益。因此双方都选择合作的情况下,每个个体的收益都为R=b−c;如果双方都选择背叛(不捐助)会使得双方收益为P = 0。如果一方合作而另一方背叛,合作者将获得损失S = −c,而背叛者会获得T = b的收益。在捐助博弈中b>c>0,因此收益关系为T>R>P>S,并且2R>T+S。因此在没有额外因素的干扰下,参与囚徒困境博弈的理性个体为了最大化自己的利益总是会选择背叛。为了研究重复囚徒困境博弈中合作行为的演化,众多策略被研究和讨论,如“赢存输去”策略(win stay, lost shift, WSLS)、全合作策略、全背叛策略等[6]。但是这些策略都不能单方面决定对手的收益。2012年,文献[7]发现在重复囚徒困境博弈中存在一种特殊的一步记忆策略集合,名为零行列式策略(zero-determinant strategy)。这种策略能够单方面地限制双方的期望收益满足线性关系,而不限定对手的策略。随后学者们发现在雪堆博弈和公共品博弈中都存在类似的零行列式策略能够单方面控制参与博弈的个体之间的收益关系[8-9]。零行列式策略的发现揭示了博弈策略与期望收益之间的关系,并为研究一步记忆策略提供了新的思路。其中剥削策略最为引人关注,它总是能够获得不低于对手的收益。然而剥削策略与背叛策略博弈时,双方的收益都为P,很容易受到背叛者入侵,因此它在种群演化中是演化不稳定的,但是它能够促进合作策略在种群中的涌现[10-11]。
在经典的演化博弈论中通常假设个体之间的交互是均匀混合的,即所有个体全部连接。但是现实社会中,个体之间的连接数是有限的,每个个体仅仅与周围少数个体接触。1992年,文献[12]发现在二维方格网络上,个体在与直接相邻的4个邻居进行博弈时,合作者可以出现并稳定存在,并且合作者可以通过结成合作簇的形式来抵抗背叛者的入侵。这一发现首次指出了网络结构对于博弈演化的重要作用,网络互惠也被认为是促进合作演化的一类重要机制。随着复杂网络理论研究的新兴,小世界、无标度等网络特性被证明对网络中合作的涌现带来了极大的影响[13-15]。并且学者们发现引入剥削策略可以在规则网络和无标度网络上形成“合作−剥削联盟”来抵抗背叛策略的入侵,从而促使合作策略的涌现[16-20]。
在网络演化博弈中,不仅仅是网络结构会影响合作的演化结果,演化规则也起到了至关重要的作用。演化规则是指个体期望获得更高收益而更新自身策略的规则。通常网络中的个体会通过比较自身与周围邻居的收益差,从而模仿邻居的策略不断将自己的收益最大化。演化规则也是刻画复杂网络上演化动力学的关键因素。各种不同的更新规则通过仿照自然或者是社会个体决策过程而被提出,由生物进化而演变来的最基本的策略演化规则如复制动力学[21],费米动力学[22]和Moran过程[9]等。随后一种类似于“赢则坚守,输则变通”的个体策略演化规则被提出[23],在这种规则中,网络上的每个个体将不再与邻居的收益对比,它会比较实际所获得的收益与期望收益,并根据收益差以费米函数形式获得概率选取下一轮的策略。在这些演化规则中,所有个体仅仅会考虑一种演化规则更新策略。但是在现实世界中个体改变自身策略并不是一成不变的。当它当前的策略所能获得的收益低于邻居的收益时,它将会模仿邻居的策略,但是当自身收益高于邻居时,为了最大化自己的收益,个体将会采取不同的演化规则。一些混合演化规则应运而生,例如部分个体进行复制动力学更新,其他根据期望更新策略[24];或者个体以一个固定概率进行复制动力学更新否则根据期望更新[25];也有将两种更新规则相结合的混合演化规则[26],以及一些其他混合演化规则[27-30]。
本文基于复制−期望的混合演化规则,研究剥削策略、合作策略与背叛策略在方格网络上的演化,探索剥削策略对方格网络上合作的影响。通过蒙特卡洛仿真比较混合演化规则下的3种策略的稳态比例,并从微观角度分析和对比了复制动力学演化规则下与混合演化规则下剥削策略在演化过程对合作的影响和作用,最后讨论了剥削系数以及背叛诱惑对网络中合作策略稳态比例的影响。
HTML
-
根据文献[7]可知,在重复囚徒困境博弈模型中,当一个采用剥削策略E的个体与另一个体Z进行博弈时,双方的期望收益可以表示为:
式中,
${P}_{{\rm{E}}} {\text 、} {P}_{{{Z}}}$ 分别代表了剥削者和对手的期望收益,可以看出它们之间满足线性关系。并且剥削系数的范围为$ {s}_{{\rm{E}}}\in \left(\mathrm{0,1}\right) $ 。当$P = 0$ 时,剥削者总是能获得对手1/sE倍的收益。由此可知合作策略C、背叛策略D和剥削策略E这3种策略之间的收益关系如表1所示。
策略 C D E C $b - c$ $ - c$ $\dfrac{ {( { {b^2} - {c^2} } ){s_{\rm{E}}} } }{ {b + c{s_{\rm{E}}} } }$ D $b$ 0 0 E $\dfrac{{{b^2} - {c^2}}}{{b + c{s_{\rm{E}}}}}$ 0 0 通过表1可以看出,合作者可以从与剥削者的博弈中获得少量大于0的收益,而剥削者从合作者的博弈中获得了少于b的收益。并且在sE的取值范围中,随着剥削系数sE的增加,合作者的收益越大,剥削者的收益会减少。而且,剥削策略与背叛策略之间的收益为0,双方不能从对方获得任何收益,因此剥削策略与背叛策略是中性漂移的关系。在本文中b–c =1,此时博弈模型中只存在一个可调参数即为背叛诱惑b。
-
个体之间的连接关系可以用复杂网络来描述,即网络中的节点代表了博弈个体,节点之间的连边代表两个个体之间存在博弈关系。初始时,网络中的个体X将随机从合作策略、背叛策略和剥削策略中选取一种策略,随后个体将会与自己的每个邻居进行捐助博弈并获得一个收益PX。在一轮博弈结束后,个体X将以概率
选择进行复制动力学更新,否则以概率
$1 - {U_X}$ 选择期望演化规则更新策略[18]。其中参数$\,\beta $ 用以调节个体的选择不同演化规则的概率。当$\,\beta = 0$ 时,网络中个体将通过复制动力学更新自身策略。此时,个体X将随机选择一位自己的邻居Y,并以概率W学习Y的策略:式中,kX、kY代表个体X、Y的度;H是两个个体之间可能存在的最大收益差,在本文中
$ H=b+c $ 。可以看出X学习Y的概率正比于双方的收益差,收益差越大,学习的概率越高。当
$\beta > 0$ 时,网络中个体会以概率$1 - {U_X}$ 通过期望演化规则更新策略。即个体更新策略时并不会与周围邻居比较,而是会有一个收益期望A,即个体对于环境的满意度。如果个体X的期望收益为${P_{XA}} = {k_X}A$ ,其中A是控制参数并且$A \in \left[ {0,b - c} \right]$ 。那么个体X更新策略时,它将比较自身所获得的实际收益和期望收益,并以费米函数形式计算概率$ W $ 选取策略更新:这样当A越低,个体越容易满意当前的收益,而不会经常改变自身策略。但是当A较高时,个体常常不能满足自身期望而频繁改变自身策略。可以看出,当
$\,\beta = 0$ 时,网络中所有的个体都将进行复制动力学更新,而当$\,\beta = 0$ 时,获得高于0收益的个体将采用期望演化规则更新自己的策略。κ是环境中的噪声因子,代表了个体的不理性程度。根据之前的研究,本文中设定κ = 0.1且${{A}} = 0.1$ 。基于以上的博弈模型与更新规则,本文通过蒙特卡洛仿真方法对规模为100×100方格网络上的策略演化进行仿真。初始时,网络中的合作、背叛和敲诈的比例各占1/3。在每个时间步中,个体将与邻居进行博弈并根据收益矩阵获得收益,接着会根据混合更新规则更新自身策略。为保证系统进入稳态,演化过程会进行11万步的迭代,并计算最后1万步中3种策略所占比例的平均值作为最终结果。并且每个参数的结果都是运行独立重复10次仿真后的平均值。