龙骨荒野任务:突破“囚徒困境”:合作是如何可能的

来源:百度文库 编辑:九乡新闻网 时间:2024/05/06 16:13:46
发布时间:2010-10-05
突破“囚徒困境”:合作是如何可能的
——读罗伯特·阿克塞尔罗德《合作的进化》
胡明光*
《合作的进化》是美国著名的行为分析及博弈论专家罗伯特·阿克塞尔罗德的经典著作,作者通过两轮“重复囚徒困境”竞赛以及后续的“进化实验”,揭示了合作出现的前提条件以及合作的进化过程。毫不夸张地说,《合作的进化》的出版带来了一个新的研究领域的出现,被这本书所激发出来的研究成果也在不断地增加。
理查德·道金斯在为这本书写的序言中讲到:这是一本乐观的书,但这种乐观是可信的,它不是天上掉馅饼式的、不切实际的天真愿望(或者革命的狂热)。在适者生存的达尔文世界里,充满着那些使得生存者生存下来的特质。按照达尔文的说法,我们悲观地假设生命在自然选择这一层面是极端自私的,对苦难无情地冷漠,残忍地损人利己。然而从这个被扭曲的起点开始,即使不必是刻意的,类似于友善的兄弟姐妹般的伙伴关系也会出现。这就是罗伯特·阿克塞尔罗德这本不平凡的书要传递的令人振奋的信息,让我们在这个私利的世界里感到无比的欣慰和鼓舞。
一、“重复囚徒困境实验”:合作的产生
为了阐释合作是如何产生的,阿克塞尔罗德组织了一次“重复囚徒困境”的计算机程序竞赛,对策论专家被邀请提送他们认为可以在重复囚徒困境中得分最高的策略程序,每个策略与其他所有策略逐个对局,以找出总体得分最高的策略。最后的优胜者是加拿大学者罗伯布写的“一报还一报”(tit for tat)。这个策略首先在第一步合作,然后就模仿对方上一步的选择。然而,单一竞赛的结果是不能最后说明问题的,为了进一步验证实验的结果,阿克塞尔罗德组织了第二轮竞赛,在第二轮竞赛中,所有的参赛者都得到了一份关于第一轮竞赛的详细分析报告,包括竞赛过程中成功的思想和概念、易犯的策略性错误,但结果依然是“一报还一报”取胜。阿克塞尔罗德还发现,得分排在前面的程序有四个特性:一、善良性:从不首先背叛;二、报复性:对于对方的背叛行为一定要报复,不能总是合作,也就是“可激怒的”;三、宽容性:在反击对方的报复后要宽容对方,只要对方合作,你就合作,有助于重新恢复合作;四、清晰性:行为简单清晰,使对方能适应你的行为模式,从而引出长期合作。
二、进化实验:合作的进化
关于成功策略特性的发现是令人欣喜的,在竞赛中,“一报还一报”是如此成功,那么,在动态的进化群体中,这种合作是否仍然可以产生,并不断地发展下去呢?对此,作者进行了第三个实验:进化实验。实验依据生态学原理:成功的参赛规则更有可能在下一轮中被采用,而不成功的规则很少再被采用。更确切的说是,在所有的规则中,一个规则的后代的数量与它的竞赛得分成正比。这样,群体的结构就会在进化过程中改变,实验结果表明:“一报还一报”和其他名列前茅的规则随着一代一代进化,逐渐变得多起来。这个过程模拟了适者生存,到了生态模拟的1000代的时候,那些靠背叛占便宜而取得成功的规则,由于被占便宜的规则的消失,而失去了剥削者赖以生存的基础,剥削者就要遭受同样灭绝的命运,而“一报还一报”确实是最成功的规则,比其他任何一个规则增长都快,这又是一个“一报还一报”带给我们的令人兴奋而难忘的记录。
进化实验告诉我们:如果成功是来自与其他成功的规则相互作用的话,这个成功将孕育更多的成功,而如果成功是靠占失败者的便宜而得到的,这样的成功者必将随着失败者的淘汰而失去赖以生存的基础,走上一条自我毁灭的道路。
三、突破“囚徒困境”的研究困境
实验的结果带来了作者三方面的考虑:第一、潜在的合作策略如何才能在不合作占优势的环境中取得最初的立足之地?第二、何种策略能在由其他各种简单和复杂的策略组成的多样化环境中脱颖而出?第三、在何种条件下,这样的策略一旦在群体中完全立足,就能抵御不合作策略的侵入?与之对应的就是作者关于合作的初始成活性、鲁棒性和稳定性的发现。由此发现:即使是在一个总是背叛的小人世界,只要有哪怕是很小的一个合作性群体,合作仍然可以产生,合作一旦在群体中建立,就能保护自己不受非合作策略的侵入,并不断的发展壮大,群体以不可逆转的方式向合作的方向进化。
这样的合作理论是鼓舞人心的,阿克塞尔罗德正是以这样的结论突破了“囚徒困境”的研究困境。在没有集权的利己主义者之间,合作依然可以产生并不断繁荣,那么,应该如何促进合作呢?
对于参与者和改革者来说,作者提了几点建议:(1)不要首先背叛,首先背叛只会给自己带来很多的麻烦和道德的压力;(2)对方无论是合作还是背叛,都要给以回应;(3)不要耍小聪明,以试图获得更大的收益;(4)不要嫉妒,嫉妒是自我毁灭,要求自己比对方做得好不是一个很好的标准,“一报还一报”在任何一场对决中都不会得到比对方更高的分数,然而它却表现得如此精彩;(5)为促进合作,可以改变对策者的可能结果的收益值;(6)使得未来相对于现在更重要,也就是对策双方有足够高的概率再次相遇;(7)教给对策者促进合作的准则、事实和技能,让有预见能力的参与者了解合作理论的真谛,如:教育人们相互关心、学会回报等等,以加快合作的进化。
四、研究的局限性
借助计算机和数学的研究方法,阿克塞尔罗德通过严谨的逻辑推导,研究如何突破囚徒困境,达成合作,这个证明的过程是无可置疑,也是令人信服的。为了尽可能地接近现实世界,避免许多可能限制分析者的约束性框架,作者设定了尽量仿真的博弈环境:(1)对策者是多种多样的,聪明或狡诈,随机或复杂,一切动机和想法都是可能的;(2)对策者不必是理性的,甚至不必总是追求利益最大化的,他们的策略可能只是简单的依靠直觉、经验或是模仿他人;(3)对策者行为不必都是有意识的选择,并不都是经过深思熟虑的;(4)博弈手段是可以不断变化的,每一个对策者都可以使用所有可能的策略,甚至是不择手段的;(5)博弈回合是相当多的,并且是全体参与者的循环赛。这样的博弈环境更接近现实的“人性人”社会,而不是经济学家所偏好的“理性人”游戏,但不能忽视的是,作者的一些假设依然是天真的,与现实脱节的:
(1)阿克塞尔罗德在“重复囚徒困境”竞赛中假定:博弈各方能力是相当的,没有差异的。这在现实中并不总是存在的,当对策双方能力不等时,若同时选择背叛,结果可能不是双方同时得到“对双方背叛的惩罚”1分,而是强势的一方得到5分,弱势的一方得到0分,无异于是强者选择背叛,得到“对背叛的诱惑”5分,弱者选择合作,得到“给笨蛋的报酬”0分。但是作者在第八章谈到了地位、等级、信誉、威慑等博弈能力的差异性所带来的,对策双方在宽容性、对背叛的偏好以及报复的有效性等问题上的不同,这是对之前“重复博弈困境”实验的一个现实修正和补充。
(2)作者设计的竞赛有一个很重要的假设就是:不能消灭对方,也不能放弃对局。这样一来,现实生活中的生死游戏就被弱化成了实验中的输赢游戏。不能消灭对方就意味着输了永远都有机会报复,这就在很大程度上限制了不善良策略的威力,从而提高了“一报还一报”这些善良对策存活并不断发展壮大的可能性,使其在长期博弈中获得明显优势。如果修正一下“不能消灭对方”这一假设,将其变为:当对策者由于选择合作而遭受背叛达到一定次数时,该对策者就失去了参与资格,对局就此结束,这样就更接近现实的世界。
(3)在作者看来,合作的产生最重要的一个条件就是未来足够重要,也就是折扣系数w(表示每一步的收益相对于前一步收益的折扣程度)足够大,这就使得博弈回合可以足够多。然而,重复博弈在现实生活中并不总是存在的,一次性博弈导致了很多不合作行为。在“资源悖论”的情况下,无法将蛋糕做大,此时每个人追求的就是如何分得更多的蛋糕,一次性博弈的大量存在和利益的驱使,大大提高了人们对背叛的偏好,使得“未来足够重要”这一假定的约束力被弱化甚至被完全忽视。这就需要有力的制度安排来促使合作的产生,规范合作的秩序,通过法律和制度手段惩罚不合作行为来控制每个人的行为,而不是简单的“一报还一报”。
(4)研究的基本假设和命题是整个研究的灵魂所在,它决定了研究的问题和方向,奠定了整个研究的基调。《合作的进化》一书围绕“合作是如何产生的”这一问题展开,前提是在没有合作的环境中,合作是如何产生的。然而,如果换个角度思考,就会有很有意思的发现。正如《人类的趋社会性及其研究》指出的,“强互惠”和“利他”是人类独有的属性,那么,研究的问题就不再是合作是如何产生的,而是:背叛是如何出现的?合作是如何被破坏的?
五、结 语
读完《合作的进化》,感觉意犹未尽,作者巧妙的实验、精湛的分析带给我们很多有益的启发。阿克塞尔罗德通过实验证明,一个“小人”的世界可以阻止任何使用其他策略的个体的入侵,只要这个新来者每次都是单个的,然而,如果新来者是一个小群体,它们就有机会建立合作,并不断壮大。因此不能“孤独的与人为善”,即使是“一报还一报”这样的优秀策略,也是需要遇到同样采取合作策略的伙伴的,它的优势不是在单次博弈中获得比对方更高的分数(单次博弈中“一报还一报”得分从来不会超过对方),而在于引发并扩大合作,与合作伙伴一起战胜不合作者,这对于探索如何开启个人、组织和国家间的合作具有重要的意义。
作者的研究以生物进化的生存竞争和适者生存理论为基础的,优胜劣汰的法则使得模仿表现最出色的策略具有很大的诱惑力,这样一来,“一报还一报”这样优秀的合作策略就会被更多的对策者所选择,并被普遍接受而形成制度,公正的制度能够促成、维持合作,但它不是合作出现的条件,而是合作的结果,这对于制度学派研究来说是一个重要启发。
《合作的进化》带给了我们一些惊人的、甚至是具有颠覆意义的结论,突破了传统的“囚徒困境”的研究困境,形成了一个新的研究领域。但是在这个复杂纷繁的领域中,阿克塞尔罗德的分析却是清晰直白的,他的合作策略在人类日常生活中广泛存在,比如:“投桃报李”、“好心有好报”就体现了“一报还一报”的宽容性,而“人不犯我,我不犯人;人若犯我,我必犯人”则对应其“善良性”和“可激怒性”;“恶人自有恶人磨”则印证了作者所说的,依靠占别人便宜而取胜的对策在遇到同样的投机对策时,就会两败俱伤。这些深入浅出的思想是善良的、美好的、欣慰的、令人鼓舞的,可以让这个世界更美好。
* 作者简介:胡明光,复旦大学国际关系与公共事务学院行政管理专业2009级硕士研究生。