藏宝阁梦幻站手机版:有趣的发现:“路径依赖”和“强化学习”

来源:百度文库 编辑:九乡新闻网 时间:2024/05/09 05:08:23

有趣的发现:“路径依赖”和“强化学习”

 

今天在网路上看到经济学的“路径依赖”理论,读后有似曾相识之感,于是萌发了今天的组稿。经济学上的路径依赖理论,物理学中的惯性理论,还有心理学的强化学习理论,他们原属不同的学科,却有着极其相似之处。这些共同之处,也许正说明了世界源于同一简单的运行规律。由于惯性理论已人所共知,笔者搜集了强化学习理论实验和路径依赖的故事,籍此说明两者的共通之处。

 

先看一个关于学习理论的心理学实验:

将5 只猴子放在一只笼子里,并在笼子中间吊上一串香蕉,只要有猴子伸手去拿香蕉,就用高压水教训所有的猴子,直到没有一只猴子再敢动手。然后用一只新猴子替换出笼子里的一只猴子,新来的猴子不知这里的“规矩”,竟又伸出上肢去拿香蕉,结果触怒了原来笼子里的4只猴子,于是它们代替人执行惩罚任务,把新来的猴子暴打一顿,直到它服从这里的“规矩”为止。实验人员如此不断地将最初经历过高压水惩戒的猴子换出来,最后笼子里的猴子全是新的,但没有一只猴子再敢去碰香蕉。

 

以下是关于这个实验衍生出来的一篇生动有趣的文章,人类和猴子同祖先,连社会结构的发展也如此相似。

-道德的起源-

   把五只猴子关在一个笼子里,上头有一串香蕉。实验人员装了一个自动装置。一旦侦测到有猴子要去拿香蕉,马上就会有水喷向笼子,而这五只猴子都会一身湿。 首先有只猴子想去拿香蕉,当然,结果就是每只猴子都淋湿了。之後每只猴子在几次的尝试後,发现莫不如此。於是猴子们达到一个共识:不要去拿香蕉,以避免被水喷到。後来实验人员把其中的一只猴子释放,换进去一只新猴子A.这只猴子A看到香蕉,马上想要去拿。结果,被其他四只猴子海K了一顿。因为其他四只猴子认为猴子A会害他们被水淋到,所以制止他去拿香蕉。A尝试了几次,虽被打的满头包,依然没有拿到香蕉。当然,这五只猴子就没有被水喷到。後来实验人员再把 一只旧猴子释放,换上另外一只新猴子B.这猴子B看到香蕉,也是迫不及待要去拿。当然,一如刚才所发生的情形,其他四只猴子海K了B一顿。特别的是,那只 A猴子打的特别用力(这叫老兵欺负新兵,或是媳妇熬成婆^O^)。B猴子试了几次总是被打的很惨,只好作罢。後来慢慢的一只一只的,所有的旧猴子都换成新猴子了,大家都不敢去动那香蕉。但是他们都不知道为什麽,只知道去动香蕉会被猴扁。

  这就是道德的起源。

 

-阶级的起源-

实验人员继续他们的实验,不过这一次他们改变了喷水装置。一旦侦测到有猴子要去拿香蕉,马上就会有水喷向拿香蕉的猴子,而不是全体。然后实验人员又把其中的一只猴子释放,换进去一只新猴子C.不同以往的是猴子C特别的孔武有力。当然猴子C看到香蕉,也马上想要去拿。一如以前所发生的情形,其他四只猴子也 想海K猴子C一顿。不过他们错误估计了C的实力,所以结果是反被C海K了一顿。于是猴子C拿到了香蕉,当然也被淋了个透湿。C一边打着喷嚏一边吃着香蕉, 美味但是也美中不足。A、B、D、E没有香蕉吃却也比较快乐,毕竟没有被淋到嘛。后来C发现只有拿香蕉的那个才会被淋到,他就要最弱小的A替他去拿。A不想被K,只好每天拿香蕉然后被水淋。B、D、E越发的快乐了起来,这就叫比上不足,比下有余嘛。于是五只猴子有了三个阶级。

这下子阶级也随着道德起源了。

 

-道德的沦丧-

   天变热了,笼子里的猴子们想冲凉却找不到地方。终于出现了一位反潮流英雄,猴子HERO.HERO在无意中碰到了香蕉,理所当然的引来了一顿饱打。但在挨打的过程中,猴子们享受到了冲凉的乐趣。等身上水干了之后,猴子A在无意中碰撞了HERO,使HERO又一次接触到了香蕉,于是,猴子们享受了第二次冲凉,HERO遭到了第二次痛殴。在此之后,只要大家有冲凉的需要,就会有一只猴子X挺身而出,对HERO进行合理冲撞。大家对HERO的态度也有了明显的 不同,在平时大家会对HERO异常温和,以弥补在冲凉时为维护规则而不得不对它进行的暴力举动。一天,在大家冲凉时,饱受折磨的HERO闻到了香蕉的清香,生物本能使它在别的猴子心有旁鹜时将香蕉吃了。而且此后没有了新的香蕉来填补空缺。猴子们陷入了另一个尴尬境地:没有冲凉的水,也没有香蕉,只有 HERO.于是,另一个规则形成了。猴子在烦躁的时候会痛打HERO出气,HERO不得反抗。当笼子里的旧猴子被新猴子换掉时,新猴子会在最快的时间内学会殴打HERO.终于有一天,老天有眼,历尽沧桑的HERO被另一只猴子代替了。猴子们失去了发泄的对象,只能任意选取一个目标进行攻击。从此以后,笼子 里的猴子们不吃不喝不冲凉,唯一的举动就是打架。

  这就是道德的沦丧。

 

-道德的重建-

 实验人员对猴子们的争斗不休感到不安。为了重建道德秩序,他们决定继续供应香蕉。一天,正在混战的猴子们发现头顶多了一串香蕉,它们其中的一个A不顾身上的剧痛,把香蕉摘了下来。于是久违的甘露出现了,未曾尝过甜头的猴子们先是茫然失措,继而争先恐后的加入冲凉的行列。香蕉反而被遗忘了。当猴子B、C、 D、E发现A在享受淋浴的同时还吃着美味的香蕉,嫉妒心使它们暂时团结起来,共同K了A一顿,将A吃剩的香蕉夺过来,但是,此刻的香蕉成了匹夫怀里的宝玉,得到它的猴子虽然可以享受美味,但付出的代价也是巨大的。实验人员不断放入香蕉,却发现战斗比以前更激烈了。分析清楚原因后,他们用木头做了一个假香蕉扔进了笼子。此时猴子们已经学聪明了,它们知道触摸香蕉可以享淋浴,而试图独占香蕉则会遭到痛扁。于是,一个新的现象出现了,当猴子们有冲凉的需要时, 会有一只猴子将香蕉拿起来,而当它发现有遭到攻击的可能时,它会马上放下香蕉逃到一边去。这样,猴子们都能冲凉,但是又不至于再象以前那样N败俱伤。

  没有猴子发现那个香蕉是假的。

 

-信仰的起源-

  五只猴子A、B、C、D、E三个阶级快乐地生活了很久。他们精确的给出了三个阶级的定义,即吃香阶级、拿香阶级和干看着阶级。可惜猴子A由于长期的水中 作业无可避免地引发了它肺部功能的衰竭。一天他在例行的拿香蕉作业中跌倒了就再也没有爬起来。于是实验人员又送进了一只同样孔武有力的猴F.当然他还是对屋顶的香蕉很有兴趣。不幸的是他最终以微弱的劣势被以C为首的群猴再次海K.第二天,又到了拿香蕉的时候。猴子C很无所谓,反正他还要吃香蕉,反正他不会被水淋到。真正恐慌的是B、D、E三猴。F是那么的健壮,他们这些媳妇是熬不成婆了。他们将面临一个艰难的抉择,谁该去步A的后尘?猴子B、D、E展开了 激烈的争论,讨论谁最应该做下一个拿香阶级。猴子F很奇怪也很好奇,什么叫“拿香阶级”呢?猴子B、D、E解释道:所谓“拿香阶级”就是猴子界勇敢者的阶级。需具备一不怕苦二不怕死的大无畏精神方能得此殊荣。猴子F闻听不禁有些神往,有些跃跃欲试。当然他最终达到了目的,作了唯一的拿香阶级。再后来,B、 D、E三猴陆续被换出局,换来的猴子个个健壮如C.他们继续大大出手,不过目标不是香蕉,而是那个唯一的拿香阶级。

  于是信仰也出现了。

 

-迷信的起源-

   后来A终于被好心的实验人员拉出了苦海。新来了猴子F.C觉得有必要维护自己的阶级地位,B、D、E则生怕自己顶了A的缸……在各种复杂心情的作用下, B、D、E在C的带领下爆扁了F一顿,然后强令F做拿香蕉阶级。F开始不乐意,后来慢慢在B等的劝说下接受了“等待多年的媳妇熬成婆”这一宿命。慢慢的老资格的B、D、E猴子渐渐被淘汰,C发现自己在体力上不再占有优势,很难再通过武力让这一游戏规则继续下去,觉得十分苦恼。这时,一只最有希望升级为吃香蕉阶级(暨C的理所当然接班人)也是C谋臣的H向C进言。于是君臣定计。H开始依靠自己多懂几种猴语而在其他若干猴面前树立的权威形象向其他猴鼓吹:“每 一只新来笼子的猴子都是有罪的,这种罪责来自血统……只有摘香蕉的猴子才能被(实验人员)送到天堂。”事实上,因为被水冲很容易得肺炎病倒而被实验人员淘汰掉,猴子们不知道反而以为被淘汰的猴子真的进了天堂。渐渐,猴子都相信了这套理论,并且讲给每一只新猴子听。然后就这么流传下去越传越神奇。以至于后来 摘香蕉阶级的猴子都为了能摘香蕉而大打出手。……这些都是C没有想到,H没有看到的,那时他们都已经死了。

  然而迷信就这么诞生了。

 

 

 

 

美国铁路两条铁轨之间的标准距离是4英尺8.5英寸

 

摘要:

美国铁路两条铁轨之间的标准距离是4英尺8.5英寸,这是一个很奇怪的标准,你知道从何而来吗?如果说今天世界上最先进的运输系统的设计,是由两千年前的两匹马的屁股宽度决定的,你会相信吗?这就是路径依赖,看起来有几许悖谬与幽默,但却是事实。经济学上的路径依赖理论,物理学中的惯性理论,还有心理学的强化学习理论,他们原属不同的学科,却有着极其相似之处。Psytopic 搜集了强化学习理论实验和路径依赖的故事,籍此说明两者的共通之处,文章较长,本文为下篇。

  “你对自己的现状感到满意吗?”这是我提供咨询服务时经常问的一个问题。

  “不满意,但是我没有更多的选择。”这是最常听到的回答。我们也许会奇怪为什么如此多的人对自己毫不满意,却不试图去改变它。据我了解有两方面的原因:

 

  一、我们已经习惯了某种工作状态和职业环境,并且产生了某种依赖性。

  二、重新做出选择,会丧失许多既得利益,甚至大伤元气,从此一蹶不振。

  第一种原因用一个经济学的词汇来表达:路径依赖,它是类似于物理学中的“惯性”,

  一旦选择进入某一路径(无论是“好"的还是“坏"的)就可能对这种路径产生依赖。某 一路径的既定方向会在以后的发展中得到自我强化。人们过去做出的选择决定了他们现在及未来可能的选择。好的路径会起到正反馈的作用,通过惯性和冲力,产生飞轮效应而进入良性循环;不好的路径会起到负反馈的作用,就如厄运循环,可能会被锁定在某种低层次状态 下。

 

  以下的故事也许有助于我们理解这一概念,并且加深对其后果的印象。

  美国铁路两条铁轨之间的标准距离是4英尺8.5英寸,这是一个很奇怪的标准,究竟是从何而来的呢?原来这是英国的铁路标准,而美国的铁路原先是由英国人建的。那么为什么英国人用这个标准呢?原来英国的铁路是由建电车轨道的人所设计的,而这个正是电车所用的标准。电车的铁轨标准又是从哪里来的呢?原来最先造电车的人以前是造马车的,而他们是沿用马车的轮宽标准。

 

  好了,那么马车为什么要用这个一定的轮距标准呢?因为如果那时候的马车用任何其他 轮距的话,马车的轮子很快会在英国的老路凹陷的路辙上撞环的。为什么?因为这些路上的 辙迹的宽度是4英尺8.5英寸

 

  这些辙迹又是从何而来的呢?答案是古罗马人所定的,因为在欧洲,包括英国的长途老 路都是由罗马人为他们的军队所铺的,4英尺8.5英寸正是罗马战车的宽度。如果任何人用 bu同的轮宽在这些路上行车的话,他的轮子的寿命都不会长。

 

  那么,罗马人为什么以4英尺8.5英寸为战车的轮距宽度呢?原因很简单,这是战车的两匹马屁股的宽度。

 

  等一下,故事到此还没有完结,下次你在电视上看到美国航天飞机立在发射台上的雄姿 时,你留意看看在它的燃料箱的两旁有两个火箭推进器,这些推进器是由一家公司设在犹他 州的工厂所提供的。如果可能的话,这家公司的工程师希望把这些推进器造得胖一点,这样 容量就可以大一些,但是他们不可以,为什么?因为这些推进器造好之后是要用火车从工厂 运送到发射点,路上要通过一些隧道,而这些隧道的宽度只是比火车轨宽了一点,然而我们 不要忘记火车轨道的宽度是由马的屁股的宽度所决定的。

 

  因此,我们可以断言:可能今天世界上最先进的运输系统的设计,是两千年前便由两匹马的屁股宽度决定了。这就是路径依赖,看起来有几许悖谬与幽默,但却是事实。

 

  职业生涯无法摆脱这种路径依赖,一旦我们选择了“马屁股”,我们的人生轨道可能就 只有4英尺8.5英寸宽。虽然我们并不满意这个宽度,但是却已经很难从惯性中抽身而出。

 

 

节选自《选对池塘钓大鱼》/ 作者:[美]雷恩·吉尔森

 

 

 

 

 

 

 扩展阅读:

 

路径依赖定义

  一旦人们做了某种选择,就好比走上了一条不归之路,惯性的力量会使这一选择不断自我强化,并让你轻易走不出去。

  第一个使“路径依赖”理论声名远播的是道格拉斯·诺思,由于用“路径依赖”理论成功地阐释了经济制度的演进,道格拉斯·诺思于1993年获得诺贝尔经济学奖。

  诺思认为,“路径依赖”类似于物理学中的惯性,事物一旦进入某一路径,就可能对这种路径产生依赖。这是因为,经济生活与物理世界一样,存在着报酬递增和自我强化的机制。这种机制使人们一旦选择走上某一路径,就会在以后的发展中得到不断的自我强化。

  “路径依赖”理论被总结出来之后,人们把它广泛应用在选择和习惯的各个方面。在一定程度上,人们的一切选择都会受到路径依赖的可怕影响,人们过去做出的选择决定了他们现在可能的选择,人们关于习惯的一切理论都可以用“路径依赖”来解释。