阴阳师结界育成放几个:科学新闻没告诉你的那些事儿

来源:百度文库 编辑:九乡新闻网 时间:2024/04/29 01:54:11

科学新闻没告诉你的那些事儿

同人于野 发表于2011-07-08 18:00:38

科学新闻里经常出现互相矛盾的内容。比如有些研究认为手机辐射跟脑癌之间存在关联,有些研究又说这种关联证据不足。对此我们应该怎么办?科学新闻可没有告诉我们。但对于一个死理性派,他会开始分析这些结论是通过什么方法的出来的,然后判断哪个结论更为靠谱。

1. 医学研究能全都相信吗?

科学领域中,存在很多社会公众密切关注的问题。对于这些问题,主流科学界也往往会给出一个相应的说法。不过,科学家们肯定免不了会出错。有时他们的研究结论甚至会彼此矛盾。比如有些研究认为,手机辐射跟脑癌之间存在关联,有些研究又说这种关联证据不足。有时候他们说大蒜可以降低有害胆固醇,有时候又说大蒜其实不能降低有害胆固醇。这常常让公众感到无所适从。那么,遇到这种情况应该怎么办呢?

(a)以最权威科学家,比如诺贝尔奖得主或者Nature杂志上论文,的意见为主。(b)以科学家中的“主流意见”(如果“主流”真的存在的话)为主。(c)以最新发表的意见为主。(d)别当真,科学新闻可以当娱乐新闻看。

如果这条新闻说的是最新的医学研究,那么理性的选择是:(d),别当真,就当娱乐新闻看吧。

那些写在晚报副刊上的各种所谓健康指南,连看都别看。而那些刊登在主流媒体上,有最新的论文支持的科学新闻,比如说英国某个团队又发现什么东西对儿童智力的新影响了,我们大概可以看,但是看完就忘了也没有太大问题。

更进一步,如果这条新闻说的是最新的营养学研究,比如吃什么什么维生素对身体有什么什么好处或坏处,那么哪怕是发表在最权威医学期刊上的那些高引用率论文,也可以全部忽略。

说这句话的人叫 John P.A. Ioannidis,他去年刚刚被任命为斯坦福大学预防医学研究中心主任。Ioannidis 说,“ignore them all”. 他攻击的不仅仅是营养学,而是整个医学研究。2005年,Ioannidis 发表两篇论文,证明大部分医学研究都存在问题。这两篇论文在医学界被引用好几百次,但是没多少人说他这个看似无比偏激的结论是错的。甚至没人表示惊讶。所有搞医学研究的科学家都知道这个秘密:医学研究确实算不上严密。

不过,这件事一直到2010年底才引起公众的关注。首先是《亚特兰大月刊》发表充满愤怒的长文,标题采用英国首相和马克吐温发明的著名句式:“谎言,该死的谎言,和医学研究”。《时代周刊》立即跟进,并把结论进一步精简为“90%的医学研究都是错的”!《时代周刊》这篇报道说,现在已经有人开始真正认真地重新审视整个医学科研,而且立即发现了几个与我们此前的知识完全相反的结论,比如说:

- 没事儿自己检查乳房,不但不会降低乳房癌的死亡率,没准还有坏处;- 其实科学家并没有足够证据说注射流感疫苗对防治流感有效。

当然,以上两个更新的知识也未必可靠,但为什么Ioannidis做出如此猛烈的攻击,他说的话是否有道理?我们必须看看他到底说了什么。

他一篇发表在PLoS Medicine 上的文章说,在医学研究中被广泛使用的统计方法,其实是个非常脆弱的体系。如果你的一项研究是考察某种药物对人的健康是否好处,而你希望能证明有好处的话,你将很容易做到这一点。首先,现在大部分医学科研研究的效应其实都是比较微弱的,因为“不微弱”的效应别人早就研究完了。其次,也许一个病人的病情并没有什么明显好转,但因为你希望这个药物有效,你也许会完全无意识的刻意寻找他好转的证据,你可能会把本来没什么好转的病人当成好转的病人。这就是你的偏见。Ioannidis 这篇论文其实全是数学,他做了一番计算,说如果这个微弱效应有10%,而你的偏见有30%的话,你的实验得到正确结论的概率只有20%。

科学家是有偏见的。他可能因为拿了医药公司的资助而希望证明一个药物的疗效,他更可能为了能在发表有轰动效应的论文而追求惊人的结果。鉴于10%的效应率和30%的偏见率差不多就是一般流行病学研究的水平,我们大概可以说80%的流行病学研究都有问题——当然,这些研究仅仅是研究而已,它们是整个医学研究序列中的一部分,而不是直接指导人类行为的准则。根据同样的计算,小规模随机试验的可信性也只有23%。Ioannidis 这篇文章就是用数学方法证明这种偏见有多可怕。

光玩数学当然不行,批评现实得有真实证据。Ioannidis另一篇发表在 JAMA 上的论文干的就是这个。没有人能把所有医学论文都研究一遍,所以他的做法相当具有戏剧性:他只看1990到2003年间发表在顶级临床医学期刊上的顶级论文,入选标准是被引用超过1000次。符合这个标准的论文一共有49篇,其中45篇声称发现了某种有效的药物或者疗法。

我们都知道科学结果理应是可重复的,我们不知道的是有多少科学结果真的被人重复过。这45篇论文虽然都被引用了千次以上,其中只有34篇被重复检验过。

而后人检验的结果是其中7篇的结论错误。比如有一篇论文说维生素E对降低男子冠心病风险有好处,有一篇论文说维生素E对降低女子冠心病风险有好处,而后来的大规模随机实验则证明维生素E对降低冠心病风险根本没好处。另有7篇论文被发现是夸大了有效性。也就是说34篇经过检验的论文中的14篇(41%)被发现结论有问题。这45篇最权威的论文中只有20篇扛过了时间的考验。

顶级论文尚且如此,一般论文又能怎么样呢?真有90%都不可靠么?我从未发现 Ioannidis 说过“90%的医学研究都错了”这句话,《时代周刊》的报道的确是标题党。

事实上,Ioannidis 说的不是90%错误,而是431/432存疑。Ioannidis 的做法是选择一个热门领域,彻查这个领域内所有的论文。这个领域研究的是男女患各种疾病的风险不同,是否因为基因的影响。在2007年 JAMA 的一篇论文中,Ioannidis 与合作者找到这个领域的所有77篇论文,然后逐篇分析这些论文处理数据的方法是否足够严谨。这些论文一共提出了432个论断,其中只有60个论断可以称得上是方法严谨。而这60个拿的出手的论断中,曾经被其它研究至少重复验证了两次的,只有一个。

所以严格的说,并不是绝大多数医学研究的“错”了,而是不严谨,没有经过考验。如果我们对正确科学论断的要求是方法严谨,结果至少经过两次检验,那么这个领域的合格率只有1/432。如果我们放宽要求,只要一篇论文不被证明是错的,就算它是好论文,那么发表在最权威期刊上的被引用次数最多的医学论文中,有7/45是坏论文。

在这七篇坏论文中,有两篇说维生素E可以降低冠心病风险。但随后于2000年发表在《新英格兰医学杂志》上的一篇文章,通过对超过9000人进行的严格随机实验证明,维生素E根本不能降低冠心病风险。这一结论从此之后再也没被推翻过。那么到底有多少科学家知道这件事儿呢?Ioannidis 等人曾经专门调查了到底有多少论文还在使用“维生素E降低冠心病风险”这个错误知识,结论是一直到2005年,仍有50%的新发论文还在引用前面那两篇错误的顶级论文,并且以为它们是对的。

把学术论文的结论推广到真实世界的真理,有时候是非常危险的事情。因为不理解科学研究的思维方式,导致大多数人对科学有两个重大误解:第一,认为科学研究绝对真理;第二,认为每一项科研都是在生产我们日常决策的答案。真实的科学研究其实一个充满曲折,甚至有时候错进错出的过程。

不过,很多论文不严谨,甚至很多都是错的,这并不表明科学中没有正确答案,它只是表明得到和判断正确答案并不简单。值得注意的是,医学研究通常立足于统计学的方法。由于这些方法本身所具有的缺陷,所以出现“不靠谱”的研究结果也并不奇怪。这也并不是说所有医学研究全都是不靠谱的——因为缺陷并非不可弥补,研究者可以通过扩大研究规模,延长研究时间等方法,尽量减少干扰因素。不同的研究之间,也存在着结果上的互补关系。事实上,医学研究就是通过这样千千万万的可能会有些不靠谱的研究,逐渐明晰起来,无限逼近最终的正确解。从上述维生素E的研究案例中,我们就可以清楚地看到这一点。

科学报道都是用人类传统语言写成的,而科学研究使用的却不是人类传统语言。所谓“科学方法”,其实是另一套很不一样的思维方式。我想用接下来的几篇小文,介绍一下“科学方法”,这种超越了人类本能的思维方式。一个简单的问题是,我们凭什么相信“维生素E不能降低冠心病风险”这个结论就是对的?因为有些科学方法比另一些科学方法更可信。我们将说明为什么看新闻不如看论文,为什么看一篇论文不如把多篇论文综合在一起看(称为 meta-analysis),以及为什么这么看还是不行。

注: 有一个叫做 Cochrane Collaboration 的国际组织,就正在专门严格审视各种医学研究,并且推出了很多报告,而且他们也采纳了 Ioannidis 提出的审查方法。这个组织特别强调经费只来自于政府,大学和私人捐款,而不拿医药公司的钱。

科学新闻没告诉你的那些事儿 2

同人于野 发表于2011-07-13 18:00:34

科学研究到底怎么做的呢?说白了就是模型。模型无论多么复杂,必然也是真实世界简化而成的。模型的好坏不是看它的复杂度,事实才是检验模型的唯一标准。复杂的模型一般都针对小问题,对未来的预测也未必靠谱。当我们看到新闻说预测到什么宏观事件,一定要保持谨慎。

真空农场中的球形鸡

美剧《生活大爆炸》曾经讲过一个好多观众没听懂的笑话。说有一个农民发现自己养的鸡都出问题不下蛋了,找一个物理学家帮忙。物理学家做了一番计算之后宣布我已经找到了一个解!但是这个解只对真空农场中的球形鸡有效。这个笑话的意思是物理学家使用了一个过分简化的模型去模拟真实世界。

更有效的模型大概需要考虑在空气中传播的病毒对存在空气的农场中的有下蛋器官的鸡的影响。但不管你使用什么模型,你必须得使用一个模型。任何科学研究中的任何计算都是针对科学家选择的模型的,而不是针对“真实世界”本身的。

有时候简化的模型已经足够好,比如我们要计算天体运行的轨道,把任何恒星和行星都简化为没有体积的质点就可以了。有时候是不得不简化。比如说如果要模拟全球气候,大概要考虑洋流运动和南北极冰川的影响,那么要不要考虑云的变化?要不要考虑太阳黑子的影响?要不要考虑植物分布的影响?要不要考虑冰岛火山爆发、喜马拉雅山、贝加尔湖、三峡大坝和中国春运的影响?在有限计算能力下不可能都考虑。但世界复杂并不是我们必须使用模型的本质原因。

我们必须使用模型的本质原因是,我们对世界的观察是主观的。霍金和 Leonard Mlodinow 在《大设计》这本书里讲了一个金鱼的故事,说意大利 Monza 市禁止在弯曲的碗状鱼缸里养金鱼,因为从弯曲的鱼缸往外看会看到一个扭曲了的现实,这对金鱼“太残酷了”。对此霍金提出一个庄子式的问题:我们又怎么知道我们看到的现实不是扭曲了的?金鱼仍然可以对鱼缸外部的世界总结一套物理定律。也许因为坐标系弯曲,金鱼总结的物理定律会比我们总结的要复杂一点,但简单只是个人品味,金鱼的物理学同样正确。

从这个角度说,所有物理定律,乃至所有科学理论,都只不过是主观模型。托勒密的理论说地球是静止的,太阳绕着地球转;而哥白尼的理论说太阳是静止的,地球绕着太阳转——这两个模型其实都可以用,只不过其中一个比另一个更好用一点。

物理学革命其实就是用一个模型取代另一个模型。我们可以把力解释成一种波动的场,或者空间的弯曲,或者一堆粒子的来回传递,或者又把各种粒子解释成弦的震动。当物理学家发明这些模型的时候,他们心里想的并不是“真实的力到底是什么东西呢?超弦理论符合我的世界观么?”这种哲学问题,他们想的是什么模型有效就用什么模型!

也许与模型无关的“现实概念”根本就不存在,霍金管这个思想叫“依赖模型的现实主义(model-dependent realism)”。这听上去有点像中国人说的“道可道非常道”,又有点像《论语》里面每次有不同的人问孔子“仁”是什么,孔子都给一个“依赖提问者的仁的定义”。但实际上这里面说的是科学这门业务的工作方式,是从来不直接追求那个“最后的,真正的现实”,而只是不停地用不同的模型去模拟现实。

也许有些科学家的确相信绝对真理的存在,但科学研究从来不涉及绝对真理。哲学才研究绝对真理。科学研究的是“有效的真理”,是“有限的真理”。两个古代哲学家坐在那里谈论天道怎么样,说来说去只能是空对空。科学方法的第一个智慧就是我不直接用心去跟“天道”对话,我做几个实验,总结几条规律,形成一个不求天道但求有效的“模型”。

所以当一个科学家说一个真实世界中的什么东西会发生什么情况的时候,他说的实际意思是在他使用的那个模型里,这个东西对应的变量发生了什么状况。他说的是真空农场中的球形鸡[1]。

在所有科学模型中理论物理是最成功的,而且成功到了不可思议的地步。量子电动力学并不是物理学家关于世界的最新模型,它把各种基本粒子都简单地当做球,完全不考虑原子核内部的相互作用,没有引力,但它却是一个相当完美的模型。它只用非常简单的几个方程,就能够描写原子核和引力之外几乎所有现象,而且这个模型无比精确。费曼曾经在一本通俗读物里自豪地写道,量子电动力学计算的电子自旋磁矩是1.00115965246个玻尔磁子,而实验测量的值1.00115965221,这个误差相当于横跨美国东西海岸,计算从波士顿到帕萨迪纳的距离,结果只差一根头发丝那么细。

我们可以无比准确地预言每一次日食,可以拦截导弹,甚至可以用遥控的方法把探测器精确地放置在火星表面的指定地点。这些并不完美的物理模型是如此的足够完美,有些人错误地以为科学就应该提供这么精确的答案。但事实是很多重要问题的模型根本做不到这一点。2008年金融危机给人的印象就是所有正规经济学家都没有预见到。格林斯潘说,“我们都错误判断了这个风险。所有人都没想到——学术界,联储,监管者。”一时之间批评经济学成了时尚,很多人认为经济学根本不能算科学。

我不知道经济学模型算不算科学,但的确有正规经济学家,在不使用阴谋论的情况下,预警过这场金融危机。去年,2500名经济学家投票选出了对这次危机的最好预测:Steve Keen 早在1995年就搞了一套理论模型,并且从2006年开始使用这个模型每月发布预警报告;Nouriel Roubini在2005年就指出美国房价会在3年内跌30%;而Dean Baker则从2002年开始反复说房价是个泡沫。我们可以看到这些预测有限的,不论是金融危机的规模还是爆发的时间,它们都远远谈不上准确。

不论如何,嘲笑经济学模型是从事“硬科学”的科学家,甚至是所有学者最爱干的事情之一。看完《金融时报》上一个历史学家(!)嘲笑经济学家的文章之后,一个物理学家笑了。他说我看经济学模型还算好的,气候模型还不如经济模型。经济学家至少知道模型里面“经济人”是什么东西,而气象学家根本不知道气候模型里的云和海洋混合(ocean mixing)是怎么回事。

他说的是关于模型的重大问题:如果你根本没搞清楚所有的原理和机制,你做的简化距离真实世界非常遥远,你的模型还有意义么?物理大佬 Freeman Dyson 认为没意义。他说,

我没有气象学位,所以我大概没资格谈论这个话题。可是我也研究过这些气象模型,我知道它们能干什么。这些模型对大气和海洋的流体力学方程可以解的很好,但是它们对云,尘埃,地表和森林中生化过程的描写很差。它们根本谈不上描写我们生活的这个真实世界……这就是为什么搞气象模型的这帮人只不过是自己相信自己的模型而已。

那么 IPCC(政府间气候变化专门委员会) 自己怎么评价气象模型呢?在2007年报告的一个FAQ中,IPCC 表示它对这些模型非常自信。但是在我看来,这份文字写的有点不够意思。IPCC 说这些模型的基本原理是建立在动量能量守恒这些基本物理定律上的,而且还有大量的观测事实作为支持。它没说的是模型的“非基本原理”,比如Dyson说的那些东西,是怎么处理的,更没说这些非基本原理能起到多大作用。IPCC 还说这些模型能够成功的模拟当前气候,而且还成功再现了过去100年的气候变化。没错,但 IPCC 没说的是这正是那些“大量的观测事实”支持的结果,是用这些观测事实调参数凑答案的结果(叫做"parameterisation"),这些模型在很大程度上是基于经验的。

其实调参数没有什么不对。根据“依赖模型的现实主义”这个精神,你怎么就能说基本物理定律不是基于经验的呢?气象学家可能的确不怎么理解云,但难道物理学家就敢说自己真的理解电子么?所以我认为 Dyson 的批评等于说黑猫肯定不如白猫,这并不重要。重要的是气象模型预测未来的能力怎么样。

有一个关于天气预报的笑话是这么讲的,有人打电话到电台问你们每天预报的降雨概率到底是怎么算出来的?主持人回答说我们一共有十个预报员,每天投票预报,如果有3个人认为会下雨,我们就说降雨概率是30%。IPCC 预测未来的办法跟这个有点类似。一个最常用的办法,是把各个不同气候模型综合起来取平均值。比如把12个国家的17个研究组使用的24个模型取平均。

上面这张图来自 IPCC 网站,其用现有模型去模拟过去100年的温度变化,看看是否符合观测结果。图中杂乱的黄线是使用14个不同气候模型进行的58次模拟的结果,而红线则是这些结果的平均值,它与实际观测值(黑线)相当接近。

我们可以仔细想想这个事情。IPCC 这个做法相当于投票选举真理。如果我们对气候的认识是完美的,如果科学家明确知道自己在做什么,那么世界上应该只有一个气候模型。现在这种让大家都算一算然后取个平均值的做法,等于说我们不知道到底哪个对,其根本原因在于模型中的物理机制和参数有很多不能确定的地方。而这张图则说明这个做法效果还不错!

但既然你的模型中有很多参数都是用历史数据拟合出来的,这些模型能够再现历史就不奇怪,最关键的测试还是你能不能预测未来。2007年Science上的一篇论文比较了IPCC在1990年对未来气候的预测,与从1990到2006期间的实际观测。图中虚线是IPCC的预测,实线则是观测值。

这是一个非常有意思的结果。尽管我们一再被告知二氧化碳浓度上升主要是人为的,但IPCC对二氧化碳浓度的上升却预测的非常准确(文中解释,这是一个巧合)。它预测得不太准确的是温度上升,它预测得更不准确的则是海平面的上升。但最惊人的是IPCC不是高估了温度和海平面上升,而是低估了。实际情形比IPCC警告我们的更坏。

这张图至少说明在签署京都议定书期间,IPCC 的模型不是故意夸大危险来忽悠世人的。此图用的都是1990年的旧模型,那么新模型们是否表现更好呢?一份非正式的研究,把IPCC 2007年的新报告跟从2007到现在的实际观测比较,则发现IPCC高估了温度的上升。

所以用模型预测未来是非常困难的事情,越复杂的模型就越困难,而且越细致的未来就越不好预测。我们看到预测海平面上升已经比预测温度上升困难,那么如果有人想进一步预测全球变暖带来的恶劣气候导致多少多少“气候难民”,我们就可以想见那是不可能准确的。联合国环境规划署曾经在2005年预测到2010年沿海地区将会有50万气候难民,结果到今年人们发现这些地区的人口不减反增。那么联合国网站怎么办?第一,删除原有预测(有人还是保留了一份证据);第二,不解释;第三,50万难民的预测时间现在被改成2020年了。做这些预测用的是什么模型?你找不到。

不要特别相信那些复杂的模型对未来做出的复杂预测。问题是新闻记者总是比科学家更相信模型。今年初一份气候预测报告说未来十年温度将上升2.4度并导致全球粮食短缺,科学家很快发现报告存在严重错误并且立即撤回了报告,可是这时候这个新闻已经被无数媒体广泛报道过了。

2009年,英国女王伊丽莎白质问经济学家说你们就怎么都没预测到这次金融危机呢?经济学家们回信,说经济学这个工作都是各自为战研究具体领域内的小问题的,我们并没有做在一起对世界经济这个整体发挥“集体想象力(collective imagination)”。换句话说,他们玩的都是小模型,没玩过这么大的。

科学家也是这样,一般情况下不想玩大的。科学家玩模型最大的目的其实是想解决小问题,是想通过模型来发现和证实一些小机制。所有玩模型的科学家都知道自己模型的局限性。可是公众和政客非逼着你预测。如果非得预测大的不可,最好还是用 IPCC 爱用的这种多个模型取平均值的办法 —— 也叫“发挥集体想象力”。

[1]那么实验呢?如果有人做实验证明两个铁球同时落地,他难道不就是在揭示一个与模型无关的现实么?没错,但他揭示的现实只是我们眼中的这次试验中的这两个铁球,要想把实验结果推广到所有物体以形成“现实概念”,他就必须制造一个理论,也就是模型。