迁坟后多久能影响后人:漫谈统计思想

来源:百度文库 编辑:九乡新闻网 时间:2024/04/27 23:45:10
漫谈统计思想之一:最大似然法 
    费歇(R.A.Fisher)是经典数理统计学派的集大成者,有研究数理统计发展史的学者甚至认为,费歇出生的那一天就是数理统计学的生日。虽然有点个人崇拜的味道,但这至少表明了他绝不可等闲视之的学术地位。
最大似然法(the method of maximum likelihood)也称极大似然法,它最早是由高斯所提出的,后来由英国统计学家费歇于1912年在其一篇文章中重新提出,并且证明了这个方法的一些性质.最大似然估计这一名称也是费歇给的.它是建立在最大似然原理的基础上的一个统计方法.为了对最大似然原理有一个直观的认识,我们先来看一个例子.例 设有外形完全相同的两个箱子,甲箱有99个白球1个黑球,乙箱有1个白球99个黑球.今随机地抽取一箱,然后再从这箱中任取一球,结果发现是白球.问这个箱子是甲箱还是乙箱?分析  注意我们这里做的是统计推断而不是逻辑推断。所谓统计推断,就是根据已知的部分数据对总体的进行估计的一种推断方法。从部分推断总体,必然伴随着一定的犯错误的概率。因此从逻辑上认起死理来,统计推断似乎因为不太严谨而被排斥在“科学推断”之外了。但是在实际生活中,如果都要按照逻辑推断来思考,那么将会给你的生活带来很大的麻烦。比如出门,则难免会有一定的概率出一定的意外,因此所谓“安全回家”在逻辑上便不再是绝对可靠的,故而你只能选择闭门不出。回到刚才的例题。现在的问题是,仅仅从取出的球是白球这一点是无法从逻辑上严格加以判定该箱究竟是甲箱还是乙箱的。但是如果现在一定要我们做出选择,那么我们只能这样来考虑:从箱中取出的球是白球这一点来看,甲箱和乙箱哪个看上去更像是真正从中取球的箱子?我们这样来分析:如果该箱是甲箱,则取得白球的概率为0.99;如果该箱是乙箱,则取得白球的概率0.01.因此,用“该箱是甲箱”来解释所取的球是白球这一事件更有说服力一些,从而我们判定甲箱比乙箱更像一些。最后我们做出推断,这球是从甲箱取出的.其实,如果我们从“最大似然”的原文maximum likelihood来看,就会发现这个名称的原始含义就是“看起来最像”的意思。“看起来最像”,在很多情况下其实就是我们决策时的依据。一个总体往往都有若干个重要的参数。比如,对于正态总体来说,均值和方差就是两个非常重要的参数。但是在很多情况下,这些参数往往是不知道的,这就需要我们利用抽样所得的部分数据来做统计推断。假设我们现在获得了一组数据,记为x,我们需要做的是,利用x中所包含的信息来推断总体中的未知参数值。显然,未知参数是有其取值的范围的,我们现在要做的是,在参数可能的取值范围内寻找到一个“看起来最像”的那个值来作为未知参数的估计值。那么,在这里“看起来最像”在数学上的含义是什么呢?现在,假设有甲乙两支足球队要进行比赛,某老汉很认真地看了这两支足球队的相关资料,并作了细致的分析,得出了甲队战胜乙队的概率为p。但是在第二天被朋友问及此事时,该老汉一时犯昏把数字给记混了。他只知道甲队战胜乙队的概率p只可能取如下几个值0,0.1,0.3,0.5,0.75,0.9,但一点也记不清到底哪个数字才是真实的。也就是说,在这个时候,这五个数字没有哪一个看上去更像是真实的p。于是他开始翻看随身携带的一些资料,发现与这两支足球队有关的资料只有一条,这就是他们在某日的比赛中以平局收场。看完这条资料以后,老汉再来看以上这六个数字时,发现0.5看起来最像,因为用0.5来解释刚才看到的资料最有说服力。如果老汉看到的资料中说甲队在某日的比赛中战胜了乙队,那么此时0.9将是看起来最像的。数理统计是数学的一个分支,所使用的数学工具比较高级且显得比较抽象,但是从我们以上的分析来看,它所基于的最基本的思想仍然是来源于我们现实生活中的一些很常见的推断法则,只不过在很多的时候我们在以这样的法则做出推断时并没被我们意识到而已。   统计学是科学,是技术,同时也是一种艺术和哲学,它包含了世界观的成分。正如我们从上面的讨论中看到的,它并不是无源之水,无本之木,而是来自于我们日常生活这一“活水”之源。如果你能够在学习统计的过程中充分的享受到其中闪现的智慧之美,那么成为一个快乐的读书人将不再是梦想。漫谈统计思想之二:显著性检验
2006年2月16日的一则新闻:据路透社最新报道:国际奥委会委员、世界反兴奋剂机构(WADA)主席庞德当地时间2月16日公开表示,在都灵冬奥会开幕之前被确定血红蛋白超标的12名滑雪运动员一定是服用了兴奋剂。据路透社援引庞德的话说:“坦率地说,我们认为我们是在处理兴奋剂事件,因为在冬季奥运会之前,很凑巧地有12人血红蛋白超标。”从上面这一则新闻中,我们可以读出两点:(1)庞德认为:“在都灵冬奥会开幕之前被确定血红蛋白超标的12名滑雪运动员一定是服用了兴奋剂”。庞德的语气非常肯定。那么所基于的理由是什么呢?这就是我们读出的第二点。(2)因为在冬季奥运会之前,很“凑巧”地有12人血红蛋白超标。”庞德潜台词是,如果他们没有服用兴奋剂,那么这事情实在是太“凑巧”了,于是便得出了如上的结论。但是我们仔细地分析就会发现,庞德的结论下得有点武断,在逻辑上存在着漏洞。我们会问这样一个问题:为什么就不能这么凑巧呢?或者:难道很凑巧的事情就不会发生吗?这就涉及到统计推断的另一种形式:显著性检验。庞德的推理过程实际上是以如下的方式进行的。首先假设这12名运动员没有服用兴奋剂,然后在这个前提下计算这12名运动员血红蛋白全部超标的可能性有多大。据另一篇相关报道中说,庞德计算出来的这个概率为万分之三。我们知道,万分之三是一个极小的概率,于是根据实际推断原理,小概率事件在一次试验中是不会发生的,而现在居然发生了,那只能说明推出这个小概率的原假设,即这12名运动员均没有服用兴奋剂的假设是错误的。由于统计推断不是逻辑推断,因此庞德结论必然包含着一定的犯错误的概率。于是,接下来的问题是,庞德的结论犯错误的概率有多大?根据我们上面的分析可以很容易的算出这个概率,它就是万分之三。于是问题又变成了,以万分之三的概率犯错误而做出的判断究竟算不算是一个很有把握的判断,毕竟是否服用兴奋剂对于一个运动员来说是非常重要的一件事情,搞不好就会断送他们的运动生涯,所以必须慎之又慎。显然庞德认为,万分之三的概率已经是一个很小的概率了,因此便“信心十足”地做出了这批运动服用了兴奋的判断。但是奥委会还是决定作进一步的调查。实际上,奥委会最后必须在如下的两个假设选择一个。原假设H0:这12名运动员没有服用兴奋剂;备择假设H1:这12名运动员服用了兴奋剂.不管最后会做出什么样的选择,都难免会犯如下的两类错误的一类。第一类错误(弃真):原假设为真,但拒绝了原假设;第二类错误(取伪):原假设为假,但接受了原假设。很自然的,我们都希望犯这两类错误的概率都很小。可是不幸的是,如果样本的容量给定(即给定试验的结果),要想同时缩小犯这两个错误的概率是不可能的,当其中一个减小时,另一个就会增大。于是便又存在着取舍的问题,那就是在样本信息给定的情况下,首先应该控制犯那一类犯错误的概率。奈曼和皮尔逊(Neyman-Pearson)提出了一个原则,即在控制第一类错误的概率的条件下,使犯第二类错误的概率尽量的小.根据该原则,首先需要控制的错误是第一类错误.Neyman-Pearson原则的出发点:我们提出原假设时是经过细致调查和考虑的,它必须是一个要加以保护的假设,因此当我们要拒绝它时必须非常慎重,一般情况下不宜轻易拒绝.这种假设检验问题称为显著性检验问题.称犯第一类错误的概率为显著性水平.显然,由于事关重大,我们是不能轻易地做出这12名运动员服用兴奋剂的决定的。但是由于“12名运动的血红蛋白均超标”这一事件与正常结果之间的偏离程度非常“显著”(因为在正常的情况下这一事件发生的概率只有万分之三),因此,庞德最后做出结论:他们服用了兴奋剂!显著,英文的原文是(significant),即有价值的、有意义的。有些差异是有意义的,但是有些差异是没有意义的。比如说,某教务处长声称全校高等数学的平均成绩达到了80分。为了验证这个结论,决定抽查一部分学生的成绩进行统计,结果算得平均分数为78分。很显然这个差异是不显著的,因此不能由此就说教务处长在吹牛。但是如果算得的平均分数是60分,那么我们就会认为这个差异有意义的,因而也是显著的,因此便得出结论,教务处长在撒谎!显著性检验只关心要不要拒绝原假设,如果不能信心十足的拒绝,便只好接受了。至于接受原假设时犯第二类错误的概率的控制问题,则是在我们控制显著性水平时所必须忽略的问题,这是一个不得不付出的代价 .综上所述,显著性检验中蕴含了如下两个思想。一、反证法思想。假设原假设为真,则“12名运动血红蛋白均超标”是一个“有违常规”的事件,应该是不会发生的,而现在居然发生了,因此他们一定服用了兴奋剂。二、小概率原理上面所提到的“有违常规”的现象,并不是形式逻辑上的绝对不可能现象,而是基于小概率原理或统计推断原理基础上的不可能.小概率原理认为:概率很小的事件在一次试验中实际上是不会发生的.注意,这里的“不会”不是逻辑意义上的不会,而是统计意义上的不会,并且事实上我们每一个人都是这个命题的忠实实践者.一个人在一生的很多场合都有可能会出现不幸的意外.比如,过马路可能会被车撞,在露天有可能被雷打,在家里可能会遇到地震,乘飞机有可能会出现空难。但是我们依然会出现在这些场合,因为这时我们会想:哪有这么凑巧的,这么倒霉的事情怎么会给我碰到呢?有些事情可以用凑巧来解释,比如随机抛两次硬币均出现正面。但有些事情则不能用凑巧来解释,比如抛10次硬币均出现正面,因为这是在“太”凑巧了,我们宁愿相信抛硬币的人有技巧或者硬币有问题。“12名运动员血红蛋白均超标”这一事件在原假设为真的情况下实在是太“凑巧”了,以至于我们有充足的把握拒绝原假设。就像“看起来最像”是理解最大似然法的关键词一样, “凑巧”是理解显著性检验思想的关键词。漫谈统计思想之三——参数估计与显著性检验的区别 
参数估计与显著性检验所要处理的问题表面上看有点类似,它们都是在知道总体的分布形式但不知道其中的某些参数的条件下对未知参数作统计推断的方法,但是,在所要解决的问题以及所使用的方法上两者之间却有着本质的区别。为了对它们之间的区别有一个直观的认识,我们先来讨论一个案例。美国军队原来的导弹制导系统是雷达系统,其命中率为50%。后来他们又研制了红外线制导系统。为了确定新导弹制导系统的命中率,他们试射了18枚新导弹,结果有12枚击中。此时,如果试验的目的仅仅只是为了估计新导弹的命中率,那么这就是一个参数估计问题。根据试验的结果,运用最大似然法可以得到新导弹命中率p的估计值为2/3或者66.67%。但是现在美国国防部需要考虑的问题的是,是否有必要更换制导系统,即将雷达制导系统更换为红外线制导系统?而这首先需要他们回答这么一个问题:根据这个试验结果,能否认为红外线制导系统的命中率比雷达制导系统的命中率要高?设新导弹的命中率为p,则要回答上述问题,需对以下两个假设进行检验以决定该接受哪一个假设:(1)原假设:p=50%,即新导弹没有提高命中率;(2)备择假设:p>50% ,即新导弹提高了命中率。前面提到,如果是参数估计问题,那么66.67%是p的一个最大似然估计值,它显然大于50%。因此,粗看起来,好像确实是提高了命中率。然而,由于更换制导系统(即拒绝原假设或接受备择假设)是一件非常昂贵的事情,因此当你在做最后决定的时候可能会有一些犹豫,毕竟即使是雷达制导的旧导弹系统,试射18枚导弹至少击中12枚的结果也是有可能会出现的。也就是说,即使没有提高命中率,上述试验结果也是很有可能“碰巧”发生的。这样一犹豫,红外制导系统是否提高了导弹的命中率的问题便好像不再是显然的了。接下来的问题是,“试射18枚导弹至少击中12枚”这一结果是否与50%的命中率有“显著”的差异?根据前面关于显著性检验的讨论,我们现在要做的是,首先假设新导弹没有提高命中率(即原假设为真),即仍然为50%,然后在此假设下检验所发生的事件是不是“有违常规”,即其发生的概率是否很小。设X为试射的18枚导弹中击中目标的导弹数,则在原假设为真时,X 服从二项分布。现在我们需确定一个数k,当X>k时拒绝原假设同时接受备择假设。经过简单的计算可知,如果取显著性水平(犯第一类错误的概率)为1%,则此时X 至少应为15;如果取显著性水平为5%,则此时X 至少应为14;如果我们将显著性水平的数值取得更大一些,即显著性水平要更低一些,比如取为10%,则此时X 至少应为13。因此,在显著性水平1%下根据击中的次数至少为12是不能拒绝原假设的。事实上,如果此时作出拒绝原假设的结论,那么犯错误的概率将达到12%左右。由于犯第一类错误的概率超过了10%,因此试验的结果不能认为是一个小概率事件,用统计学的术语来说,试验的结果对于拒绝原假设来说是不显著的,即不能由此说明新导弹提高了命中率。为了谨慎起见,我们宁愿相信试验的结果是随机波动的结果(碰巧的结果),而不是由于导弹的性能有了显著的提高。虽然接受原假设有可能会犯错误,但问题并不是很严重,因为不更换制导系统并不比原来更差,命中率仍可维持在50%。否则一旦作出拒绝的判断,那么就将消耗巨大的人力物力来更换该系统,其结果却很有可能(概率至少为12%)并没有改善导弹性能。如果想要得到更加精确的结论,那么只能继续试验以获得更多的样本数据。这就是参数估计问题与显著性检验问题的不同之处。

漫谈相关与回归

2009/06/11 刘飞燕

最近静下来看了David Freedman等著的《统计学》的“相关与回归”部分,以及一篇关于直方图的文章,不免有些感慨!其实统计学中的很多概念、工具、方法等的实际意义或作用可能要比我们认为的要大很多,同时,当我们从一些概念定义等中发现出一些新东西时我们总会欣喜若狂。世界上的很多事物又何尝不是如此,人们对事物的了解总易受到传统或他人的影响仅仅停留在表面,很少达到全面而深刻,而一旦我们获得了那种深刻的洞察力,才发现真实世界是何等的精彩!一直以为直方图很简单,无非是一些代表频数的柱状图的组合而已,感觉没什么作用,但是看了一篇关于直方图制作方面的论文时,才认识到直方图的威力。直方图其实是非参数统计中估计总体分布特征的一项重要工具,选择好适当的组距和边界点(组距和最小边界点是关键),随着样本量的增大,它可以非常接近地反映数据的真实分布情况。其实,在统计中使用一种工具方法的目的也应该是使现有的数据尽可能多地反映出真实的信息,而这项工作往往是一个无底洞(这时又要考虑到效率问题了)。

散点图亦是如此。散点图给出了所有数据点的信息,但是如何从这些数据中获得结论或拟合模型,甚至用来预测?面对一张散点图,相关和回归应该是最容易想到的吧!这里主要谈谈两个变量间的相关和回归。

在研究两个变量的关系时,一般会先看看它们的散点图,在图中两变量的关系还是比较直观的,大致可以判断是否线性相关及相关性大小如何,是否是非线性相关等。而到底什么是相关呢?相关其实就是知道一件事对了解另一件事的帮助的大小。实际中,如果对某一事物不太了解,但是对与其有一定联系的另一事物有所了解,如果这种联系很强,那我们对于那件不了解的事物就有了更多的信息,或者说对这个不了解的事物有了更大的自信去预测。其实这也是研究中的一种常用的方法。

关于两个变量间的相关系数的计算。我们都知道两个变量X与Y的相关系数的计算公式为,然而这已经是一个结果性东西了,我更推崇David Freedman等著的《统计学》中计算方法:先分别对两个变量做标准化,比如对变量X做标准化,然后对应的标准量相乘,最后加总再求平均。这种求法反映到散点图中,相当于对散点图的坐标刻度标准化,从而使两个坐标轴具有了相同的刻度,同时在直观两个变量之间的相关性大小时不会受到各自的标准差大小的影响。这个新的坐标系把所有的点(数据对)分到了不同的象限,通过观察各个象限的点的个数和大致分布情况便可以对相关性的大小与正负有直观的了解,比如更多的点都分布在一、三象限且群集于一条直线周围,那么这两个变量的一般具有较强的正线性相关。

我们都知道相关系数是-1到1之间的一个实数,那么相关系数为0.8是不是表示百分之八十的点群集在一条直线的周围吗?当然不是,相关系数是基于全体数据的一个综合信息,它反映的是所有点与某一条直线的群集程度,而不是一部分的点。由此也不免想到,我们在用到一些概念或定义时,也必须清楚这个概念或定义是基于怎样的对象,或有哪些局限条件或假定,比如概率论中的“事件”,“事件”是基于特定条件的,在具体使用过程中大家对这些特定条件都太“熟悉”以至于很少关注到它们,所以一旦条件改变了,大部分的人认为还是指同一个东西。

相关与因果也是这样,我们都知道相关不能同因果划等号,但实际过程中人们总“自然而然”地得出一些结论。一般来说,体重和升高相关,那体重大是不是就因为身高高呢?除非有一个固定的身材标准,而所有人都是这个标准。(随便提个问题:如果两个变量严格线性相关,即相关系数为1,那是否可以说这两个变量中一个为因一个为果呢?)。其实两个变量的相关更经常的情况是它们同时受到另外的一个或多个因素的影响,在这里可以通过对照试验或观察研究来进一步研究。另外,相关是可逆的,而因果则不可以。所以我们分析相关时总是如此谨慎地说,某某变化,与此相关的某某“相应地”如何变化。研究发现,个人收入与教育水平相关,高教育水平是不是高收入的原因呢?实际情况是它们相互影响:教育水平高的人收入一般较高,收入高的一般也更有能力获得继续教育的机会。虽然相关不是因果,然而有时我们并不需要弄清所有的因果关系,盯住输入和输出,只要存在相关,即使不是因果关系也不妨碍人们利用这种关系来进行推断。比如利用公鸡打鸣来预报太阳升起,虽然公鸡打鸣绝对不是日出的原因(虽然打鸣发生在先)。

在对两变量的相关关系有一定了解后,接下来的自然想法便是拟合回归模型。“回归”这一词来自于高尔顿的父子两代身高的研究,身高较高的父亲其儿子的平均身高要比父亲矮些,身高较矮的父亲其儿子的平均身高要比父亲高些,用高尔顿的话说就是“回归到平常”。虽然现在统计学上的“回归”这一概念已经远远超出的当时的定义,但是回归的原始思想依然有着非常重要的作用。“回归”,个人认为其实就是向中心的回归。在知道某地区18-24岁男子的身高的大致情况时,如果没有其他信息,让我们估计该地区中某一特定区域18-24岁男子的平均身高时(当然不是侏儒或篮球运动员之类的人),自然是用平均数(包括中位数)去估计了,这便是回归,没有其它的辅助信息时我们总倾向于平均值,这当然是符合统计思想的。两个变量的相关系数绝对值为1时,那么知道一变量的值就立即知道了另一变量的值;相关系数为0时,那么知道一变量的值对预测另一变量没有任何意义,那么我们就估计其值为平均值;相关系数绝对值介于0与1之间时,相关程度越大,我们越不倾向于取平均值。其实回归模型也是基于平均意义的,让我们来看看回归的本质(暂以两个变量x和y为例),回归是对每一个x值的y的平均值的估计,所以用回归模型来预测或估计总是平均意义的(这也是回归的思想),而针对某个特别的个体的预测则就需要非常的慎重了。

有这样一个例子,某学前班在儿童入学和结业时均要做智商测验,结果发现前后两次测验的分数平均都接近于100分,标准差为15分。但是仔细观察发现入学分数低于平均值的儿童结业时分数平均提高了5分,相反入学分数高于平均值的儿童结业时分数平均降低了5分,难道学前班会使儿童的智商平均化?其实没那么夸张,这只是回归效应的一个表现,只要两次测验分数的散点图中所有点不在同一条直线(这条直线的斜率为1)上,那么就会存在回归效应。观察得到的数据并不是真实值,都有或大或小的、或正或负误差,在大多数对称的概率分布中,观察值大于平均值的往往是其真实值加上了一个正的机会误差,观察值小于平均值的往往是其真实值加上了一个负的机会误差。所以在那个学前班中,入学分数较平均分低的儿童其真实分数一般是大于观察值的,因此在结业时的分数一般是要比入学时高,因为在向观察值的平均值,即真实值回归。

相关与回归是一定范围内的相关与回归,超出范围没有任何意义(经常实践的人应该会很少犯此类毛病的吧)。回归其实并不能增加信息量,它是一种结论(结论的准确性还有待评价),或对数据以某一种方式的总结,超出范围的估计预测是没有任何意义的。收入与教育水平有关,无休止的教育显然不会带来收入的持续的增加,所以人为地改变一个变量,希望通过回归模型的”魔力”来改变另一个变量是很荒谬的。另外,变量也是有范围或区域限制的,因此在使用回归模型做预测时是要非常谨慎的。

现在研究的回归往往都是多元回归,往往比较复杂,其实这是符合实际情况的,因此往往要用多个变量作为因子来拟合,但是这些变量是不是考察某一方面的较好指标呢,比如收入与教育水平有关,还可能与父母的社会地位有关,那这个“父母的社会地位”这一因子又该如何度量呢?这又是一个问题,尽管多元回归是一种非常有用的技术,但是永远代替不了对数据间内在关系的了解。由此可见实践经验的重要性!