董卓传图文攻略:统计学中的自由度

来源:百度文库 编辑:九乡新闻网 时间:2024/04/27 19:08:40
          http://dahema.tianya.cn/blogger/post_show.asp?BlogID=468742&PostID=6594917        自由度,很多统计量的计算公式中都有自由度的概念,可为什么同样是计算标准差,总体标准差的自由度是n,而样本标准差的自由度就是n-1?为什么其它公式中的自由度还有n-2、n-3呢? 它到底是什么含意?
下面把有关自由度的问题点简要归纳一下。
理论力学:确定物体的位置所需要的独立坐标数称作物体的自由度,当物体受到某些限制时——自由度减少。一个质点在空间自由运动,它的位置由三个独立坐标就可以确定,所以质点的运动有三个自由度。假如将质点限制在一个平面或一个曲面上运动,它有两个自由度。假如将质点限制在一条直线或一条曲线上运动,它只有一个自由度。刚体在空间的运动既有平动也有转动,其自由度有六个,即三个平动自由度x、y、z和三个转动自由度a、b、q。如果刚体运动存在某些限制条件,自由度会相应减少。
热力学中:分子运动自由度就是决定一个分子在空间的位置所需要的独立坐标数目。
统计学中:在统计模型中,自由度指样本中可以自由变动的变量的个数,当有约束条件时,自由度减少自由度计算公式:自由度=样本个数-样本数据受约束条件的个数,即df = n - k(df自由度,n样本个数,k约束条件个数)

一般总体方差(sigma^2),其实它是衡量所有数据对于中心位置(总体平均)平均差异的概念,所以也称为离散程度,通常表示为sum(Xi-Xbar)^1/2/N ,(有多少个数据就除多少)而样本方差(S^2),则是利用样本数据所计算出来估计总体变异用的(样本统计量的基本目的:少量资料估计总体).一般习惯上,总体怎么算,样本就怎么算,可是在统计上估计量(或叫样本统计量)必须符合一个特性--无偏性,也就是估计量的数学期望值要等于被估计的总体参数=> E(S^2)=sigma^2(无偏估计)。很不幸的,样本变异数E(S^2)并不会等于sigma^2所以必须做修正,而修正后即为sum(Xi-Xbar)^2/(N-1).才会继续带出后来的自由度概念。(自由度是由修正样本统计量得来的吗?)
金志成实验设计书中的定义:能独立变化的数据数目。只要有n-1个数确定,第n个值就确定了,它不能自由变化。所以自由度就是n-1。自由度表示的是一组数据可以自由表化的数量的多少。
通俗点说,一个班上有50个人,我们知道他们语文成绩平均分为80,现在只需要知道49个人的成绩就能推断出剩下那个人的成绩。你可以随便报出49个人的成绩,但是最后一个人的你不能瞎说,因为平均分已经固定下来了,自由度少一个了。
自由度的设定是出于这样一个理由:在总体平均数未知时,用样本平均数去计算离差(常用小s)会受到一个限制————要计算标准差(小s)就必须先知道样本平均数,而样本平均数和n都知道的情况下,数据的总和就是一个常数了。所以,“最后一个”样本数据就不可以变了,因为它要是变,总和就变了,而这是不允许的。至于有的自由度是n-2什么的,都是同样道理。
n-1是通常的计算方法,更准确的讲应该是n-k,n表示“处理”的数量,k表示实际需要计算的参数的数量。如需要计算2个参数,则数据里只有n-2个数据可以自由变化。例如,一组数据,平均数一定,则这组数据有n-1个数据可以自由变化;如一组数据平均数一定,标准差也一定,则有n-2个数据可以自由变化。df=n-k的得出是需要大量的数理统计的证明的。太复杂的情况,我们就不讨论了。 对卡方分布,t分布而言,从其统计量的来源看,卡方分布自由度n理解为来自n个服从正态分布的样本,而且他们之间并没有什么约束关系,也就是说n个样本都是可以自由变化的。
而对于我们在统计检验中构造的那些统计量而言,也可以这样理解,一般自由度并不为n,是因为这n个样本之间有约束关系,约束方程的个数为a,则自由度为n-a,因为一般约束方程的个数等于未知参数的个数,也就是说自由度是n-未知参数的个数。