血与酒怎样走童话:华东师大心理学统计笔记2

来源:百度文库 编辑:九乡新闻网 时间:2024/05/01 19:55:00
第一章   绪论
&1.随机现象与统计学
    确定现象       随机现象
    本人性别       生男生女
    光的速度       学习成绩
    种豆得豆      (人的)反应速度
随机现象:具有以下三个特性的现象称为随机现象
(i)   一次试验有多种可能结果,其所有可能结果是已知的。
(ii)   试验之前不能预料哪一种结果会出现
(iii)   在相同条件下可以重复试验
随机事件:随机现象的每一种结果叫做一个随机事件。
随机变量:把能表示随机现象各种结果的变量称为随机变量
统计学的研究对象是随机现象规律性随机变量的分布:(i)正态分布  eg:学习成绩
图(略)

                         (ii)双峰分布 eg::汽车拥挤程度
图(略)

                         (iii)另一种分布 eg:如下
图(略)
                            &2.总体和样本
总体:是我们所研究的具有某种共同特性的个体的总和
样本:是从总体中抽取的作为观察对象的一部分个体。
(i)   总体:有限总体:总体所包含的个体数目有限时
无限总体:总体所包含的个体数目无限时      →参数:总体上的各种数字特征
(ii)   总体→抽样→ 样本:大样本:>30 >50
             小样本:≤30 ≤50(更精神)
(样本容量:样本中包含的个体数目)      
    →统计量:样本上的数字特征
    根据统计量来估计参数
                         &3.心理统计学的内容
1.   描述统计:
对已获得的数据进行整理,概括,显现其分布特征的统计方法。
  集中量   平均数   #
描述  差异量   标准差S: S大:差异大/不稳定  对个别
              S小:差异小/稳定  对个别
统计  相关量:相关系数(表示两件事情的相互关系)r.r∈[-1,1](r表示从无关道完全相关,相关:正相关,相关,负相关)
2.   推断统计
   参数估计:#→μ
        s→σ
推断      r→р
统计  假设检验:参数检验
         非参数检验
3.   实验设计

      ↓

          初级的,用平均数,百分比
                 ↓
  后来,平均数     →    T检验(2个对象)
     标准差      
                 ↓
          中级的,(2个或2个以上对象)(方差分析)下检验。
                 ↓
         高级的,相关回归(用相关系数)
                 ↓
   再高级的,(研究生学) 因素分析(探索性的)两两相关,写相关系数
                 ↓
        更高级的,协方差结构方程(验证性的)

前程:相同符号的一串→非参数检验中的一种
                   第二章 数据整理
&1.数据种类
一.间断变量与连续变量  eg:人数 ~ 间断
二.四种量表。
1.称名量表。 Eg:307室,学好,电话好吗  不能进行数学运算(也包括不能大小比较)
2.顺序量表。Eg:名次。能力大小,不能运算
3.等距量表。可以运算(做加减法),不能乘除
       要求:没有绝对0
          年龄有绝对0
          时间(年代,日历。。。)位移无绝对0,可能有相对0,即有正负
4.等比量表。可做乘除法。
       要有绝对零。
成绩中的,0分不是绝对0(因为并不说明此人一窍不通)
分数代表的意义。Eg:0~10分
        与90~100分。  每一分的"距离"不一样
因为严格来说,成绩是顺序量表。但为了实际运用中的各种统计,把它作为等距量表
                      &2.次数分布表
一.   简单次数分布表
eg: 组别      次数(人次)
100   2
90~99       5
80~89       14
70~79       15
60~69       7
60分以下      3
1.   求全距 R=Max - Min(连续变量)
      (间断变量)--R=Max-Min+1
2.   定组数 K(组数)=1.87(N-1)。。。 →取整 N-总数
3.   定组距 I=R/K。一般,取奇数或5的倍数(此种更多)。
4.   定各组限
5.   求组值 X=(上限+下限)/2   上限--指最高值加或取10的倍数等)
6.   归类划记
7.   登记次数
例题:   99  96 92 90 90      (I) R=99-57+1=43
      87  86 84 83 83
82   82 80 79 78      (II)K=1.87(50-1)。。。≈9
78   78 78 77 77
77   76 76 76 76
75   75 74 74 73      (III)I=R/K =43/9≈5
72   72 72 71 71
71   70 70 69 69
68   67 67 67 65      (iu)组别   组值    次数
64  62 62 61 57       95~99   97      2
                 90~94   92      3
                 85~89   87      2
                 80~84   82      6
                 75~79   77      14
                 70~74   72      11
                 65~69   67      7
                 60~64   62      4   
                 55~59   57      1
                 总和           50
二.   相对(比值)次数分布表。 累积次数分布表
相对(比值)累积次数:累积次数值/总数N
注:一般避免不等距组("以上""以下"称为开口组)

相对次数    累积次数(此处意为"每组上限以下的人次)"小于制"
.04        50   
.06        48
.04        45
.12        43
.28        37
.22        23
.14        12
.08        5
.02        1
1.00

                    &3.次数分布图
一.直方图
1.   标出横轴,纵轴(5:3)标刻度
2.   直方图的宽度(一个或半个组距)
3.   编号,题目
4.   必要时,顶端标数)
    图


   

    二.次数多边图
1.   画点,组距正中
2.   连接各点
3.   向下延伸到左右各自一个组距的中央
最大值即y轴最大值
相对次数分布图,只需将纵坐标改为比率。(累积次数,累积百分比也同样改纵坐标即可)"S形"曲线是正态分布图的累积次数分布图






                         第三章 常用统计量数
                         &1.集中量
一.算术平均数
公式



算术平均数的优缺点。P36~37
算术平均数的特征。Σ(X-#)=0 离(均数)差
         Σ(X-#)(X-#)取#时,得最小值
         即:离差平方和是一最小值
二.几何平均数
#g= 略
long#g=1/NσlogXi
根据按一定比例变化时,多用几何平均数
eg:   91年   92   93    94   95   96
    12%   10%  11%   9%   9%   8%
求平均增长率
xg=
加权平均数
甲:600人     #=70分
乙:100人     #=80分
加权平均数:#=(70*600+80*100)/(600+100) (总平均数)eg:600人,100人
简单平均数:(70+80)/2
三.中(位)数。(Md)
1.原始数据计算法
  分:奇、偶。
2.频数分布表计算法(不要求)
3.优点,缺点,适用情况(p42)
四.众数(Mo)
1.理论众数
  粗略众数
2.计算方法:Mo=3Md-2#
       Mo=Lmo+fa/(fa+fb)*I
       计算不要求
3.优缺点
平均数,中位数,众数三者关系。
                       &2.差异量数
一.全距
R=Max-Min
二.平均差(MD或AD)
MD={Σ|x-#(或Md)|}/N
三.方差

总体方差的估计值
S2 =Σ(X - #)2   反编
样本的方差:σ2 x有编
N很小时,用S2 估计总体
N>30时,用S2 或σ2 x 都可以
计算方法:σ2 x=Σx2 /N - (ΣX/N) 2
标准差σx=σ2 x2/1
四.差异系数(CV)
CV=σx/# *100% CV∈[5%,35%]
3个用途
五.偏态量与锋态量(SK)
1.偏态量:sk=(#-Mo)/σx
动差(一级~四级)  a3= Σ(x-#)3 、 / N/σx3   三级动差计算偏态系数)
2.峰态量:高狭峰 a4>0 (a4=0 --正态峰)
      低调峰。A4<0
      用四级动差 a4=Σ(X - #)4/N/σx4-3
                        &3.地位量数
一.百分位数
eg 30=60(分) "60分以下的还有30%的人"
二.百分等级
30→60(在30%的人的位置上,相应分数为60)
So→Md
                   第四章 概率与分布
                    &1.概率
一.概率的定义
      W(A)=m/n (频率/相对频数)
后验概率:
      P(A)=lim m/n
先验概率:不用做试验的
二.概率的性质和运算
1.性质:o≤P≤1
     p=1 必然可能事件
     p=0 不可能事件
2.加法。
    P(a+b)=P(a)+P(b)
    "或":两互不相克事件和。
    推广:"有限个" P(A1+A2+…+An)=P(A1)+P(A2)+…+P(An)
    eg:(1)A=出现点数不超过4(x≤4)
        P(A)=P(x=1)+P(x=2)+P(x=3)+P(x=4)=1/6+…1/6=4/6=2/3
      (2)完全凭猜测做判断题,(共2道),做对1题的概率为:
       A={T.Ti B={F.Ti C={T.Fi D={F.Fi
       P=P(B)+P(C)=1/4+1/4=0.5
3.乘法:
    P(A1,A2…An)=P(A1),P(A2)…P(An)
    Eg1)四选1。(十道)完全凭猜测得满分得概率:(1/4)*(1/4)…*(1/4)=1/410
                    &2.二项分布
一.二项分布
P(x)=Cnxpxgn-x  做对的概率   px :做错的概率 gn-x :X:对的数量pxgn-x --每一种分情况的概率。一种情况:pxgn-x  再乘上系数。
Eg:产品合格率为90% 取n=3(个)
         TTT的情况     90 * 90*90=P3  0.729
         TFT        90*0.10*90=P2g1 0.081
两个合格的情况→ TTF
         FTT
其概率 C32P2g1=3p2g1.
    Cn0P0gn+CnP1gn-1+…+CnPng0=1
注:二项分布可能的结果只有两种。F 0r T
                合格 Or  不合格
                选对 Or  选错
例:(1)10道是非题,凭猜测答对5,6,7,8,9,10题的概率?至少答对5题的概率?
  P(x=5)=C510P5g5=C510(1/2)51/2)5=.24609
  P(x=6)=C610P6g4=C610(1/2)6(1/2)4=.20508
  P(x=7)=C710P7g3=C710(1/2)7(1/2)3=.11719
                 =.04395
                 =.00977
  +P(x=10)=C1010P10g0=(1/2)10  =.000098
至少答对5题:P(X≥5) = 0.62306
(2)四选一,猜中8,9,10题的概率?
P(x=8)=C819P8g2=C819(1/4)8(3/4)2=.0039
二.二项分布图(P84~85)
三.二项分布的平均数与标准差(前提np≥5且ng≥5)
平均数--M=np    标准差--r=npg1/2
                &3.正态分布
一.正态分布曲线
二.标准正态分布。(P387附表可查面积P)
  Z=(x-ц)/r (x:原始分数)
  标准分数(有正有负) ΣZ=0
三.正态分布表的使用
查表    P(0≤Z≤1)=0.34134--Z的范围中的人数比例(百分数)
      P(0≤Z≤1.645)=0.4500
          1.64 - .44950=0.45
          1.65 - .45053=0.45
     之上,标准分数高于2个标准差,则非常聪明。
     Eg:1. μ=70(分) σ=10
        P(70≤x≤80)=p(o≤z≤1)
        P(60≤x≤70)=P(-1≤z≤0)
      2.μ
        P(0≤z≤1)=P(μ≤x≤μ+σ)
        P(-1≤z≤0)=P(μ-σ≤x≤μ)
图(略)
例:某地区高考,物理成绩 μ=57。08(分) σ=18。04(分)
总共47000人。 (1)成绩在90分以上多少人?
        (2)成绩在(80,90)多少人?
        (3)成绩在60分以下多少人?
解: X~N(57.08,18.042) -- 参数(μ,σ2)
Normal 表示符合正态分布
令Z= (x-57.08)/18.04) ,则Z~N(0,12)标准分数平均数一定为0,标准差一定为1。
(1)Z1=(90-57。08)/18.04=1.82
P(Z>1.82)=.0344
N1=np=47000*0.0344=1616(人)
(2)Zz=(80-57.08)/18.04=1.27
P(1.27N2=NP=3177(人)
(3)Z3=(60-57.08)/18.04=0.16
P(Z<0.16)=.56356
N3=26487(人)
四.正态分布的应用
T=KZ+C T~N(C,K2)
IQ=15Z+100 IQ=100 一般
       IQ≥130 --超常
        (30=2x*15)
       IQ<70 -- 弱智
       70几 --bndenline
eg:1.某市参加一考试2800人,录取150人,平均分数75分,标准差为8。问录取分数定为多少分?
解: X~N(75.82)
   Z=(x-#)/σx=(x-15)/8 ~N(0,12)
   P=150/2800=0.053
    0.5-0.053=0.447
       Z=1.615
      X=1.615*8+75≈88(分)
2.某高考,平均500分,标准差100分,一考生650分,设当年录取10%,问该生是否到录取分?
解: Zo=(650-500)/100=1.5 (X~N(500,1002)(Z~N(0,12)
   Po=0.5-0.43319=0.06681=6.681%<10%
   所以可录取。
                     第五章 抽样分布(概率P)
                       &1.抽样方法
一.   简单随机抽样
二.   等距抽样
三.   分层抽样
四.   整群抽样
五.   有意抽样
&2.抽样分布
(1)   (2)   (3)   (4)   (5)
20     25    30    35     40
      (1)  #=20   22.5   25    27.5    30
      (2)   22.5    25    27.5    30     32.5
      (3)   25     27.5   30    32.5    35
      (4)   27.5    30    32.5    35     37.5
      (5)   30     32.5   35    37.5    40
总体分布




抽样分布






一.平均数
E(#)=μ
二。标准差,方差。
σx=σ/n1/2  σ#2=σ2/n
                        &3.样本均值(#)的抽样分布
一.总体方差σ2已知时,#的抽样分布
1.正态总体,σ2 已知时,#的抽样分布
  设(X1,X2,…Xn)为抽自正态总体X~N(μ, σ2 )
的一个简单随机样本,则其样本均值#也是一个正态分布的随机变量,且有:
E(#)=μ, σx2 =σ2 /n
  即#~N(μ, σ2 /n)
   Z=(#-μ)σ/n1/2
  Eg:一次测验,μ=100 σ=5
  从该总体中抽样一个容量为25的简单随机样本,求这一样本均值间于99到101的概率?
解:   已知X~N(100,52)
      n=25.
    则#~N(100,12)
    Z=(#-100)/1 ~ N(0,1)
    当#=99时,Z=-1
    当#=101时,Z=1
    所以P(99≤#≤101)
      =P(-1≤Z≤1)=.68268
2.非正态总体,σ2已知时,#的抽样分布
  设(X1,X2,…Xn)是抽自非正态总体的一个简单1随机样本。当n≥30时,其样本均值#接近正态分布,且有:
E(#)=μ, σx2 =σ2 /n
即#~N(μ, σ2 /n)
若是小样本,题目无解。
Eg(1)一种灯具,平均寿命5000小时,标准差为400小时(无限总体)从产品中抽取100盏灯,问它们的平均寿命不低于4900小时的概率。
解:已知:μ=5000,σ=400,n=100>30是大样本
所以#近似正态分布
#~N(5000,402)
当#=4900时,Z=(4900-5000)/400/1001/2=-2.5
  P(#≥4900)=P(Z≥-2.5)=0.99379
3.有限总体的修正系数
(引出)(2)同上题,从2000(有限总体)盏中不放回地抽取100盏,问。。。。。
(概念)设总体是有限的总体,其均值为μ,方差为σ2 (X1,X2…Xn)是以不放回形式从该总体抽取的一个简单随机样本。则样本均值#的数学期望(E(#))与方差为
E(#)=μ#=μ  和σ2 =(N-n)/(N-1)*( σ2 /n)
N→∞时,修正系数不计。 σ=[(N-n)/(N-1)*( σ2 /n)]1/2
.n/N≥0.05%,要用修正系数
如题(2),n/N=0.05 所以要用修正系数
所以解题2:σx2 =(N-n)/(N-1) *( σ2 /n)=2000-100)/2000-1=4002 /100=1520
      σ#=15201/2 =38.987
      Z=(4900-5000)/38.987= -2.565
      P(Z≥-2.565)=.9949
二.总体方差σ2 未知时,样本均值#的抽样分布。
用S2(总体方差的估计值)代替 σ2
t=(x-μ)/s/n1/2  ~tn-1→dp(自由度)=n-1
设(X1,X2,…Xn)
为抽自正态总体的一个容量为n的简单随机样本,即t=(x-μ)/s/n1/2符合自由度为n-1的t分布

当总体为非正态分布,且σ2 未知。
则样本  小:无解
     大:接近七分布 t≈ t=(x-μ)/s/n1/2 ~ tn-1
             Z≈ t=(x-μ)/s/n1/2 ~ N(0,1)(也可用Z)
总体均值为80,非正态分布,方差未知,从该总体中抽一容量为64的样本,得S=2,问样本均值大于80.5得概率是多少?
解:因为64>30 是大样本
  P(#>80.5)=P(t>(x-μ)/s/n1/2 )=P(t>2) df=63 P≈0.025
  若用Z,P(Z>z) ≈0.02275
(若N24,总体正态,则Z分布1不能用,只能用七分布)
      非正态总体:小样本--无解
            大样本--Z≈(x-μ)/σ/n1/2
σ2 已知   
      正态总体  Z=≈(x-μ)/σ/n1/2

       非正态总体:小样本 -- 无解
σ2 未知:       大样本--t≈(x-μ)/σ/n1/2 ≈Z
正态总体:小样本--t=(x-μ)/σ/n1/2
            大样本--Z≈t=(x-μ)/σ/n1/2
              &3.两个样本均值之差(#1-#2)的抽样分布
若#1是独立地抽自总体X1~N(μ1,σ2  的一个容量为n,的简单随机样本的均值;#是。。。X2~N(μ2, σ22 )的。。。n2.的。。。则两样本均值之差(#1-#2)~N(μ1-μ2,σ12/n1,σ22/n2)
复杂计算



一种钢丝的拉强度,服从正态分布
总体均值为80,总体标准差6,抽取容量为36的简单随机样本,求样本均值∈[79,81]的概率
X~N(80,62)
Z~N(0,12)
Z=(x-μ)/6/361/2  =(x-8)/1
x∈[79,8081]
Z ∈[-1,1]
P=.68268
若σ不知。S=b,则 X~(80, σ2  )
用公式t=(# -μ)/s/n1/2  ~ tn-1 =t35
某种零件平均长度0.50cm,标准差0.04cm,从该总零件中随机抽16个,问此16个零件的平均长度小于0.49cm的概率
无解。
抽100个,则概率?
Z≈(x-μ)/σ/n1/2 =(# - 0.50)/0.004
#<0.49 P(Z<-0.01/0.004)
    =P(Z<-2.5)=.49379=
从500件产品中不放回地抽25件。
25/500=0.05 要修正系数(N-n)/(N-1)≈.95
  某校一教师采用一种他认为有效的方法,一年后,从该师班中随机抽取9名学生的成绩,平均分84.5分,S=3。而全年级总平均分为82分,试问这9名学生的#<84.5分的概率为多大?
#~N(82, σ2 ) t~t8
t=(# -μ)/s/n1/2 =84.5-82)/3/3=2.5
df=8
0.975≤P(t<2.5)
说明方法有效
(S=3是σ的估计值,两组数据都很整齐。
图(略)



                          &4.有关样本方差的抽样分布
一.f2分布
1.f2 分布的密度函数 f(x)=1/2n/2*r*n/2)* e-x/2*xn/2-1  (x>0)
           f(x)=0           (x≤0)
图(略)


2.定理:
   设(X1,X2,X3…Xn)为抽自正态总体 X~N(μ,σ2 )的一个容量为n的简单随机样本,则#=∑(X-#)2/n-1为相互独立的随机变量,且#~N(μ, σ2 /n)
  ∑(X-#)2 /σ2 =(n-1)S2 /σ2 ~X2n-1(I=1,2,…n)
   若抽自非正态总体:小样本 -- 无解
            大样本 -- X2≈((n-1)S2 /σ2
二.F分布
1.F分布的密度函数
f(x)= [(n1+n2)/2]/(n1/2)(n2/2) (n1/n2)(n1/n2*X)n1/2-1(1+n1/n2*X)-n1+n2/2   (x≥0)
f(x)=0                            (x<0)
2.定理
设(X1,X2,…Xn)为抽自X~N(μ1, σ2 1)的一个容量为n1的简单~(y1,y2…yn)为抽自正态总体y~N(μ2, σ2 2)的一个容量n2的简单~,则:
当σ2 1=σ2 2时,
F=S21/S22~F(n1-1,n2-1) n1~分子自由度 n2~分母自由度
                       第六章 参数估计(置信水平下的区间估计)
                         &1.点估计
E(X)(即#)=∑x/N→μ
(拿一个点来估计参数)
D(X)= ∑(x-#)2 /N-1→σ2
                         &2.总体均值的区间估计
一.总体均值的区间估计,σ2 已知。
正态总体 x~N (μ, σ2 )
    #~N((μ, r2/n) Z=(# -μ)/ σ/n1/2
1.某种零件的长度符合正态分布。σ=1.5,从总体中抽200个作为样本,#=8.8cm,试估计在95%的置信水平下,全部零件平均长的置信区间。
解: 已知X~N(μ,1.52 )
    n=200, #=8.8
1-a=0.95 →a-0.05
Z0.025=1.96
P(#-Za/2σ/n1/2 <μ<#+Za/2 n1/2
=P(8.59<μ<9.01)=0.95
10%>5%

若不放回地从2000个(总体)中抽出200个。--需修正系数
     所以用(N-n)/(n-1)1/2  P(# +- 1.96*σ/n1/2 *(N-n)/(n-1)1/2  =0.95=P(8.60,9.00)
二 σ2 未知
P(#-t(a/2,n01)S/ n1/2 <μ<#+t(a/2,n-1) S/ n1/2 )=1-a
为了制定高中学生体锻标准,在某区随机抽36名男生测100米,36名学生平均成绩13.5秒,S=1.1秒,试估计在95%地置信水平下,高中男生100米跑成绩的置信区间。
P(# + - 2.03* S/ n1/2 )=P(13.5+- 2.03*1.1/361/2 )=9.5
(13.5+-0.37)
即(13.13,13.87)
得(13.14,13.86)