蓝光手游大师。:第二章第二节
来源:百度文库 编辑:九乡新闻网 时间:2024/05/13 19:39:52
第二节 分布函数与连续型随机变量
§2 分布函数与连续型随机变量
一、分布函数
二、连续型随机变量及密度函数
三、常见的连续型随机变量
一、分布函数
1.定义
离散型随机变量是用分布列来表示其概率分布。 但对其它随机变量来说,分布列不存在,例如随机变量可取的值为一连续区间的一切值时,就无法一一罗列这些值及其概率。为此要引入概率分布的新的表示法,我们希望它对一切随机变量都适用。
在第一节中,我们曾把概率分布定义为一切概率 ,其中 是R上的任一波雷尔集。现在取 ,它是波雷尔集,从而事件 ={ }有概率 。如果我们对一切实数 都定义了上面的概率,那么对于任意实数 ,事件{ }的概率可立即求出:
P{ }= - 。 (1)
进一步, 由于任意波雷尔集B是左开右闭区间的(有限或可列)并、(有限或可列)交、逆产生的集合,所以由(1)可以算出 , 因此, 对任意实数 , 可以代表 的概率分布。
定义1 称
, -∞< <+∞ (2)
为随机变量 的分布函数 (distribution function)。
对确定的随机变量 ,其分布函数是唯一确定的,它是实变量 的函数,因此我们可以利用实变函数论这一有力工具来研究随机变量。
有了分布函数,则对任一波雷尔集 ,概率 可以用分布函数来表示。事实上,由(1)式,
(3)
再利用概率的运算,就可得到其它事件的概率。 例如
,
,
,
。
例1 设随机变量ξ服从伯努里分布: ,写出它的分布函数,并计算 。
解 当 <0时, =0, (不可能事件);
当0≤ <1时, = ;
当 ≥1时,
;
因此分布函数
而
= F(0.5-0)-F(-1) = 。
例2 在△ABC内任取一点P,P到BC的距离为 ,求 的分布函数。
解 设BC边上的高为 。当 < 0时,显然 P( ≤ ) = 0; 当0≤ < 时,在
A
△ABC内作平行BC的线段DE,使与BC的距离为x,则{ ≤ }表示点P落在梯形DBCE内。由几何概率,
D
E
P
h
ξ
= =1-(1- / ) ;
B
C
当 ≥ 时, { ≤ } 表示点P在△ABC内任意取,故P( ≤ )=1;
综上所述,分布函数为
。
2.性质
分布函数是事件{ ≤ }的概率,自然有0≤ ≤1,除此以外,分布函数还有下面三个基本性质:
(1) 单调不减性:若 ,则 ;
(2) =0, =1; ①
(3) 右连续性: = 。②
证 (1) ≥0。
(2) 由于F(x) 单调有界,存在极限
F(-∞) = F(- )。
但{ - } { -( +1)}且 = ,故由概率的连续性定理(§3)
F(- )= P{ - }= P( )=0。
又{ } { ( +1)}及 =Ω, 故
F( )= P{ }= P(Ω)=1。
(3) 由F( )的单调性,只需证 F( +1/ ) = F( )。因
{ξ≤ +1/ ( -1)} {ξ≤ +1/ }
且
={ξ≤ }
故
F( +1/ ) = P{ξ≤ +1/ }
= P{ξ≤ } = F( )。
分布函数有上述三性质,反之可证,有上述三性质的函数必可作为某随机变量的分布函数。
例3 设随机变量的分布函数如下,试确定常数a,b。
。
解 应满足上面三个性质。F(-∞)=0与 F(+∞) =1已成立;又 在各段内是不减的 (如果 >0),故只要0≤ ≤1, 就整体单调了;剩下的只需讨论右连续性,这只要考察 =-1与 =1两点,应满足F(-1+0)=F(-1)和F(1+0)=F(1),即
- π/ 2 = 0, 1= + π/2 ,
解之得 =1/2, =1/π。
3.离散型随机变量的分布函数
分布函数作为随机变量概率分布的一种表达方式,对一切随机变量(包括离散型)都适用。在例1中已经写出伯努里分布的分布函数,这是分段函数,在 =0和 =1处各有一跳跃。
一般说来,设 的分布列为 ,且 < <…< <…, 则 的分布函数为
,
它是间断的分段函数,在 , =1,2, …各有一跳跃,跃度为 ,在每一段 [ , )中都是常数,呈阶梯形。
二、连续型随机变量及密度函数
定义2 若随机变量 可取某个区间 (有限或无限)中的一切值, 并且存在某个非负的可积函数 ,使分布函数 满足
, (4)
则称 为连续型(continuous)随机变量,称 为 的概率密度函数,简称为密度函数(density function),具有上述性质的函数 称为是绝对连续的。
由连续型随机变量的定义,使它的分布函数 具有下列良好的数学性质。
(1) 在实变函数论中可以证明,若 绝对连续,则 必定处处连续;并且在 的连续点, 可导,且
。 (5)
(2) (4)式表示的 与密度函数 的关系使得对一连续型随机变量,只要给出密度函数 ,就可以直接算得 落在任意区间 的概率:
-
= -
= 。 (6)
由此对R上的一切波雷尔集都可通过 来计算概率。
(3) 特别,对任一常数 ,
= = 0, (7)
因此对连续型随机变量,计算在一点的概率是没有意义的,这也是不能用分布列描写连续型随机变量的理由之一。 但 是一个可能发生的事件,这又说明对连续型随机变量,一事件A的概率为0并不表明A =φ;同样若P(A) =1,也并不表明A =Ω。 这些都是与离散型随机变量的根本区别。
密度函数具有下列性质:
(1) 非负性: ≥0; (8)
(2) =1。 (9)
后者由F(+∞)=1得到。反之,对于定义在 (-∞,+∞)上的可积函数, 若它满足(8)和(9)式,则它就可作为某一随机变量的密度函数。
例4 例3中的 是否可作为连续型随机变量的分布函数?
解 除 =-1,1两点以外, 处处可导,记其导数为 。
当-1< <1时, = ; 其它情况 =0;
满足(8) (9)两式,故 为密度函数, 表示连续型分布函数。
应该指出,除了离散型,连续型以外,随机变量还有其它类型,例如
是分布函数,它不是离散型的,也不是连续型的 ( 因为它不连续 ),它是 =0处退化分布 和[0,1]上均匀分布 (见下一段) 的混合:
=( + )/2。
甚至还存在这样的分布,它是一个连续函数,却不是绝对连续的。不过常见的是离散型和连续型。 以后如果对一般的随机变量进行讨论,就用分布函数 ;如果对离散型情形,主要就用分布列;如果对连续型,则主要用密度函数 ,不另提其它类型了。
三、常见的连续型随机变量
1.均匀(Uniform)分布
对 ,称随机变量 服从 上的均匀分布,如果它的密度函数为
。 (10)
简记作 ~ 。 当 < 时, 显然 ( ≤ )=0;当 ≤ < 时,
=
;
当 ≥ 时,
= =1;
因此其分布函数为
上的均匀分布相当于样本空间为 的几何概率。 在区间 上投点,其落点位置就服从这个分布。又如考察一个数据,它在小数点n位后四舍五入,则其真值x与其近似值 之间的误差 一般假定服从[-0.5 , 0.5 ]上的均匀分布。就可对经过大量运算后的数据进行误差分析。它在使用计算机解题时是很重要的,因为计算机的字长总是有限的。
2.正态分布
若随机变量 的密度函数为
, (11)
就称 服从正态(Normal)分布,记作 ~ 。 其中 , >0。我们来证明(11)定义的 确是密度函数。 显然 >0,又
=
上述二重积分可用极坐标表示成
也即 。
正态分布是概率论中最重要的一种分布,与二项分布、泊松分布并称为三大分布,它在实际应用与理论上都有很大作用。 一方面,正态分布应用很广,一般说来,若影响某一数量指标的随机因素很多,而每一因素所起的作用又不很大,则这个数量指标服从正态分布。例如进行测量时,由于仪器精度、人的视力、心理因素、外界干扰等多种因素影响,测量结果大致服从正态分布,其中 为真值;测量误差也服从正态分布。事实上,正态分布是19世纪初高斯(Gauss)在研究测量误差时首次引进的,故正态分布又称误差分布或高斯分布;另外,生物的生理尺寸如成人的身高、体重,某地区一类树木的胸径,炮弹落地点,某类产品的某个尺寸等等都近似服从正态分布。另一方面,正态分布具有良好的性质,一定条件下,很多分布可用正态分布来近似表达,另一些分布又可以通过正态分布来导出,因此,正态分布在理论研究中也相当重要。 我们先来观察它的密度函数的图形。
如果点 与 关于直线 对称,即 ,则 , 因此 关于直线 对称。
当 时, 单调递减;当 时, 单调递增; 时, →0。 时, 有最大值 ,因此 越大,最高点越低;但因为曲线与 轴包围的面积等于常数 =1,因此 越大,p (x) 的图形越扁平, 取值离开 点远的概率也越大; 越小,则 的图形越陡峭, 取值越集中在点 附近。
当 =0, =1时,称为标准正态分布(standardized normal distribution),它的密度曲线关于纵轴对称,其密度及分布函数特别记为 和 :
, -∞< <+∞。 (12)
利用(11)式计算正态分布的概率是不容易的。人们已经制作了专门的表格以供查阅,一般情况只需标准正态分布Φ( )的数值表(见附录III)就够了。 下面介绍该表的使用方法。
1) 若 ~N(0,1)。
当 0时, 每隔一定数值 (附录中是间隔0。1) 可以查到对应的分布函数Φ( )的值;在这些数值之间,可以用线性插值法求得相应的函数值。
当 < 0时,注意到标准正态密度函数 ( )关于直线 = 0对称,故令 =- ,则
= =1- ,
也即
Φ(- )=1-Φ(y)。 (13)
结合 >0时的Φ( ) 表就可算出 <0时Φ( )的值。
2) 对一般的 ,记 (称为 的标准化随机变量),则它服从N(0,1)。 事实上 的分布函数
= =Φ(x)。
例5 设 ~N(0,1)。
(1) 计算P(-1< <3);
(2) 已知P( <λ) = 0.9755, 求λ。
解 (1)P(-1< <3)=Φ(3)-Φ(-1)=Φ(3)+Φ(1)-1= 0.9987+0.8413-1= 0.8400。
(2) Φ(λ) = 0.9755, 它在Φ(1.96) = 0.9750与Φ(1.98) = 0.9762之间, 由于Φ( )是单调不减的,故λ在1.96与1.98之间, 由线性插值公式
λ 1.96+ ·(1.98-1.96)≈1.968。
例6 设ξ~N (2,9), 求P (5 <ξ<20)。
解 令η= (ξ-2)/3,则η~N (0,1),从而
P(5<ξ<20)= P( < < )
= P(1<η<6)=Φ(6)-Φ(1)
≈1-0.8413=0.1587 。
例7 设 , 求 , 以及 。
解 ~N (0,1), 故
≈0.6827,
同理,
≈0.9545,
≈0.9973。
说明正态随机变量的99.73 %的值落在 之中, 落在该区间之外的概率几乎为零,这情况被实际工作者称为“ 原则”。
例8 从南郊某地乘车到北区火车站有两条路可走,第一条路较短,但交通拥挤,所需时间τ服从N (50, 100) 分布;第二条路线略长,但意外阻塞较少,所需时间ξ服从N (60,16)。
(1) 若有70分钟可用,问应走哪一条路?
(2) 若只有65分钟可用,又应走哪一条路?
解 应该走在允许时间内有较大概率赶到火车站的路线。
(1) 走第一条路线能及时赶到的概率为
P(τ≤70)=Φ( )=Φ(2)=0.9772;
而走第二条路线能及时赶到的概率为
P(ξ≤70)=Φ( )=Φ(2.5)=0.9938,
因此在这种场合,应走第二条路线。
(2) 走第一条路线能及时赶到的概率为
P(τ≤65)=Φ(1.5)=0.9332,
而走第二条路线能及时赶到的概率为
P(ξ≤65)=Φ(1.25)=0.8944。
此时以走第一条路线更为保险。
3.指数分布
密度函数为
(λ>0) (14)
的分布称为指数(Exponential)分布。 容易验证(14)式满足密度函数的两个条件。 现在求它的分布函数。
当 <0时,P(ξ≤ ) = =0; 当 ≥0时, P(ξ≤ ) = =1--e 。
即其分布函数为
指数分布具有类似几何分布的“无记忆性”。 事实上,设随机变量ξ服从参数为λ的指数分布,则对于任意的s >0, t > 0,
= / = 。
还可以证明,指数分布是具有上述性质的唯一的连续型分布。 (证明略)。
4.Γ-分布
它的密度函数为
( > 0, > 0) (15)
其中Γ( ) 是第一型欧拉积分。参数为 , 的Γ-分布简记为Γ( , ),当 为整数时也称爱尔兰(Erlang)分布, = 1时即为指数分布。
§2 分布函数与连续型随机变量
一、分布函数
二、连续型随机变量及密度函数
三、常见的连续型随机变量
一、分布函数
1.定义
离散型随机变量是用分布列来表示其概率分布。 但对其它随机变量来说,分布列不存在,例如随机变量可取的值为一连续区间的一切值时,就无法一一罗列这些值及其概率。为此要引入概率分布的新的表示法,我们希望它对一切随机变量都适用。
在第一节中,我们曾把概率分布定义为一切概率
P{
进一步, 由于任意波雷尔集B是左开右闭区间的(有限或可列)并、(有限或可列)交、逆产生的集合,所以由(1)可以算出
定义1 称
为随机变量
对确定的随机变量
有了分布函数,则对任一波雷尔集
再利用概率的运算,就可得到其它事件的概率。 例如
例1 设随机变量ξ服从伯努里分布:
解 当
当0≤
当
因此分布函数
而
例2 在△ABC内任取一点P,P到BC的距离为
解 设BC边上的高为
△ABC内作平行BC的线段DE,使与BC的距离为x,则{
D
E
P
h
ξ
B
C
当
综上所述,分布函数为
2.性质
分布函数是事件{
(1) 单调不减性:若
(2)
(3) 右连续性:
证 (1)
(2) 由于F(x) 单调有界,存在极限
F(-∞) =
但{
又{
(3) 由F(
{ξ≤
且
故
= P{ξ≤
分布函数有上述三性质,反之可证,有上述三性质的函数必可作为某随机变量的分布函数。
例3 设随机变量的分布函数如下,试确定常数a,b。
解
解之得
3.离散型随机变量的分布函数
分布函数作为随机变量概率分布的一种表达方式,对一切随机变量(包括离散型)都适用。在例1中已经写出伯努里分布的分布函数,这是分段函数,在
一般说来,设
它是间断的分段函数,在
二、连续型随机变量及密度函数
定义2 若随机变量
则称
由连续型随机变量的定义,使它的分布函数
(1) 在实变函数论中可以证明,若
(2) (4)式表示的
=
=
由此对R上的一切波雷尔集都可通过
(3) 特别,对任一常数
=
因此对连续型随机变量,计算在一点的概率是没有意义的,这也是不能用分布列描写连续型随机变量的理由之一。 但
密度函数具有下列性质:
(1) 非负性:
(2)
后者由F(+∞)=1得到。反之,对于定义在 (-∞,+∞)上的可积函数, 若它满足(8)和(9)式,则它就可作为某一随机变量的密度函数。
例4 例3中的
解 除
当-1<
应该指出,除了离散型,连续型以外,随机变量还有其它类型,例如
是分布函数,它不是离散型的,也不是连续型的 ( 因为它不连续 ),它是
甚至还存在这样的分布,它是一个连续函数,却不是绝对连续的。不过常见的是离散型和连续型。 以后如果对一般的随机变量进行讨论,就用分布函数
三、常见的连续型随机变量
1.均匀(Uniform)分布
对
简记作
当
因此其分布函数为
2.正态分布
若随机变量
就称
=
上述二重积分可用极坐标表示成
也即
正态分布是概率论中最重要的一种分布,与二项分布、泊松分布并称为三大分布,它在实际应用与理论上都有很大作用。 一方面,正态分布应用很广,一般说来,若影响某一数量指标的随机因素很多,而每一因素所起的作用又不很大,则这个数量指标服从正态分布。例如进行测量时,由于仪器精度、人的视力、心理因素、外界干扰等多种因素影响,测量结果大致服从正态分布,其中
如果点
当
当
利用(11)式计算正态分布的概率是不容易的。人们已经制作了专门的表格以供查阅,一般情况只需标准正态分布Φ(
1) 若
当
当
也即
Φ(-
结合
2) 对一般的
=
例5 设
(1) 计算P(-1<
(2) 已知P(
解 (1)P(-1<
(2) Φ(λ) = 0.9755, 它在Φ(1.96) = 0.9750与Φ(1.98) = 0.9762之间, 由于Φ(
λ
例6 设ξ~N (2,9), 求P (5 <ξ<20)。
解 令η= (ξ-2)/3,则η~N (0,1),从而
P(5<ξ<20)= P(
= P(1<η<6)=Φ(6)-Φ(1)
≈1-0.8413=0.1587 。
例7 设
解
同理,
说明正态随机变量的99.73 %的值落在
例8 从南郊某地乘车到北区火车站有两条路可走,第一条路较短,但交通拥挤,所需时间τ服从N (50, 100) 分布;第二条路线略长,但意外阻塞较少,所需时间ξ服从N (60,16)。
(1) 若有70分钟可用,问应走哪一条路?
(2) 若只有65分钟可用,又应走哪一条路?
解 应该走在允许时间内有较大概率赶到火车站的路线。
(1) 走第一条路线能及时赶到的概率为
P(τ≤70)=Φ(
而走第二条路线能及时赶到的概率为
P(ξ≤70)=Φ(
因此在这种场合,应走第二条路线。
(2) 走第一条路线能及时赶到的概率为
P(τ≤65)=Φ(1.5)=0.9332,
而走第二条路线能及时赶到的概率为
P(ξ≤65)=Φ(1.25)=0.8944。
此时以走第一条路线更为保险。
3.指数分布
密度函数为
的分布称为指数(Exponential)分布。 容易验证(14)式满足密度函数的两个条件。 现在求它的分布函数。
当
即其分布函数为
指数分布具有类似几何分布的“无记忆性”。 事实上,设随机变量ξ服从参数为λ的指数分布,则对于任意的s >0, t > 0,
=
还可以证明,指数分布是具有上述性质的唯一的连续型分布。 (证明略)。
4.Γ-分布
它的密度函数为
其中Γ(