资源简介 (共50张PPT)数理统计的基本概念6.1随 机 样 本6.2抽 样 分 布目录前5章我们讲述了概率论的基本内容,在后面的4章中将讲述数理统计的内容.我们注意到,概率论着重从理论上研究随机变量的一般规律性,总是假定随机变量的概率分布或某些数字特征为已知,而在实际问题中,这些随机变量的概率分布或数字特征往往是不知道或知之甚少的.这时如何来分析和处理这些问题呢?通常的做法就是对研究的随机现象进行观察和试验,从中收集与我们所研究问题有关的数据,并进行有效的整理分析,以此对随机现象的客观规律做出估计或推断,这也就是数理统计要解决的事情.在科学研究中,数理统计占据着十分重要的位置,是多种试验数据处理的理论基础.数理统计的内容很丰富,本书只介绍参数估计、假设检验、方差分析及回归分析的部分内容.本章中首先讨论总体、随机样本及统计量等基本概念,然后着重介绍几个常用的统计量及抽样分布.6.1 随 机 样 本6.1.1 总体在数理统计中,通常把被研究对象的全体称为总体.总体中的每个元素称为个体.例如,为了了解某城市职工的年收入情况,应将该城市全体职工构成一个总体,每个职工是一个个体.当研究某厂生产的一批灯泡的使用寿命时,这批灯泡的全体就是总体,而每个灯泡就是个体.但在数理统计中,我们关心的并不是总体中的每个研究对象本身,而是它某一个或某几个数量指标.如上面两个例子中,我们关心的分别是职工的年收入和灯泡的使用寿命这一数量指标.对于选定的数量指标X而言,X的分布就完全描述了总体中我们所关心的这一数量指标的分布情况.由于我们关心的只是此数量指标,因此以后就把总体与数量指标X等同起来(如把所有职工的年收入看作一总体,把每个职工的年收入看作一个体),并把数量指标X的分布和数字特征称为总体的分布和数字特征.今后将不区分总体和相应的随机变量,统称为总体X.6.1.2 样本在实际中,总体的分布一般是未知的.为了了解总体的分布和性质,就必须对总体进行抽样观察(从总体中抽取部分个体,逐个观察其数量指标),从而获得数据。借助抽样所得数据,采用科学的方法对总体进行合理的推断.为了使抽样更好地体现总体的性质,抽样过程应符合以下两个条件:独立性:各次抽取的结果互不影响.随机性:对每次抽样,每个个体都有相同机会被抽到.凡满足以上两条性质的抽样都称为简单随机抽样.本书中提到的抽样,都是简单随机抽样.0102如果对总体X在一次抽样中抽取了n个个体进行观察,就可得到一组观测值 .显然,由于抽样具有随机性,如果再抽取n个个体,则会得到另一组观测值;如果不断地重复这一过程,就会得到多组不同的观测值.由此可见,在抽样的过程中每个个体的数量指标都是一个随机变量,不妨记为(i=1,2,…,n),从而形成了一个n维随机向量 .由抽样的两个条件,可知这n个随机变量是相互独立的且每个都与总体X的分布相同.综上所述,我们有如下定义:6.1.2 样本定义6.1 设总体X是一个有确定分布的随机变量,若随机变量 相互独立且与X具有相同的分布函数,则称 为总体X的容量为n的简单随机样本,简称样本.当 取定一组数值 时,称这组常数为一组样本观测值.由样本的定义可知样本的分布完全取决于总体的分布.设总体X的分布函数为F(x),则样本 的联合分布函数为.6.1.2 样本若总体X为离散型随机变量,其分布列为 ,则样本 的联合分布列为.若总体X为连续型随机变量,其密度函数为f(x),则样本 的联合密度函数为.6.1.2 样本例6-1 设 是总体 的样本,求 的密度函数.解 由样本的定义可知, 独立且都服从 .由独立正态分布的线性组合仍然是正态分布可知, ,其中, .所以 ,其密度函数为6.1.2 样本6.1.3 样本分布函数上述利用总体的分布可以得到样本的联合分布,但在统计中,总体的分布往往是未知的,需要根据样本提供的数据来推断总体的分布.为此,我们引入样本分布函数.定义6.2 设总体X的分布函数为F(x), 为总体X容量为n的样本,得到一组观测值 ,将相同项合并并将其从小到大依次排列为,并假设各个 出现的次数为 ,则各个 出现的频率为,显然有.定义函数称 为X的样本分布函数(或经验分布函数).其图形如图6-1所示.6.1.3 样本分布函数图6-1易知,样本分布函数 具有以下性质:;是非降函数;;在每个 处是右连续的,点 是 的跳跃间断点, 在该点的跳跃度就是频率 .6.1.3 样本分布函数01020304例6-2 从纺织车间抽取10匹布,检查每匹的瑕点数得到样本值为1,0,3,1,2,0,0,1,2,1.写出样本分布函数.解 将样本观测值由小到大排列,见表6-1.故样本分布函数为6.1.3 样本分布函数样本分布函数 就是累积频率,它是非降的阶梯函数.对任意固定x, 是事件 在前n次试验中出现的频率.显然,样本分布函数值依赖于样本观测值,由于样本观测值具有随机性,因而 具有随机性.由概率与频率的关系知道,当n充分大时, 可以作为未知分布函数F(x)的近似.格里汶科于1933年从理论上严格地证明以下结论:6.1.3 样本分布函数定理6.1(格里汶科定理) 设总体X的分布函数为 ,样本分布函数为 ,则当 时, 以概率1关于x均匀地收敛于 ,即.这一结论是我们在数理统计中依据样本来推断总体特征的理论基础.6.1.3 样本分布函数6.1.4 统计量样本是总体的反映,但样本所含的信息不能直接用于解决我们所要研究的问题,所以在获得样本之后要对其进行加工、整理.在实际工作中,往往是针对具体问题构造样本的某种函数,通过它提取样本中与问题有关的信息,以推断总体的某些特征.定义6.3 设 是总体X的样本, 是n元连续函数,其中不含有任意未知参数,则称 为统计量.由上述定义可知,统计量 是仅与样本 有关的随机变量,如果 是样本的一组观测值,则称 是统计量 的观测值.例6-3 设总体 ,其中 已知,而 , 是总体X的一个简单随机样本.试指出 , , ,中哪些是统计量?哪些不是统计量?解 , , 都是统计量,因为它们均不包含任何未知参数;而 中包含未知参数 ,所以它不是一个统计量.下面介绍几种常用的统计量(见表6-2).设 是总体X的样本, 是样本的一组观测值.6.1.4 统计量6.1.4 统计量显然,样本均值 即为一阶原点矩,但样本方差 不是样本的二阶中心矩 ,两者之间的关系为 .由第5章的大数定律可以证明如下结论:设 是总体X的样本,X的 k阶原点矩 存在,则当样本容量 时, .这个结论也是第7章中做矩估计的理论依据.6.1.4 统计量6.2 抽 样 分 布统计量是样本的函数,也是随机变量,我们称统计量的分布为抽样分布.下面将要介绍几种重要的抽样分布—— 分布、t分布和F分布.在此之前,我们先介绍一下上侧分位数的概念.定义6.4 随机变量X的分布函数为F(x),对于给定的正数 ,称满足条件的数 为分布F(x)的上侧分位数或分位点.对于上侧 分位数,要注意以下几点:(1)若常数为随机变量X分布F(x)的上侧 分位数,则F( )= .例如,随机变量U服从N(0,1),记其上侧 分位数为 ,则 .事实上,由标准正态分布表可查得 ,即 ,所以 .6.2.1 上侧分位数(2)若随机变量X的密度函数为偶函数,则其分布的上侧 ɑ 分位数 有如下性质:.事实上,由密度函数的对称性可知, ,如图6-2所示,则 ,即 .图6-2所以,对于标准正态分布的上侧分位数 ,满足 .6.2.1 上侧分位数定义6.5 设随机变量 相互独立,且都服从N(0,1),则称随机变量的分布是自由度为n的 分布,记作 ,其中自由度n 是指上式右端包含的独立变量的个数.分布的密度函数为其中, 是函数 在 的值.密度函数f(x)的图形如图6-3所示.图6-3分布具有如下性质:6.2.2 分布性质1 若随机变量X,Y独立,且X~ ,Y~ ,则.推论 若相互独立,且分别服从自由度为 的分布,则.由定义6.5很容易得到这一性质,该性质表明相互独立的 分布具有可加性.性质2 如果X~ ,则EX=n,DX=2n.事实上,由 可知 ,根据定义6.5及期望的运算性质可得EX=n,经过计算可得 ,所以 .由定义6.5及方差的运算性质可以得到DX=2n.6.2.2 分布关于 分布的计算,要利用其上侧分位数 ,如图6-4所示.它既与ɑ 有关,也与自由度n有关.对于不同的 , 分布的上侧 α分位数的值已制成表格(见附表3),可以查用.例如,=0.25,n=16, 查附表3可得 ,即.图6-46.2.2 分布定义6.6 设 , ,且X,Y相互独立,则随机变量的分布称为服从自由度为n的t分布,记作t(n).t分布也称为学生分布.t(n)分布的概率密度函数为其图形如图6-5所示.图6-56.2.2 分布t分布的性质:t分布的密度函数为偶函数,即对任意 ,有 .记t(n)分布的上侧 α分位数为 ,则 ,如图6-6所示.其中 可以通过附表4查得.例如,查附表4可得 ,则 .图6-6.证明过程从略.由性质(3)可以看出,当n充分大时,t分布近似于 分布 .当 时,上侧 α分位数可由附表4查得;当 时, ,其中 为标准正态分布 的上侧 α分位数.6.2.3 t分布010203定义6.7 设 , 且X,Y相互独立,则称随机变量服从自由度为m,n的F分布,记作 .分布的概率密度函数为其图形如图6-7所示.图6-76.2.4 F分布由上述定义可知 分布的性质:若 ,则 ;若 ,则 .事实上,因为 ,则可设 ,其中 , ,且X,Y相互独立,而 且与Y相互独立,所以由定义6.7可知 .记 分布的上侧 α分位数为 ,则 .其中 可由附表5查到.例如, .0102036.2.4 F分布例6-4 设随机变量X,Y 相互独立,且均服从 , 与 分别为X,Y的样本,试说明统计量 服从的分布.解 由于 相互独立并且都服从 ,所以它们的线性组合为.记 ,则 .由题意知 并且相互独立,所以.并且U,W相互独立,所以.6.2.4 F分布例6-5 设 是来自总体 的样本,求 .解 由题意 , 并且相互独立,所以.对于例6-5,解题的关键就在于构造服从 分布的统计量.所以,需要熟练掌握服从 分布、t分布和F分布的随机变量的构成形式.6.2.4 F分布6.2.5 正态总体统计量的分布1.单个正态总体的样本均值、样本方差的分布定理6.2 设总体 , 是总体X的样本, 为样本均值和样本方差,则(1) , ;(2) ;(3) 相互独立;(4) .证 (1)由于 相互独立,并且都服从 ,而 是正态随机变量的线性函数,因而服从正态分布, 且,,所以 ,显然 .(2)与(3)的证明超出本课程的要求.(4)由(3)可知 与相互独立,由t分布的定义可知:6.2.5 正态总体统计量的分布2.两个正态总体统计量的分布定理6.3 设 和 分别是来自两个相互独立的正态总体 及 的样本, 分别表示两样本均值和方差,则:(1) 相互独立;(2) , ;(3) ;(4)当 时,,其中 称为混合样本标准差.6.2.5 正态总体统计量的分布证 (1)由两个总体的独立性及定理6.2的(3)可知, 相互独立.(2)由定理6.2的(1)可知, , ,且两者相互独立,所以 也服从正态分布且 , ,所以 , .(3)由定理6.2的(2)可知 , ,且相互独立,由F分布的定义可知,.6.2.5 正态总体统计量的分布(4)当 时,由(2)可知 ,而 , 且相互独立,由分布的可加性可知,.由(1)可知U,V相互独立,由t分布的定义可知,.6.2.5 正态总体统计量的分布例6-6 设 与 分别是取自正态总体 的容量为n的两个独立的样本的样本均值,试确定最小样本容量n,使得 .解 由定理6.2知, , .显然 与 独立,所以 ,则 .于是依题意可知 .查附表2得 .从而符合条件的最小样本容量n=14.6.2.5 正态总体统计量的分布例6-7 设 是来自总体 的样本, 为其样本均值.在下列条件下分别求出 .(1)已知 ;(2)σ未知,但已知样本方差 .解 (1)若 ,则 ,(2)若σ未知,由定理6.1知 ,所以 ..由例6-7可以发现,对于同一个问题,当已知条件不同时需要构造不同的统计量来解决问题.6.2.6 样本最大值与样本最小值的分布6.2.6 样本最大值与样本最小值的分布设 是来自总体 Χ的样本,总体Χ的分布函数为 ,密度函数为 ,则样本最大值 的分布函数为所以其密度函数为.同理可得,样本最小值 的分布函数为其密度函数为 .习 题 61.设 是总体 的样本,其中 已知, 未知.(1)写出 的概率密度;(2)指出 , , , 中哪些是统计量?哪些不是统计量?2.设 是来自均值为 、方差为 的总体的样本,求:(1) ;(2) .习 题 63.已知样本的观测值为15.8,24.2,14.5,17.4,13.2,20.8,19.9,19.1,21.0,18.5,16.4,22.6,计算样本均值 及样本方差 .4.设总体 .(1)抽取容量为36的样本,求样本均值 落在38~43的概率.(2)抽取样本容量为多大时,才能使 达到0.99.习 题 65.设 为总体 的样本.(1)记 ,试确定常数C使得CY为 分布,并给出其自由度.(2)记 ,试说明统计量V所服从的分布.6.求总体 的容量分别为10,15的两个独立样本的样本均值之差的绝对值大于0.3的概率.7.设 是总体 的样本,是样本方差,试确定常数c,使得 .习 题 68.设总体X的分布为 ,现从中抽取容量为36的样本,求 .9.设某厂生产的灯泡的使用寿命 ,今抽取一个容量为9的样本,得到 ,试求 .10.分别从方差为20和35的两个独立正态总体中抽取容量为8和16的样本,求第一个样本方差小于第二个样本方差两倍的概率.习 题 611.设 为总体 的样本,求:(1) ;(2) .12.设总体 ,抽取容量为20的样本 ,(1)已知 ,求概率 ;(2)未知 ,求概率 .习 题 613.设总体 ,总体 ,从总体X,Y中分别抽取容量为10和8的样本, 分别表示两样本均值和方差.求下列概率:(1) ;(2) .14.设 是 总体的样本,证明 服从自由度为n-1的t分布.习 题 615.设 是取自均匀分布总体 的样本,(1)求总体的分布函数F(x);(2)求样本最大值 和样本最小值 的密度函数;(3)求样本最大值 和样本最小值 的数学期望.谢谢观看 展开更多...... 收起↑ 资源预览