资源简介 (共52张PPT)第六章 数理统计的基础知识引言由于大量随机现象必然呈现出其规律性,因而从理论上讲,只要对随机现象进行足够多次的观察,随机现象的规律性就一定能够清楚地呈现出来。但是,客观上只允许我们对随机现象进行次数不多的观察或试验,也就是说:我们获得的只能是局部的或有限的观察资料。数理统计的任务就是研究怎样有效地收集、整理和分析所获得的有限资料,并对所研究的问题尽可能地给出精确而可靠的推断。现实世界中存在着形形色色的数据,分析这些数据需要多种多样的方法。因此,数理统计中的方法和支持这些方法的相应理论是相当丰富的。概括起来可以归纳成两大类。参数估计: 根据数据,对分布中的未知参数进行估计;假设检验: 根据数据,对分布的未知参数的某种假设进行检验。参数估计与假设检验构成了统计推断的两种基本形式,这两种推断渗透到了数理统计的每个分支。案例 6.1.1 随着技术的快速更新及社会的迅猛发展,职业选择受到了从业者的高度关注。比如职业发展研究人员做特定职业满意度调查时,将满意度分为四类:“特别不满”“不满意”“基本满意”“满意”,同时给出量化评级体系,这四类满意度对应的得分为 0、1、3、5。全国范围内,某一职业的从业者可能有数十万、数百万,甚至数千万,所以只能采用抽样调查的方法,如随机抽查全国 100 个某职业的从业者,职业满意度的得分数据如下:试问能由这 100 个数据得到该职业满意度得分的概率分布吗?采用什么方法?理论依据是什么?案例 6.1.2 某高校教务处希望了解近年来各学院的学风情况,其中公共基础课的成绩是非常重要的参照指标,以高等数学成绩为例,需要了解:(1)各学院学生的平均成绩情况如何?(2)各学院学生的成绩差异是否很大?(3)各学院学生的成绩服从什么分布?(4)各学院学生的成绩是否服从正态分布?(5)某两个学院学生成绩的差异大吗?由于学生人数较多,采用随机抽样完成。下表是随机抽查的两个学院的 60 位学生和 55 位学生的成绩数据,根据这些数据能否回答上述问题?能做出什么推断,采用什么方法推断?其理论依据又是什么?6.1 数理统计的基本概念在数理统计中,称研究问题所涉及对象的全体为总体,把组成总体的每个成员称为个体。例如: 研究某工厂生产的某种产品的废品率,则这种产品的全体就是总体,而每件产品都是一个个体。6.1.1 总体与个体实际上,我们真正关心的并不一定是总体或个体本身,而真正关心的是总体或个体的某项数量指标X,在试验中,数量指标 X 就是一个随机变量(或随机向量),X的概率分布完整地描述了这一数量指标在总体中的分布情况。如:某电子产品的使用寿命,某天的最高气温,加工出来的某零件的长度等数量指标。由于我们只关心总体的数量指标X,因此总体等同于X的所有可能取值的集合,并把X的分布称为总体分布,常把总体与总体分布视为同义词。6.1 数理统计的基本概念定义6.1.1 统计学中称随机变量(或向量)X 为总体,并把随机变量(或向量)的分布称为总体分布。6.1.1 总体与个体从统计学的角度理解,案例 6.1.1 中的总体是 0、1、3、5 这些满意度得分的全体,而每个得分就是个体。正如上述两案例所示,数理统计常通过抽样调查研究问题,因为研究对象的总体容量往往非常大,所以只能抽查部分个体完成研究。6.1 数理统计的基本概念正如上述两案例所示,数理统计常通过抽样调查研究问题,因为研究对象的总体容量往往非常大,所以只能抽查部分个体完成研究。在案例 6.1.1 中,如果将满意度得分记为X,那么X的所有可能取值为 0、1、3、5,同时X的每个值都包含了很多个体,并且可以得到确切数量(只要做一次全体调查),而我们所关注的仅是X的取值及其概率分布,表中100 个数据就是为了研究该问题随机抽取的部分个体的取值,称其为一个样本,我们希望利用数理统计的方法根据这个样本推断出整个行业中该职业满意度得分的分布,即由个体推断总体。为此,我们首先引入一些相关的概念。6.1.2 样本与统计量一般地,将为研究总体的特征而从总体中抽取的部分个体称为样本。若从某个总体X中抽取了n个个体,记为(X1,X2,…,Xn),则称其为总体X的一个容量为n的样本。依次对它们进行观察得到 n个数据(x1,x2,…,xn),则称这n个数据(n维实向量)为总体 X的一个容量为n的样本观测值,简称样本值,可以视作n维随机向量(X1,X2,…,Xn)的一组可能的取值,样本(X1,X2,…,Xn)的所有可能取值的集合称为样本空间,记为χ。若从总体 X 中抽取了一组个体(X1,X2,…,Xn) ,若它具有以下性质:(1)独立性,即 X1,X2,…,Xn是相互独立的随机变量;(2)代表性,每个 Xi,i=1,2…,n与总体 X 具有相同的分布。则称(X1,X2,…,Xn)为取自总体 X 的一个容量为 n 的简单随机样本。今后如无特别的说明,提到的样本均指简单随机样本。设总体 X 的分布函数为 F (x) ,则样本(X1,X2,…,Xn)的联合分布函数为若设总体 X 的概率密度函数为 f (x),样本(X1,X2,…,Xn)的联合概率密度函数为样本的分布例 6.1.1 设总体X ~ P(λ) ,X 的概率密度函数为因此,样本(X1,X2,…,Xn)的联合概率密度函数为例子定义 6.1.2 设有总体 X 的一个容量为 n 的样本,其观测值为(x1,x2,…,xn) ,将这n个观测值按从小到大重新排列为 (x1*≤x2* ≤…≤xn*) ,则经验分布随机变量总体X的分布函数总是存在,称之为理论分布,这个分布通常是未知的。由样本观测值推测得到的总体的分布函数肯定不是客观的,不同的抽样有不同的观测值,当然对应有不同的推测,因此推测得到的分布函数称为经验分布函数。称Fn(x)为X的经验分布函数。定理 6.1.1 设总体 X 的分布函数为 F(x),经验分布函数为Fn(x),则对任意一个实数x与任意一个ε>0 ,经验分布对每一个固定的x,Fn(x)是事件{X≤x}发生的频率。当n固定时,对于样本的不同观测值(x1,x2,…,xn)将有不同Fn(x) ,所以,此时的Fn(x)应该是一个随机变量,由大数定律可知,事件发生的频率依概率收敛于该事件发生的概率F(x)=P(X≤x)。证明:(略)该定理说明了随着抽样规模n的增大经验分布函数越来越接近总体的分布函数。例6.1.2 将记录1min内碰撞某个装置的宇宙粒子数看作一次试验,连续记录40min,依次得到以下数据:从这 40 个数据可见,它们只取 0、1、2、3、4 这 5 个值,列出下表:例6.1.2 将记录1min内碰撞某个装置的宇宙粒子数看作一次试验,连续记录40min,依次得到以下数据:因此可得经验分布函数的观测值为:定义 6.1.3 设(X1,X2,…,Xn)为总体X的简单随机样本,g(x1,x2,…,xn)是一个实值连续函数,且不含除自变量之外的未知参数,则称g(X1,X2,…,Xn)为统计量。若 (x1,x2,…,xn)是一个样本值,则称 g(x1,x2,…,xn)为统计量g(X1,X2,…,Xn)的一个样本值。统计量的定义案例 6.1.1 分析:设职业道德满意度得分为 X,总体就是 X 取值的全体,100 个得分就是来自该总体的一个样本,样本容量是 100,如果这 100 个得分是完全随机抽查的 100 个从业者的评分,那么可以认为这是一个简单随机样本,100 个值就是该样本的一组取值。案例 6.1.2 分析:如果设学院Ⅰ、学院Ⅱ学生的高等数学成绩分别为 X、Y,总体就是两个学院全体学生的成绩,这是一个二维随机变量,其中,60 个学生的成绩 X 是一个容量为 60 的样本值,55 个学生的成绩 Y 是一个容量为 55 的样本值。几个常见统计量样本均值样本方差反映总体均值的信息反映总体方差的信息样本标准差样本 k 阶原点矩样本 k 阶中心矩k=1,2, …反映总体k 阶矩的信息反映总体k 阶中心矩的信息例题例 6.1.3 设(X1,X2, ,Xn)是取自正态总体 的一个样本,其中未知但已知,则都是统计量;不是统计量,因为它包含了总体分布中的未知参数。定理 6.1.2设(X1,X2, ,Xn)是取自总体 X 的一个样本,且那么:定理6.1.2说明样本方差的期望是总体方差,而二阶中心矩的期望不是总体方差,因而称为未修正的样本方差。例题例 6.1.3 设总体 X 的概率密度函数为(X1,X2, ,X50)是来自总体 X 的一个样本, 和分别为样本均值与样本方差,求。 解:由已知条件可得根据定理 6.1.2 可知,6.2 常用的统计分布取得总体的样本后,通常要借助样本的统计量推断未知的总体分布。为此,需要进一步确定相应统计量服从的分布,除了在概率论中提到的常用分布(主要是正态分布)外,经常用到的分布还有 分布,t分布和F分布,这三个分布与正态分布有着紧密联系。6.2 常用的统计分布6.2.1 分位数定义 6.2.1 设随机变量X的分布函数为F(X),对给定的实数(0<<1),若存在实数满足则称为随机变量X分布的水平的上侧分位数。若实数 满足则称 为随机变量X分布的水平的双侧分位数。标准正态分布的分位数上侧分位数双侧分位数通常,直接求解分位数是很困难的,对常用的统计分布,可利用附录中的分布函数值表或分位数表来得到分位数的值。例题例 6.2.1 设=0.05,求标准正态分布的水平0.05的上侧分位数和双侧分位数。解:由, 查标准正态分布函数值表可得=1.645,而水平 0.05的双侧分位数为,满足查表得=1.96。注:今后分别记与为标准正态分布的上侧分位数与双侧分位数。6.2 常用的统计分布6.2.2 χ 2 分布它是由正态分布派生出来的一种分布。定义6.2.2 设 X1, X2, …, Xn 相互独立,且均服从正态分布 N(0, 1), 则称随机变量服从自由度为 n 的分布(卡方分布),记成。分布的密度函数为分布密度函数图形由 分布的定义,不难得到其如下性质:由 分布的定义,不难得到其如下性质:χn2 分布上侧 分位数有表可查,见附表5。对于给定的实数 (0,1), 称满足条件的点 χn2( )为 χn2分布的上侧 分位数。(3) 分布的分位数例 6.2.2 设X1, X2, …, Xn 是来自总体N(0,1)的样本,又设试求常数 C,使得 CY 服从分布。例题解:因为 , 所以且它们相互独立,于是有t 分布的概率密度为为服从自由度 n 的 t 分布,记为 T ~ t(n)。6.2.3 t 分布定义6.2.3 设 X ~N(0, 1) , Y ~χn2 , 且 X与Y 相互独立,则称随机变量t 分布的概率密度图形当 n 充分大时,f (x; n) 趋近于标准正态分布的概率密度。数学期望与方差若 T ~tn , 对给定的 (0,1),称满足条件t 分布的分位点的点 tn( )为 tn 分布上 分位点。t 分布的上 分位点有表可查,见附表4。例 6.2.3 设X服从N(2,1),Y1,Y2,Y3,…, Y4 均服从N(0,4),且它们相互独立,令试求T的分布,并确定t0的值,使得P{|T|>t0}=0.01。例题解:由于故由 t 分布的定义可知T 服从自由度为 4 的 t 分布:T~t(4)。由 P{|T|>t0}=0.01,n=4,a=0.01,查表得t0=t0.005(4)=4.6041。6.2.4 F 分布则称 F =(X/m)/(Y/n)服从第一自由度为m,第二自由度为n 的 F 分布。记成 F ~ F(m,n) 。定义6.2.4F 分布的概率密度为F分布的概率密度图形当 m,n 越大时,f (x; m,n)越来越对称。F 分布的性质若 F~F(m,n),对给定的 (0,1), 称满足条件F 分布的分位数的点 F (m,n)为F分布的上侧 分位数。.F 分布上侧 分位数有表可查,见附表6。★ 一个需要注意的问题:这个关系式的证明如下:证明:若 X ~ F(m,n),则 Y = X -1 ~ F(n,m)。依分位数的定义,上式等价于再根据 Y (~ Fn,m ) 的上 分位数的定义,有这就证明了(1)式。在通常 F 分布表中,只对 比较小的值,如 = 0.01, 0.05, 0.025及0.1等列出了分位数。但有时我们也需要知道 比较大的分位点,它们在 F 分布表中查不到。这时我们就可利用分位点的关系式(1)把它们计算出来。例如:对m=12, n=9, α=0.95, 我们在 F 分布表中查不到 F0.95(12,9),但由(1)式,知可从F 分布表中查到例 6.2.4 设设总体X服从标准正态分布,X1,X2, ,Xn是来自总体X的一个简单随机样本,试问以下统计量服从何种分布?例题解:所以6.3 正态总体的抽样分布6.3.1 单正态总体的抽样分布定理 6.3.1该定理的严格证明需要用到多重积分的变量替换公式、正交矩阵的一些性质及很强的数学推导技巧,此处略去证明。6.3 正态总体的抽样分布6.3.1 单正态总体的抽样分布推论6.3 正态总体的抽样分布6.3.2 双正态总体的抽样分布定理 6.3.2设和分别是来自正态总体和的样本,它们相互独立,和为第一个样本的均值与样本方差,和为第二个样本的均值与样本方差,则上述的抽样分布是第 7、8 章的理论基础,务必熟练谨记。案例6.3.2 设某制造企业希望对生产流水线进行科学管理,所以需要了解产品的市场需求。根据过去的统计结果,该企业生产的某产品的周销量X(单位:千只),企划部调取了最近 36 周的销量数据,如下表所示:(1)求表中这个样本的样本均值及样本方差;(2)如果是来自总体X的一个样本,求样本均值落在 49.5~54.4 的概率。解: (1)易计算所以(2)由定理 6.3.1 知小结本讲首先介绍数理统计中三个常用的重要统计量的分布 : χ 2分布、t 分布和 F 分布;然后以定理的形式 (定理1) 给出了正态总体样本均值与样本方差的分布及其相关结论。 展开更多...... 收起↑ 资源预览