第4章 抽样与抽样分 课件(共53张PPT)- 《统计学原理与应用》同步教学(人民邮电版)

资源下载
  1. 二一教育资源

第4章 抽样与抽样分 课件(共53张PPT)- 《统计学原理与应用》同步教学(人民邮电版)

资源简介

(共53张PPT)
第四章 抽样与抽样分布
《统计学原理与应用》
提纲 (Outline)
4.1 问题的提出
4.2 抽样与抽样方法
4.3 抽样分布
4.4 中心极限定理及其应用
4.5 单样本统计量的抽样分布
4.6 双样本统计量的抽样分布
4.1 问题的提出
在多数情况下,人们无法完全把握了解全部
总体,只能依据总体有限的数据和信息判断总体特
征,但显然利用样本进行总体特征推断具有一定的
风险。
因此,统计学一个重要的研究内容为抽样和抽
样方法。即样本推断总体特征的科学性。
4.2 抽样与抽样方法
一、抽样与统计量
抽样又称取样,从想要研究的总体(所有个体组
成)中抽取一部分个体(即样品单位)。
设 是取自某总体的一个容量为n的样本,
假如样本函数 中不含任何未知的参
数,则称Q为统计量。
4.2 抽样与抽样方法
二、抽样方法
(一)概率抽样(Probability Sampling)
1. 简单随机抽样
2. 系统抽样
3. 分层抽样
4. 整群抽样
(二)非概率抽样(Non-probability Sampling)
4.2 抽样与抽样方法
【例4.1】 抽样方法举例
设有1000个电子元器件需要进行产品质量检验,它
们分别装在20个包装箱中,每只箱内各装有50个元器
件。如果想从该批产品中抽取100个作质量测试检验,请
分别设计4种不同的概率抽样方案进行抽样检验。
(1)简单抽样。将20个箱子中所有元器件全部放在一起,混合均
匀,将所有产品从1~1000逐一编号,然后利用随机数生成器从中抽取
编号毫无规律的100个产品组成样本。
(2)系统抽样。将20个箱子中所有元器件全部放在一起,混合均
匀,并将所有产品从1~1000逐一编号,然后对0,1,2,3,4,5,6,7,8,9十个
数随机抽样一个数,最后抽取产品编号个位数与先前获得的随机数相同
的产品组成样本。
(3)分层抽样。在20箱元器件中,对每个箱子分别随机抽取5个产品
共100个产品组成样本。
(4)整群抽样。先从20箱元器件随机抽取2箱,然后对这2箱内的100
个产品进行全数检验,即把这2箱产品作为“整群”,由它们组成100个产
品样本。
4.2 抽样与抽样方法
1. 界定总体
2. 制定抽样框
3. 决定抽样方案
4. 实际抽取样本
5. 评估样本质量
三、抽样的一般程序
4.2 抽样与抽样方法
4.3 抽样分布
一、抽样分布的概念
(一)抽样变异 (Sampling Variablity)
随着样本选取的不同、统计量构造的方法不同,由此
获得的统计量可能出现差异,这种差异我们称为抽样变异。
(二)抽样分布(Sampling Distribution)
简单的说,统计量的分布就是抽样分布。但其精确定
义是将来自于总体样本容量给定的所有不同可能样本统计量
的值所形成的分布称为抽样分布。
4.3 抽样分布
二、四大重要分布
图4.1 正态分布的密度函数
4.3 抽样分布
4.3 抽样分布
图4.2 不同自由度的 分布密度函数
4.3 抽样分布
分布具有如下重要性质
(1) 分布只取正值,与正态分布不同。
(2) 分布是非对称分布,其偏度取决于自由度的大小,自由度越小
越右偏。
(3) 分布具有渐近性,随着自由度增大,分布逐渐对称,接近正态
分布。
(4) 分布的数学期望为其自由度k、方差为2 k。
(5) 分布具有可加性。
(6)如果来自方差为 2的一个正态分布的N个观测值的样本方差为s2
,则可以证明: 。 此性质将用于估计总体未知参
数方差。
设Z服从标准正态分布,X服从自由度为k的 分布并
且两者相互独立,于是随机变量:
服从自由度为k的t分布。
对于来自正态总体的样本,对样本均值进行标准以
得到。它是一个均值为0,方差为1的标准正态分布,
又由于服从自由度为N-1的分布,因此有:
4.3 抽样分布
图4.3 t分布(虚线)和标准正态分布(实线)密度函数
T 分布具有如下重要性质:
(1)t分布也是对称分布。
(2)t分布具有渐近性,随着自由度k的增加,方差收
敛于1,当自由度很大时,它趋近于正态分布。
(3)t分布的随机变量期望值为0,方差为。
4.3 抽样分布
4.3 抽样分布
F分布是统计学中又一种重要概率分布。如果两个服从 分布的随机变量相互独立,其自由度分别为k1和k2,则
服从自由度为(k1 , k2)的F分布,其中k1 和k2分别为分子自由度和分母自由度。
图4.4 同自由度的F分布密度函数
4.3 抽样分布
F分布具有如下重要性质:
(1)F分布与 分布类似,只取非负值
(2)F分布也是非对称分布。
(3)F分布具有渐近性,即随自由度逐渐增大,F分布逐渐对称,接近正态分布。
(4)设服从自由度的F分布,即 ,其数学期望和方差分别是
(5)F分布和t分布具有重要关系,t分布变量的平方服从分子自由度为1,分母自由度为k的F分布,即
(6)F分布和分布也具有重要关系。当k2无限大时,F的分母收敛为1,这时F分布与 分布存在如下关系 ,即 变量与其自由度之比近似为分子自由度为k1,分母自由度很大的F分布。
4.4 中心极限定理及其应用
一、中心极限定理(Central Limit Theorem)
设从均值为μ、方差σ2(有限)的任意一个总体
中抽取样本量为n的样本,当n充分大时,样本均值 x
的抽样分布近似于均值为μ、方差为σ2/n的一个正态
分布,即 x 近似于正态分布N(μ,σ2/n)。
4.4 中心极限定理及其应用
一、中心极限定理(Central Limit Theorem)
样本容量越大, x 的抽样分布近似于正态分布的
程度越高。
由中心极限定理的表述可知, x 的抽样分布的标
准差会随着样本容量n的增大而变小,这使得当样本
容量增加时,利用样本统计量(如 x )在估计总体参
数(如 μ)时将更加准确。
4.4中心极限定理及其应用
二、理论意义
中心极限定理是推断统计分析的基础。在实际调
查和推断中,有了中心极限定理和足够大(一般要求
n≥30)的随机样本,就可以利用正态分布的性质进
行各种推断性统计分析。
说明:统计学中的n≥30为大样本,n<30为小样
本只是一种经验说法,对n具体的要求需要依据总体
接近正态分布的程度来确定,总体分布偏离正态越
远,对样本量n的要求就越大。
4.4 中心极限定理及其应用
三、中心极限定理应用
【例4.2】 食品包装净含量检验
食品包装质量管理中一项重要内容便于对袋装食品
净含量进行检验,许多袋装食品的净含量都标明净重为
545克(即均值μ),误差为±10克(即标准差σ 为
10)。质量技术监督部门通常根据36袋食品作为样本
来检验产品的净含量,以确定该产品在数量上是否达到
质量规定标准。问如果样本平均净含量小于或等于540
克的概率是多少?
4.4 中心极限定理及其应用
三、中心极限定理应用
【解】虽然该袋装食品净含量的总体分布未知,利
用中心极限定理依然可得按36袋食品抽样的样本平均
净含量的抽样分布近似为正态分布,而且这个抽样分布
的均值与总体均值是相同的。抽样分布的标准差由下面
表达式给出:
(克)
4.4 中心极限定理及其应用
三、中心极限定理应用
对于36袋食品的样本来说,质量技术监督部门检验
得到的平均净含量小于或等于520克的概率P计算式
为:
4.4 中心极限定理及其应用
质量技术监督部门检测到的样本均值小于或等于540
克的概率仅为0.0082。如果36袋食品平均净含量真的小
于或等于540克,那么质量技术监督部门有充分的证据
怀疑该批次食品净含量是不足的,因为如此小概率事件
竟然发生不一定是一种巧合现象。
4.5 单样本统计量的抽样分布
在推断性统计分析中,遇到最为常见的问题便是对
总体的重要数字特征如数学期望μ、方差σ2以及具有
某一特征的总体比例π进行估计和检验,为此我们需要
充分把握和估计这些重要特征的样本抽样分布的形式和
特征。
4.5 单样本统计量的抽样分布
一、样本均值的抽样分布
(一)样本均值 x 抽样分布的形式
利用样本均值推断总体均值。
在此过程中,我们需要回答的是在抽样过程中总体
分布的形式、总体特征μ与σ2以及样本容量n对样本均
值 x 的抽样分布特性产生多大的影响。
为此我们先讨论当样本容量改变时,样本均值的形
态究竟发生怎样的变化。
4.5 单样本统计量的抽样分布
(一)样本均值 x 抽样分布的形式
对同一总体的房价数据作两组65个样本的重复抽
样,设定样本容量分别为10和30,对两组65个样本的
均值做抽样分布图如下图所示:
(a)n=10
(b)n=30
4.5 单样本统计量的抽样分布
(一)样本均值 x 抽样分布的形式
与容量n=10的65个样本均值分布图(图(a))相
比,样本容量更大的样本均值分布更近似于正态分布。
图(a)与(b)对比显示, x 抽样分布的形式与样
本容量n的大小有关。由中心极限定理可知:当n充分
大时,样本均值 x 的抽样分布近似于均值为μ、方差
为σ2的一个正态分布,即 x 近似于正态分布
N(μ,σ2/n),且样本容量越大, x 的抽样分布越近似
于正态分布的程度越高。
4.5 单样本统计量的抽样分布
(一)样本均值 x 抽样分布的形式
如果原有总体本身是正态分布,那么无论样本容量
大小,样本均值的抽样分布都服从正态分布。此结论来
源于相互独立正态分布的可加性,即来自于正态分布总
体,每一服从正态分布且相互之间独立,从而由下式计
算的样本均值:
也为正态分布。
4.5 单样本统计量的抽样分布
(二)样本均值 x 抽样分布的特征
两大重要特征:均值和方差
两大特征既与总体分布的均值和方差有关,也与抽
样时的样本容量有关,实际还与抽样方式有关(究竟是
重复抽样还是非重复抽样)。
通过数学证明,无论是重复抽样还是非重复抽样,
样本均值 x 的均值(记为E( x ))与总体均值相等
,即:E( x )=μ。
4.5 单样本统计量的抽样分布
(二)样本均值 x 抽样分布的特征
样本均值 x 的方差(记为 )与抽样方法有关。
在重复抽样下,样本均值 x 的方差为总体方差σ2的
1/n,即:
即 x ~N(μ, )
4.5 单样本统计量的抽样分布
(二)样本均值 x 抽样分布的特征
在非重复抽样下,样本均值 x 的方差 为:
即 x ~N(μ, )
当总体单位个数N足够大时, 接近于1,这使得
在重复抽样与非重复抽样下得到的样本均值 x 的方差
没有太大差异;对无限总体而言,重复抽样与非重复抽
样下的样本均值 的方差完全一样。
4.5 单样本统计量的抽样分布
二、样本比例的抽样分布
(一)样本比例
类似于总体均值,总体比例π往往也是未知的,也
需要通过抽样来进行估计和推断。设从某一总体抽样容
量为n的一个样本,样本中具有某中特性的个体数量为
n0,则样本具有该特性的比例p计算为:
样本比例p的抽样分布是样本所有可能取值的概率分布。
4.5 单样本统计量的抽样分布
(二)样本比例p性质
(1)当样本容量很大且总体比例π与0和1相差较
大时,样本比例p的抽样分布近似于一正态分布,即:
(2)样本比例p的数学期望 等于总体比例π ,即 。
4.5 单样本统计量的抽样分布
(二)样本比例p性质
(3)在重复抽样和非重复抽样不同方式下,样本比例p的方差(记为σ2p)分别为:
(4)进一步,当n·p≥10和n·(1-p)≥10时, 近似
正态分布的程度更高。
4.5 单样本统计量的抽样分布
三、样本方差的抽样分布
只讨论当总体分布为正态分布时,样本方差的分布。
样本方差s2的计算公式为:
随着样本选择的不同,s2也是随机变化的,当重复抽
取容量为n的样本时,所有不同样本方差值所形成的随机
分布称为样本方差的抽样分布。
4.5 单样本统计量的抽样分布
三、样本方差的抽样分布
可以证明,对于来自于总体分布为正态分布的随机
抽样时,比值 的抽样分布服从自由度为(n-1)的 分布,即:
4.5 单样本统计量的抽样分布
【例4.3】 样本方差抽样分布的应用案例
食品包装质量管理中对袋装食品净含量进行检验。
许多标准袋装食品的净含量都标明净重为545克(即均
值μ),误差为±10克(即标准差σ为10)。质量技
术监督部门通常根据36袋食品作为样本来检验产品的
净含量,以确定该产品在数量上是否达到质量规定标
准。问在抽取的36袋样本中其标准差大于13克的概率
是多少(假定袋装食品净含量总体服从正态分布)。
【解】对于来自于总体分布为正态分布的随机抽样
时, 比值 的抽样分布服从自由度为(n-1)的 分布,即:
,于是
4.5 单样本统计量的抽样分布
4.5 单样本统计量的抽样分布
根据自由度为35的 分布表,可得P( >59.15)
=0.0065,即P(S>13) =P( >59.15)=0.0065,即是说
随机抽取36袋食品其标准差大于13克的可能性大约是
0.65%,不超过0.7%。
4.5 单样本统计量的抽样分布
例4.2 样本方差抽样分布的应用案例
当样本容量n≥30时, 分布趋于正态分布。由数理
统计学理论可以证明,若χ服从自由度为n-1的 分布
( n>30),则 近似于一标准正态
分布,即z~N(0,1) 。在本例中,样本容量为36,样本
方差服从一自由度为35的 分布,因此有:
4.6 双样本统计量的抽样分布
在统计应用中,我们时常要分析不同总体分布的特
征差异,由样本统计量的比较推断总体特征的比较,如
两个样本均值之差 、两个样本比例之差
、两个样本方差比 等。要比较两个样本特征值的
大小区别,那么就必须掌握两个样本统计量的抽样分布

4.6 双样本统计量的抽样分布
假定从总体1中重复抽取容量为n1的样本,其均值
为 x1 ,从总体2中重复抽取容量为n2的样本,其均值
为 x2 。当两个总体均为正态分布或者两个样本容量都
充分大时(一般要求n1≥30,n2 ≥30),这时由中心
极限定理可得到两个样本均值 x1 和 x2 分别服从下列
两个正态分布:
(一)两样本均值之差的抽样分布
4.6 双样本统计量的抽样分布
由正态分布的性质可得: 也服从正态分布,
即:

在样本抽样时,我们给出的是重复抽样,对于非重
复抽样,差别仅在样本均值对应抽样正态概率分布的方
差上,如果总体足够大时,方差差别甚小。
(一)两样本均值之差的抽样分布
4.6 双样本统计量的抽样分布
设两个相互独立的总体均服从二项式分布,现从总
体1中重复抽取容量为n1的样本,满足某一特性的样本
比例为p1 ,从总体2中重复抽取容量为n2的样本,满足
某一特性的样本比例为p2 。假定两个样本容量都充分大
时,即n1·π1≥5,n2·π2≥5),则p1 和p2 分别服从下
列两个正态分布:
(二)两样本比例之差的抽样分布
由正态分布的性质可得:p1-p2也服从正态分布,
即:

(二)两样本比例之差的抽样分布
4.6 双样本统计量的抽样分布
【例4.4】 两样本比例之差抽样分布的应用案例
4.6 双样本统计量的抽样分布
企业有若干条生产同一产品的生产流水线,为了
检验保证企业产品质量的稳定性,需对不同流水线
上的产品质量进行抽样检验。根据已有检验,过去A
、B两条生产线上的产品合格率分别达到98.5%和98%,现从A、B两条生产线上分别独立抽取容量皆为400的产品作为抽检样本,试估算这两个样本中产
品不合格率相差不超过0.5%的概率。
例4.6 两样本比例之差抽样分布的应用案例
4.6 双样本统计量的抽样分布
【解】根据题意,该企业A、B两条生产线上的
产品不合格率分别为π1=0.015,π2=0.02;随机独立抽样的样本容量分别为n1=400,n2=400。由此可计算n1·π1=400×0.015=6,n2·π2=400×0.02=8 。于是两样本比例之差p1-p2近似于下列正态分布:
例4.6 两样本比例之差抽样分布的应用案例
4.6 双样本统计量的抽样分布
两个样本中产品不合格率相差不超过0.5%的概率可表示为计算 它由两部分组成,一部分是
另一部分是
例4.6 两样本比例之差抽样分布的应用案例
4.6 双样本统计量的抽样分布
根据标准正态分布表,
,因此这两个样本产品不合格率相差不超过0.5%的概率为0.5 - 0.14 = 0.36。
4.6 双样本统计量的抽样分布
设两个相互独立的总体均为正态分布

现分别独立从这两个总体中随机抽取容量为n1和n2的样
本,这两个样本的方差 与总体方差 相应的
比分别服从如下 分布,即:
(三)两样本比例之差的抽样分布
4.6 双样本统计量的抽样分布
那么由 分布的性质可知:
利用上式和F分布的特征估计 的概率分布,从
而再利用样本方差 的值即可估算在给定置信水
平上的 值。
(三)两样本比例之差的抽样分布

展开更多......

收起↑

资源预览