资源简介 (共82张PPT)第6章 抽样分布与参数估计第6章6.1 抽样理由和抽样方法6.2 抽样误差6.3 抽样分布6.4 参数估计6.5 样本容量的确定抽样分布与参数估计第6章在本章中你将学到:区分不同的抽样方法抽样分布的概念计算样本平均数和样本比例相关的概率中心极限定理的重要性理解点估计与置信区间估计计算均值和比例的置信区间根据所要得到的置信区间确定样本容量。本章教学目的抽样分布与参数估计第6章区分不同的抽样方法理解抽样分布的概念理解中心极限定理的重要性计算均值和比例的置信区间本章重点和难点抽样分布与参数估计第6章6.1.1 抽样理由6.1.2 抽样方法6.1 抽样理由和抽样方法第6章选择样本比总体(人口普查)中的每一项要节省时间。选择样本比总体中的每一项要节省费用。分析样本要比分析整个总体容易且更加实际。6.1.1 抽样理由6.1 抽样理由和抽样方法第6章抽样过程从抽样框开始抽样框是对组成总体的一系列条目的列举。抽样框是类似总体清单,目录或者地图的数据源。如果抽样框里没有包括总体的某些部分,不准确或者有偏的结果就可能产生。使用不同的抽样框得到数据会得出不同的结论。6.1 抽样理由和抽样方法6.1.2抽样方法第6章样本非概率样本判断样本概率样本简单随机样本系统样本群样本便利样本分层样本样本类型6.1 抽样理由和抽样方法第6章在非概率样本中,选中的条目不根据他们发生的概率。在便利抽样中,条目的选择简单,便宜,且方便抽样。在判断样本中,我们得到预先选好的专家就主题发表的意见。样本类型:非概率样本6.1 抽样理由和抽样方法第6章在概率样本中, 样本中条目的选择基于已知的概率。概率样本简单随机样本系统样本分层样本群样本样本类型:概率样本6.1 抽样理由和抽样方法第6章架构里的每一个条目都有同等的机会被选中。n代表样本容量,N代表抽样框的大小,对抽样框中的每个条目进行编号为1到N。抽样可以放回(选择了某一个条目之后再把它放回架构里,它再次被选中的概率仍然相同)或者不放回 (选择的某一个条目,不能放回架构中)。简单随机样本适用于总体较小,且同质性比较高的情况。样本通过随机数表或随机数产生器取得。概率样本:简单随机样本6.1 抽样理由和抽样方法第6章有850条目的总体抽样架构条目名 条目号Bev R. 001Ulan X. 002. .. .. .. .Joann P. 849Paul F. 850随机数表(部分)49280 88924 35779 00283 81163 0727511100 02340 12860 74697 96644 8943909893 23997 20048 49420 88872 08401简单随机样本前5个条目Item # 492Item # 808Item # 892 -- 不存在所以忽略Item # 435Item # 779Item # 002使用随机数表选择简单随机样本6.1 抽样理由和抽样方法取决于样本容量: n抽样框中N个个体分成含k个个体的组: k=N/n从第一组随机选择一个个体接下来,每数到第k个数都依次选取简单易行,但可能带来周期性问题,导致抽样偏差第6章N = 40n = 4k = 10第一组6.1 抽样理由和抽样方法概率样本:系统样本第6章根据一些常见的特征,把总体分成两个或两个以上的亚群体,即层(strata)。在每个层中根据层容量相应选择简单随机样本。分层选择的样本然后加以合并。当抽样总体是选民时,根据种族或社会经济层次分层是常用的技术。总体分成4个层6.1 抽样理由和抽样方法概率样本:分层样本第6章某公司要从800名全职雇员中选取32名全职雇员作为样本,估计一项公司赞助的牙科保健计划方面的费用。在全职雇员中,25%是经理,75%是非经理。如何选择分层的样本使样本能代表经理雇员和非经理雇员正确的比例?假定回复率为80%。总体800经理200非经理600抽取40*25%=10抽取40*75%=30解:共需发送32/0.8=40份调查问卷。例 选取分层样本6.1 抽样理由和抽样方法第6章总体分为若干个 “聚类”或者“群”,每个聚类或群代表整个总体。随机选择聚类样本或群样本使用选中的聚类里的所有项目或者从聚类里面选取基于概率的样本。聚类样本的通常应用是选举,其中选择特定选区并抽样。总体分成16个聚类样本。随机选择聚类样本抽样概率样本: 聚类样本6.1 抽样理由和抽样方法第6章简单随机样本和系统样本使用简单可能不能很好的代表总体的潜在特性分层样本确保代表的个体覆盖整个总体聚类样本成本效率更高有效性较低(需要更大的样本以取得同等程度的精确性)概率样本:比较抽样方法6.1 抽样理由和抽样方法第6章样本统计量和对应的总体参数之间的差异,称之为抽样误差。抽样误差的产生是由于抽样的非全面性和随机性所引起的,是偶然性误差。非抽样误差抽样框误差系统性误差测量误差登记误差6.2 抽样误差第6章抽样分布就是选出所有可能的样本情况下结果的分布两类统计量的抽样分布:样本均值和样本比例。例如, 假设想知道某学院学生的平均成绩,随机选择50个学生。 如果得到很多不同的50个学生的样本,将计算每个样本不同平均数。我们可以计算对于任意给定的50个学生的样本,我们对所有潜在的平均成绩感兴趣。6. 3抽样分布第6章均值的抽样分布是指在给定样本容量的情况下所有可能的样本均值的分布。6.3.1 样本均值的抽样分布6. 3抽样分布第6章假设总体…总体容量N=4随机样本变量, X,是个体的年龄X的观测值: 24, 28,32, 36 (岁)ABCD例子1.样本均值的均值6. 3抽样分布第6章总体均值总体的均值等于总体的所有数值之和除以总体容量N。总体的标准差6. 3抽样分布第6章.3.2.1024 28 32 36A B C D均匀分布P(x)x总体分布的概括度量:样本均值的均值——例子(续)6. 3抽样分布16 个可能的样本 (有放回的抽样)现在考虑容量n=2的所有可能的样本第6章(续)16个样本平均数第一个 观测值 第二个 观测值 24 28 32 3624 24,24 24,28 24,32 24,3628 28,24 28,28 28,32 28,3632 32,24 32,28 32,32 32,3636 36,24 36,28 36,32 36,36样本均值的均值——例子第一个 第二个观测值 观测值 24 28 32 3624 24 26 28 3028 26 28 30 3232 28 30 32 3436 30 32 34 366. 3抽样分布第6章所有样本平均数的抽样分布X样本平均数的分布16个样本平均数P(X)0.1.224 26 28 30 32 34 36.3_(续)(不再是均匀分布)样本均值的均值——例子第一个 第二个观测值 观测值 24 28 32 3624 24 26 28 3028 26 28 30 3232 28 30 32 3436 30 32 34 366. 3抽样分布第6章该抽样分布的概括度量:(续)样本均值的均值——例子6. 3抽样分布第6章算术平均数是无偏的,因为所有可能的样本均值(给定样本容量n)的平均值等于总体的均值 。样本均值的均值——例子6. 3抽样分布第6章24 26 28 30 32 34 360.1.2.3P(X)X24 28 32 36A B C D0.1.2.3总体N = 4P(X)X_样本平均数分布n = 2_2. 样本均值的标准误差6. 3抽样分布第6章同样总体相同容量的不同的样本导致不同的样本平均数样本与样本之间平均数的变动用均值的标准误差来度量:(这假设是有放回的抽样或者无限总体无放回的抽样)均值的标准误差是所有可能的样本均值的标准差。注意平均数的标准差随着样本容量 增加而减少6. 3抽样分布第6章总体服从正态分布,平均数μ 且标准差σ, 抽样分布 也服从正态分布。且3、正态分布总体的抽样分布6. 3抽样分布第6章抽样分布的Z值:其中: = 样本平均数= 总体平均数= 总体标准差n = 样本容量平均数抽样分布的Z值6. 3抽样分布总体正态分布抽样分布也正态分布(有同样的平均数)第6章抽样分布特征6. 3抽样分布第6章较大的样本容量较小的 样本容量(续)随着n增加,减少抽样分布特征6. 3抽样分布第6章假设每盒麦片的重量服从正态分布,均值为368克,标准差为15克。如果从同一天包装的几万盒麦片中随机抽取25盒作为样本,则该样本均值低于365克的可能性有多大?解:即所有容量为25的样本的均值有15.87%的概率低于365克。例子:麦片包装问题6. 3抽样分布第6章假设每盒麦片的重量服从正态分布,均值为368克,标准差为15克。如果从同一天包装的几万盒麦片中随机抽取100盒作为样本,则该样本均值低于365克的可能性有多大?解:即所有容量为100的样本的均值有2.28%的概率低于365克。例子:麦片包装问题6. 3抽样分布第6章我们可以使用中心极限定理:即使总体非正态分布,总体的样本平均数 将近似正态分布只要样本容量足够的大.抽样分布的特征 :且6.3.2中心极限定理6. 3抽样分布n↑第6章随着样本容量变得足够的大 …不管总体的分布如何,抽样分布趋近于正态分布6.3.2中心极限定理6. 3抽样分布第6章总体分布抽样分布(随着n的增加服从正态分布)集中趋势变异程度较大的样本容量较小的 样本容量(续)抽样分布特征:6. 3抽样分布第6章对于大多数分布, n > 30 将导致抽样分布近乎正态分布对于完全对称分布, n > 15 一般足够导致抽样分布近乎正态分布对正态分布的总体,平均数的抽样分布总是服从正态分布多大是足够的大?6. 3抽样分布第6章假设总体的平均数μ = 8 且标准差σ = 3. 假设选中容量n = 36随机样本。样本平均数介于7.8和8.2之间的概率是多少 例子6. 3抽样分布第6章结论:即使总体非正态分布, 中心极限定理可以应用 (n > 30)… 因此抽样分布近乎正态分布… 且平均数…且标准差(续)例子6. 3抽样分布第6章结论(续):(续)抽样分布标准正态分布总体 分布样本标准化 XZ-0.4 0.4.1554 +.15547.8 8.2例子6. 3抽样分布第6章π = 有着某种特性的总体的比例样本比例 ( p ) 提供π的估计:0 ≤ p ≤ 1当n比较大时,p 近乎正态分布(假设是有放回的抽样或者无限总体无放回的抽样)6.3.3比例的抽样分布6. 3抽样分布第6章近乎正态分布分布,如果:其中且(其中 π = 总体比例)抽样分布P( ps).3.2.100 . 2 .4 .6 8 1pp的抽样分布6. 3抽样分布第6章使用公式将p标准化为Z值:比例的Z值6. 3抽样分布if π = 0.4且n = 200,P(0.40 ≤ p ≤ 0.45)是多少 第6章如果支持A主张的投票者的真正比例是π = 0.4,容量200 的样本导致样本比例介于0.40与0.45之间的概率是多少 也就是说:例子6. 3抽样分布第6章if π = 0.4且n = 200,P(0.40 ≤ p ≤ 0.45)是多少 (续)转换成标准正态分布:计算 :例子6. 3抽样分布第6章Z1.440.4251标准化抽样分布标准正态分布if π = 0.4且n = 200,P(0.40 ≤ p ≤ 0.45)是多少 (续)使用标准正态分布表: P(0 ≤ Z ≤ 1.44) = 0.425100.450.40p例子6. 3抽样分布第6章6.4.1点估计使用单个样本的统计量来估计总体参数的方法。6.4 参数估计第6章置信区间估计:是在样本点左右构造的一段区间,从而可以知道总体参数落在特定区间内的概率。对于未知参数 ,找到两个数值 和 ,使参数 位于区间 的概率为 ,即式中,区间 表示总体参数的区间估计或置信区间。6.4.2置信区间估计6.4 参数估计第6章点估计是单个数值置信区间提供了估计变动的额外信息点估计置信区间下界置信区间上界置信区间宽度点估计和置信区间估计6.4 参数估计第6章区间给出了观测值的一个范围:考虑样本统计量随着样本的不同而变化基于一个样本的观测值给出接近未知总体参数的信息以置信度表示例如95%的置信度, 99%的置信度不能为100%的置信度6.4.3 总体均值的置信区间估计( 已知时)6.4 参数估计第6章置信度:置信区间包含未知总体参数的百分比(低于100%)假设置信度=95% ,也可写成(1 - ) = 0.95,(故 = 0.05) 为分布中置信区间外的两个尾部的比例。一般的相关解释:构造的所有置信区间95%包含未知的真实参数特别的,区间可以包含也可以不包含真实参数置信度 (1- )6.4 参数估计第6章假设总体标准差σ已知总体是正态分布如果总体非正态,则使用大样本置信区间估计:其中Zα/2是标准正态分布曲线上上限临界值以上的比例为 /2对应的数值;μ的置信区间 (σ已知)6.4 参数估计第6章考虑置信度是95%的置信区间:置信下限临界值置信上限临界值Z :X :点估计0Zα/2 = -1.96Zα/2 = 1.96寻找临界值,Zα/26.4 参数估计第6章通常使用的置信度是 90%,95%,和99%置信度置信系数Zα/2 值1.281.6451.962.332.583.083.270.800.900.950.980.990.9980.99980%90%95%98%99%99.8%99.9%常用置信度6.4 参数估计第6章置信区间(1- )x100%区间包含μ;( )x100% 不包含均值的样本分布区间从扩展到x1x2置信区间和置信度6.4 参数估计第6章一个文具商店想要估计库存中贺卡的平均销售额。随机选择100张贺卡,均值为3.65元,标准差为0.4元。假设服从正态分布,计算该店库存中所有贺卡的均值的95%置信区间估计。解:95%的置信度对应的临界值即库存中所有贺卡的平均销售额的95%置信区间估计为3.571 6~3.728 4元。【例6-1】6.4 参数估计第6章如果总体标准差 σ是未知的,我们可以用样本标准差 S来替代。这种做法是非常不确定的,因为S随着样本的变化而变化。所以我们用t分布来代替正态分布。6.4.3总体均值的置信区间估计( 未知时)6.4 参数估计如果随机变量X服从正态分布,那么下面的统计量服从自由度为n-1的t分布:其中S为样本标准差。第6章1.学生t分布6.4 参数估计第6章t (df = 5)t (df = 13)t-分布是钟形的对称的,但其尾部比正态的“胖”标准正态(t 有df = ∞)t0注意: t Z n增加2.t分布的特性6.4 参数估计d.f. = n - 1第6章t 是一个分布集tα/2 的值依赖于自由度 (d.f.)观察值在样本均值计算后是自由变化的t分布的特性(续)6.4 参数估计如果这三个数的均值是8.0,那么X3一定是9(即, X3 不是自由变化的)令X1=7令X2=8X3是多少?例子:假设3个数字的均值是8.0第6章这里,n = 3,所以自由度= n – 1 = 3 – 1 = 2(对于一个给定的均值,2个值可以是任意的数字,但是第三个数是不能自由变化的)思想:观察值在样本均值计算后是自由变化的3.自由度 (df)的概念6.4 参数估计当σ未知时,均值的 置信区间估计为:(其中 tα/2 是具有n -1自由度和α/2的累积面积的t分布的临界值)第6章4.置信区间的表达式(σ未知)6.4 参数估计第6章上部的尾部面积df.25.10.0511.0003.0786.31420.8171.8862.92030.7651.6382.353表的主体包含t值,但没有概率令: n = 3df = n - 1 = 2 = 0.10 /2 = 0.05t02.920 /2 = 0.05t分布表6.4 参数估计第6章某医院想估计其急诊室服务的病人的平均等候时间。随机抽取33名急诊室病人进行调查,经计算样本均值为222分钟,样本标准差为76分钟。在95%的置信水平下估计平均等候时间的置信区间。解:由题意知,95%的置信度,自由度为32时,对应的t分布的临界值为 ,应用公式(6-13)可得:即【例6-2】6.4 参数估计第6章6.4.4比例的置信区间估计总体比例( π )的区间估计可以通过对样本比例( p )的不确定性增加一个限制来计算。6.4 参数估计第6章置信区间上下界通过以下公式来计算其中Zα/2 是所要求的置信度的标准正态值P 是样本比例n 是样本容量注意:一定要 np > 5 和n(1-p) > 56.4 参数估计第6章某网站对1120名全职妈妈进行了调查,其中280位表明她们对工作-生活的平衡并不满意。计算全职妈妈中对工作-生活的平衡并不满意的总体比例的90%置信区间估计。解:置信区间估计可以计算如下:90%的置信度对应的关键值 ,则有即【例6-3】6.4 参数估计第6章均值样本容量的确定比例6.5 样本容量的确定第6章样本容量需要达到置信度(1 - )要求下的误差界限(ME)此误差界限也称为抽样误差总体参数估计时的不精确量点估计生成置信区间时增加减少的量6.5.1估计总体均值时样本容量的确定6.5 样本容量的确定第6章均值样本容量的确定抽样误差(误差界限)6.5 样本容量的确定第6章均值样本容量的确定求解n得到6.5 样本容量的确定第6章为了确定均值所需的样本容量,必须知道:目标置信度 (1 - ),其决定了关键值 Zα/2可接受的抽样误差标准差 σ6.5 样本容量的确定第6章如果 = 45,在90%的置信度下均值±5的估计所需的样本容量要多大?(取整)所以目标样本容量 n = 220求样本容量的例子6.5 样本容量的确定第6章如果σ是未知的,其可以通过目标样本容量的公式来进行估计使用的σ值应期望至少与真实的σ值一样大选择一个试验样本并通过样本标准差S来估计σ如果σ未知6.5 样本容量的确定第6章样本容量的确定比例求解n得到6.5.2、估计总体比例时样本容量的确定6.5 样本容量的确定第6章为了确定比例的目标样本容量,必须知道:目标置信度 (1 - ),其决定了关键值 Zα/2可接受的抽样误差 MEp真实的总体比例 ππ可以通过一个试验样本来估计 (或者谨慎的使用0.5来估计π)(续)样本容量的确定6.5 样本容量的确定第6章在95%的置信度下, 多大的样本可以估计真实比例,且其总体误差在±3%以内? (假定一个试验样本p = 0.12)求样本容量的例子6.5 样本容量的确定第6章解:对于95%的置信度, Zα/2 = 1.96MEp = 0.03p = 0.12,用此估计π故 n = 451(续)求样本容量的例子6.5 样本容量的确定第6章讨论了概率与非概率样本叙述了四种常见概率样本讨论了调查价值和调查误差的类型介绍了抽样分布叙述了平均数的抽样分布对于正态分布总体使用中心极限定理叙述了比例的抽样分布使用抽样分布计算概率小 结第6章介绍置信区间的概念讨论点估计置信区间的估计均值的置信区间估计 (σ已知)均值的置信区间估计 (σ未知)比例的置信区间估计目标均值比例的样本容量的确定小 结 展开更多...... 收起↑ 资源预览