资源简介 (共48张PPT)第 6 章 参数估计6.1 参数估计的原理6.2 总体均值的区间估计6.3 总体比例的区间估计6.4 总体方差的区间估计6.5 样本量的确定parameter estimation思考一下北京同仁堂生产的“六味地黄丸”药品外包装上标示:每瓶装360粒,每100粒重20克。如果每次拿出100粒进行量重,不一定恰好就是20克。假定你做10次量重试验,能知道每100粒的平均重量范围是多少吗?一家电视台有一档“每周质量报告”节目,会对所关注的某种商品进行检测。在对某种商品的检测中,随机抽取10件产品,发现有两件不合格,由此得出不合格率为20%,你相信这样的质量报告吗?有两个品牌的五号电池,它们的平均使用寿命(小时)差不多,但一个品牌的寿命方差为10个小时,另一个品牌的寿命方差为8小时,你认为哪个更好?2016年11月的美国总统大选,之前的民意测验大多认为支持希拉里多于支持特朗普的人数,希拉里获胜的可能性超过90%。但竞选结果却是特朗普获胜。你认为民意测验可靠吗?6.1 参数估计的原理6.1.1 点估计与区间估计6.1.2 评价估计量的标准第 6 章 参数估计6.1.1 点估计与区间估计6.1 参数估计的原理参数估计(parameter estimation)就是用样本统计量去估计总体的参数估计量:用于估计总体参数的统计量的名称如样本均值,样本比例,样本方差等例如: 样本均值就是总体均值 的一个估计量参数用 表示,估计量用 表示估计值:估计参数时计算出来的统计量的具体值如果样本均值 x =80,则80就是 的估计值估计量与估计值(estimator & estimated value)点估计(point estimate)用样本的估计量的某个取值直接作为总体参数的估计值例如:用样本均值直接作为总体均值的估计;用两个样本均值之差直接作为总体均值之差的估计无法给出估计值接近总体参数程度的信息由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体真值一个点估计量的可靠性是由它的抽样标准误来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量区间估计的图示将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例,也称置信度表示为 (1 - 为是总体参数未在区间内的比例 常用的置信水平值有 99%, 95%, 90%相应的 为0.01,0.05,0.10置信水平(confidence level)区间估计(interval estimate)在点估计的基础上,给出总体参数估计的一个估计区间,该区间由样本统计量加减估计误差而得到根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量比如,某班级平均分数在75~85之间,置信水平是95%样本统计量(点估计)置信区间置信下限置信上限由样本估计量构造出的总体参数在一定置信水平下的估计区间统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%的区间不包含总体参数的真值,那么,用该方法构造的区间称为置信水平为95%的置信区间。同样,其他置信水平的区间也可以用类似的方式进行表述置信区间的表述(confidence interval)总体参数的真值是固定的,而用样本构造的区间则是不固定的,因此置信区间是一个随机区间,它会因样本的不同而变化,而且不是所有的区间都包含总体参数实际估计时往往只抽取一个样本,此时所构造的是与该样本相联系的一定置信水平(比如95%)下的置信区间。我们只能希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个置信区间的表述(confidence interval)当抽取了一个具体的样本,用该样本所构造的区间是一个特定的常数区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值,因为它可能是包含总体均值的区间中的一个,也可能是未包含总体均值的那一个一个特定的区间总是“包含”或“绝对不包含”参数的真值,不存在“以多大的概率包含总体参数”的问题置信水平只是告诉我们在多次估计得到的区间中大概有多少个区间包含了参数的真值,而不是针对所抽取的这个样本所构建的区间而言的置信区间的表述(confidence interval)置信区间的表述(95%的置信区间)从一个均值为50、标准差为5的正态总体中,抽取n=10的100个随机样本,得到的100个95%的置信区间使用一个较大的置信水平会得到一个比较宽的置信区间,而使用一个较大的样本则会得到一个较准确(较窄)的区间。直观地说,较宽的区间会有更大的可能性包含参数但实际应用中,过宽的区间往往没有实际意义比如,天气预报说“在一年内会下一场雨”,虽然这很有把握,但有什么意义呢?另一方面,要求过于准确(过窄)的区间同样不一定有意义,因为过窄的区间虽然看上去很准确,但把握性就会降低,除非无限制增加样本量,而现实中样本量总是有限的区间估计总是要给结论留点儿余地置信区间的表述(confidence interval)6.1.2 评价估计量的标准6.1 参数估计的原理无偏性(unbiasedness)无偏性:估计量抽样分布的数学期望等于被估计的总体参数有效性(efficiency)有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效一致性(consistency)一致性:随着样本量的增大,估计量的值越来越接近被估计的总体参数6.2 总体均值的区间估计6.2.1 大样本的估计6.2.2 小样本的估计第 6 章 参数估计一个总体参数的区间估计总体参数 符号表示 样本统计量均值比例方差总体均值区间的一般表达式总体均值的置信区间是由样本均值加减估计误差得到的估计误差由两部分组成:一是点估计量的标准误,它取决于样本统计量的抽样分布。二是估计时所要的求置信水平为时,统计量分布两侧面积为的分位数值,它取决于事先所要求的可靠程度总体均值在置信水平下的置信区间可一般性地表达为样本均值±分位数值×样本均值的标准误6.2.1 大样本的估计6.2 总体均值的区间估计总体均值的区间估计(大样本的估计)1. 假定条件总体服从正态分布,且方差( 2) 已知如果不是正态分布,可由正态分布来近似 (n 30)使用正态分布统计量 z总体均值 在1- 置信水平下的置信区间为大样本的估计(例题分析)【例6-1】在某批次袋装食品中,机抽取50袋进行检测,得到的每袋重量如下。估计该批食品平均重量的95%的置信区间:(1)检定总体标准差为25克。(2)假定总体方差未知489.9 494.5 499.3 499.6 503.1 497.7 499.1 499.6 494.1 500.9500.3 501.0 494.8 496.6 484.5 501.2 499.6 498.1 504.2 501.7505.7 500.7 497.1 500.4 501.1 499.8 501.0 500.3 500.8 501.1509.3 509.3 503.5 507.1 505.8 500.2 494.4 505.0 502.0 496.5495.0 495.7 501.8 498.4 502.2 502.6 500.8 493.4 508.6 490.6大样本的估计(例题分析)(1)已知。根据样本数据计算得:。根据式(6.2)得:即:(498.414,501.186),该批食品平均重量的95%的置信区间为498.414克~501.186克之间(2)由于总体方差未知,需要用样本方差代替。根据样本数据计算得:。根据式(6.3)得:即(498.461,501.139),该批食品平均重量的95%的置信区间为498.461克~501.139克之间大样本的估计(例题分析)在大样本情形下,估计误差可以由Excel的【CONFIDENCE.NORM】函数求得语法为:。其中:为显著性水平,为置信水平,为已知的总体标准差(未知时用样本标准差代替);为样本量例如,。用样本标准差代替时有。与手工计算结果相同6.2.2 小样本的估计6.2 总体均值的区间估计总体均值的区间估计(小样本的估计)1. 假定条件总体服从正态分布,但方差( 2) 未知小样本 (n < 30)使用 t 分布统计量总体均值 在1- 置信水平下的置信区间为小样本的估计(例题分析)【例6-2】从某种型号的手机电池中随机抽取10,测得其使用寿命随机如表6—2所示。假定电池使用寿命服从正态分布,建立该种型号手机电池平均使用寿命的95%的置信区间。(1)假定总体标准差为500小时。(2)假定总体标准差未知10018 10638 9803 10488 111929727 9907 9234 10282 9073小样本的估计(例题分析)(1)虽然为小样本,但总体方差已知,因此可按式(6.2)计算置信区间。由Excel函数得:。由样本数据计算得:。根据式(6.4)得:即:。该批手机电池平均使用寿命的95%的置信区间为之间。由Excel的【CONFIDENCE.NORM】函数得估计误差,与手工计算结果一致小样本的估计(例题分析)(2)由于是小样本,且总体标准差未知,因此需要用t分布建立置信区间。由Excel函数得:。由样本数据计算得:,。根据式(6.4)得:即:,该批手机电池平均使用寿命的95%的置信区间为之间小样本的估计(例题分析)在小样本情形下,估计误差可以由Excel的【CONFIDENCE.T】函数求得,语法为:。其中:为显著性水平,为置信水平,为样本标准差;为样本量。例如,对于上述问题(2)有:9。与手工计算结果相同6.3 总体比例的区间估计第 5 章 参数估计总体比例的区间估计1. 假定条件总体服从二项分布可以由正态分布来近似np(成功次数)和n(1-p)(失败次数)均应该大于10使用正态分布统计量 z3. 总体比例 在1- 置信水平下的置信区间为样本比例±分位数值×样本比例的标准误总体比例的区间估计(例题分析)【例6-3】某电视频道想要估计观看某档娱乐节目中的人群女性所占的比例,随机抽取100名观众,其中65人为女性。用95%的置信水平估计观看该档娱乐节目的人群中女性比例的置信区间由抽样结果计算的样本比例为。由Excel中的【NORM.S.INV】函数得。根据式(6.6)得:即(55.65%,74.35%),观看该档娱乐节目的人群中女性比例95%的置信区间为55.65%~74.35%。6.4 总体方差的区间估计第 5 章 参数估计总体方差的区间估计1. 估计一个总体的方差或标准差2. 假设总体服从正态分布总体方差 2 的点估计量为s2,且4. 总体方差在1- 置信水平下的置信区间为总体方差的区间估计(图示)根据样本数据计算的样本方差为。根据显著性水平和自由度,由Excel中的【CHISQ.INV】函数得分布的左尾临界2.700389;右尾临界值5,9)= 19.02277总体方差的区间估计(例题分析)【例6-4】沿用例6—2。以95%的置信水平建立该种型号手机电池使用寿命方差的置信区间6.5 样本量的确定6.5.1 估计总体均值时样本量的确定6.5.2 估计总体比例时样本量的确定第 6 章 参数估计6.5.1 估计总体均值时样本量的确定6.5 样本量的确定估计总体均值时样本量n为样本量n与总体方差 2、边际误差E、可靠性系数Z或t之间的关系为与总体方差成正比与边际误差的平方成反比与可靠性系数成正比样本量的圆整法则:当计算出的样本量不是整数时,将小数点后面的数值一律进位成整数,如24.68取25,24.32也取25等等估计一个总体均值时样本量的确定其中:估计一个总体均值时样本量的确定(例题分析)【例6-5】拥有工商管理学士学位的大学毕业生年薪的标准差大约为2000元,假定想要估计年薪95%的置信区间,希望边际误差为400元,应抽取多大的样本量?估计一个总体均值时样本量的确定(例题分析)解: 已知 =2000,E=400, 1- =95%, z /2=1.96应抽取的样本量为即应抽取97人作为样本6.5.2 估计总体比例时样本量的确定6.5 样本量的确定根据比例区间估计公式可得样本量n为估计一个总体比例时样本量的确定E的取值一般小于0.1 未知时,可取使方差达到最大的值0.5其中:估计总体比例时样本量的确定(例题分析)【例6-6】根据以往的生产统计,某种产品的合格率约为90%,现要求边际误差为5%,在求95%的置信区间时,应抽取多少个产品作为样本?解:已知 =90%, =0.05, z /2=1.96,E=5%应抽取的样本量为应抽取139个产品作为样本结 束THANKS 展开更多...... 收起↑ 资源预览