资源简介 (共56张PPT)1统计学Statistics2第 6 章 参数估计6.1 参数估计的基本原理6.2 一个总体参数的区间估计6.3 两个总体参数的区间估计6.4 样本量的确定6.5 小结3第 6 章 参数估计6.1 参数估计的基本原理4参数估计的基本原理参数估计中把用于估计总体参数的样本统计量就称为估计量(estimator)。由于估计量是样本的函数(不包含未知的总体参数),如果重复多次抽样,根据每个样本数据计算出来的估计量取值都可能不一样,所以估计量本身也是一个随机变量,有自己的抽样分布。参数估计(parameter estimation)是用样本统计量估计未知的总体参数。5参数估计的基本原理实践中往往只能抽取一次样本,根据一个具体样本计算得到的估计量的取值就称为估计值(estimate)。一般地,通常用 表示总体参数,用 表示估计量。为便于区分,各类常见的总体参数和相应的估计量符号如表6-1所示。 总体参数 估计量均值 方差 σ2 s2标准差 σ s比例 π p表6-1 常见的总体参数和相应的估计量符号6参数估计的基本原理直接将基于某个特定样本计算出来的估计量的取值作为总体参数的估计值的方法就称为点估计(point estimation)。理论上而言,根据一个特定样本计算出来的估计值恰好等于总体参数真实取值的概率是很小的,并且如果能够重复多次抽样,每次抽样计算出来的点估计值也都可能不一样,这是由抽样的随机性所决定的。因此,讨论一个具体的点估计值的可靠性是没有意义的,我们应该根据一些标准来选择合适的点估计量,也就是确定合适的计算点估计值的方法。7参数估计的基本原理统计学中常用的评价估计量好坏的标准主要包括无偏性、有效性和一致性。一般地,无偏性(unbiasedness)是指估计量抽样分布的期望值等于被估计的总体参数。在同一个总体参数的多个无偏估计量中,人们更倾向于选择方差更小的估计量。有效性(efficiency)指的就是估计量的方差大小。一致性(consistency)是指随着样本量的增大,点估计量的值越来越接近被估计的总体参数。8参数估计的基本原理为了提供比点估计更多的信息,并且能够给出估计的可靠性,人们更多地会选择区间估计的方法。区间估计(interval estimation)是在点估计的基础上给出总体参数的一个估计区间,该区间通常是由样本统计量加减边际误差(margin of error)构造得到。与此同时,通常用置信水平(confidence level,也称置信度)来度量区间估计的可靠性,记作1-α。9参数估计的基本原理基于样本统计量构造出的一定置信水平下的总体参数的估计区间也称为置信区间(confidence interval)。区间的最小值称为置信下限,最大值称为置信上限,置信区间的宽度即为置信上限和置信下限的差值。10参数估计的基本原理虽然人们习惯将置信水平通俗地理解为所构造的置信区间包含总体参数真值的概率,但严格来说,总体参数的真值是固定的(虽然未知),根据一个特定样本最终计算出来的置信区间也是固定的,因此该区间要么包含总体参数的真值,要么不包含,并无概率可言。实际上,置信水平也是一个针对大量重复抽样的渐近概念。如果重复多次抽样,根据每次抽样结果计算出来的具体的置信区间不尽相同,置信水平表示的是在重复抽样情况下按特定方法构造的大量置信区间中包含总体参数真值的区间个数所占的比例。11第 6 章 参数估计6.2 一个总体参数的区间估计12总体均值的区间估计在对总体均值进行区间估计时,需要考虑总体是否服从正态分布、总体方差是否已知、用于估计的样本是大样本(n≥30)还是小样本(n<30)等几种不同情况。但无论是哪种情况,通常选择的点估计量都是样本均值 ,在此基础上,根据 的抽样分布计算指定置信水平下的边际误差,再由样本均值加减边际误差得到相应的置信区间。由于在上述任一种情况下, 的抽样分布都是左右对称的,因此总体均值 的1-α置信水平下的置信区间一般表达式为±(α/2上侧分位数× 的标准误差)13总体均值的区间估计在大样本(n≥30)情况下,无论总体是否服从正态分布,由中心极限定理可知,样本均值 都近似服从正态分布,且均值为 ,标准误差为 。那么, 经过标准化后得到的 就近似服从标准正态分布N(0,1)。当总体方差σ2已知时,总体均值 在1-α置信水平下的置信区间为其中, 为标准正态分布的α/2上侧分位数, 和 分别为置信上限和置信下限。14总体均值的区间估计当总体方差σ2未知时,用样本方差s2代替σ2, 的抽样分布不变,这时,总体均值 在1-α置信水平下的置信区间为其中, 和 分别为置信上限和置信下限。15总体均值的区间估计【例6.1】某款饮料的生产商在超市随机抽取了100位购买该饮料的消费者,记录下其年龄数据如表6-2所示。试构造该款饮料所有消费者平均年龄的95%置信区间。20 24 19 17 26 18 20 21 16 2222 26 18 28 22 24 25 19 28 2020 20 19 23 23 22 18 26 25 2218 16 22 24 26 22 26 19 20 2320 25 25 17 16 23 23 24 26 1827 26 23 19 18 20 22 22 17 2416 16 20 25 24 26 19 18 23 2220 22 25 17 18 23 26 20 20 1924 19 20 22 21 21 18 24 23 2617 21 25 23 18 16 20 22 20 21表6-2 某款饮料的100位消费者年龄数据 单位:岁16总体均值的区间估计解:根据题意,需要构造该款饮料所有消费者平均年龄即总体均值 的95%置信区间。样本量n=100,α=0.05,总体方差未知,因此用样本均值 作为估计量,用样本标准差s代替σ。根据表6-2中的样本数据计算得到: =21.44,s=3.13,使用Excel中的【NORM.S.INV】函数计算得到z0.025=1.96,代入公式得到即该款饮料所有消费者平均年龄的95%置信区间为20.83~22.05岁。17总体均值的区间估计在小样本(n<30)情况下,需要假设总体服从正态分布。当总体方差σ2已知时,样本均值 同样服从均值为 ,标准误差为 的正态分布,此时总体均值 在1-α置信水平下的置信区间仍然为其中, 为t(n-1)分布的α/2上侧分位数, 和 分别为置信上限和置信下限。但当总体方差σ2未知时,用样本方差s2代替σ2, 经过标准化后得到的 则服从自由度为n-1的t分布。这时,总体均值 在1-α置信水平下的置信区间为18总体均值的区间估计【例6.2】某食品生产企业生产的薯片标注每袋重量为150克,质检机构从其生产的一批产品中随机抽取了25袋,并测量每袋薯片的重量数据如表6-3所示。假定该批薯片的重量服从正态分布,试构造该批薯片平均重量的90%置信区间。150.5 151.0 149.8 150.2 150.0148.5 151.2 153.0 147.0 150.9147.6 152.3 150.0 148.0 149.7153.4 151.0 146.9 152.0 151.6150.7 149.0 148.8 152.1 153.2表6-3 随机抽取的25袋薯片重量数据 单位:克19总体均值的区间估计解:根据题意,需要构造该批薯片平均重量即总体均值 的90%置信区间。样本量n=25,α=0.1,总体服从正态分布但方差未知,因此用样本均值 作为估计量,用样本标准差s代替σ。根据表6-3中的样本数据计算得到: =150.34,s=1.85,使用Excel中的【T.INV】函数计算得到t0.05(24)=1.71,代入公式得到即该批薯片平均重量的90%置信区间为149.71~150.97克。20总体比例的区间估计从一般性来看,通过样本数据的调查(样本量为n)来估计总体中具有某一类特征的个体所占的比例π,相当于做了n次伯努利试验,每次试验的结果只有两种可能,要么具有该类特征(记为“成功”),要么不具有该类特征(记为“失败”)。因此,在大样本情况下,抽取的样本数据中具有指定特征的个体所占的比例p也近似服从正态分布,且均值等于总体比例π(即每次试验成功的概率),标准误差等于 。那么,样本比例p经过标准化后得到的 就近似服从标准正态分布N(0,1)。总体比例π的1-α置信水平下的置信区间一般表达式为p±(α/2上侧分位数×p的标准误差)21总体比例的区间估计与大样本情况下总体均值的区间估计类似,由于总体比例π未知,用样本比例p代替标准误差中的π,最后得到总体比例π在1-α置信水平下的置信区间为其中, 和 分别为置信上限和置信下限。22总体比例的区间估计【例6.3】某电视频道想要估计旗下一档王牌节目的观众中女性所占的比例,为此随机调查了100名观众,其中72人为女性。试构造该档节目所有观众中女性比例的99%置信区间。解:根据题意,需要构造该档节目所有观众中女性比例即总体比例π的99%置信区间。样本量n=100,α=0.01,样本比例p=0.72,使用Excel中的【NORM.S.INV】函数计算得到z0.005=2.58,代入公式得到即该档节目所有观众中女性比例的99%置信区间为60.42%~83.58%。23总体方差的区间估计要构造总体方差σ2的置信区间,自然想到选择样本方差s2作为估计量。在总体服从正态分布的假定下,可以证明 服从自由度为n-1的 分布。依据 分布的概率密度曲线可得其中, 和 分别为 (n-1)分布的1-α/2上侧分位数和α/2上侧分位数。 和 即为总体方差σ2在1-α置信水平下的置信区间上下限。24总体方差的区间估计【例6.4】沿用例6.2,试构造该批薯片重量方差的90%置信区间。解:根据题意,需要构造该批薯片重量方差即总体方差σ2的90%置信区间。样本量n=25,α=0.1,总体服从正态分布,基于表6-3中的样本数据已经计算得到s=1.85,使用Excel中的【CHISQ.INV.RT】函数可以计算得到 (24)=36.42,(24)=13.85,代入公式得到总体方差σ2在90%置信水平下的置信区间为即该批薯片重量方差的90%置信区间为2.26~5.93。25第 6 章 参数估计6.3 两个总体参数的区间估计26两个总体均值之差的区间估计设两个总体的均值分别为 1和 2,从两个总体中分别抽取样本量为n1和n2的两个随机样本,其样本均值分别为 和 。与一个总体均值的区间估计类似,通常选择两个样本均值之差( )作为两个总体均值之差( 1- 2)的估计量,并在此基础上构建两个总体均值之差( 1- 2)的1-α置信水平下的置信区间一般表达式为( )±(α/2上侧分位数×( )的标准误差)具体地,需要考虑独立大样本、独立小样本以及配对样本三种不同情况。27两个总体均值之差的区间估计如果两个样本是从两个总体中独立随机抽取的,即一个样本中的元素与另一个样本中的元素相互独立,且均为大样本(n1≥30,n2≥30),可以证明,两个样本均值之差( )近似服从正态分布,且均值为( 1- 2),标准误差为 。那么,( )经过标准化后得到的就近似服从标准正态分布N(0,1)。当两个总体方差σ21和σ22已知时,两个总体均值之差( 1- 2)在1-α置信水平下的置信区间为当两个总体方差σ21和σ22未知时,分别用两个样本方差s21和s22代替,两个总体均值之差( 1- 2)在1-α置信水平下的置信区间为28两个总体均值之差的区间估计【例6.5】某连锁快餐店分别在一个高校集中区域和一个商务写字楼区域开设了两家分店,为了估计两家店日平均营业额的差值,试营业期间随机抽取了两家店60天的营业额数据(单位:万元),计算得到相关样本信息如表6-4所示。假设两家店的营业互不影响,试构造其日平均营业额之差的95%置信区间。分店1 分店2n1=60 n2=60=1.24 =0.98s1=0.16 s2=0.10表6-4 两家分店日营业额样本数据信息29两个总体均值之差的区间估计解:根据题意,需要构造两家分店日平均营业额之差即总体均值之差( 1- 2)的95%置信区间。随机抽取了两个独立大样本,样本量n1=n2=60,α=0.05,两个总体方差未知,因此用两个样本均值之差( )作为估计量,用两个样本方差s21和s22分别代替总体方差σ21和σ22。使用Excel中的【NORM.S.INV】函数计算得到z0.025=1.96,与表6-4中的已知信息一并代入公式得到即这两家分店日平均营业额之差的95%置信区间为0.21~0.31万元。30两个总体均值之差的区间估计假定两个总体都服从正态分布,分别从两个总体中独立随机抽取两个小样本(n1<30,n2<30),当两个总体方差σ21和σ22已知时,两个样本均值之差( )近似服从均值为( 1- 2),标准误差为 的正态分布。因此,两个总体均值之差( 1- 2)的1-α置信水平下的置信区间仍然为当两个总体方差σ21和σ22未知时,则需要进一步区分以下两种情形。31两个总体均值之差的区间估计当两个总体方差σ21和σ22未知但相等时,即σ21=σ22=σ2,需要利用两个样本方差来合并估计总体方差,记为s2p,具体公式为用s2p代替σ21和σ22,两个样本均值之差( )经过标准化后得到的 服从自由度为(n1+n2-2)的t分布。这时,两个总体均值之差( 1- 2)在1-α置信水平下的置信区间为32两个总体均值之差的区间估计当两个总体方差σ21和σ22未知且不相等时,分别用两个样本方差s21和s22代替总体方差σ21和σ22,两个样本均值之差( )经过标准化后得到的 服从自由度为v的t分布, 自由度v的计算公式为这时,两个总体均值之差( 1- 2)在1-α置信水平下的置信区间为33两个总体均值之差的区间估计【例6.6】某超市购进了一台自助结账机,为估计人工结账和自助结账完成每笔交易平均所需时间的差值,该超市随机调查了20笔人工结账和20笔自助结账交易所花时间,样本数据如表6-5所示。假设人工结账和自助结账互不影响,两种方式下每笔交易所需时间的方差σ21和σ22未知,试分别构造(1)σ21=σ22;(2)σ21≠σ22情形下人工结账和自助结账完成每笔交易平均所需时间之差的95%置信区间。人工 结账 40 55 70 63 58 74 35 46 68 8060 52 57 68 45 76 55 49 61 67自助 结账 35 46 32 51 49 54 30 44 48 5837 28 42 55 60 49 52 33 39 45表6-5 某超市20笔人工结账和自助结账交易所花时间 单位:秒34两个总体均值之差的区间估计解:根据题意,需要构造人工结账和自助结账完成每笔交易平均所需时间之差即总体均值之差( 1- 2)的95%置信区间。随机抽取了两个独立小样本,样本量n1=n2=20,α=0.05。根据表6-5中的样本数据计算得到: =58.95, =44.35,s21=147.94,s22=91.08。使用Excel中的【T.INV】函数计算得到t0.025(38)=2.02,一并代入公式得到(1)假定两个总体方差未知但相等,因此用两个样本均值之差( )作为估计量,将两个样本方差s21和s22代入公式得到即人工结账和自助结账完成每笔交易平均所需时间之差的95%置信区间为7.62~21.58秒。35两个总体均值之差的区间估计使用Excel中的【T.INV】函数计算得到t0.025(35.96)=2.03,一并代入公式得到(2)假定两个总体方差未知且不相等,因此用两个样本均值之差( )作为估计量,将两个样本方差s21和s22分别代替总体方差σ21和σ22,根据公式计算得到抽样分布的自由度即人工结账和自助结账完成每笔交易平均所需时间之差的95%置信区间为7.58~21.62秒。36两个总体均值之差的区间估计为了排除其他因素对所观察的变量可能产生的干扰,提高两个总体均值的可比性,有时候会将试验对象按照某些重要特征相近的原则进行配对设计(或者直接对同一组试验对象先后进行两次不同的试验),再获取相应的样本数据,这就是配对样本。在配对样本中,两个样本的数据是一一对应的,两个样本的样本量n1=n2=n,因此用d表示两两配对数据的差值(即x1-x2), 表示各差值的均值,两个总体配对差值的方差记为 ,两个样本配对差值的方差记为 。37两个总体均值之差的区间估计在大样本条件下, 近似服从正态分布,且均值为( 1- 2),标准误差为 ,两个总体均值之差( 1- 2)在1-α置信水平下的置信区间为在小样本条件下,假定两个总体的配对差值服从正态分布,当 已知时,构造的置信区间与上式一致;当 未知时,用 代替,此时, 经过标准化后得到的 服从自由度为(n-1)的t分布。因此,两个总体均值之差( 1- 2)在1-α置信水平下的置信区间为当 未知时,可用 代替。38两个总体均值之差的区间估计【例6.7】从某高校随机抽取10名学生,先后采用A、B两套试卷对其进行测试,每名学生的两次测试成绩如表6-6所示。假定总体上两套试卷的测试成绩之差服从正态分布,试构造两套试卷平均测试成绩之差的95%置信区间。学生编号 试卷A 试卷B 差值d1 78 71 72 63 44 193 72 61 114 89 84 55 91 74 176 49 51 -27 68 55 138 76 60 169 85 77 810 55 39 16表6-6 某高校10名学生两套试卷测试成绩 单位:分39两个总体均值之差的区间估计解:根据题意,需要构造两套试卷平均测试成绩之差即总体均值之差( 1- 2)的95%置信区间,由于是对同一组同学先后采用两套试卷进行测试,因此,这是典型的配对样本。样本量n1=n2=n=10,α=0.05。根据表6-6中的样本数据计算得到:使用Excel中的【T.INV】函数计算得到t0.025(9)=2.26,一并代入公式得到即两套试卷平均测试成绩之差的95%置信区间为6.33~15.67分。40两个总体比例之差的区间估计与一个总体比例的区间估计类似,要构造两个总体比例之差(π1-π2)的置信区间,通常选择两个样本比例之差(p1- p2)作为其估计量,在独立大样本(n1≥30,n2≥30)条件下,(p1- p2)近似服从正态分布,且均值等于总体比例之差(π1-π2),标准误差等于 ,两个样本比例之差经过标准化后就近似服从标准正态分布。由于两个总体比例π1和π2是未知的,分别用样本比例p1和p2代替,得到两个总体比例之差(π1-π2)在1-α置信水平下的置信区间为41两个总体比例之差的区间估计【例6.8】某保险公司拟开发一款新型寿险产品,为了解两个不同城市潜在消费者的购买意愿,在第一个城市随机调查了200人,其中40%的人明确表示有购买意愿;在第二个城市随机调查了300人,其中25%的人明确表示有购买意愿。试构造两个城市中有意愿购买该款寿险产品的消费者所占比例之差的99%置信区间。解:根据题意,需要构造两个城市中有意愿购买该款寿险产品的消费者所占比例之差即总体比例之差(π1-π2)的99%置信区间。样本量n1=200,n2=300,样本比例p1=0.4,p2=0.25,α=0.01,使用Excel中的【NORM.S.INV】函数计算得到z0.005=2.58,代入公式得到即两个城市中有意愿购买该款寿险产品的消费者所占比例之差的99%置信区间为3.98%~26.02%。42两个总体方差之比的区间估计如果要构造两个总体方差之比(σ21/σ22)的置信区间,通常会选择样本方差之比(s21/s22)作为估计量。可以证明,当两个总体均服从正态分布时, 服从自由度为n1-1和n2-1的F分布。依据F分布的概率密度曲线可得其中, 和 分别为F(n1-1, n2-1)分布的1-α/2上侧分位数和α/2上侧分位数, 和 即为两个总体方差之比(σ21/σ22)在1-α置信水平下的置信区间上下限。43两个总体方差之比的区间估计【例6.9】沿用例6.5,假定两家分店日营业额均服从正态分布,试构造其总体方差之比的95%置信区间。解:根据题意,需要构造两家分店日营业额总体方差之比(σ21/σ22)的95%置信区间。样本量n1=n2=60,s1=0.16,s2=0.10,α=0.05,两个总体均服从正态分布,使用Excel中的【F.INV.RT】函数可以计算得到F0.025 (59,59)=1.674,F0.975 (59,59)=0.597,代入公式得到两个总体方差之比(σ21/σ22)在95%置信水平下的置信区间为即两家分店日营业额总体方差之比的95%置信区间为1.53~4.29。44第 6 章 参数估计6.4 样本量的确定45样本量的确定理想情况下我们总是希望构造一个置信水平较高而宽度又较窄的置信区间。但从上述构造置信区间的过程中不难发现,当样本量固定的时候,设定一个较高的置信水平计算得到的置信区间也较宽,想要得到一个较窄的置信区间,相应的置信水平又会偏低。只有增加样本量,才能在固定的置信水平下缩小置信区间的宽度,或在固定的置信区间宽度下提高置信水平。因此,人们可以根据可接受的区间宽度和置信水平来计算所需的样本量,或者在最大样本量的允许条件下,寻求置信水平和置信区间宽度之间的平衡。46估计总体均值时样本量的确定1.一个总体均值的估计一个总体均值的置信区间通常表示为样本均值加减边际误差,因此边际误差的大小决定了置信区间的宽度,而置信水平1-α和样本量n共同决定了边际误差的大小。令E代表实践中可接受的边际误差,在大样本情况下 ,变化得到这样,对于给定的置信水平和允许的边际误差,就可以确定所需的样本量。如果总体方差σ2未知,可以用以往类似的样本或预调查的样本方差s2代替。47估计总体均值时样本量的确定【例6.10】假定某城市的上班族每天乘坐地铁到达工作单位所花时间的标准差为20分钟,要构造其平均时间的95%置信区间,允许的边际误差为5分钟,试计算所需的样本量。解:根据题意,已知σ=20,E=5,使用Excel中的【NORM.S.INV】函数计算得到z0.025=1.96,代入公式得到即调查的样本量应为62。48估计总体均值时样本量的确定2.两个总体均值之差的估计两个总体均值之差的置信区间通常表示为两个样本均值之差加减边际误差,在独立大样本情况下 ,假定抽取两个样本量相同的样本,变化得到同样地,当两个总体方差σ21和σ22未知时,可以分别用以往类似的样本或预调查的样本方差s21和s22代替。49估计总体均值时样本量的确定【例6.11】某研究机构想要估计 “双十一”消费者在两个购物网站上平均消费支出差值的95%置信区间,根据过去一年的调查数据显示消费者在两个购物网站上消费支出的标准差分别为500元和600元,现允许的边际误差为200元,假定新一轮计划调查的两个网站的消费者人数相同,试计算各自所需的样本量。解:根据题意,已知s1=500,s2=600,E=200,z0.025=1.96,代入公式得到即两个网站调查的样本量均为59。50估计总体比例时样本量的确定1.一个总体比例的估计在大样本情况下,一个总体比例的置信区间通常表示为样本比例加减边际误差,且 ,变化得到这样,对于给定的置信水平和允许的边际误差,就可以确定所需的样本量。一般来说,比例估计的边际误差E应小于10%。由于总体比例π未知,可以用以往类似的样本或预调查的样本比例p代替。51估计总体比例时样本量的确定【例6.12】某城市食品监督管理部门想要估计中秋节期间上市销售的月饼合格率的95%置信区间,根据过去一年的抽检数据显示月饼合格率约为96%,现允许的边际误差为3%,试计算新一轮抽检所需的样本量。解:根据题意,已知p=0.96,E=0.03,z0.025=1.96,代入公式得到即抽检的样本量应为164。52估计总体比例时样本量的确定2.两个总体比例之差的估计在独立大样本情况下,且两个总体比例π1和π2未知时, ,假定抽取两个样本量相同的样本,变化得到其中,p1和p2分别是用以往类似的样本或预调查的样本估计得到的两个样本比例。53估计总体比例时样本量的确定【例6.13】某大学分别面向经济类专业和管理类专业本科生开设了两个班次的《统计学》选修课程,教务部门想要估计两个专业学生中愿意选修这门课程的学生所占比例差值的95%置信区间。根据上学年的调查数据显示选修人数的比例分别为80%和75%,现允许的边际误差为10%,假定新一轮计划调查的两个专业的学生人数相同,试计算各自所需的样本量。解:根据题意,已知p1=0.8,p2=0.75,E=0.1,z0.025=1.96,代入公式得到即两个专业调查的样本量均为134。54第 6 章 参数估计6.5 小结55小结参数估计是用样本统计量估计未知的总体参数,用于估计总体参数的样本统计量就称为估计量。同一个总体参数的估计量并不唯一,常用的选择标准包括无偏性、有效性和一致性。如果直接将基于某个特定样本计算出来的估计量的取值作为总体参数的估计值,即为点估计;区间估计则是在点估计的基础上给出总体参数的一个估计区间,该区间通常是由样本统计量加减边际误差构造得到,并用置信水平度量区间估计的可靠性。56小结基于样本统计量构造出的一定置信水平下的总体参数的估计区间也因此称为置信区间。当样本量固定时,设定一个较高的置信水平计算得到的置信区间也较宽,想要得到一个较窄的置信区间,相应的置信水平就会偏低。人们往往会根据可接受的区间宽度和置信水平来计算所需的样本量,或者在最大样本量的允许条件下,寻求置信水平和置信区间宽度之间的平衡。 展开更多...... 收起↑ 资源预览