资源简介 (共69张PPT)第六章 参数估计第六章 参数估计§1 抽样分布§2 点估计§3 区间估计§4 一个总体参数的区间估计§5 两个总体参数的区间估计§6 样本量§1 抽样分布§1.1 抽样的基本概念§1.2 样本均值的抽样分布§1.3 中心极限定理§1.1 抽样的基本概念在抽样问题中,我们把研究对象的全体称为总体(population),总体的数量特征就是总体参数(Population parameter)。为了解总体的情况,我们从总体中随机抽取的个个体称为样本(sample),样本的数量特征就是统计量(statistics),它与总体参数相对应。统计量是关于样本数据的函数,它不依赖任何未知参数,利用调查数据,就能直接计算得到统计量的值。§1.1 抽样的基本概念设 是从总体中抽取的容量 为的一个样本,根据样本构造一个函数 ,该函数便是一个统计量,也称为样本统计量。当调查得到样本数据的值 时,代入 ,计算出的数值,就得到了一个具体的统计量值。在这里,大写的 表示变量,小写的 表示变量的具体取值,相应的, 表示统计量,而 则表示统计量的一个具体结果。§1.1 抽样的基本概念设 是从总体中抽取得到一个样本,则:样本均值为样本方差为样本均值和方差是最常见的统计量。§1.2 样本均值的抽样分布设总体 服从正态分布 , 为 个互相独立且与总体同分布的随机变量,则样本均值 服从期望为 ,方差为 的正态分布。记作:上面的结果表明,样本均值的期望与总体均值相同,而方差则变为原来的 ,这说明用样本均值去估计总体均值,平均来说没有偏差(因为期望相等),当样本量 增加时,样本均值的方差变小,即用样本均值 估计总体均值 会更加精确。§1.3 中心极限定理设总体 的分布未知,但已知均值为 ,方差为 ,抽取得到一个容量为的样本,当 足够大(我们通常要求 )时,则样本均值近似服从期望为 ,方差为 的正态分布。中心极限定理告诉我们:不管总体服从什么样的分布,只要样本量足够大,样本均值都近似服从正态分布。§2 点估计参数估计的方法分为:点估计区间估计点估计:直接以样本统计量的某个取值作为总体参数的估计值区间估计:给出一个区间,说起来留有余地,不像点估计那么绝对§2 点估计§2.1 点估计§2.2 点估计优劣的评价标准§2.1 点估计点估计(point estimation)就是直接以样本统计量的某个取值作为总体参数的估计值。在统计中经常使用的点估计量有:用样本均值 直接估计总体均值,用样本比例 直接估计总体比例 ,用样本方差 直接估计总体方差 等。§2.1 点估计【例6.1】已知某种灯泡的寿命 ,其中 和 都是未知的。现随机抽取,10只灯泡,测得寿命(单位:小时)分别为1502,1453,1567,1510,1500,1468,1582,1534,1450,1504,试估计 和 。§2.1 点估计解:因为 是全部灯泡的平均寿命, 为样本平均寿命,根据点估计的思想,用 估计 ,用 估计 。由于所以, 和 的估计值分别为1507小时和1970.222小时。§2.2 点估计优劣的评价标准评价估计量好坏的标准:无偏性有效性一致性§2.2 点估计优劣的评价标准1.无偏性定义如果 的期望等于未知参数 ,即 对一切可能的成立,则称 为 的无偏估计。§2.2 点估计优劣的评价标准【例6.2】设 为从一均值为 的总体中抽取的样本,请验证 的如下估计量的无偏性:§2.2 点估计优劣的评价标准解:由于 ,容易验证 , 。因而,都是 的无偏估计。然而, , ,因而它们都不是 的无偏估计。§2.2 点估计优劣的评价标准2.有效性定义设 和 均为参数 的无偏估计,如果有则称 比 有效。当 是所有无偏估计中方差最小的那个时,称 为最小方差无偏估计。§2.2 点估计优劣的评价标准3.一致性定义设 是 的一个估计量,若 依概率收敛于 ,即对任意的 ,则称 是 的一致估计。同时满足上述三条标准的估计量称为一致最小方差无偏估计量。§3 区间估计定义 设 为总体的一个未知参数, 是来自该总体的一个样本,对给定的 ,确定两个统计量 和 ,若有成立,则 称为 的置信度为 的置信区间 。其中, 称为置信下限, 称为置信上限。为显著性水平,一般取较小的值,如 , 等。§3 区间估计区间长度 则表示估计的范围,即估计的精度,区间长度越短越好。但置信度和区间长度是相互矛盾的。实际中,我们总是在保证置信度的前提下,尽可能地提高精度。§4 一个总体参数的区间估计§4.1 正态分布总体§4.2 非正态分布总体§4.3 比例的估计§4.1 正态分布总体1.正态总体, 已知当总体服从正态分布且 已知时,样本均值 的抽样分布均为正态分布,对 进行标准化以后的随机变量将服从标准正态分布,即有:从而,总体均值 在置信度 下的置信区间为:§4.1 正态分布总体【例6.3】从某超市的货架上随机地抽得9包0.5千克装的白糖,实测其重量分别为(单位:千克):,从长期的实践中知道,该品牌的白糖重量服从正态分布已知 ,求 的 置信区间。§4.1 正态分布总体解:经计算, ,对于显著性水平 ,查标准正态分布表,可得 ,于是, 的 置信区间为§4.1 正态分布总体2.正态总体, 未知方差未知,且为小样本时,虽然同样可以用样本方差代替 来构建总体均值的置信区间,但此时,样本均值经标准化以后的随机变量服从自由度为 的 分布,即:§4.1 正态分布总体根据 分布建立的总体均值 在置信度 下的置信区间为:其中, 为自由度为 时, 分布中左侧面积为 时的值。§4.1 正态分布总体【例6.4】 例6.3中,若 未知,求 的95%的置信区间。解:已知 , ,直接计算可得对于显著性水平 ,查自由度为 的 分布表,可得。从而, 的95%置信区间为:§4.2 非正态分布总体当总体是非正态分布总体时,在数学上可以证明,当样本足够大时,无论总体是否服从正态分布,样本均值 的抽样分布均为正态分布,其数学期望为总体均值 ,方差为 ,其中 为总体方差。对 进行标准化以后的随机变量将服从标准正态分布,即有:从而,总体均值 在置信度 下的置信区间为:其中, 是标准正态分布左侧面积为 时的Z值。§4.2 非正态分布总体如果总体的方差未知,则式中的 可用样本标准差 代替 ,此时总体均值的置信区间变为:§4.2 非正态分布总体【例6.5】从某校随机地抽取100名男学生,测得平均身高为170厘米,标准差为7.5厘米,试求该校男学生平均身高95%的置信区间。§4.2 非正态分布总体解:由于为大样本,且总体方差未知,又=100, =170, =7.5,1- =0.95,查表得 =1.96,有 =170±1.96=170±1.47因此,该校男学生平均身高的95%的置信区间为68.5~171.5厘米之间。§4.3 比例的估计大样本情形( , 时),比例 的抽样分布可用正态分布近似。的数学期望为 , 的方差为 。样本比例经标准化后的随机变量服从标准正态分布,即:§4.3 比例的估计从而,总体比例 在置信度 下的置信区间为:§4.3 比例的估计值未知的解决办法:用样本比例 来代替 ,总体比例的置信区间可表示为:较为保守的方法:当 = =0.5时, 达到最大值。所以用0.5作为 的估计值求出的将是最宽的置信区间:当0.3≤ ≤0.7时,由这两种方法得到的结果很接近。§4.3 比例的估计【例6.6】从某社区抽取一个由200个家庭组成的样本,发现其中有36%的家庭拥有电脑。试问,在99%的置信度下,该社区拥有电脑的家庭所占比例的置信区间是多少?§4.3 比例的估计解:若采用第一种方法,得到的置信区间为:=O.36±2.58=O.36±O.09=[0.27,0.45]§4.3 比例的估计若采用第二种方法,则得到置信区间:=036±2.58=O.36±O.09=[0.27,0.45]因此,该社区拥有电脑的家庭所占比例的置信区间是[27%,45%]。§5 两个总体参数的区间估计§5.1 独立样本§5.2 匹配样本§5.3 比例之差的估计§5.1 独立样本独立样本指的是两个样本从两个总体中独立抽取,一个样本中的元素与另一个样本中的元素相互独立。§5.1 独立样本假设有两个总体,它们均值分别为 和 ,方差分别为 和 ,现分别从这两个总体中独立地抽取大小为 和 的两个样本。在大样本情形下,无论两个总体是否服从正态分布,两个样本均值之差的抽样分布均服从期望为 - ,方差为 的正态分布,即有:§5.1 独立样本对 进行标准化,则有§5.1 独立样本当两个总体的方差为 、 已知时,由 ,可构造 置信度下的 的置信区间为当两个总体的方差 、 未知时,可以用两个样本方差来代替。置信区间为:§5.2 匹配样本匹配样本指的是一个样本中的数据与另一个样本中的数据相对应。大样本条件下,使用匹配样本进行估计时,两个总体均值之差 的 置信度下的置信区间为其中,表示两个匹配样本数据的差值, 表示各差值的均值,表示各差值的标准差。§5.2 匹配样本若 未知,可用样本数据 来代替。而如果是小样本,若两个总体配对的观察值之差服从正态分布,则 的置信区间为§5.2 匹配样本【例6.7】某机构对随机抽取的10名小学生采用A、B两套试卷测智力,结果如表6.1所示,试建立这两套试卷平均得分之差的95%置信区间。§5.2 匹配样本解:将每位学生A套试卷的得分与B套试卷得分相差,得到差值 列。又查 分布表可知 ,得到这两套试卷平均得分之差的95%置信区间为:§5.3 比例之差的估计两个样本比例之差 的抽样分布服从正态分布,将 进行标准化,则有§5.3 比例之差的估计通常 和 是未知的,可以用样本比例 和 来代替。两个总体比例之差 在 置信度下的置信区间可构建为§5.3 比例之差的估计【例6.8】H公司委托一家市场调查公司对旗下产品进行调查,以对该公司产品在两个地区的市场占有率进行比较。调查公司从这两个地区分别随机调查了1000人,其中使用过H公司产品的被调查者所占的比例分别为30%和22%,试求这两个地区H公司产品市场占有率之差的95%置信区间。§5.3 比例之差的估计解: , =30%, =22%,故 =70%, =78%,查表可得, = =1.96。代入算式,得:从而,两个地区产品市场占有率之差的95%置信区间为§6 样本量§6.1 确定样本量的一般问题§6.2 一般问题的具体化§6.1 确定样本量的一般问题在 置信度下,总体均值 的置信区间为 ,其区间长度为 。置信区间长度的一半称为允许误差,表示在一定的置信度下,用样本均值去估计总体均值时所允许的最大绝对误差,用符号 表示。允许误差 、可靠性系数、总体标准差和样本量之间存在着如下关系:§6.1 确定样本量的一般问题从而有§6.1 确定样本量的一般问题影响样本量的因素主要有:1.可靠性系数所需要的样本量与可靠性系数成正比关系2.总体方差所需要的样本量与总体方差也成正比关系3.允许误差所需要的样本量与允许误差成反比关系§6.2.1估计总体均值1.单个总体情形若总体方差未知,则可采用经验值代替。§6.2 一般问题的具体化【例6.9】设某市家庭的月均收入服从正态分布,标准差为l000元,现要对该市家庭的月平均收入进行估计,若置信度为95%,允许的估计误差在100元以内,样本量应定为多少?§6.2 一般问题的具体化解:由题意, =1000元, =100元, =1-0.95=0.05,查表得 =1.96,代入算式,得= =384.16385 385(人)§6.2 一般问题的具体化§6.2 一般问题的具体化2.两个总体情形对于给定的允许误差和置信度,估计两个总体均值之差所需的样本量为:其中, 和 为从两个总体中抽取的样本量, 和 为两个总体的方差。【例6.10】假定两个总体的标准差分别为 , ,若要求误差范围不超过5,相应的置信度为95%。假定 估计两个总体均值之差 时所需的样本量为多大?§6.2 一般问题的具体化解:因而,所需的样本量为 =57, =57。§6.2 一般问题的具体化§6.2.2 估计总体比例1.单个总体情形与估计总体均值时样本量的确定方法类似,单个总体情形,估计总体比例的允许误差的表达式为§6.2 一般问题的具体化整理可得样本量的确定公式:§6.2 一般问题的具体化【例6.11】如果认为某地区私家车的拥有比例为0.5,且要求在95%的置信度下保证这一比例的允许的估计误差不超过3%,试问样本量应定为多少?§6.2 一般问题的具体化解:据题意, =0.03, =0.5, =0.05,查表可得 =1.96,= =1067.111068§6.2 一般问题的具体化2.两个总体情形同样,在给定允许误差、置信度的条件下,估计两个总体比例之差所需要的样本量为:其中, 和 为从两个总体中抽取的样本量, 和 为两个总体的比例。§6.2 一般问题的具体化【例6.12】假定 ,允许误差 =0.05,相应的置信度为95%,估计两个总体比例之差 时所需的样本量为多大?§6.2 一般问题的具体化解:因而,所需的样本量 和 各为769。§6.2 一般问题的具体化统 计 学谢 谢! 展开更多...... 收起↑ 资源预览