资源简介 (共39张PPT)第七章 抽样推断第一节 抽样推断概述第二节 抽样误差及其计算第三节 总体指标的推断 第四节 样本容量的确定 第七章学习目标了解抽样推断及其作用理解抽样推断的基本概念掌握纯随机抽样条件下抽样误差的计算掌握区间推断的方法在许多情况下, 需要用少量的样本调查资料来求得大量的总体资料, 比如工业产品的质量检验, 农作物产量的测算, 人口总量的核定等。 用抽样推断的方法来解决类似这样的问题最为适宜。第七章第一节 抽样推断概述一、 抽样推断及其作用1. 抽样推断的概念抽样推断是按照随机原则从总体中抽取一部分单位进行调查, 并以此对总体进行数量上的推断的一种调查方式。 在市场经济条件下, 社会经济的发展越趋复杂, 使抽样推断的方法得到更加广泛的应用。随机原则是指从调查对象中抽取样本单位时, 不受主观意识的影响, 每一个被调查单位被抽中的机会 (概率) 是同等的。 只有这样才能保证样本与总体有相似的结构, 使所抽中的样本单位具有广泛的代表性, 从而保证推断应有的准确性。 因此, 遵循随机原则是抽样推断科学性的先决条件。第七章第一节 抽样推断概述一、 抽样推断及其作用2. 抽样推断的作用第一, 抽样推断能解决需要全面调查资料, 但无法进行、 不可能进行或没必要进行全面调查的问题。第二, 用于工业产品生产过程的质量监控。 在工业产品成批或连续不断生产的过程中, 产品是否达到技术标准, 质量是否稳定, 可以通过抽样推断获取相应信息, 进而对生产过程进行有效监控。第三, 用抽样推断的数据补充、 修订定期报表或普查的数据, 如用1%人口抽查的数据修订人口普查的数据。第四, 用于假设检验。第七章二、 抽样推断中的几个基本概念1. 全及总体全及总体是指所要调查研究现象的整体, 简称总体, 一般用字母N 表示。 当调查研究目的确定时, 全及总体也会随之确定并且是唯一的。2. 抽样总体抽样总体是指从全及总体中随机抽取的那部分单位构成的整体, 简称样本, 用字母n表示。 相对于全及总体而言样本不是唯一的, 因抽样的方式方法不同可以有许多种样本组合。3. 重复抽样与不重复抽样从总体中随机抽取样本有两种方法, 一种是重复抽样, 另一种是不重复抽样。重复抽样的做法是, 从总体N个单位中随机抽取一个容量为n的样本, 每次从总体中抽取一个单位, 把结果登记下来后又放回去重新参加下一次抽选。每个单位被抽中或没有被抽中的机会, 在每次抽取时都完全一样。第七章第一节 抽样推断概述二、 抽样推断中的几个基本概念3. 重复抽样与不重复抽样不重复抽样的做法是, 从总体N个单位中随机抽取一个容量为n的样本 , 每次从总体中抽取一个单位 , 把结果登记下来后不再放回总体中。 每抽一次总体单位的数量就少一个 , 因此 , 每个单位被抽中还是没有被抽中的机会 , 在每次抽取时是不同的 。4. 全及指标与样本指标全及指标是根据全及总体各单位的相关标志表现整理计算出的、反映总体特征的综合指标。样本指标也称抽样指标, 是根据抽样总体 (样本总体) 各单位的相关标志表现计算的、 反映样本特征的综合指标。全及指标是不变的, 而样本指标是随机可变的量, 因为随机抽取会得到许多个不同样本单位的组合。第七章第一节 抽样推断概述二、 抽样推断中的几个基本概念4. 全及指标与样本指标全及总体与样本总体的主要指标有平均数、 成数、 标准差, 这些指标的计算公式见下表。第七章全及总体与样本总体主要指标计算公式二、 抽样推断中的几个基本概念5. 样本容量样本容量指一个样本组合里有几个样本单位。【例7—1】 假设某生产小组有4名生产工人 A、B、C、D, 即总体单位 N=4, 每次从中抽取2名工人进行调查登记, 即样本单位n=2, 这时就说每个样本的容量为2。在抽样推断中, 样本容量大于3 0, 即n≥3 0的样本为大样本; 样本容量小于30,即n<30的样本称为小样本。6. 样本的可能数目样本的可能数目是指从总体N个单位中抽取n个单位作为一个样本组合, 这样的样本单位组合有多少个。一个总体能有多少个样本组合, 既与样本容量大小有关, 也与抽样方法有关。第七章二、 抽样推断中的几个基本概念6. 样本的可能数目在不同抽样方法、 不同的样本容量要求下, 产生的样本数目可以通过公式计算。第七章例7—1可能样本组合二、 抽样推断中的几个基本概念6. 样本的可能数目【例7—2】 某班有学生5 0名, 随机抽取5名学生测其身高, 并以这5名学生的平均身高推断该班5 0名学生的平均身高, 可能会产生多少个样本组合 解: N=50, n=5不考虑顺序不重复抽样数目为:不考虑顺序重复抽样数目为:在例7—2中, 每个样本的容量只有5个, 而样本可能的数目, 也就是每次抽5个学生作为一个样本, 可能产生多少个样本, 不考虑顺序不重复抽样有2118760个, 不考虑顺序重复抽样则有3162510个。第七章三、 抽样的组织方式抽样的组织方式, 是指对所有总体单位进行组织整理和抽取样本的方式。 主要有简单随机抽样、 类型抽样、 等距抽样和整群抽样四种。 每种方式的做法和适用条件见下表。第七章几种抽样组织方式及适用条件第二节 抽样误差及其计算一、 抽样误差的含义1. 抽样误差抽样推断中调查人员登记错误或违反随机原则都可能产生误差, 这种误差是人为的, 经过努力是可以避免的。 而抽样误差是指遵守了随机原则, 但所抽的样本与总体之间仍存在的结构性误差。2. 抽样平均误差在例7—2中, 不重复抽样有2118760个样本组合, 就会有2118760个抽样误差值, 用哪一个样本的误差值来推断总体显然都是不合适的, 可以用这2118760个可能样本的平均误差值来推断总体, 这个平均值称为抽样平均误差。抽样平均误差是所有可能的样本指标的标准差, 包括平均数的抽样平均误差, 成数的抽样平均误差。第七章第二节 抽样误差及其计算二、 抽样平均误差的计算1. 简单随机条件下抽样平均误差的计算方法抽样平均误差是所有样本指标的标准差, 计算公式为:上面两个公式表明了抽样平均误差的实际意义, 但这只是理论公式, 实际计算时不能用, 因为公式中总体平均数 及总体成数 P 是未知的, M 个样本也是不可能或没有必要全部抽取的。 数理统计证明, 抽样平均误差与样本容量、 总体标准差、 抽样方式方法有关。第七章二、 抽样平均误差的计算1. 简单随机条件下抽样平均误差的计算方法在简单随机抽样条件下, 其计算方法见下表。从表7—4中可见, 不重复抽样比重复抽样公式中多了一个修正系数 , 该系数总是大于0小于1, 因此可知, 重复抽样总是比不重复抽样的平均误差要大; 当 N 较大时, 该系数接近于1, 两者相差很小。 如果样本容量小于30, 即为小样本时, 该系数用 计算。第七章二、 抽样平均误差的计算2. 抽样平均误差计算实例【例7—3】 某班有50名学生, 随机抽取5名学生测其身高值 (厘米) 为155、 161、170、 173、181。 计算平均身高及170厘米以下学生所占比重的抽样平均误差。解: 由于不知道总体的标准差σ 和总体中170厘米以下学生所占比重 P, 所以应先求出样本的标准差s及比重p, 用s、p 来计算抽样平均误差, 见下表。第七章50名学生抽样资料及抽样指标计算表二、 抽样平均误差的计算2. 抽样平均误差计算实例【例7—3】 某班有50名学生, 随机抽取5名学生测其身高值 (厘米) 为155、 161、170、 173、181。 计算平均身高及170厘米以下学生所占比重的抽样平均误差。解:平均身高的抽样平均误差为:对于重复抽样,对于不重复抽样,计算结果的实际意义: 所有可能2118760个样本平均身高数与总体平均身高数之间的平均离差值, 重复抽样条件下是4.08厘米, 不重复抽样条件下是3.91厘米。第七章二、 抽样平均误差的计算2. 抽样平均误差计算实例【例7—3】 某班有50名学生, 随机抽取5名学生测其身高值 (厘米) 为155、 161、170、 173、181。 计算平均身高及170厘米以下学生所占比重的抽样平均误差。解:成数 (即170厘米以下学生所占比重) 的抽样平均误差为:对于重复抽样,对于不重复抽样,计算结果的实际意义: 所有可能样本中, 身高在170厘米以下学生所占的比重, 与总体50名学生中170厘米以下学生所占比重的平均离差, 重复抽样条件下为21 .91%,不重复抽样条件下为21.01%。第七章二、 抽样平均误差的计算2. 抽样平均误差计算实例【例7—4】 某企业某季度生产5000000只灯泡, 随机不重复抽取500只进行耐用时数检验, 所得资料见下表, 假设该种灯泡使用寿命在800小时以上的为合格品, 根据资料计算平均耐用时数及合格品比重的抽样平均误差。第七章500只灯泡抽样资料及抽样指标计算表二、 抽样平均误差的计算2. 抽样平均误差计算实例【例7—4】解:500只灯泡平均使用寿命为:样本标准差为:平均使用寿命的抽样平均误差为:合格品比重为:成数 (合格品所占比重) 的抽样平均误差为:对于不重复抽样,对于重复抽样,计算表明: 所抽取的500只灯泡的平均使用寿命为926小时, 使用寿命800小时以上的合格品所占比重为99.6%, 不重复抽样条件下平均使用寿命的抽样平均误差为2.5小时, 合格品率的抽样平均误差为0.28%。第七章第三节 总体指标的推断抽样调查的目的是用样本指标去推断总体指标, 由于存在抽样误差, 这种推断是不可能非常精确的, 它实质上是一种有科学依据的估计, 所以通常把这种方法叫作估计方法。 由一个样本的指标去估计全及指标有点估计和区间估计两种。一、 点估计点估计就是用样本指标 或p直接代表总体指标 或P来计算总体指标。 例如,在2000名学生中抽取100名学生调查的结果,平均体重50千克, 其中戴眼镜占30%, 采用点估计方法就可以据此来推断全体学生的平均体重是50千克, 其中戴眼镜的占30%。点估计的方法非常简单易懂, 但这种估计方法没有明确表示有多大的准确程度以及估计有多大的把握。 因此, 对估计结果的精确度和把握程度要求不高时, 可以用这种点估计的方法。第七章第三节 总体指标的推断二、 区间估计区间估计是根据样本指标和抽样误差去推断总体指标的可能范围, 而不是直接地简单推断。 它能够明确估计的准确程度和把握程度, 因此区间估计是由样本指标推断总体指标的主要方法。理解和应用区间估计的方法归纳起来主要有四个要点:第一, 根据样本指标和抽样误差计算总体指标所在的范围。 例如抽选出来100名学生的平均体重是50千克, 抽样误差是1千克, 就可以推断全体学生的平均体重在49(50-1) ~51 (50+1) 千克之间。 这100名学生中戴眼镜的占30%, 抽样误差是2%,就可以推断全体学生中戴眼镜的学生所占比重在28% (3 0%-2%) ~32% (3 0%+2%) 之间。 用公式表示为:对于平均数的推断,对于成数的推断,第七章第三节 总体指标的推断二、 区间估计第二, 把握程度的确定。 区间估计所表示的是一个可能的范围, 而不是一个绝对可靠的范围, 因为是按照随机原则抽选样本的, 因此所有可能的样本配合全有可能抽到。而抽样误差是所有可能样本指标与总体指标的平均误差, 每个样本的误差和它比较, 有的大于它, 有的小于它, 因此, 包括在区间估计范围之内的只有一部分样本而不是所有的样本配合。 这样, 总体指标在这个范围之内的结论就不是完全肯定的, 可能估计对了, 也可能估计得不对。 只能说在这个范围内有一定的把握程度, 也就 是有一定的概率。概率论和数理统计证明, 样本在1个抽样误差范围之内的概率是0.6827, 即做区间估计来推断总体有将近七成的把握。在实际工作中可以根据需要来确定把握程度。 扩大抽样误差范围可以提高推断的把握程度, 缩小抽样误差范围则会降低推断的把握程度。第七章第三节 总体指标的推断二、 区间估计概率论和数理统计证明, 抽样误差范围的变化和把握程度之间有一定的数量关系,见下表。上表中扩大或缩小抽样误差范围的倍数叫作概率度,即表中的0.50、 1.00、2.00、 3.00等, 用符号t表示。扩大或缩小以后的抽样误差范围称作允许误差, 用符号Δ表示, 允许误差也叫抽样极限误差、最大可能误差等。第七章抽样误差范围与把握程度之间数量关系第三节 总体指标的推断二、 区间估计概率度和把握程度 (概率) 有一定的对应关系, 为了使用方便, 可以查阅正态概率表, 常用到的数据见下表。第三, 允许误差的计算。 从上面的分析得到允许误差、 概率度和抽样平均误差之间的相互关系:第七章正态分布概率简表第三节 总体指标的推断二、 区间估计Δ 代表允许误差, 等于t倍的抽样平均误差。当抽样平均误差一定时, 改变t, 允许误差的范围会随之改变, 同时把握程度 (概率) 也会跟着变化, 把握程度在抽样推断中又被称作置信程度、 可信程度、 可靠程度等。第四, 计算一定把握程度的区间估计值。 把允许误差、 把握程度 (概率) 均考虑在内可以得出完整的平均数区间估计的计算公式:公式的实际意义是: 推断的全及总体平均数落在样本平均数加减允许误差 ( t倍平均数抽样平均误差) 之间。第七章第三节 总体指标的推断二、 区间估计成数的区间估计计算公式为:公式的实际意义是: 推断的全及总体成数落在样本成数加减允许误差 (t倍成数抽样平均误差) 之间。【例7—5】 承接例7—3,50名学生中随机抽取5名学生调查, 平均身高 =168厘米, 抽样平均误 =3.91厘 米, 身高170厘米以下学生所占比重 p=40%, 抽样平均误差 =21%, 如果要求把握程度 (概率) 为68.27%, 其对应的概率度t=1。 试推断50名学生的平均身高所在范围以及身高在170厘米以下学生所占比重。第七章第三节 总体指标的推断二、 区间估计【例7—5】解: 要求F(t) =68.27%, t=1, 推断平均身高的区间, 将已知数据代入公式得区间为:168-(1×3.91) ~168+ (1×3.91), 即平均身高在164.09~171.91厘米之间。成数 (身高在170厘米以下学生所占比重) 的 区 间 推 断, 将已知数据代入公式得到区间为:40%-1×2%~4 0%+1×2%, 即成数在38%~42%之间。计算结果的意义: 50名学生的平均身高在164.09~171.91厘米之间, 其中身高在170cm 以下的学生所占的比重在38%~42%之间, 这个推断的把握程度 (可靠程度、可信程度) 为68.27%。例7—5中总体指标所在范围166.25~169.75厘米, 38%~42%, 在抽样推断中也被称作置信区间。第七章二、 区间估计【例7—6】承接例7—4, 在500万只灯泡中抽取500只调查, 平均耐用时间为926小时, 抽样平均误差为2 .5小时, 试分别推断把握程度为68.27%、 99.73%时, 所有灯泡的平均耐用时间。解: 已知=926小时, =2.5小时当F (t) =68.27%,t=1时, 有:计算结果表明: 根据500只灯泡的抽样结果, 推断出500万只灯泡的平均使用寿命在923.5~928.5小时之间, 这个推断的把握程度为68.27%;若把把握程度提高到99.73%, 则500万只灯泡的平均使用寿命在918.5~933.5小时之间。第七章二、 区间估计【例7—7】 承接例7—4, 在500万只灯泡中抽取500只调查, 耐用时数在800小时以上的合格品的比重为99.6%、 抽样平均误差 =0.28%, 计算t=2时, 所有灯泡中合格品所占比重的范围。解: 已知t=2, =0.28% 依题意有:计算结果表明: 当t=2时, 所有灯泡中合格品所占比重在99.04%~100%之间,做这个推断有95.45%的把握程度。第七章第四节 样本容量的确定样本容量过多, 会造成不必要的人财物的浪费, 过少则有可能产生较大的抽样误差, 所以确定必要的样本容量, 是抽样推断不得不考虑的问题。一、 影响样本容量大小的因素影响样本容量大小的主要因素有四个:1. 总体各单位标志值变异的大小总体各单位标志表现差别大, 要求样本容量要多一些; 总体各单位标志表现的差别小, 要求的样本容量就相对少一些。2. 抽样推断置信度的大小抽样推断置信度要求越高, 样本的容量就越多; 置信度要求较低, 则样本容量就可少一些。第七章第四节 样本容量的确定一、 影响样本容量大小的因素影响样本容量大小的主要因素有四个:3. 允许误差的大小如果其他条件已定, 允许误差大, 样本容量可少一些; 允许误差小, 样本容量应大些。4. 抽样的方法和组织形式重复抽样样本容量应多些, 不重复抽样样本容量可少些。 简单随机抽样、 整群抽样需要的样本容量多一些; 类型抽样、 等距抽样需要的样本容量少一些。第七章第四节 样本容量的确定二、 确定样本容量的方法在简单随机条件下, 确定必要样本容量的计算公式可由 推导出来。1. 推断平均数的样本容量重复抽样不重复抽样第七章第四节 样本容量的确定二、 确定样本容量的方法2. 推断成数的样本容量重复抽样不重复抽样【例7—8】 某校上年抽查学生平均身高, 标准差为9.12厘米。 本年随机抽查推断6000名在校生的平均身高, 如果要求允许误差不超过4厘米, 把握程度为99.7%, 则至少需要抽多少个学生作为样本 第七章第四节 样本容量的确定二、 确定样本容量的方法2. 推断成数的样本容量【例7—8】分析计算结果得知: 在满足所要求的把握程度和误差范围内, 推断6000名学生的平均身高至少应抽查47名学生作为样本。第七章二、 确定样本容量的方法2. 推断成数的样本容量【例7—9】 某校上年抽查得到身高170厘米以下学生所占的比例为40%, 本学期随机抽查推断6000名在校生中, 身高170厘米以下学生所占的比例, 如果要求允许误差不超过10%, 把握程度为99.7%, 则至少需要抽多少个学生作为样本 分析计算结果得知: 在满足所要求的把握程度和误差范围内, 推断6000名学生中身高在170厘米以下学生所占的比重至少应抽查216名学生作为样本。第七章逻辑简图第七章思考与练习 一、 简答题1. 重复抽样与不重复抽样的相同点与不同点有哪些 2. 什么是纯随机简单抽样、 等距抽样 3. 点估计与区间估计的相同点与不同点有哪些 二、 计算题1. 某公司有职工21000名, 随机不重复抽取50名进行调查, 测得其月平均工资为2200元, 标准差σ=220元, 要求:(1) 计算其抽样平均误差并说明其意义。(2) 如果标准差增加40元或减少20元, 其抽样平均误差将怎样变化 第七章思考与练习 二、 计算题2. 某地区抽其300户城镇居民进行家庭调查, 测得人均月生活费支出为600元, 标准差为80元, 如果把握度为95.45% ( t=2), 计算并说明全地区城镇居民的人均月生活费支出的范围。3. 某企业从生产的5000台电器中随机抽取50台进行质量检验, 合格品有49台,试以99.73%的概率保证, 估计全部产品合格率的范围及合格品的数量 (重复抽样与不重复抽样分别计算)。第七章谢谢观赏!统计基础 展开更多...... 收起↑ 资源预览