资源简介 (共27张PPT)STATISTICS项目五掌握抽样技术RegressionCONTENTS认识抽样调查掌握抽样误差理解参数估计010203● 能够运用抽样调查方法进行统计● 能够运用概率抽样的方法进行统计● 掌握抽样调查的含义和特点,了解抽样调查的作用● 理解抽样调查中常用的若干基本概念● 掌握简单纯随机抽样条件下的抽样误差、抽样平均误差、抽样极限误差的概念,掌握抽样误差的影响因素,了解抽样估计的置信度● 理解参数估计的含义● 理解影响样本容量的因素知识目标能力目标思维导图某市教育局接到上级任务,要求全面了解全市小学生的学习情况。该市有 300 所小学,共有 240 000 名学生;这些小学分布在全市的 5 个行政区中,其中重点小学有 30 所,一般小学有 240 所,较差的小学有 30 所。现在要从全市小学生中抽取 1 200 名学生进行调查,以了解全市小学生的学习情况。假如你是该市教育局局长,你将采用什么方法抽样调查?项目情境03理解参数估计任务卡 1周末小张去超市买了一些水果,他让爸爸估算自己花了多少钱,并且告诉爸爸花的钱数在 100 元和 150 元之间。请说明估算钱数是不是区间估计,为什么?知识卡 1 参数估计的理论基础和总体参数估计一、参数估计的理论基础抽样估计是建立在概率论的大数定律基础上的,大数定律为参数估计提供了数学依据。大数定律是关于大量的随机现象具有稳定性质的法则。联系到抽样推断来看,大数定律说明:如果随机变量总体存在有限的平均数和方差,则对于充分大的抽样单位数 n,可以以几乎趋近 1 的概率来期望抽样平均数与总体平均数的绝对离差为任意小。知识卡 1 参数估计的理论基础和总体参数估计中心极限定理指出:如果总体变量存在有限的平均数和方差,那么不论这个总体变量的分布如何,随着抽样单位数的增加,抽样平均数便趋近于正态分布。而参数估计和假设检验的区别在于:参数估计是对总体数量特征数值的估算,假设检验是对总体是否具有某种性质的判断。1. 点估计根据样本统计量直接估计出总体参数 θ 的值,称为参数的点估计。二、总体参数的估计(1)矩估计法由英国统计学家皮尔逊提出。其基本思想是:由于样本来源于总体,样本矩在一定程度上反映了总体矩,而且由大数定律可知,样本矩依概率收敛于总体矩。总体所包含的总体单位数称为总体容量或总体规模,记为 N。总体按其单位数的多少分为有限总体和无限总体。总体包含的总体单位为有限个,称为有限总体;总体中的单位是无限的或无法计数的,称为无限总体。Regression知识卡 1 统计总体与总体单位二、总体单位区间估计是在点估计的基础上,给出总体参数估计的一个范围。总体参数的估计区间通常由样本统计量加减抽样误差而得到。与点估计不同,进行区间估计时,根据样本统计量的抽样分布,我们能够对样本统计量与总体参数的接近程度给出一个概率度量。Regression知识卡 1 统计总体与总体单位2. 区间估计由样本均值的抽样分布可知,在重复抽样和无限总体抽样的情况下,样本均值的数学期望等于总体均值,即 ,样本均值的标准差为实际上,我们可以求出样本均值落在总体均值 μ 的两侧任何一个抽样标准差范围内的概率。但实际估计时,情况恰恰相反。 x 是已知的,而 μ 是未知的,5也正是我们要估计的。由于 x 与 μ 的距离是对称的,如果某个样本的平均值落在 μ 的两个标准差之内,反过来,μ 也被包括在以 x 为中心左右两个标准差范围之内。知识卡 1 统计总体与总体单位2. 区间估计约有 95% 的样本均值会落在 μ 的两个标准误差的范围内。也就是说,约有 95% 的样本均值所构造的两个标准误差的区间会包括 μ。我们把 95% 称为置信水平或置信度,相应的区间称为置信区间。图 5-2给出了区间估计的示意图。知识卡 1 统计总体与总体单位2. 区间估计置信水平是指如果将构造置信区间的步骤重复多次,置信区间包含总体参数真值的次数所占的比例。由此可见,总体均值 μ 所在的区间取决于样本统计量的抽样分布,或者说,取决于置信水平。置信水平不同,μ 所在的区间大小也不同。在构造置信区间时,往往把所希望的某个值设为置信水平。常用置信水平的Zα/2值如表 5-3 所示。知识卡 1 统计总体与总体单位2. 区间估计课堂思考区间估计和点估计的关系是什么?知识卡 1 统计总体与总体单位用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值,特别强调的是,如果我们说总体参数以一定的概率(如 95%)落在这一区间,这样的表述是错误的。如果这是 95% 的置信区间,最后只有 5% 的区间没有包含 μ,如图 5-4 所示。知识卡 1 统计总体与总体单位2. 区间估计任务卡 2知识卡 2 样本容量的确定一、估计总体均值时样本容量的确定前面已经讲过,总体均值的置信区间由样本均值和允许误差两部分组成。在重复抽样和无限总体抽样条件下,允许误差为临界值 Zα/2 和样本容量 n 共同确定了允许误差的大小。一旦确定了置信水平(1-α), Zα/2 的值就确定了。对于给定的 Zα/2 值和总体标准差 σ ,就可以确定任意希望的允许误差所需要的样本容量。令 E 代表使用者在给定的置信水平下可以接受的边际误差,即知识卡 2 样本容量的确定式中的 Zα/2 的值可直接由区间估计中所用到的置信水平确定。课堂思考某批发站欲估算零售商贩的平均每次进货额,根据历史资料进货额的标准差为1 000元,假定到批发站进货的商贩有2 000人,若要求置信水平为99.73%,抽样极限误差不超过250元,应该抽取多大的样本?知识卡 2 样本容量的确定二、估计总体比例时样本容量的确定与估计总体均值时样本容量的确定方法类似,在重复抽样和无限总体抽样条件下,估计总体比例置信区间的允许误差为Zα/2 的值、总体比例 π 和样本容量 n 共同确定了边际误差的大小。一旦确定了置信水平(1-α), Zα/2 的值就确定了。知识卡 2 样本容量的确定对于给定的 Zα/2 值,就可以确定任意希望的允许误差所需要的样本容量。令 E 代表所希望达到的允许误差,即由此可以推导出重复抽样和无限总体抽样条件下确定样本容量的公式为式中的允许误差 E 必须是使用者事先确定的。大多数情况下,取 E 的值小于 0.10。 Zα/2 的值可直接由区间估计中所用到的置信水平确定。如果能求出 π的具体值,就可以用上面的公式计算所需的样本容量。课堂思考根据以往的生产统计,某种产品的合格率约为90%,现要求允许误差为5%,在求90%的置信区间时,应抽取多少个产品作为样本?素质课堂规模以下工业抽样调查统计报表制度(2018)一、调查目的了解规模以下工业生产经营状况及有关问题。二、调查范围及调查方法在年主营业务收入2000万元以下的工业法人单位和全部个体经营工业单位中,采用按名录一阶段分层随机抽样和按行政区划分层随机整群抽样相结合的方法进行抽样调查。三、样本单位调查内容(一)企业调查内容1.企业基本情况:包括组织机构代码、单位详细名称、登记注册类型、主要素质课堂业务活动(或主要产品)、行业代码、单位所在地、区划代码、邮政编码和开业(成立)时间等;2.企业经济指标:包括主营业务收入、从业人员期末人数等;3.企业问卷:包括企业生产经营状况、招工情况和融资情况等。(二)个体调查内容1.样本村(居委会)基本情况:包括村(居委会)名称、邮政编码和区划代码;2.个体经营工业单位基本情况:包括单位名称、主要业务活动(或主要产品)和行业代码等;3.个体经营工业单位经济指标:包括从业人员期末人数、从业人员工资总额等。四、数据采集方式调查单位通过联网直报平台报送数据,各地统计机构按照规定时间完成数据的审核、查询、验收,上报国家统计局。 展开更多...... 收起↑ 资源预览