资源简介 (共36张PPT)管 理 统 计 学[第四版]第七章 抽样与参数估计案例导入为了解广州市大学生使用信用卡的情况,2015年12月,调研小组对广州市不同城区高校的大学生进行调查。该调查共发放15000份调查问卷,回收问卷14660份,其中有效问卷14212份。经整理,全部9820名学生的信用卡使用情况如下表所示:市区 使用信用卡人数 市区 使用信用卡人数天河区 3320 番禺区 3780白云区 1210 花都区 2380海珠区 2356 其他城区 1166调研组为什么要进行抽样?采取的是何种抽样方式?根据上表,如何推断出广州市大学生整体使用信用卡的情况?例如,使用信用卡的平均学生数是多少?该抽样存在多大的误差?使用信用卡学生数的置信区间在什么范围?通过本章的学习,你将会找到答案。学习目标本章要掌握抽样的原理,理解点估计、区间估计和抽样误差的关系,学会计算样本容量和不同抽样组织形式的抽样误差等。重点掌握抽样原理和区间估计方法。7.1 简单随机抽样抽样调查是实际中应用最广泛的一种调查方法,它是从调查对象的总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体数量特征的一种非全面调查方法。在抽样调查中,最普遍的是简单随机抽样。7.1 简单随机抽样7.1.1 从有限总体中抽样对一个由TTA公司2500名管理人员组成的有限总体,设自有限总体容量N中抽取的样本容量n,简单随机样本定义如下:如果随机样本中每个样本点以相等的概率被抽出,则称之为简单随机样本(有限总体)。利用随机数表(教材表7-1)进行简单随机抽样放回抽样完成简单随机样本的选择过程中,对已经出现过的随机数仍选入样本,则进行的是“放回抽样”。无放回抽样完成简单随机样本的选择过程中,忽略已出现过的随机数,这种选择样本的方式叫做“无放回抽样”。7.1 简单随机抽样7.1.2 从无限总体中抽样如果一个来自无限总体的样本满足以下两个条件,则称该样本为简单随机样本(无限总体):①每个个体来自同一总体;②各个个体的选择是独立的。因为对于无限总体不能进行标号排列,所以抽样过程中不能用随机数。这时,必须专门制定一种独立选取样本点的抽样过程,以避免由于某些类型的个体以较大的概率(破坏随机原则)被选入而产生的偏差。7.2 点估计和区间估计按照估计方法的不同,参数估计包括点估计和区间估计。常见的待估参数包括:单一总体的均值 或 (当总体服从0-1分布时,总体均值记为 ,称为总体比例);单一总体的方差 ;两个总体的均值差 或比例差 ;两个总体的方差比 。7.2 点估计和区间估计为了估计TTA公司2500名管理人员的平均年奖金( )和奖金标准差( )的情况,用30个样本点采用点估计的方法时,就要计算样本平均值和样本标准差。7.2.1 点估计的方法样本平均值: (百元)样本标准差: (百元)为了估计2500名管理人员中参加管理培训的比率(p),计算出30名管理人员的样本中有19人完成了培训项目,则有:样本比率:7.2 点估计和区间估计无偏性无偏性是指样本统计量的数学期望等于所估计的总体参数的值,即如果 ,则称样本统计量是总体参数 的无偏估计。有效性有较小标准差的点估计量比其他点估计量更有效。一致性在抽样估计中,样本容量越大,点估计量的值就越接近于总体参数,该点估计量就是一致估计量。7.2.2 点估计的性质7.2 点估计和区间估计从2500名管理人员中随机抽出30名,抽样比率只有12‰,依据其样本结果517.57和0.63来估计总体参数,必然会与总体参数存在抽样误差。抽样误差是指点估计值与总体参数之差的绝对值,记为 ,则有总体均值的区间估计是指用样本均值以一定的概率落入总体均值附近范围来估计总体参数的方法。在概率为 时 ,则有总体均值 落入样本均值 附近,误差为 的简化表达为:7.2.3 区间估计7.2 点估计和区间估计例如,已知从TTA公司2500名管理人员中抽出30名样本时,得知样本的年奖金平均值为51757元,在概率为95%的年奖金抽样误差为1431元,以此估计出全部管理人员的年奖金平均值将落入以下范围:即TTA公司2500名管理人员的平均年奖金将以95%的概率保证落入50326元与53188元之间。7.2.3 区间估计7.3 抽样误差与概率保证简单地说,在有放回抽样条件下,样本容量越大抽样平均误差就越小,从数学上可以证明,两者的数量关系如下:(7-7)式中, 为抽样平均误差, 为总体标准差, 为样本容量。总体标准差是一个常数,抽样平均误差随着样本容量的增大而减少。7.3.1 样本容量与抽样平均误差的关系7.3 抽样误差与概率保证当已知总体标准差时,抽样平均误差是由样本容量决定的。当抽样平均误差一定时,极限误差是由概率度决定的,有:7.3.2 抽样误差与概率保证程度的关系7.4 一个总体参数的区间估计例7-1 金盛机械厂生产圆管产品的直径 服从方差为0.05的正态分布。从产品中随机抽取6个,测得其直径(单位:厘米)分别为4.8,5.3,5.1,5,4.7,5.1。在0.95的置信度下,试求该产品直径的均值的置信区间。7.4.1 总体均值的区间估计(1)总体均值的区间估计(总体方差已知)解: ,查《正态分布分位表》(附录2表4)得样本均值抽样平均误差抽样极限误差所求的置信区间为: ,即(4.98,5.02)厘米由抽样分布的定理可知,当样本容量充分大时,无论总体分布形式如何,样本均值近似服从正态分布。因此,当样本容量相当大时,即使总体分布形式未知或总体为非正态分布,估计总体均值的方法与上述方法相同。7.4 一个总体参数的区间估计例7-2 立新公司有1000名管理人员,采用不重复抽样从中随机抽取100人调查他们的当月业余学习时间,样本人均学习时间为20小时,样本标准差为5小时,试以95.45%的置信度估计平均学习时间的抽样极限误差和置信区间。7.4.1 总体均值的区间估计(2)总体均值的区间估计(总体方差未知,大样本)解: N=1000,总体分布不知是否为正态分布,但 ,属大样本。,查《正态分布分位表》得 。样本均值 ,样本标准差 。在不重复抽样条件下,其抽样平均误差比重复抽样的抽样平均误差小 倍。当样本容量占总体单位数的比重很小时,可以忽略修正系数 。抽样平均误差 (小时)抽样极限误差 (小时)所求的置信区间为: ,即(19.05,20.95)小时。7.4 一个总体参数的区间估计根据抽样分布定理,小样本条件下,如果总体是正态分布的,总体方差( )未知而需要用样本方差( )来代替, ,式中,n-1表示失去一个自由度,则随机变量服从t(n-1)分布。已知 时,可查自由度为n-1的《t分布表》(附录2表5)。7.4.1 总体均值的区间估计(3)总体均值的区间估计(总体方差未知,小样本,正态总体)7.4 一个总体参数的区间估计例7-3 广源商场从一批袋装食品中随机抽取10袋,测得每袋重量(单位:克)分别为:389,380,394,362,402,413,370,385,410,406。要求以95%的把握程度,估计这批食品的平均每袋重量的区间范围及其允许误差。7.4.1 总体均值的区间估计(3)总体均值的区间估计(总体方差未知,小样本,正态总体)解:总体方差未知,样本容量n=10<30,属于小样本。 ,查自由度为n-1的《t分布表》得t=2.2622。样本均值 (克)样本方差抽样平均误差抽样极限误差 (克)所求的置信区间为: ,即(378.8,403.3)克。7.4 一个总体参数的区间估计对于品质变量来说,当变量 的取值是“1”和“0”两种情况时,它们相应的频率可记为 和 ,变量均值和方差分别为总体均值:总体方差:对总体比率进行估计时,在符号形式上有变化,其抽样的基本原理不变。无论总体方差是否已知,总体比率的置信度为 的置信区间可表示为(7-8)在大样本条件下,总体方差未知,样本方差 ,则有:在小样本条件下,样本方差 ,查t(n-1)分布表,则有:用总体比率推断相应的总量指标NP的置信区间则为(7-9)7.4.2 总体比率(成数)的区间估计7.4 一个总体参数的区间估计解:N=3000,n=200>30,属于大样本。p=85%,总体方差未知,样本方差 ,由1-α=90%查《正态分布分位表》(附录2表4)得Z=1.645,则有优质品率即(80.85%,89.15%)。优质产品总数NP=3000×(85%±4.15%)即(2425.5,2674.5)只。7.4.2 总体比率(成数)的区间估计例7-4 大华棉织厂对一批产品的质量进行抽样检验,采用重复抽样抽取样品200只,样本优质品率为85%,试计算当把握程度为90%时优质品率的区间范围。如果这批产品量为3000只,问其中优质品将落入什么范围?7.4 一个总体参数的区间估计方差(或标准差)估计是区间估计的另一个重要内容。来自正态总体的一组样本方差和总体方差之比服从 分布,也即(7-10)对于给定的置信度(1-α),存在如下概率分布关系(7-12)也即,正态总体方差 的区间估计为(7-13)7.4.3 正态总体方差的区间估计7.4 一个总体参数的区间估计例7-5 对某科技园40家企业的月租金费用进行随机抽样调查,计算得样本均值为1020元,样本标准差为300元,求该科技园全部企业月租金费用方差的90%的置信区间(假设企业月租金费用服从正态分布)。7.4.3 正态总体方差的区间估计解:S=300,1-α=90%,查 分布表(附录2表6)知, ,,代入如下关系式则该科技园全部企业月租金费用方差的90%的置信区间为即 (64318.7, 136603.45)7.5 两个总体参数的区间估计两个总体均值差的区间估计中,抽样极限误差表达式如下:(7-14)则两个总体均值差的置信区间为:(7-15)7.5.1 两个总体均值差的区间估计7.5 两个总体参数的区间估计例7-6 对甲乙两家工厂生产的设备尺寸进行抽样,已知甲工厂设备尺寸的总体方差为0.010,从甲工厂抽取设备10台,样本均值为50.02厘米;乙工厂设备尺寸的总体方差为0.015,从乙工厂抽取设备12台,样本均值为50.50厘米,求甲乙工厂设备尺寸均值差的95%的置信区间(假设两家工厂生产的设备尺寸都服从正态分布)。7.5.1 两个总体均值差的区间估计解:已知 =0.010, =0.015, =10, =12, =50.02, =50.50,由1-α=95% 查《正态分布分位表》(附录2表4)得Z=1.96样本均值差 =50.20-50.50=-0.3抽样极限误差所求的置信区间为: ,即(-0.39,-0.21)厘米。7.5 两个总体参数的区间估计两个总体比率差区间估计过程中,抽样极限误差的计算方式如下:(7-16)则两个总体比率差的置信区间为:(7-17)7.5.2 两个总体比率差的区间估计7.5 两个总体参数的区间估计例7-7 对甲、乙两家棉织厂的产品质量进行抽样检验,从甲棉织厂抽取样品56只,样本优质品率为89.29%,从乙棉织厂抽取样品68只,样本优质品率为88.24%。求两家棉织厂产品优质品率之差的90%的置信区间。7.5.2 两个总体比率差的区间估计解:已知 =56, =68, =89.29%, =88.24%,由1-α=90%查《正态分布分位表》(附录2表4)得Z=1.64,则有总体比例差即(-0.0828, 0.1038)7.5 两个总体参数的区间估计两个正态总体方差比的 统计量服从如下分布:(7-18)对于给定的置信度(1-α),存在如下概率分布关系:(7-20)也即,两个正态总体方差比的1-α置信区间为:(7-21)7.5.3 两个正态总体方差比的区间估计7.5 两个总体参数的区间估计例7-8 对甲、乙铸造车间生产的合金硬度进行测试,从甲铸造车间抽取样本50个,其样本硬度均值为50.20,样本硬度方差为0.013。从乙铸造车间抽取样本38个,其样本硬度均值为50.50,样本硬度方差为0.019。求甲乙铸造车间生产的合金硬度方差比的95%的置信区间(假设甲乙铸造车间生产的合金硬度服从正态分布)。7.5.3 两个总体方差比的区间估计解:已知 , ,1-α=95%,查F 分布表知,,代入如下公式得也即,甲乙铸造车间生产的合金硬度方差比的95%的置信区间为(0.37, 1.24)。7.6 用已知参数估计样本容量样本容量是指样本中含有的总体单位数。在重复抽样条件下,样本容量由下式中3大因素决定:(7-22)在不重复抽样条件下,样本容量由下式中4个因素决定:(7-23)7.6.1 样本容量的确定7.6 用已知参数估计样本容量必要的抽样数目(n)受以下因素影响:(1)总体方差(标准差 )(2)允许误差范围(3)置信度( )(4)抽样方法(5)抽样组织方式7.6.2 影响样本必要抽样数目的因素7.7 抽样方式及其参数估计分层抽样又叫分类抽样或类型抽样。它是按与调查目的有关的某个主要标志将总体单位划分为若干层(也称类、组或子总体),然后从各层中按随机原则分别抽取一定数目的单位构成样本。分层抽样是通过分组来提高样本的代表性的。这是因为分层后总体方差被划分成多个内部差异较小的子总体,把这些差异较小的方差平均后还是较小。由于各层都抽取,各层之间就不存在抽样误差问题。在抽样技巧方面,分层抽样首先就要确定各层的抽样数目,这就涉及各层的抽样比例是相等还是不等的问题。实际中常常采用等比例分层抽样,这样做比较简便。7.7.1 分层抽样7.7 抽样方式及其参数估计等距抽样是一种特殊的分层抽样,也叫机械抽样或系统抽样。它是先将总体单位按某一标志排队,再按固定的顺序和间隔来抽取样本单位。相当于分层抽样中对总体进行等距分层的做法。等距抽样最显著的优越性是能提高样本单位分布的均匀性,样本代表性较强。当然,如果只是对总体进行无关标志编号,这样的等距抽样与简单随机抽样差不多。等距抽样的起点值可以随机地确定,以后各点会依此全部被确定下来。7.7.2 等距抽样7.7 抽样方式及其参数估计整群抽样是将总体全部单位分为R群,然后按随机原则从中抽取r群,对抽中的群内进行全面调查,而未抽中群一概不调查。整群抽样只需对各群体进行编号和调查,大大简化了抽样组织工作,实践中应用十分广泛。但如果样本单位在总体中的分布不够均匀,在其他条件相同的情况下,整群抽样的样本代表性可能较差,因为整群抽样的抽样误差取决于群间差异程度的大小,而不受各群体内部差异程度的影响。整群抽样的抽样平均误差公式为(7-24)式中,R为总体群数,r为样本群数, 为群间标准差。通常,总体群间方差未知,要用样本群间方差 来估计,有:(7-25)7.7.3 整群抽样7.7 抽样方式及其参数估计在实际工作中,选择适当的抽样组织方式,主要应考虑调查对象的性质特点,对调查对象的了解程度,抽样误差的大小以及人力、财力和物力的条件等方面。实际中通常还灵活地将两种或多种抽样组织方式结合使用,使抽样工作更简便、更经济或使抽样误差更小。简单随机抽样、分层抽样、等距抽样和整群抽样是四种基本的抽样组织方式。简单随机抽样是最基本的抽样组织方式,其常用方法有抽签法、利用随机数表取数法和电子计算机取数法。在大规模抽样调查中常常采用分层抽样、等距抽样或整群抽样。7.7.4 多种抽样方式灵活运用本章小结抽样是用样本指标推断总体指标的一种统计调查方法,样本的代表性是保证抽样调查效果的关键。抽样原理是关于抽样分布的基本理论,对弄清样本与总体的关系、样本容量与抽样误差的关系、概率保证与极限误差的关系等方面,具有非常重要的意义。抽样方式对抽样效果也有影响作用。谢 谢 观 看! 展开更多...... 收起↑ 资源预览