资源简介 (共96张PPT)第四章 统计推断第一节 参数估计第二节 假设检验 第三节 假设检验中的两个问题本章小节主要内容第一节 参数估计一、 点估计设总体 的分布函数的形式已知,但它含有一个或多个未知参数,借助于总体的一个样本来估计总体未知参数的值的问题称为参数的点估计问题。常用的构造估计量的方法:矩估计法和最大似然估计法。(一)矩估计法英国统计学家K. Pearson提出的矩估计法,其主要思想是:以样本矩作为相应的总体矩的估计,以样本矩的函数作为相应的总体矩的函数的估计。这里, 表示总体的矩,它是总体分布参数的函数,而 是样本的函数。由上述 个方程组成的方程组,可以解出总体分布中的 个未知参数。例1 设总体的均值及方差 (不为零)都存在,且均未知。 又设 是来自总体的一个样本,试求 的矩估计量。解 由 ,得再以 代替 ,即得 的矩估计量分别为(二)最大似然估计法由R. A. Fisher引进的最大似然估计法,无论从理论上还是从应用上,至今仍然是一种重要且普遍适用的方法。估计过程:由所谓的似然函数(它是参数和样本的函数)若则称为参数 的最大似然估计值, 为 的似然估计量。一般情况下,可由方程求得。求最大似然估计量的步骤为:(1)对给定的总体X,写出似然函数(2)列出似然方程(3)求解上述方程,得关于的解即为的最大似然估计量。含多个参数令似然方程或最大似然解点估计的常用方法例2(一) 无偏性设 为参数 的点估计量,若则称 为参数 的无偏估计量。二、估计量的评选标准(二) 有效性设 和 是 的无偏估计量,若对于 的变化范围内的任意一个值,都有且至少有一个 使得不等号成立,则称 较有效。(三) 相合性无偏性与有效性都是基于样本容量n固定的前提下提出的,我们希望随着样本容量的增大,一个估计量的值趋向于待估参数的真值。设 为参数 的一个估计量,若对于其变化范围内的任意一个 ,当 时, 依概率收敛于 ,则称 为 的相合估计量。如果对任意小的正数,有则称是的一致估计量,称具有相合性,可以证明均具有相合性。(三) 相合性(consistency)注:具有无偏性。,对于,具有无偏性二、估计量的评选标准三、 区间估计定义设总体 的分布函数 中含有未知参数对于给定的 ,有两个样本统计量 ,使得则称随机区间 是 的置信度为 的置信区间, 分别称为置信度为 的双侧置信区间的置信下限和置信上限。区间估计的概念的样本使得置信度1-α三、 区间估计置信度1-α下θ的置信区间:1-α是置信度,置信度也称为置信概率α称为显著性水平则称三、 区间估计三、 区间估计例 题例 题确定未知参数置信区间的一般步骤(1)构造一个样本的函数W它包含待估未知参数,而不含其它未知参数,并且W的分布已知且不依赖于任何未知参数;(2)对于给定的置信度 ,定出两个常数a,b,使得(3)若能由上式得到等价的不等式 ,其中, 都是统计量,那么 就是 的一个置信度为 的置信区间正态总体参数的置信区间1. 单个正态总体 的情况(1) 的置信区间① 已知时,② 未知时,(2)方差 的置信区间(仅以 未知为例)例3 现从某天生产的洗衣粉中随机地取16袋,称得重量(以克计)如下表所示。设洗衣粉的重量近似地服从正态分布,试求总体均值的置信度为0.95的置信区间 。解 这里,总体的方差未知,故总体均值 的置信区间为:而,经过计算得, 又查表得,故所求的置信区间为(500.4, 507.1)。506 508 499 503 504 510 497 512514 505 493 496 506 502 509 4962.两个正态总体的情况实际中存在这样的问题:已知产品的某一指标服从正态分布,但由于原料、设备条件、操作人员不同,或工艺过程的改变等因素的影响,而引起总体均值、方差的改变。 我们要考察这些变化的大小,这就涉及两个正态总体均值差或方差比的估计问题。设有两个正态总体 ,样本均值和方差分别为(1)两个总体均值差的置信区间① 均已知, 的置信区间未知但相等, 的置信区间(2)两个总体方差比的置信区间这里仅讨论 未知的情形对于给定的置信度 , 的置信区间为四、大样本下总体均值、比率的区间估计(一)总体均值 的区间估计这里的大样本,是指样本的容量不小于301. 总体方差 已知时总体均值 的置信区间2. 总体方差 未知时总体均值 的置信区间两个正态总体参数的比较σ12≠σ22且两样本容量均≥30由S12和 S22分别估计σ12和σ22,即可例5 某保险公司有36个投保人的年龄资料如表表所示所示。试求投保人平均年龄的置信度为95%的置信区间。23 36 42 34 39 3435 42 53 28 49 3939 46 45 39 38 4527 43 54 36 34 3836 31 47 44 48 4544 33 24 40 50 32解 这里总体的方差未知,但为大样本情形。查标准正态分布表得 ,再由上表数据,得 ,由此,可以得到投保人平均年龄 的置信度为95%的置信区间为,即(39.96, 42.04)(二)总体比率的区间估计由样本比率的抽样分布可以知,当样本容量 足够大时(一般指不小于30,且 都大于5),样本比率 的抽样分布近似正态分布。设总体比率为 ,则有对于置信度 ,P的置信区间为例6 某公司要估计某天生产的某型号的全部产品的合格率。 为此随机抽取了100件产品,经检验其中有94件为合格品。 对于置信度95%,试求该天此型号产品合格率的区间估计。解 由题意,易得样本合格率 ,从而得全部产品合格率置信度为95%的置信区间为即 (89.35%, 98.65%)(三)两个总体均值差的区间估计对于给定的置信度 , 的置信区间这里, 为来自与两个总体的样本均值;为样本的方差。例7 为了评估甲乙两种方法包装某产品所需要的时间,在不同的方法下独立地抽取两个随机样本,经整理计算得到下列资料。试在置信度95%下,给出这两种方法下包装某产品平均时间之差的置信区间。解 由公式得到这两种方法下包装某产品平均时间之差的置信度为95%的置信区间为(3.86,10.14)甲方法 乙方法样本容量n与总体方差、允许误差、置信度有以下关系:1.在给定的置信水平下,允许误差越大,样本容量就可以越小。2.样本容量n与置信度成正比。例 一家广告公司想估计某类商店去年所花的平均广告费有多少。经验表明,总体方差约为1 800 000。如置信度取95%,并要使估计值处在总体平均值附近500元的范围内,这家广告公司应取多大的样本?估计总体均值时,样本容量的确定解:已知这家广告公司应抽选28个商店作样本(注意抽取样本数总是整数,所以n 应圆整成整数)。估计总体均值时,样本容量的确定第二节 假设检验一、 参数假设检验在总体的分布函数已知,但参数未知时,如对总体分布中的未知参数提出假设,则如何利用样本提供的信息来检验这个假设,即接受此假设还是拒绝此假设。 这类统计问题我们称之为参数的假设检验问题。参数估计和参数检验是利用样本对总体的统计特性提供的信息,建立样本的函数,即估计量或检验统计量,是从不同角度处理总体未知参数的两种统计方法。假设检验的一般流程假设检验 是推断性统计学中的一项重要内容,它是先对研究总体的参数作出某种假设,然后通过样本的观察来决定假设是否成立参数假设样本观察假设检验具体的统计方法(一) 假设检验的基本思想设总体为 ,建立假设这里 表示原假设, 表示备择假设。假设检验问题,就是要建立一个合理的法则,根据这一法则,利用已知样本作出接受原假设(即拒绝备择假设),还是拒绝原假设(即接受备择假设)的决策。(一) 假设检验的基本思想假设基本形式H0:原假设,H1:备择假设假设检验:运用统计理论对上述假设进行检验,在原假设与备择假设中选择其一。假设检验基本原理小概率事件在一次试验中几乎不可能发生。假设检验的基本依据—小概率原理:假设检验基本原理承认原假设小概率事件发生大概率事件发生拒绝原假设接受原假设进行一次实验(二) 判断“假设”的依据实际推断原理:概率很小的事件在一次试验中几乎是不会发生的。如果原假设为真,则由一次抽样计算而得的样本观测值,满足不等式此事件几乎是不会发生的。 现在在一次观测中竟然出现了满足上述不等式的样本均值,则我们有理由怀疑原来的假设的正确性,因而拒绝原假设。 若出现的观测值不满足上述不等式,此时没有足够的理由拒绝,因此只能接受原假设。第一类错误:弃真(显著水平α)第二类错误:取伪显著水平与两类错误(三) 两类错误对于一定的样本容量n ,不能同时做到两类错误的概率都很小。如果减小α错误,就会增大犯β错误的机会;若减小β错误,也会增大犯α错误的机会。两类错误关系(三) 两类错误如何使使α、β 同时变小 一个完整的假设检验过程,通常包括以下四个步骤:提出原假设(Null hypothesis)与备择假设(Alternative hypothesis)作出统计判断参数假设检验问题的步骤确定适当的检验统计量,并计算检验统计量的值给定显著性水平α正态总体参数假设检验的步骤第一步:建立原假设H0和备择假设H1常用的假设形式第二步:选择检验用的统计量u 检验t 检验F检验常用统计量正态总体参数假设检验的步骤第四步:确定显著水平α的值,查相应的分布表得其临界值以及拒绝域。第五步:作出拒绝还是接受原假设的统计判断。正态总体参数假设检验的步骤第三步:根据样本观测值计算检验统计量的具体值;(四)单个总体参数的假设检验1.单个正态总体 下参数 的假设检验(1) 单个正态总体均值的检验① 已知,关于 的检验(Z检验)检验统计量:可以根据假设检验的不同类型,确定检验问题的拒绝域。例8 某厂生产某种型号的内胎,从长期的生产经验知道其扯断强力服从均值 =1380(N/㎝),标准差 =50(N/㎝)的正态分布。 该厂为提高产品的质量,改变了原来的配方进行现场生产试验。设新配方生产的内胎其扯断强力仍服从正态分布。由于在试验中除配方外,其他条件都保持不变,因此可以认为新配方未改变此型号内胎扯断强力的方差。 采用新配方的5 次试验,测得内胎扯断强力为(单位:N/㎝):1450,1460,1360,1430,1420,试问采用新配方,是否能提高内胎的扯断强力?解 对这个假设检验问题,需要检验假设形如这样的假设检验,称为右边检验(类似也有左边检验)。此检验问题的拒绝域的形式为查表得 ,而经计算得, ,从而有, 即 ,据此,拒绝原假设。② 未知,关于 的检验(t检验)检验统计量:可以根据假设检验的不同类型,确定此检验问题的拒绝域例8 某种元件,按照标准其使用寿命不低于1000(小时),现从生产出的一批元件中随机抽取25件,测得其平均寿命为950(小时),样本标准差为100(小时)。 假设该种元件寿命服从正态分布,对于置信度95%,试问这批元件是否可以认为合格?解 此问题即要检验拒绝域的形式为而由已知可得, , ,又 ,即 。故拒绝原假设,认为这批元件不合格。(2)单个正态总体 的方差检验设 未知,建立假设: ; :检验统计量:拒绝域: 或(2)单个正态总体 的方差检验2.非正态总体参数的假设检验这里讨论的是在大样本(样本容量)情形下总体均值和总体比率的假设检验。总体均值 和总体比率 的假设检验这里利用中心极限定理,在样本容量充分大时,样本均值近似服从正态分布,从而可以构造相应的检验统计量和确定出检验问题的拒绝域。对于总体比率的检验,在样本容量充分大时,样本比率近似服从正态分布,也可以类似构造检验统计量及确定出拒绝域。2.非正态总体参数的假设检验(1)总体的均值的假设检验例9 一个市场分析员认为某市居民每户每周平均在食品上的支出少于140元。一个由100个家庭组成的随机样本资料所给出的平均值为138元,标准差为10元,在显著性水平0.05 下,这些数据能否支持此分析员的看法?(1)总体的均值的假设检验(1)总体的均值的假设检验(2)总体比率的假设检验(2)总体比率的假设检验单个总体比率的假设检验如果样本容量n与原总体比率时,用u检验法。(五)两个正态总体下参数的假设检验1. 有关平均值的假设检验设 分别表示来自两个具有相同方差的正态总体的样本均值,则对于两个总体均值的假设检验问题,可以通过构造检验统计量来确定拒绝域的形式。(五)两个正态总体下参数的假设检验例112. 方差的假设检验设 分别表示来自两个具有不同方差的正态总体的样本方差,则对于两个总体方差的假设检验问题,可以通过构造检验统计量(在原假设 为真的情形下)根据备择假设的不同类型可以确定出检验问题的拒绝域。例例表4.2.2 正态总体参数的假设检验(显著性水平为α)二、 非参数假设检验(Nonparametric Tests)前一节所讨论的假设检验问题,只是对服从正态分布的总体中的某些未知参数进行假设检验。 但在实际问题中,总体的分布函数的形式往往未知;或者知道的很少,甚至只知道是离散型或连续型。 本节讨论总体分布函数的拟合问题, 即研究检验总体分布函数的非参数假设检验问题。(一)符号检验法这里只介绍检验两个总体分布函数是否相同的符号检验法设有两个总体 ,要检验假设设有来自两个总体的样本将它们所对应的样本观察值进行比较,可以得到对应值差的符号,以 记正、负号的个数,则它们为随机变量。构造检验统计量就可以确定出检验问题的拒绝域。符号检验法步骤:比较样本数据求出n:n= n++ n-在显著水平α下,根据n值查符号检验表得其临界值Sα(n)判别显著性ai>bi记为“+”,“+”的个数记为n+aiai=bi记为“0”,“0”的个数记为n0若S0=min{n+,n-}若S0=min{n+,n-}>Sα(n),则接受H0,认为f1(x)与f2(x)无显著差异。例9 甲、乙两分析人员分析同一物体中的某成分含量,测得数据如下表(单位:%)。 问两人的分析结果有无显著差异 (对于显著性水平0.1)甲 14.9 14.8 15.1 14.8 15.5 14.6 14.8 14.8 15.1 14.5乙 14.3 14.9 15.2 14.7 15.2 14.7 14.7 14.6 15.2 14.5符号 + – – + + – + + – 0甲 15.0 14.9 14.7 15.0 15.1 14.9 15.2 14.7 15.4 15.3乙14.9 14.7 14.8 15.3 14.9 14.6 14.8 14.9 15.2 15.0符号 + + – – + + + – + +解:由上表,可以得到数据间比较的符号,若对比的数据相等,符号以0表示,结果见上表。再根据数据计算得=12, =7,所以 =19,且=7。由显著性水平 =0.10及=19,由附表查得 。 因 =7>5,于是接受原假设 ,即认为两人的分析结果无显著差异。由上面的分析可以看到,符号检验法简单、直观,且无须知道被检验量的分布形式,但其精度较差,而且要求数据成对出现。(二) 秩和检验法设从总体 中分别抽取容量为 的独立样本。要检验假设为讨论方便,设 。 把两个样本的观测数据合在一起按从小到大的次序排列,定义每个数据在排列中所对应的序号为该数的秩,对于相同的数据则利用他们序数的平均值来做秩。将容量较少的样本的各观测值的秩之和记为 ,以 作为检验统计量。然后确定出相应的拒绝域。(二) 秩和检验法例10 某厂用两种材料制造灯泡,现有分别随机抽取若干个进行寿命试验的数据如下:问两种材料对灯泡寿命的影响有无显著的差异(取 =0.20)。甲1598169816801650174017901720乙16981640157616401590秩 1 2 3 4 5 6 7 8.5 10 11 12甲 1598 1650 1680 1698 1720 1740 1790乙 1576 1590 1640 1640 1698甲1598169816801650174017901720乙16981640157616401590解:将全部数据按从小到大的次序排列,结果如下表所示 。解:将全部数据按从小到大的次序排列,结果如下表所示 。将数据少的乙组的数据个数用 表示,另一组用 表示。 由此算得 ,即=1+2+4+5+8.5=20.5因 =5, =7, =0.20, 由附表查得 =22, = 43。由于 ,故认为两种材料对灯泡寿命的影响有显著差异。秩 1 2 3 4 5 6 7 8.5 10 11 12甲 1598 1650 1680 1698 1720 1740 1790乙 1576 1590 1640 1640 1698(三) 拟合优度检验法实际上,有时连总体服从什么类型的分布都不知道,这就需要根据样本来检验总体分布的假设。 设 是未知的总体分布函数;又设 是类型已知的分布函数,但其中可能有未知的参数。要检验假设:构造统计量由此确定出相应检验问题的拒绝域。例11 一颗骰子掷了120次,得到下列结果试在 = 0.05下检验这颗骰子是否均匀、对称。解: 掷一颗骰子出现的点数是一个离散型的随机变量X。 这里要检验假设由于已知的分布中不含未知参数,又 =20 ,则由而 ,故接受原假设 。出现点数 1 2 3 4 5 6出现次数 23 26 21 20 15 15第三节 假设检验中的两个问题一、置信区间与假设检验的关系第三节 假设检验中的两个问题二、假设检验中的 值一般也称 值为实测显著性水平 。值是当原假设成立时,得到所观测数据的概率,是我们判断原假设不真的有力依据。二、假设检验中的P值p-值的应用例题:某商品标签上标明其重量至少为3公斤以上,现抽取36瓶该产品组成的一个简单随机样本,得其样本均值2.92公斤,已知总体标准差为0.18时,在显著性水平α=0.01的情况下检验其商品标签所标内容是否真实?求解过程:(1)原假设H0:μ≥3,备择假设H1:μ<3(2)检验统计量为:代入数据得:p-值的应用求解过程(续):(3)U=-2.67所对应的p值为0.0038(4)0.0038<0.01,所以拒绝H0。p-值的应用统计推断中的两个基本问题估计问题假设检验问题点估计区间估计参数假设检验统计量的构建拒绝域的确定符号检验秩和检验拟合优度检验本章小结矩估计法区间估计非参数假设检验 展开更多...... 收起↑ 资源预览