资源简介 (共65张PPT)第七章 参数估计在上一章中我们已经知道,数理统计的基本问题就是根据样本所提供的信息,对总体的分布或者分布的数字特征等做出统计推断的问题.本章将要探讨的是这样一类问题,即总体所服从的分布类型是知道的,而它的某些参数却是未知的.对于这一类问题,要想确定总体的分布,关键是构造合理的方法将这些未知参数估计出来.例如,在很多场合中,电子元件的寿命是服从指数分布的,但是其参数却常常是未知的,因此,只要对参数做出了推断,自然也就对总体分布做出了推断.这类问题称为参数估计问题.第一节 点 估 计一、矩估计法统计学家对某地区居民的平均收入水平和贫富悬殊程度做出推断, 用数理统计的话说, 实质上是对总体 的未知参数期望值 与方差值 进行估计.分别用样本均值 和样本方差 来反映这两个量的,那么这样做是否合理?直观来看这样做是合理的,从概率论的观点看也是合理的.事实上,若总体 X的期望存在, X1,X2,…,Xn是出自X 的样本,则由柯尔莫哥洛夫强大数定律,以概率为1成立而上式左边极限号内正是样本均值 ,因此,我们常用 作为 的估计值. 不仅如此, 若X 的 k阶矩存在, ,则同样由柯尔莫哥洛夫强大数定律得出以概率为1成立.于是,同样可用样本k 阶原点矩来近似 ak, 这种用样本原点矩去估计总体相应原点矩的方法,即是所谓的矩估计法. 一般地,若总体的分布有m 个参数 ,则显然,总体的 k 阶矩( ) ak如果存在的话,必依赖这些参数,即按照用样本矩近似真实矩的原则,可得方程若上述关于 的方程组有唯一的解则称 是 的矩估计量或矩估计.例7.1 按矩估计的定义,无论总体是什么分布, k阶样本原点矩 Ak均是它们相应真实原点矩ak 的矩估计量,只要真实矩存在.因当我们将 ak视为未知参数时, Ak显然是方程组(7.1)的唯一解.例7.2 无论总体为什么分布,只要二阶矩存在,则样本方差 S2为方差 的矩估计量.解 设 X1,X2,…,Xn为一样本,我们有故记为 .需要估计的参数也可以不是总体的数字特征。例7.3 设X 为[ ]上的均匀分布, X1,X2,…,Xn为样本,求 的矩估计.解令解上述关于 的方程得例7.4 伯努利试验中,事件 A发生的频率是该事件发生概率的矩法估计.解 此处,实际上我们视总体 X为“唱票随机变量”,即X服从两点分布:求参数p 的矩法估计.设X1,X2,…,Xn 为X 的一个样本,若其中有 n1个Xi 等于1,则 即为事件 A发生的频率,另一方面,显然故有 .应用中许多问题可归结为例7.4, 如废品率的估计问题等.特别对固定的 x,经验分布函数 Fn(x)也可在某种意义下看成是F(x) 的矩估计. 因为我们在前面讲过, Fn(x)是n 次试验中事件{X并非所有建立了方程组(7.1)的矩估计问题都能得到 的解析表达式.例7.5 设总体的密度函数为X1,X2,…,Xn 为此总体的样本.则可以算出其中 为伽玛(Gamma)函数,按矩估计原理分别用取代 a1,a2,得到形如(7.1)的方程组,但 无法得到简单的解析表达式,只能求 的数值解.使用矩估计法的一个前提是总体存在适当阶的矩,阶数应不小于待估参数的个数(或者说参数空间的维数),但这不总是可以做到的.例7.6 柯西(Cauchy)分布 设总体具有密度函数显然,它的各阶矩皆不存在,因此,不能用矩估计法来估计参数 .另外,尽管矩估计法简便易行,且只要 n充分大,估计的精确度也很高,但它只用到总体的数字特征的形式,而未用到总体的具体分布形式,损失了一部分很有用的信息,因此,在很多场合下显得粗糙和过于一般.二、极大似然估计法参数的点估计方法中另一个常用方法就是极大似然估计,简记为MLE.从字面上来理解,就是通过对样本的考察,认为待估参数对象是取什么值即作为对参数的估计,事实上,极大似然估计原理也大致如此.我们通过一个具体例子来说明这一估计的思想.例7.7 已知甲、乙两射手命中靶心的概率分别为0.9、0.4,今有一张靶纸上面的弹着点表明为10枪6中,已知这张靶纸肯定是甲、乙之一射手所射,问究竟是谁所射?从直观上看,甲的枪法属上乘,命中靶心率为0.9,看来这次射击成绩不至于这么差;而乙的枪法又似乎尚不足以打出这么好的成绩,但二者取一,还是更像乙所射.我们来计算一下可能性. 为此, 我们建立一个统计模型:设甲、乙射中与否分别服从参数为 p1=0.9, p2=0.4的两点分布,今有样本 X1,X2,…,X10 ,其中有6个观察值为1,4个为0,由此估计总体的参数 p是0.9,还是0.4.这里因为参数空间只有两个点: ={0.9,0.4},我们不妨分别计算一下参数为什么的可能性大. 若是甲所射, 即参数p=0.9则此事发生的概率为 ;若是乙所射,即参数 p=0.4,则此事发生的概率为尽管是乙所射的可能也不大,但毕竟是比甲所射的概率大了10倍,因此,在参数空间只有两点的情况下,概率 L(p)的最大值在 p=0.4处发生,故我们更情愿认为是乙所射,即用0.4作为 p的估计: .总之,极大似然估计的出发点是基于这样一个统计原理,在一次随机试验中,某一事件已经发生,比如已经得到某个具体的样本 X1,X2,…,Xn ,则必然认为发生该事件的概率最大.从例7.7我们可以看出,极大似然估计的做法,关键有两步.第一步 写出某样本X1,X2,…,Xn 出现概率的表达式 ,对于离散型总体 X,设它的分布列为 则上述样本出现的概率为 .对于固定的样本, 是参数 的函数,我们称之为似然函数.第二步 则是 求 是参空间), 使得 达到最大,此 即为 所求的参数 的极大似然估计.这里还需要着重强调几点.(1)当总体 是连续型随机变量时, 谈所谓样本 X1,X2,…,Xn出现的概率是没有什么意义的,因为任何一个具体样本的出现都是零概率事件.这时我们就考虑样本在它任意小的邻域中出现的概率,这个概率越大,就等价于此样本处的概率密度越大.因此在连续型总体的情况下,我们用样本的密度函数作为似然函数.(2)为了计算方便,我们常对似然函数 取对数,并称为对数似然函数.易知, 与 在同一 处达到极大,因此,这样做不会改变极大点.(3)在例7.7中参数空间只有两点,我们可以用穷举法求出在哪一点上达到最大,但在大多数情形中, 包含m维欧氏空间的一个区域,因此,必须采用求极值的办法,即对对数似然函数关于 求导,再令之为 0,即得i=1,2, … ,m (7.2)我们称(7.2)为似然方程(组). 解上述方程,即得到 的极大似然估计(MLE) i = 1, 2 , … , m .例7.8 设 X1,X2,…,Xn是 的样本,求 与 的极大似然估计(MLE).解 我们有解似然方程组,即得看来,对于正态分布总体来说, , 的矩估计与MLE是相同的.矩估计与MLE相同的情形还有很多,如例7.4的问题中,容易验证,事件A发生的频率也是其概率 P(A)的MLE.我们有更进一步的例子.例7.9 设有 k个事件A1,A2,…,Ak 两两互斥,其概率 p1,p2,…,pk之和为1.做 n次重复独立试验,则各事件发生的频率为各相应概率的MLE. 事实上, 设样本X1,X2,…,Xn 记录了每次试验中所发生的事件,以 ni表示n 次试验中事件 Ai (i=1,2,…,n)发生的次数,则此样本出现的概率(似然函数)为于是得似然方程即 njpk=pjnk.(j =1,2,…,k-1)将上述 k-1个等式相加,注意到 及(n-nk ) pk=nk (1-pk), 得到右边即为事件 Ak发生的频率, 显然事件 Ak与其他事件 Aj地位是相同的,故类似可得到需注意到, 并非每个MLE问题都可通过解似然方程得到,如下例.例7.10 同例7.3,求均匀分布 中参数 的MLE.先写出似然函数(7.3)本例似然函数不连续,不能用似然方程求解的方法,只有回到极大似然估计的原始定义,由式(7.3),注意到最大值只能发生在(7.4)时;而欲 最大,只有使 最小,即使 尽可能小, 尽可能大,但在式(7.4) 的约束下,只能取和矩估计的情形一样,有时虽能给出似然方程,也可以证明它有解,但得不到解的解析表达式.例7.11 同例7.6,求柯西分布中 的MLE.我们可得似然方程为这个方程只能求数值解.第二节 估计量的评价准则对于同一参数,用不同方法来估计,结果是不一样的.如例7.3与例7.10就表明了对于均匀分布 ,参数的矩估计与极大似然估计是不一样的,甚至用同一方法也可能得到不同的统计量.例7.12 设总体X 服从参数为 的泊松分布,即则易知 , 分别用样本均值和样本方差取代 E(X)和 D(X) ,于是得到 的两个矩估计量 .既然估计的结果往往不是唯一的,那么究竟孰优孰劣?这里首先就有一个标准的问题.一、无偏性定义7.1 设 是 的一个估计量,若对任意的 ,都有 ,则称 是 的无偏估计量,如果 ,则称 是 的渐近无偏估计量,其中 称为是 的偏差.无偏性反映了估计量的取值在真值 周围摆动,显然,我们希望一个量具有无偏性.例7.13 是总体期望值 的无偏估计,因为例7.14 S2不是总体方差 的无偏估计,因为注意到故但因此 S2是渐近无偏估计.在 S2的基础上,我们适当加以修正可以得到一个 的无偏估计,这个估计量也和样本方差一样是经常被采用的由此例也可以看出,例7.12中关于 的两个矩估计量中,是无偏的, ;而 是有偏的我们在前面曾经说过,对估计量的优劣的评价,一般是站在概率论的基点上,在实际应用问题中,含有多次反复使用此方法效果如何的意思.对于无偏性,也同样是这样,即在实际应用问题中若使用这一估计量算出多个估计值,则它们的平均值可以接近于被估参数的真值,这一点有时是有实际意义的.如某一厂商长期向某一销售商提供一种产品,在对产品的检验方法上,双方同意采用抽样以后对次品进行估计的办法.如果这种估计是无偏的,那么双方都理应能够接受.比如这一次估计次品率偏高,厂商吃亏了,但下一次估计可能偏低,厂商的损失可以补回来,由于双方的交往是长期多次的,采用无偏估计,总的来说是互不吃亏.然而不幸的是,无偏性有时并无多大的实际意义.这里有两种情况,一种情况是在一类实际问题中没有多次抽样,比如前面的例子中,厂商和销售商没有长期合作关系,纯属一次性的商业行为,双方谁也吃亏不起,这就没有什么“平均”可言.另一种情况是被估计的量实际上是不能相互补偿的,因此“平均”没有实际意义,例如通过试验对某型号几批导弹的系统误差分别做出估计,即使这一估计是无偏的,但如果这一批导弹的系统误差实际估计偏左,下一批导弹则估计偏右,结果两批导弹在使用时都不能命中预定目标,这里不存在“偏左”与“偏右”相互抵消或“平均命中”的问题.我们还可以举出数理统计本身的例子来说明无偏性的局限.例7.15 设 X服从参数为 的泊松分布,X1,X2,…,Xn 为X 的样本,用 作为 的估计, 则此估计是无偏的.因为但当X1 取奇数时, <0,显然用它作为 >0的估计是不能令人接受的. 为此我们还需要有别的标准.二、最小方差性和有效性前面已经说过,无偏估计量只说明估计量的取值在真值周围摆动,但这个“周围”究竟有多大?我们自然希望摆动范围越小越好,即估计量的取值的集中程度要尽可能的高,这在统计上就引出最小方差无偏估计的概念.定义7.2 对于固定的样本容量 n,设 T=T(X1,X2,…,Xn ) 是参数函数 的无偏估计量,若对 的任一个无偏估计量 (X1,X2,…,Xn ) 有则称 T=T(X1,X2,…,Xn )为 的(一致)最小方差无偏估计量,或者称为最优无偏估计量.从定义上看,要直接验证某个估计量是参数函数 的最优无偏估计是有困难的.但对于很大一类分布和估计来说,我们从另一个角度来研究这一问题.考虑 的一切无偏估计 U,如果能求出这一类里无偏估计中方差的一个下界(下界显然存在的,至少可以取0)而又能证明某个估计 能达到这一下界,则 T当然就是一个最优无偏估计量.我们来求这个下界. 下面不妨考虑总体为连续型的(对于离散型的,只须做一点相应的改动即可). 简记统计量 T =T(X1,X2,…,Xn )为 T(X) , 样本 的分布密度 为 ,积分 为 . 又假设在以下计算中, 所有需要求导和在积分号下求导的场合都具有相应的可行性.今考虑 的一个无偏估计 T(X) ,即有两边对 求导(7.5)又上式两边对 求导(7.6)式(7.5)加上式(7.6)乘以上式改写成用柯西-许瓦尔兹(Cauchy-Schwarz)不等式,即得(7.7)其中 (7.8)(7.9)由式(7.7)~式(7.9)即得著名的克拉美-劳(Cramer-Rao)不等式(简称C-R不等式):(7.10)注意到 X1,X2,…,Xn独立分布,则由以及当 时,利用式(7.6)可得其中 称为费歇(Fisher)信息量(Information Quantity),于是式(7.10)可简写成(7.11)式(7.11)的右边称为参数函数 估计量方差的C-R下界.还可以证明 的另一表达式,它有时用起来更方便定义7.3 称 为 的无偏估计量 的效率(显然由C-R不等式, ). 又当 T的效率等于1时,称 T是有效的; 若 ,则称 T是渐近有效的. 显然,有效估计量必是最小方差无偏估计量,反过来则不一定正确.因为可能在某参数函数的一切无偏估计中,找不到达到C-R下界的估计量.我们常用到的几种分布的参数估计量多是有效或渐近有效的.从下面的例子,我们可以体会出验证有效性的一般步骤.例7.16 设总体X ~ , X1,X2,…,Xn为 X的样本,则的无偏估计 是有效的, 的无偏估计 是渐近有效的.证 (i) 由例7.13,7.14知, , 分别是 和 的无偏估计.(ii)计算 ,易知又由定理6.3, 从而(iii)计算故又故(iv)计算效率(v)故 是 的有效估计, 是 的渐近有效估计.例7.17 仍考虑例7.12中泊松分布参数 的矩估计量 的有效性(由于 不是无偏估计,不考虑其有效性).注意,对离散型总体,在考虑费歇信息量时用概率分布来取代概率密度,故有故从而效率它是有效的,从而也是最小方差无偏估计量.第三节 区 间 估 计一、区间估计的一般步骤我们在讨论抽样分布时曾提到过区间估计.与点估计不同的是,它给出的不是参数空间的某一个点,而是一个区间(域).按照一般的观念,似乎我们总是希望能得到参数的一个具体值,也就是说用点估计就够了,为什么还要引入区间估计呢?这是因为在使用点估计时,我们对估计量 是否能“接近”真正的参数 的考察是通过建立种种评价标准,然后依照这些标准进行评价,这些标准一般都是由数字特征来描绘大量重复试验时的平均效果,而对于估值的可靠度与精度却没有回答.即是说,对于类似这样的问题:“估计量 在参数 的 邻域的概率是多大?”点估计并没有给出明确结论,但在某些应用问题中,这恰恰是人们所感兴趣的.例7.18 某工厂欲对出厂的一批电子器件的平均寿命进行估计,随机地抽取 件产品进行试验,通过对试验的数据的加工得出该批产品是否合格的结论?并要求此结论的可信程度为95%,应该如何来加工这些数据?对于“可信程度”如何定义,我们下面再说.但从常识可以知道,通常对于电子元器件的寿命指标往往是一个范围,而不必是一个很准确的数.因此,在对这批电子元器件的平均寿命估计时,寿命的准确值并不是最重要的,重要的是所估计的寿命是否能以很高的可信程度处在合格产品的指标范围内,这里可信程度是很重要的,它涉及使用这些电子元器件的可靠性. 因此, 若采用点估计, 不一定能达到应用的目的, 这就需要引人区间估计.区间估计粗略地说是用两个统计量 , 所决定的区间 作为参数 取值范围的估计.显然,一般地这样说是没有多大的意义的.首先,这个估计必须有一定的精度,即 - 不能太大,太小难以保证这一要求. 比如从区间[1, 100]去估计某人的岁数, 虽然绝对可信, 却不能带来任何有用的信息; 反之, 若用区间[30,31]去估计某人的岁数,虽然提供了关于此人年龄的信息,却很难使人相信这一结果的正确性.我们希望既能得到较高的精度,又能得到较高的可信程度,但在获得的信息一定(如样本容量固定)的情况下,这两者显然是不可能同时达到最理想的状态.通常是采取将可信程度固定在某一需要的水平上,求得精度尽可能高的估计区间.下面给出区间估计的正式的定义.定义7.4 对于参数 ,如果有两个统计量满足对给定的 ,有则称区间 是 的一个区间估计或置信区间, 分别称作置信下限、置信上限, 称 为置信水平.假设 T(X1,X2,…,Xn)是 的一个估计,对任意 ,都有则称T(X1,X2,…,Xn) 是 的置信水平.这里的置信水平,就是对可信程度的度量.置信水平为, 在实际上可以这样来理解.如取 ,就是说若对某一参数 取100个容量为 n的样本,用相同方法做100个置信区 , k=1,…,100. 那么其中有95个区间包含了真参数 .因此,当我们实际上只做一次区间估计时,我们有理由认为它包含了真参数.这样判断当然也可能犯错误,但犯错误的概率只有5%.下面我们来讨论一下区间估计的一般步骤.(1)设欲估参数为 ,先取 的一个点估计 ,它满足两点:一是它较前面提出的标准应该是一个“好的”估计量,二是它的分布形式应该已知,只依赖未知参数 .(2)所求的区间考虑为 的一个邻域 , a,b > 0 .(或者 0 < c <1, d>1 等等),使得对于 ,(7.12)且一般要求 a+b尽可能小. 为确定 a, b (或 c, d ) , 需用解不等式的方法将式(7.12)中的随机事件变成类似于下述等价形式(7.13)其中g(x)为可逆的 x的已知函数, 的分布与 无关且已知,一般其分位点应有表可查,这是关键的一步.于是就可得出 g(a),g(b), 为某个分位点,如 g(a) = c, g(b) = d .(3)从g(a),g(b) 的表达式中解出 a,b即可.我们知道,区间估计涉及到抽样分布,但对于一般分布的总体,其抽样分布的计算通常有些困难.因此,我们将主要研究正态总体参数的区间估计问题.二、单个正态总体参数的区间估计设 X1,X2,…,Xn为总体 X~ 的样本,对给定的置信水平 , 我们分别来研究参数 与 的区间估计.例7.19 在上述前提下,求 的置信水平为 的区间估计.解 考虑 的点估计为 ,确定a>0,b>0 使且使区间长 a+b尽可能小.下面分两种情况.(1) 已知 .变换事件 A,使 A表成式(7.13)的形式:这里 .为使 ,又要尽量使a+b 最小,亦即使 最小.如图7-1(135页)所示,从 密度函数的特点来看(对称、原点附近密度最大,往两边密度减小),只有取即 , 从而所求的区间是(7.14)(2) 未知.将事件A 变换成下列的形式:其中由例7.19知 ,为使 且区间尽量短.与 N(0,1)情形一样,只有取因此所求区间为(7.15)例7.20 在上述前提下求 的置信水平为 的区间估计.解 的点估计量为 S2 , 注意到 ,考虑 0< c < 1< d, 及 S2的邻域[ cS2 , dS2 ],使变换事件 A由定理6.3知 ,故为使 ,通常取于是,所求区间为这里要使区间最短,计算太麻烦,因此,在取分位点时采用类似主对称型分布的取法,使密度函数图形两端的尾部面积均为 (见图7-2,136页).例7.21 一批零件尺寸服从 ,对 进行区间估计( 未知),要求估计精度不低于 ,置信水平保持为,问至少要抽取多少件产品作为样本?解 显然,此处要求由例7.19, ,故(7.16)式(7.16)不是 n的显式, 但对于具体数值, 可采取“试算法”来确定 n.一般是先对 S2作个大致估计(可以由以往的经验确定), 然后用试算的方式确定适合方程(7.16)的 n.例如若估计出 , 又已知 ,来试算 n.显然, 如果任一正整数不可能严格满足方程(7.16) 的话, 则应取使式(7.16)左边大于右边的最小的 n, 因此应该取 n=11.三、双正态总体参数的区间估计实际中常有类似于下列的问题.例7.22 有A、B两种牌号的灯泡各一批,希望通过抽样试验并进行区间估计,考察(i)两种灯泡的寿命是否有明显差异;或者考察(ii)两种灯泡的质量稳定性是否有明显差异.我们补充一些合理假设, 将上述应用问题变为数理统计问题. 设A、B种灯泡的寿命分别服从 ,并设两种灯泡的寿命是独立的.这就是两正态总体的参数区间估计问题,对于(i)是求 的置信区间,对于(ii)是求 的置信区间.如果在(i)中,区间估计的置信下限大于0,则认为 明显大于 ;若它的置信上限小于0,则认为 明显小于 ; 若0含在置信区间内,则认为两者无明显差别.对于(ii)也可做类似的讨论,只需将0相应地改为1即可.下面来给出这两个区间估计.不妨设这两种灯泡的样本分别为 及,置信水平为 .对于(i), 显然可用 的点估计量 来构造置信区间 ,其中 a, b 满足下面分两种情况进行讨论.(1)若 已知 ,则变换事件A注意到 ,欲使,取此时估计区间是(2)若 未知, 只研究 的情形,变换事件 A其中由例7.15知因此,为使 ,取故所求区间是(7.17)对于(ii) 取 为使 ,类似于 分布,取分位点故所求区间为(7.18)例7.23 在例7.22中,随机选取A种灯泡5只,B种灯泡7只,做灯泡寿命试验,算得两种牌号的平均寿命分别为=1000(小时), =980(小时);样本方差 =784(小时的平方), =1024(小时的平方).取置信度为0.99,试用关于 的区间估计回答例7.22中的问题(i),其中假设 .解 此题中, 置信度 ,即 =0.01; 关于例7.22中问题(i),查得代入(7.17)得 的0.99的置信区间为因0含在此置信区间内,故认为 与 无明显差异. 展开更多...... 收起↑ 资源预览