资源简介 参数估计 7.1 参数的点估计 7.3 区间估计 7.2 估计量的评选标准 目录 数理统计的基本问题是根据样本提供的信息,对总体的分布及分布的数字特征做出统计推断.它的主要内容分为两大类:一类是统计估计问题,其主要内容是本章要介绍的参数估计;另一类是假设检验. 在实际问题中,有一些总体的分布类型是已知的,但其中含有未知参数;还有一些总体的分布类型并不知道,但我们所关心的只是它的某些数字特征.这时,如何利用样本提供的信息估计这些未知参数就是参数估计.参数估计按结果形式的不同分为两类:点估计和区间估计. 7.1 参数的点估计 7.1.1 参数点估计的概念 设 是总体X的k个未知参数, 是X的一个样本, 是相应样本的观测值.所谓对参数 做点估计,就是构造适当的统计量 ,用它的观测值 作为参数 的估计值,则称统计量 是的点估计量, 是的点估计值. 点估计方法很多,本节介绍两种常用的方法:矩估计法和极大似然估计法. 7.1.2 矩估计法 矩估计法的理论依据是辛钦大数定理,即当随机变量列独立同分布且期望存在时,它们的均值依概率收敛到它们的期望.故当 时,样本的j阶原点矩 依概率收敛到总体X的j阶原点矩 ,因此可用 作为 的估计量. 我们知道,总体矩是反映总体分布的数字特征,当总体中含有未知参数时,总体矩是待估参数的函数.故矩估计法的具体做法是:设总体X具有分布函数 ,其中 均未知, 是X的一个样本. 如果总体X的i阶原点矩 存在,则根据总体的分布可求出: 令 其中 是样本的j阶原点矩. 求出上述方程组的解. 称 为参数 的矩估计量, 是 的矩估计值. 7.1.2 矩估计法 01 02 03 例7-1 设总体X的密度函数为 (1)求 的矩估计量; (2)若得样本的一组观测值为0.1,0.2,0.4,0.6,0.1,0.2,求 的矩估计值. 解 (1)令 ,其中 , 即 ,得 的矩估计量 . (2)此时 ,代入可得 的矩估计值 . 7.1.2 矩估计法 例7-2 设总体X的期望 ,方差 ,其中 未知, 是X的样本,求 的矩估计量. 解 由于 , ,所以令 求得矩估计量为 此例说明,无论总体服从什么分布,总体期望 的矩估计量为样本均值 ,总体方差 的矩估计量为样本的二阶中心矩. 7.1.2 矩估计法 例7-3 设随机变量 ,其中a,b为未知常数, 为总体样本,求a,b的矩估计量. 解 由于 ,由例7-2得 解得参数a,b的矩估计量为 . 矩估计法是一种既直观又简单的传统估计方法,特别是在对总体的某些数字特征做估计时,不需要知道总体分布的类型,但要求总体对应的各阶矩存在.另外,由于样本矩的表达式与总体的分布无关,因此矩估计法有时没有充分利用总体分布类型对所提供的信息,所以它的估计量有时不是十分理想. 7.1.2 矩估计法 7.1.3 极大似然估计法 极大似然估计法是应用最为广泛的点估计的方法之一.其基本思想也是很直观的.例如,某个事件发生的概率为p,且p只能取0.1或0.9.现在连续进行两次试验,该事件都发生了,显然该事件发生的概率应取可能值中较大的,故取p=0.9是合理的.所以,极大似然估计法的基本思想是: 设 是总体X的样本,总体X中含有未知参数 , 为参数的取值范围. 是样本的一组观测值 ,我们应当选取 使得样本观测值出现的概率相比较的其他可能取值达到最大. 极大似然估计法的具体应用是:设总体X为离散型随机变量,分布列为 ,其中是未知参数, 是样本 的一组观测值,则这一组观测值出现的概率为 显然,对于 , 为参数 的函数,记为 ,即 . 7.1.3 极大似然估计法 求出 的极大值点 即为的估计值. 当总体是连续型随机变量时,因上述概率变成零,并且在第2章中讲过,当密度函数 在处的值越大时,X的取值落在 附近的概率就越大,故考虑其密度函数 在样本观测值 处的值 ,并求出 的极大值点即可. 综上,我们 给出下列定义: 7.1.3 极大似然估计法 定义7.1 设总体X的密度函数为 [当X为离散型随机变量时, 为X的分布列,即 ],其中 为未知参数, 为参数的取值范围. 为样本观测值.称 为样本的似然函数.若存在 ,其中 ,使得 , 则称 为θ的极大似然估计值,而称 为θ的极大似然估计量. 7.1.3 极大似然估计法 由定义可知,求极大似然估计值的一般步骤为: 利用总体的分布和样本观测值写出似然函数: ; 求出 的最大值点 ,即为所求.若 可导,则要使 取到最大值,θ需满足 ;又由于 同时取得最大值,故等价地也可由方程 求得θ的极大似然估计值.若 可导,但导数无零点,则要根据 的单调性及θ的取值范围确定 的最大值点. 7.1.3 极大似然估计法 01 02 例7-4 设总体 , 是来自总体X的样本, 是样本观测值.求p的极大似然估计值和估计量. 解 X的分布列为 ,故似然函数为 取对数得 . 令 , 解得p的极大似然估计值为 , 极大似然估计量为 . 7.1.3 极大似然估计法 例7-5 求例7-1中未知参数ɑ的极大似然估计量. 解 总体X的密度函数为 设 为样本的一组观测值,故似然函数为 当 时,取对数得 , 7.1.3 极大似然估计法 令 , 解得 ɑ的极大似然估计值为 , 故ɑ的极大似然估计法量为 . 7.1.3 极大似然估计法 例7-6 设总体 , 为未知参数, 是 来自总体X样本的观测值,求 的极大似然估计量. 解 X的密度函数为 , 似然函数为 取对数得 , 7.1.3 极大似然估计法 令 解得 的极大似然估计值为 , 于是 的极大似然估计量为 7.1.3 极大似然估计法 例7-7 设总体 , 为总体X的样本,求未知参数a,b的极大似然估计量. 解 总体X的密度函数为 设 为样本的一组观测值,则似然函数为 显然,当 即 时, 是a的增函数、b的减函数,所以当a取其能取到的最大值,b取其能取到的最小值时, 取得最大值.而 的条件为 ,即 7.1.3 极大似然估计法 .综上可知,当 时, 取得最大值.故a,b的极大似然估计值为 , a,b的极大似然估计量为 . 极大似然估计法具有不变性:若 的极大似然估计量,而 是连续函数,则 是 的极大似然估计量.这一性质对是多维参数时也成立,这给计算带来了很大的方便. 7.1.3 极大似然估计法 例7-8 求例7-7中总体X的期望和方差的极大似然估计量. 解 由于 ,所以 ,显然 为参数a,b的连续函数,利用例7-7的结果和极大似然估计法的不变性可得 到 的极大似然估计量分别为 . 7.1.3 极大似然估计法 7.2 估计量的评选标准 在7.1节中,我们可以看到,对于同一个未知参数,如果采用不同的估计方法,可能得到不同的估计量.这就需要给出评价估计量优良性的标准,从而评价估计量的好坏.下面介绍几个常用的标准. 7.2.1 无偏性 由于未知参数θ的估计量 是一个随机变量,它的取值由样本的观测值确定.对不同的观测值, 的值应在θ的真值附近,不应该总是偏大或是偏小.也就是从平均意义上讲,希望 与θ越接近越好.当其差为零时,给出了无偏性的概念. 定义7.2 设 是未知参数θ的估计量,如 果 存在,并且 , 则称 是θ的无偏估计量,否则称为有偏估计量. 例7-9 设总体X的期望是 ,方差是 ,k阶原点矩 , 是来自总体的样本,证明: (1)样本均值 是总体均值的无偏估计; (2)样本的k阶原点矩 是总体的k阶原点矩 的无偏估计; (3)样本方差 是总体方差 的无偏估计; (4)方差的矩估计量 不是总体方差 的无偏估计. 7.2.1 无偏性 证 因为 , 所以样本均值是总体均值的无偏估计. 因为 , 所以样本的k阶原点矩 是总体的k阶原点矩 的无偏估计. 7.2.1 无偏性 01 02 因为 , , , 所以 故样本方差是总体方差的无偏估计. 显然,故 , 所以 不是总体方差的无偏估计. 7.2.1 无偏性 03 04 例7-10 设总体X的期望 存在,从总体X中抽取样本 ,选取 的三个估计量为 , , .证明上述三个估计量都是 的无偏估计. 证 因为 ,所以 , , , 显然, 都是的无偏估计. 7.2.1 无偏性 通过例7-10可以看出,同一个未知参数θ的无偏估计不是唯一的,那么在无偏估计中哪一个更好呢?显然应该看它们哪一个取值更集中在θ附近,即与θ的偏离更小,故应考虑估计量的方差,于是我们给出了第二个评选标准——有效性. 7.2.1 无偏性 7.2.2 有效性 定义7.3 设 和 都是未知参数θ的无偏估计量,若 , 则称 比 有效. 例7-11 在例7-10中,设总体X的方差存在,试比较三个无偏估计中哪一个更有效. 解 由于 相互独立,且 ,所以 , , , 可见 , 所以,在这三个无偏估计中 更有效. 例7-12 设总体X的期望为 ,方差为 .分别独立地从总体X中抽取容量为m和n的样本,样本均值分别为 及 ,令随机变量 . (1)当a,b满足什么条件时, 是 的无偏估计. (2)当a,b为何值时,无偏估计量 是(1)中无偏估计里最有效的. 解 (1)因为 ,故要使 是 的无偏估计,只要 即可. 7.2.2 有效性 (2)由题设 和 相互独立,可知 令 ,即 , 解得 . 所以,当 时是无偏估计 中最有效的. 7.2.2 有效性 7.2.3 一致性 上述的无偏性和有效性性,一般都是在所取样本容量固定时提出的.当样本容量n增大时,我们自然希望估计量能充分接近于待估参数,于是有下述的评选标准: 定义7.4 设 是未知参数θ的估计量,若对任意的 ,有 , 则称 是θ的一致估计量. 由辛钦大数定律可以证明,样本均值 是总体均值 的一致估计量,样本的k阶原点矩是总体的k阶原点矩的一致估计量. 7.3 区间估计 前面讨论了参数的点估计,即根据样本观测值求出未知参数的估计值.但此时无法知道这些估计值的精确性和可靠性,因此需引入另一类估计形式:区间估计.在区间估计理论中,被广泛接受的一种观点是置信区间,它是由奈曼(Neymann)提出的. 7.3.1 区间估计的概念 定义7.5 设总体X的分布中含有一个未知参数θ, 是来自总体X的样本.如果对于给定的概率 ,存在两个统计量 和 ,使得 , 则称随机区间 为参数θ的置信水平为 的置信区间,又称 和 为θ的置信下限和置信上限, 称为置信水平或置信度. 7.3.1 区间估计的概念 对于上述定义,要注意以下三点: (1)由于 和 是统计量,所以置信区间 是随机区间.当样本取得的观测值不同时,具体区间也不同. (2)置信水平 是指随机区间 包含真值的概率.例如,置信水平为0.95,这表明若重复试验100次,将得到100个不同的具体区间,则其中约有95个区间包含了θ真值. (3)由定义不难看出,未知参数θ的置信水平为 的置信区间不是唯一的,而区间长度表示估计的范围,即区间估计的精度,当然区间长度越小越好.因此在给定置信水平的情况下,总是寻找长度尽量短的置信区间. 7.3.1 区间估计的概念 求未知参数θ的置信区间的一般步骤如下: (1)构造样本 和未知参数θ的一个函数 ,使得的分布已知且其分布不依赖于θ的具体取值和其他未知参数. (2)对于给定的置信水平 ,根据Y的分布确定两个常数a,b使得 . 通常情况下取 ,利用上侧分位点的定义,即 , . (3)将上述事件整理得 , 从而得到θ的置信区间( , ). 7.3.1 区间估计的概念 7.3.2 正态总体均值和方差的区间估计 1.单个正态总体均值和方差的区间估计 假设总体 , 为总体X的样本, 为样本均值, 为样本方差,给定置信水平为 . 1)均值 的置信区间 (1)当 已知时,求 的置信水平为 的置信区间. 因为 是 的无偏估计且 ,故选取函数 , 对于给定的 ,由图7-1可知, , 其中 为自由度为 的t分布的上侧 分位点. 将上式变形得到 . 故当 未知时, 的置信水平为 的置信区间为 . 图7-2 7.3.2 正态总体均值和方差的区间估计 例7-13 某车间生产的滚珠直径服从正态分布 ,现从某天生产的产品中随机抽取9个,测量得如下数据: 19.7,20.1,19.8,19.9,20.2,20.0,19.9,20.2,20.3. 在下列条件下,求平均直径 的置信水平为95%的置信区间. (1)已知 ; (2) σ未知. 7.3.2 正态总体均值和方差的区间估计 解 由题意 . (1)当σ已知时, 的置信水平为 的置信区间为 ,查附表2可得 ,代入数据得 ; (2)当σ未知时, 的置信水平为 的置信区间为 , 查附表4可得 ,代入数据得 . 7.3.2 正态总体均值和方差的区间估计 2)方差 的置信区间 在实际问题中, 往往是未知的,所以这里只介绍 未知时 的置信区间. 由于 是 的无偏估计,由定理6.2知 , 对于给定的 ,由图7-3可知, , 即 . 7.3.2 正态总体均值和方差的区间估计 所以, 的置信区间为 . 图7-3 7.3.2 正态总体均值和方差的区间估计 例7-14 设某种钢丝折断力服从正态分布.现随机抽取10根,检查折断力,得数据如下: 578,572,570,568,572,570,570,572,596,584. 求钢丝折断力方差的置信水平为0.95的置信区间. 解 方差的置信区间为 . 由样本值可得 .由题意 ,查附表3可得 , ,代入区间形式可得方差的置信水平为0.95的置信区间为 . 7.3.2 正态总体均值和方差的区间估计 2.两个正态总体均值差和方差比的区间估计 假设 是来自总体 的样本, 是来自总体的样本 ,且X与Y相互独立,样本均值依次记为 ,样本方差依次记为 . 1)求均值差 的置信区间 (1)当 已知时,求 的置信水平为 的置信区间. 因为 分别为 的无偏估计,于是 为 的无偏估计,而由定理6.3知 , . 由单个正态总体在方差已知情形下 的置信区间形式,可得 的置信水平为 的置信区间为 . 7.3.2 正态总体均值和方差的区间估计 (2)当 未知但 时,求 的置信水平为 的置信区间. 由定理6.3知 , 从而可得 的置信水平为 的置信区间为 , 其中 . 7.3.2 正态总体均值和方差的区间估计 例7-15 设两总体X,Y相互独立 , ,从X,Y中分别抽取容量为 的样本,且 ,求 的置信水平为95%的置信区间. 解 显然两个总体的方差已知,故置信区间为 , 其中 ,查附表2得 ,将数据代入可得 的置信水平为95%的置信区间为 . 7.3.2 正态总体均值和方差的区间估计 2)求方差比 的置信区间 我们仅讨论 都未知的情况,方差比 的置信水平为 的置信区间. 由定理6.2知,随机变量 , 由上侧分位点的定义知 , 即 . 于是 的置信水平为 的置信区间为 . 7.3.2 正态总体均值和方差的区间估计 前面讨论了正态总体参数的区间估计,然而在很多问题中,总体X并不一定服从正态分布,所以要讨论总体分布中未知参数的区间估计往往比较困难.但是,当样本容量n很大时,我们可以根据中心极限定理近似地解决这个问题.这种方法也称为大样本法. 7.3.3 非正态总体参数的区间估计 7.3.3 非正态总体参数的区间估计 设总体X的分布中含有未知参数θ,则总体的期望 和 方差显然都依赖于参数θ,记作 . 从总体X中抽取样本 ,它们相互独立,并且与总体X服从相同的分布,且 . 由列维中心极限定理可知,当n充分大(一般要求 )时,样本函数 对于给定的置信水平 ,有 . 通过不等式 , 解得参数θ应满足的不等式,则可以近似地求出参数θ的置信区间. 下面以(0-1)分布为例来看一下分布中参数p的区间估计. 设总体X服从参数为p的(0-1)分布,即X的分布列为 , ,则 . 是总体X的样本.当n较大时, . 对于给定的置信水平 ,有 . 由不等式 , 整理得 , 记 7.3.3 非正态总体参数的区间估计 则上式可记为 . 一元二次方程 的判别式为 , 注意到 ,所以 ,故 ,所以方程有两个不同的实根: . 因为 ,所以上述不等式的解为 , 故 于是,未知参数p的置信水平为 的置信区间为 . 7.3.3 非正态总体参数的区间估计 例7-16 为检查某批产品的合格率,现随机抽取100件产品,检查发现其中有81件产品合格,试求该批产品合格率的置信水平为0.95的置信区间. 解 设随机变量 则X的分布列为 , ,其中ρ是这批产品的合格率. 7.3.3 非正态总体参数的区间估计 由题意,样本容量 , ,查附表2可得 ,所以 由此可得 所以,这批产品合格率ρ的置信水平为0.95的置信区间为 . 7.3.3 非正态总体参数的区间估计 前面介绍的置信区间都是双侧的,即都有置信上限和置信下限.但在许多问题中,人们有时只对未知参数的置信下限或置信上限感兴趣.例如,估计元件、设备的使用寿命,只关心平均寿命的下限.对产品次品率的估计,我们希望次品率越低越好,此时我们关心的是废品率的上限.为此,引入了单侧置信区间的概念. 7.3.4 单侧置信区间 定义7.6 设总体X的分布中含有一个未知参数θ, 是来自总体X的样本.如果对于给定的置信水平 ,存在统计量 使得 , 则称随机区间 是参数θ的置信水平为 的单侧置信区间, 称为θ的置信水平为 的单侧置信下限. 如果由统计量 ,使得 7.3.4 单侧置信区间 则称随机区间 是参数θ的置信水平为 的单侧置信区间,称为θ的置信水平为 的单侧置信上限. 单侧置信区间的求法与双侧置信区间的求法类似,故我们仅对正态总体方差未知的情形给出均值的单侧置信区间的求法,其余情形留给读者自己完成. 设总体 , 未知, 为总体X的样本, 为样本均值, 为样本方差.给定置信水平 ,求 的单侧置信区间. 7.3.4 单侧置信区间 与双侧置信区间相同,选取随机变量 , 由上侧分位点的定义知 , 故 , 所以, 的置信水平为 的单侧置信区间为 , 故 的置信水平为 的单侧置信下限为 . 7.3.4 单侧置信区间 另一方面 , 即 , 所以, 的置信水平为 的单侧置信区间为 , 故 的置信水平为 的单侧置信上限为 . 7.3.4 单侧置信区间 例7-17 从一批电子元件中随机抽取5只做寿命测试,测得 .设它们的寿命服从正态分布,试求平均寿命的置信水平为0.95的单侧置信下限. 解 均值的单侧置信区间为 ,其中 , , 查附表4得 ,代入可得置信下限为 . 7.3.4 单侧置信区间 习 题 7 1.已知总体X的密度函数为 其中 为未知参数, 为总体X的样本,求θ的矩估计量. 2.设总体X服从泊松分布 ,其中未知参数 , 为总体X的样本,求λ的矩估计量和极大似然估计量. 习 题 7 3.设总体X的密度函数为 , 为总体X的样本,求θ的极大似然估计量. (1) (2) (3) . 习 题 7 4.设总体X的分布列为 其中 是未知参数,利用总体的样本值3,1,3,0,3,1,2,3,求θ的矩估计值和极大似然估计值. 习 题 7 5.设总体X的密度函数为 为总体X的样本.求: (1)θ的矩估计量 ; (2) . 习 题 7 6.设总体X的分布函数为 , 其中未知参数 .设 为总体X的样本. (1)当 时,求β的矩估计量; (2)当 时,求β的极大似然估计量; (3)当 时,求α的极大似然估计量. 7.设随机变量 ,求未知参数θ的矩估计量和极大似然估计量,它们是否为θ的无偏估计? 习 题 7 8.设 为总体X的样本, , ,问k为何值时, 为 的无偏估计. 9.某车间生产的螺钉,其直径 ,已知 ,今随机抽取6枚,测得其长度为14.7,15.0,14.8,14.9,15.1,15.2,试求 的置信度为0.95的置信区间. 习 题 7 10.设某工厂生产滚珠,其直径服从正态分布 .从某日生产的产品中随机抽取9个,测得直径均值 ,标准差 .求: (1)直径的均值 的置信水平为0.95的置信区间; (2)直径的方差 的置信水平为0.95的置信区间. 11.欲比较两种棉花品种的优劣,先假设用它们纺出的棉纱强度分别服从 和 .现分别从两种棉纱中抽取容量为200和100的样本,其均值分别为 ,求均值差 的置信水平为0.95的置信区间. 习 题 7 12.设总体 , 为总体X的样本,要使 的置信水平为90%的置信区间的长度不超过2,问样本容量n至少应取多少? 13.设某产品的生产工艺发生改变,在改变前后分别测得了若干件产品的技术指标,其结果为 改变前:21.6,22.8,22.1,21.2,20.5,21.9,21.4, 改变后:24.1,23.8,24.7,24.0,23.7,24.3,24.5,23.9. 假设该技术指标改变前后都服从正态分布,试计算工艺改变后的方差 与工艺改变前的方差 的比 的置信水平为0.95的置信区间. 习 题 7 14.从一批灯泡中随机地取5只做寿命试验,测得寿命为1 050,1 100,1 120,1 250,1 280.设灯泡寿命服从正态分布,求灯泡寿命平均值的置信水平为0.95的单侧置信下限. 15.为检验某学校学生体育达标情况,先从该校学生中随机选取100名同学,测试发现有75名学生体育达标.试求该校学生体育达标律的置信水平为0.95的置信区间. 谢谢观看 1.1.1 随机试验与随机事件 另外,随机试验中的有些结果是必然发生的,我们称之为必然事件,记作;还有些结果是不可能发生的,称之为不可能事件,记作.例如,上例中,{出现的点数不超过6}是必然事件;{出现的点数超过6}是不可能事件.今后为了讨论方便,必然事件和不可能事件也看作随机事件. 展开更多...... 收起↑ 资源预览