资源简介 (共70张PPT)第五章 参数估计《统计学原理与应用》提纲 (Outline)5.1 问题的提出5.2 参数估计概述5.3 一个总体参数的区间估计5.4 两个总体参数的区间估计5.5 样本容量的确定5.1 问题的提出1. 什么是统计推断?2. 简述评价估计量优良的标准。3. 点估计在抽样推断中起到什么作用?4. 为什么说点估计和区间估计是互为补充的两种估计?5. 阐述区间估计的基本思想及步骤。6. 确定必要样本容量应考虑的因素有哪些?怎样确定样本容量?【案例5.1】 [来源于:(美)罗伯特R.强森,帕特里西亚J.库比著,夏国风,姜爱萍等译[M].机械工业出版社,2011年版]欧洲之星是欧洲首列穿越海峡隧道、连接英国和欧洲大陆的国际列车。它能承载800名乘客,最高时速可达190英里。假设列车在全部往返旅程中,速度的标准差是每小时19英里,车速服从正态分布。读取接下来的20次旅程的速度,平均速度为每小时184英里。问题:(1)研究变量是什么?(2)确定平均速度90%的置信区间?(3)确定平均速度95%的置信区间?5.1 问题的提出【案例5.2】顾客到银行办理业务时往往需要等待一段时间,通常情况下,上午9:00-11:00间顾客等待的时间相对较长。为了研究某商业银行的服务效率,某天上午随机抽取了20位顾客进行研究,得到20为顾客的等候时间如下:等候时间(分钟) 10 9 7 4 20 12 8 15 18 115 3 25 19 14 16 11 21 16 23问题:如何估计顾客平均等待时间的95%的置信区间?5.1 问题的提出5.2 参数估计概述一、参数估计的概念所谓参数估计,就是利用样本信息对总体数字特征作出断和估计,即用样本估计量推断总体参数的具体数值或者一定概率保证下总体参数所属区间。设有一个统计总体,总体的分布函数F(x, θ),θ是总体的一个未知参数,现从该总体抽样,得样本X1,X2,…,Xn,,要依据该样本对参数θ作出估计,这类问题为参数估计。二、参数估计的分类5.2 参数估计概述(一)点估计点估计也称定值估计,是指在参数估计中,不考虑估计的误差,直接用样本的估计量 估计总体参数θ的一种参数估计方法。点估计的方法有矩估计法、极大似然估计法、最小二乘法和顺序统计量法等。点估计的优点是简单,具体明确,不足之处是无法控制误差,仅适用于对推断的准确程度与可靠程度要求不高的情况。(二)区间估计在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减抽样误差而得到的,根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量。设 和 是两个统计量( ),分别是总体参数区间估计的下限和上限,满足下面的条件:5.2 参数估计概述其中,是区间估计的显著性水平,取值在0和1之间变化,通常的取值是1%,5%和10%。是置信度,置信度的含义是:在同样的方法得到的所有置信区间中,有100(1- )% 的区间包含总体参数,说明的是包含在随机区间内的概率,它表明估计的可靠程度。举例来说,在某次估计中,抽取100个样本,由这100个样本所构造的总体参数的置信区间中,若有95%的区间包含了总体参数的真值,其余的5%没包括,则95%被称为置信度,或者置信水平、置信系数,或者可以理解为有95%的把握说这个区间包含未知参数。区间估计就是根据事先确定的置信度给出总体参数的一个估计范围。图5.1是区间估计的示意图。5.2 参数估计概述5.2 参数估计概述图5.1 区间估计示意图三、评价估计量的标准(一)无偏性无偏性指的是样本指标的平均数等于被估计的总体参数,即估计量 的数学期望等于待估参数的真值θ。例:用数学表达式表示如下:5.2 参数估计概述图5.2 估计量的无偏性5.2 参数估计概述5.2 参数估计概述(二)有效性有效性也称最小方差性,指的是估计量在所有无偏估计量中具有最小方差。对同一总体参数的两个无偏点估计量,有更小方差的估计量更有效。5.2 参数估计概述图5.3 估计量的有效性5.2 参数估计概述(三)一致性一致性指的是随着样本量的增大,估计量的值越来越接近被估计的总体参数。设 是未知参数 的估计量,当 时, 按概率收敛于 ,即满足如下条件:( 为任意小的正数)则称 为 的满足一致性标准要求的估计量。图5.4 估计量的一致性5.2 参数估计概述5.3 一个总体参数的区间估计一、总体均值的区间估计1.大样本情况在大样本情况下,无论总体服从正态分布还是非正态分布,样本均值 的抽样分布均服从正态分布,其数学期望为总体均值 ,方差为 ,样本均值经标准化后的随机变量服从标准正态分布N(0,1)。需要注意的是,当总体方差 未知时,要用样本方差 代替总体方差 。5.3.1 总体均值的区间估计当 时,则来自该总体的简单随机样本的均值服从数学期望为 ,方差为的正态分布,即 ,估计总体均值 的置信区间的统计量是Z统计量:(1)总体方差 已知5.3.1 总体均值的区间估计均值 在 置信水平下的置信区间为:图5.5 置信系数5.3.1 总体均值的区间估计【例5.2】 区间估计——总体方差已知调查某大学教师家庭每月水电、煤气和电话费的支出情况,随机抽取100户,发现每月平均帐单为253元。设帐单上的款项 , =70元。求μ的置信水平为95%的区间估计。【解】 已知=253,n=100,=95%, =1.96。由于是正态总体,且方差已知,代入可得总体均值 在1- 置信水平下的置信区间为:即:大学教师家庭每月水电气等支出在 区间变化。5.3.1 总体均值的区间估计软件操作步骤:(1)根据Confidence函数对总体均值的置信区间进行计算,Confidence函数的形式是:Confidence(Alpha, Standard-dev, Size),该函数返回总体平均值的置信区间。Alpha即 ,用于计算置信度的显著性水平的参数;Standard-dev是数据区域的总体标准差,假设为已知;Size为样本容量。5.3.1 总体均值的区间估计(2)在EXCEL新的工作表中,分别在单元格B1,B2,B3,B4中输入已知条件数据,样本容量是100,样本均值是253,标准差为70,显著性水平5%。5.3.1 总体均值的区间估计(3)在Excel中,点击函数“”命令,得到选择函数的对话框,选择“统计”函数下的“Confidence”,确定后得到数据输入对话框,如图5.7所示。分别输入显著性水平、标准差和样本容量,返回结果为13.72。5.3.1 总体均值的区间估计(4)在B6,B7中计算均值的置信区间的下限和上限,其中,B6=B2-B5,B7=B2+B5,得到大学教师平均家庭支出的置信区间为(239.28,266.72)。利用EXCEL计算总体比例置信区间和计算总体均值的置信区间类似,只需要把置信区间更换成即可。5.3.1 总体均值的区间估计由此可以看出,科学的区间估计必须注意以下三个问题 :第一,要选择一个合适的统计量作估计量;第二,要确定合理的允许误差范围 ;第三,要有一个可接受的置信度(估计推断的概率保证程度,这是估计的可靠性问题)。综上,可按照以下步骤估计总体参数的置信区间:第一步:问题的提出,主要是描述感兴趣的总体参数,选择合适的统计量。第二步:构造置信区间 ,明确概率分布和所用公式第三步:根据给定的置信水平1- ,查表求概率度。第四步:根据已知相关指标的数据值计算置信区间的上限和下限。5.3.1 总体均值的区间估计(2)总体方差 未知当总体方差 未知时,要用样本方差 代替总体方差 进行区间估计,但由于大样本仍采用Z统计量估计总体均值均值 的置信区间。因此,总体均值 在 显著性水平下的置信区间为:5.3.1 总体均值的区间估计【例5.3】 区间估计——总体方差未知某灯泡厂生产500万个灯泡,随机抽取500个进行质量检验,这500个灯泡的耐用时间如下表,试求:该厂全部灯泡平均耐用时间的取值范围(=0.27%)。5.3.1 总体均值的区间估计【解】 根据已知条件,可得:由概率保证程度0.9973,查表得概率度 = 3 ,估计总体均值的区间:代人数据: 即:全部灯泡平均耐用时间的取值范围是 小时。5.3.1 总体均值的区间估计二、小样本情况,正态分布总体在小样本情况下,如果总体服从正态分布,样本均值 的抽样分布服从正态分布,因此,当总体方差 已知时,均值 在 显著性水平下的置信区间为:1. 总体方差 已知5.3.1 总体均值的区间估计【例5.4】小样本下的区间估计——总体方差未知某大学从该校学生中随机抽取25人,调查到他们平均每天参加体育锻炼的时间为26分钟,试以95%的置信水平估计该大学全体学生平均每天参加体育锻炼的时间(假定总体 ,且已知总体方差为36)。【解】 由已知可知1- =0.95,总体方差已知,可查表得临界值 =1.96,n=25。因此, 总体均值的置信区间为:即大学生平均每天参加体育锻炼的时间在(23.648,28.352)区间变化。5.3.1 总体均值的区间估计5.3.1 总体均值的区间估计(2)总体方差 未知在小样本情况下,如果总体服从正态分布,样本均值 的抽样分布服从正态分布,但是总体方差未知,则需要用样本方差 代替总体方差 进行区间估计,这是样本均值 的抽样分布服从自由度为n-1的t分布,总体均值 的置信区间为:其中,是自由度为n-1时,t分布中右侧面积为时的临界值,通过查t分布表可得此临界值。5.3.1 总体均值的区间估计【例5.5】 小样本下的区间估计——总体方差未知为了检测200件产品的寿命,从中抽取20件,得样本平均值为=300小时,样本标准差s=8小时,设 =0.05和 =0.01,求期望寿命μ的置信区间(假定总体 )。5.3.1 总体均值的区间估计【解】 =0.05和 =0.01时,查t分布表得临界值分别为, ,产品寿命的置信区间为:当 =0.05时,当 =0.01时,5.3.1 总体均值的区间估计综上可以把一个总体均值的区间估计总结如表5.1所示。样本容量 大样本( ) 小样本( ) 方差 已知 方差 未知 方差 已知 方差 未知正态总体非正态总体表5.1 一个总体均值的区间估计——5.3.2 总体比例的区间估计在大样本情况下,由中心极限定理(或正态逼近定理),对于一个二项分布随机变量 ,当 充分大(通常 >30)时,可用正态分布来近似。因此总体比例的估计 的分布也可用正态分布 来近似。在此只讨论大样本情况下总体比例的区间估计问题。若,则 近似服从以下分布:选择 Z 统计量来构造总体比例的置信区间,总体比例 在显著性水平下的置信区间为:5.3.2 总体比例的区间估计【例5.6】 总体比例的区间估计对某市1000名青少年的随机调查发现,有217人每天都抽烟。试估计该市青少年中每天都抽烟的青少年比例的90%的置信区间。【解】 显然有np>5,n(1-p)>5,因此可以用正态分布进行估计。1- =90%,查表得 =1.645。青少年每天抽烟比例的置信区间是:经计算置信区间为:结论:我们有90%的把握认为该市青少年中每天都抽烟的青少年比例在19.55%~23.85%之间。5.3.2 总体比例的区间估计5.3.3 总体方差的区间估计在此假设总体服从正态分布,总体方差 的点估计量为样本方差 ,样本方差的抽样分布服从自由度为n-1 的 分布,给定一个显著性水平 ,由 分布构造总体方差的置信区间。给定一个显著性水平,由分布所构造总体方差的置信区间可用图5.8所示:图5.8 自由度为n-1的 分布5.3.3 总体方差的区间估计由 可知: ,经过变换可得总体方差在 置信水平下的置信区间为:从图5.8可以看出,通过 值来构造总体方差 的置信区间,前提是找到满足的值。5.3.3 总体方差的区间估计【例5.7】 总体方差的区间估计对某种金属材料的10个样品所组成的一个随机样本作抗拉强度试验。从试验数据算出的方差为4,试求总体方差 的95%的置信区间?【解】设该金属材料的抗拉强度服从正态分布 ,n=10, 1- =0.95, =0.05, =4。查表可得, 。总体方差 的95%的置信区间为:代入数据可得区间为:即总体方差95%的置信区间为 。5.3.3 总体方差的区间估计软件操作步骤:(1)打开一个新的EXCEL工作薄,根据题意,分别在单元格B2、B3输入样本容量10和样本标准差2,具体见图5.9。图5.9 总体方差置信区间由于总体标准差未知,且又是小样本,所以要使用 分布进行区间估计。5.3.3 总体方差的区间估计(2)在E2单元格输入右侧置信度0.025,在E3单元格输入左侧置信度0.975。(3)选定E4单元格,插入函数“CHIINV”,打开“CHIINV”对话框,如图5.10所示。(4)在“probability”中输入右侧置信度0.025或E2,在“Deg-freedom”中输入自由度10-1或者B2-1,单击“确定”按钮,计算结果为19.02277。(5)在单元格E5重复上面的步骤,打开CHIINV对话框,在“probability”中输入0.975或E3,自由度不变,单击“确定”按钮,计算结果为2.70039。5.3.3 总体方差的区间估计(6)选择B7单元格,输入公式“=(9*B3*B3)/E5”计算估计方差上限,值为13.33141,类似的,选择B8单元格,输入公式“=(9*B3*B3)/E4,计算估计方差的下限,值为1.892469。图5.10 CHIINV函数对话框一、两个总体均值之差的区间估计二、两个总体比例之差的区间估计三、两个总体方差比的区间估计5.4 两个总体参数的区间估计(一)大样本情况1.条件:两个总体都服从正态分布,或者两个总体不服从正态分布,但从中抽取的样本的为大样本,即总体均值之差的分布为:5.4 两个总体参数的区间估计一、两个总体均值之差的区间估计标准化后服从正态分布N(0,1),即:当两个总体方差已知时,在 显著性水平下,两个总体均值之差 的置信区间为:5.4.1 两个总体均值之差的区间估计(1)两个总体方差 和 已知当两个总体的方差未知时,用两个样本的方差和 代替总体方差,这时两个总体均值之差的置信区间为:5.4.1 两个总体均值之差的区间估计(2)两个总体方差 和 未知【例5.8 】 某市为估计A、B两个区家庭平均收入之差,在两个区中抽取两个独立的随机样本,样本信息如下:试计算两个区年平均收入之差的95%的置信区间。5.4.1 两个总体均值之差的区间估计A区 B区【解】:由已知条件, ,根据下式可得两个区的年平均收入之差95%的置信区间为:[1031.4,1368.6]5.4.1 两个总体均值之差的区间估计5.4.1 两个总体均值之差的区间估计(二)小样本情况1.条件:两个总体都服从正态分布,两个样本相互独立,且是随机从总体中抽取的。(1)两个总体方差 和 已知当两个总体方差已知时,在 显著性水平下,两个总体均值之差 的置信区间为:用两个样本的方差 和 来构造新的方差 ,以此作为总体方差的合并估计量,这时需将两个样本的数据合并,计算公式如下:5.4.1 两个总体均值之差的区间估计(2)两个总体方差 和 未知且相等,即此时,两个样本均值之差服从自由度为的t分布,即:由此可得,两个总体均值之差 的置信区间为:5.4.1 两个总体均值之差的区间估计【例5.9】 随机地从A批导线中抽取4根,从B批导线中抽取5根,测得电阻( 欧 )为:A批:0.143 0.142 0.143 0.137B批:0.140 0.142 0.136 0.138 0.140设测定数据分别来自分布 ,且两样本相互独立,又 均未知,试求的置信水平为95%的置信区间。5.4.1 两个总体均值之差的区间估计【解】已知 ,可得 的置信区间为:即 的置信区间为:[-0.0020,0.0061]5.4.1 两个总体均值之差的区间估计根据有关样本比例的抽样分布可以证明,在大样本情况下 ,从两个二项总体中抽取的两个独立样本,容量分别为 ,分别计算两个样本的比例为 和 。两个样本的比例之差 的抽样分布近似服从正态分布,且5.4.2 两个总体比例之差的区间估计两个样本的比例之差标准化后服从标准正态分布,即:当两个总体的比例 未知时,可用样本比例 来代替,从而两个总体比例之差的置信度为 的置信区间为:5.4.2 两个总体比例之差的区间估计5.4.2 两个总体比例之差的区间估计【例5.10】 在对两个广告效果的电视评比中,每个广告在一周的时间内播放6次,然后要求看过广告的人陈述广告的内容。记录的资料如下表:要求:计算两个总体回想起比例之差的95%的置信区间。广告 看过广告的人数 回想起主要内容的人数A 150 63B 200 60【解】:已知两个总体回想起比例之差的95%的置信区间为:经计算,得区间为[0.20,0.22],所以两个总体回想起比例之差的95%的置信区间为[0.20,0.22]。5.4.2 两个总体比例之差的区间估计有两个正态总体,方差分别是 ,现在从中独立抽取样本容量为 的样本,构造统计量根据抽样分布理论,它服从分子自由度为 ,分母自由度为 的F分布,记为 。利用F分布来构造两个总体方差比 的置信区间。如图所示:5.4.3 两个总体方差比的区间估计图5.11 方差比的置信区间示意图从F分布表查得 ,找到一个F值满足:由前面可知: 可用来代替F,于是得到在 显著性水平 下的置信区间为:5.4.3 两个总体方差比的区间估计经过不等式变换,可推导出两个总体方差比 在显著性水平 下的置信区间:其中, 为F分布的上侧面积 的分位数, 为F分布的下侧面积 的分位数。由于F分布表中只能查出面积较小的右分位数 ,可用一下关系式来求分位数 。其中, 为F分布的第一自由度, 为F分布的第二自由度。5.4.3 两个总体方差比的区间估计5.4.3 两个总体方差比的区间估计【例5.11】 29名申请要当机械工的工人,其中13人在职业学校接受过6个月的训练,16人曾进行过自学。先对他们进行测验,第一组得分的方差为525,第二组得分的方差为350,试问两个总体方差比的90%的置信区间是多少。【解】:已知两个总体方差比的90%的置信区间为:经计算,得区间为[0.60,3.66],即两个总体方差比的90%的置信区间是[0.60,3.66]。5.5 样本容量的确定一、估计总体均值时样本容量的确定二、估计总体比例时样本容量的确定5.5.1 估计总体均值时样本容量的确定一、总体均值的置信区间公式称为允许误差,记为 , 和 共同决定了估计误差大小:给定一个置信水平 , 随之确定,有了 和即可计算样本量n二、样本量的计算公式:【例5.12】根据以往的生产经验,某种产品的合格率为98%。如果要求95.45%的置信区间,估计误差不超过4%,应抽取多大容量的样本?【解】:已知 , , 可得5.5.1 估计总体均值时样本容量的确定5.5.2 估计总体比例时样本量的确定一、估计总体比例时,允许误差为:是总体方差,但总体比例 是未知的,要用样本比例代替, 代替样本方差,公式为:二、样本容量计算式:【例5.13】某超市要顾及每个顾客平均每次购物花费的金额。根据以往的经验,标准差大约为80元,现要求以95%的置信水平估计每个顾客平均购物金额的置信区间,并要求估计误差不超过20元,应抽取多少顾客作为样本?【解】:已知 1.96, =80, =20,根据公式 可知,5.5.2 估计总体比例时样本量的确定三、总结样本容量和总体方差、允许误差、置信水平等因素密切相关。第一,在其他条件不变的情况下,样本容量和总体方差成正比。总体的变异程度越大,必要样本量也就越大;第二,其他条件不变,样本容量与允许误差成反比。最大允许误差越大,需要的样本量越小;第三,其他条件不变,样本量与置信水平成正比。置信水平越大,要求的可靠性越高,所需样本容量越大。谢谢! 展开更多...... 收起↑ 资源预览