资源简介 (共60张PPT)CH6 数理统计的基本概念2024/2/27前言2024/2/27美国经济学家罗伯特 恩格尔 (Robert F. Engle 1942 ~)英国经济学克莱夫 格兰杰(Clive Granger 1934 ~)共同获得2003年诺贝尔经济学奖20 世纪 80 年代两位获奖者发明了新的统计方法来处理许多经济时间数列中两个关键属性:易 变 性随时间变化的非稳定性前言2024/2/27恩格尔 研究方向主要是利率、汇率和期权的金融计量分析,提出谱分析回归等创新性统计方法格兰杰 的研究涉及统计和经济计量学,特别是时间序列分析、预测、金融、人口统计学、方法论等领域.学习统计无须把过多时间花在计算上,可以更有效地把时间用在基本概念、方法原理的正确理解上.国内外著名的统计软件包: SAS,SPSS,MATLAB, STAT等,都可以让你快速、简便地进行数据处理和分析.数理统计学是一门应用性很强的学科. 它关于数据资料收集、整理、分析、和推断的一门学科。对所考察的问题作出推断和预测,直至为采取一定的决策和行动提供依据和建议.PART 16.1 总体与样本6.1.1 总体与样本2024/2/271.总体试验的全部可能的观察值称为总体.研究一批灯泡的寿命分布,需明确该批灯泡中每个灯泡的寿命长短。2.个体总体中的每个可能观察值称为个体.实例6.1.1研究某一湖泊的深度,需测量湖面上每处到湖底的深度。实例6.1.26.1.1 总体与个体2024/2/27总体中所包含的个体的个数称为总体的容量. 容量为有限的称为有限总体,容量为无限的称为无限总体.3.有限总体和无限总体当有限总体包含的个体的总数很大时, 可近似地将它看成是无限总体.6.1.1 总体与个体从总体中抽取部分个体进行研究,该过程称为抽样。根据获得的数据对总体的特征作出推断,被抽出来的部分个体称为样本,样本中所包含的个体数目称为样本容量。从总体中随机地抽取一个个体,抽样结果是不确定的,所以抽取的第个个体是一个随机变量,记为(),由个个体可组成容量为的样本,记作,因此,样本是一个维随机向量。每次抽样之后,会得到一组确定的数值,记作,该组数值称为样本的一组观测值,简称样本值。由于抽样的随机性,两次抽样中所得到的样本值不一定相同。定义6.1.1 设总体是一随机变量,是一组相互独立且与同分布的随机变量,称维随机变量为来自总体的一个简单随机样本,简称样本, 为样本容量,每次抽样得到的具体数值称为样本观测值。6.1.1 总体与个体由定义6.1.1可知,若总体具有分布函数,则样本的联合分布函数为.6.1.1 总体与个体如果总体为离散型随机变量,其概率分布为(),则其样本联合分布律为如果总体为连续型随机变量,其概率密度函数为,则其样本联合概率密度函数为6.1.2 直方图与经验分布函数2024/2/27为研究总体分布的性质,人们往往通过试验或抽样的方式得到许多观察值,通常情况下这些数据是杂乱无章的。因此,需要对这些数据进行加工整理,而直方图就是常用的对统计数据加工整理的一种方式,它能够在一定程度上反映总体的概率分布情况。例6.1.3 由于随机因素的影响,某铅球运动员的铅球出手高度可看成一个随机变量,现有一组出手高度的统计数据(单位:cm)如下:200 195 210 211 201 192 177 189 210 189205 185 197 183 177 202 204 188 206 197202 200 201 191 195 183 198 189 203 194现在来画这组数据的频率直方图。1.直方图2024/2/27解 第一步,在以上数据中找到最小值和最大值;,=211。第二步,确定最小下限和最大上限;此例数据为整数,说明测量工具精度只能精确到厘米,因而若测得铅球某次出手高度为200cm,实际代表[199.5,200.5)内一切数值,显然,该例中最小下限应为176.5,最大上限应为211.5。6.1.2 直方图与经验分布函数第三步,确定分组数及组距。分组数不宜过多,也不宜过少,通常当样本容量 较大时,可确定为10~20组,当n≤50时,可分为5~6组。本例共测量30次,即n=30,分为5组,通常采用等距分组,每组区间长度称为组距,用Δ表示,其计算方式如下:6.1.2 直方图与经验分布函数第四步,确定组限、组频数、组频率,作频率分布表。组限为分组区间的端点,根据各区间内所包含的样本数量即组频数(),计算组频率,列表如下:6.1.2 直方图与经验分布函数第五步,画频率直方图。在某一区间上的频率可用该区间上的小方条面积表示,所有这些小矩形就形成频率直方图,若用表示每个小矩形的纵坐标,则上式称为频率密度值。此时,以铅球出手高度 为横轴,频率密度值为纵轴,作小矩形就得到铅球出手高度 的频率直方图。每个小矩形的面积就是相对应区间上的频率,因此所有小矩形面积之和等于1。连接小矩形的顶边所形成的阶梯曲线称为频率密度曲线。6.1.2 直方图与经验分布函数若样本容量不断增加,分组数越来越多,组距越来越小,频率密度曲线将无限接近于总体的真实分布密度曲线,即概率密度曲线。图6.1.1 某铅球运动员的铅球出手高度频率直方图6.1.2 直方图与经验分布函数2024/2/276.1.2 直方图与经验分布函数2. 经验分布函数定义6.1.2 设是总体的一个样本,若用()其一组样本观测值中不大于的观测值数量,则称函数,为经验分布函数。若给定总体的样本观测值,通过经验分布函数可以近似描述总体的分布函数。2024/2/27例6.1.4设是来自总体 的一个样本,现得到其一组观测值为-1,0,1,1,2,试求其经验分布函数。根据定义,其经验分布函数为6.1.2 直方图与经验分布函数2024/2/276.1.2 直方图与经验分布函数则经验分布函数一般,设是总体的一个容量为的样本观测值,先将其按从小到大的顺序进行排列,记为6.1.2 直方图与经验分布函数总体的经验分布函数表示事件出现的频率。根据贝努利大数定律,当试验次数足够大时(此处即样本容量足够大),频率收敛于概率,因此总体的分布函数,(),从而可以用经验分布函数近似描述总体的分布函数。PART 26.2 统计量与抽样分布6.2.1 统计量的概念2024/2/271. 统计量的定义定义6.2.1 设是来自总体的容量为的样本,为的函数,若中不含未知参数,则称是一个统计量。若是的一组观测值,则称是的观测值。2024/2/276.2.1 统计量的概念例6.2.1 设是来自正态总体的样本,参数已知,未知,则,,都是统计量,而,都不是统计量。6.2.2 常见统计量2024/2/27(1)样本平均值(2)样本方差其观察值设是来自总体的样本,为其一组观测值,下面给出几个常见的统计量。6.2.2 常见统计量2024/2/27(3)样本标准差其观察值(4) 样本k阶(原点)矩,其观察值2024/2/27(5)样本k阶中心矩,其观察值,6.2.2 常见统计量(6)样本偏度偏度,也称为偏态、偏态系数,是一个衡量样本数据关于均值对称性的测度。正态分布的概率密度函数图像关于均值对称,其偏度为0,如果样本偏度值 ,则说明均值左侧数据比均值右侧数据更离散,直观表现为左侧尾部相对右侧尾部较长,称为左偏态;反之,如果 ,则说明均值右侧数据比均值左侧数据更离散,直观表现为右侧尾部相对左侧尾部较长,称为右偏态。其观察值6.2.2 常见统计量(7)样本峰度峰度,又称峰态系数,是一个衡量概率密度函数曲线在平均值处峰值高低的量,直观来看,峰度反映了概率密度函数图像峰部的陡缓程度。正态分布的峰度为3,一般而言,以正态分布作为参照,若峰度值 ,说明峰部形状较为平缓,比正态分布更扁平,则称分布具有不足的峰度;峰度值,说明峰部形状较为陡峭,比正态分布更尖,称分布具有过度的峰度。其观察值6.2.2 几个常用的统计量2024/2/276.2.2 几个常用的统计量(8)顺序统计量定义6.2.2 设是来自总体的样本,将其观测值按从小到大的顺序进行排列为,当的取值为时,定义一组新的随机变量,使的取值为,,则称为顺序统计量(或次序统计量)。定理6.2.1 设是来自总体的样本,如果,,则(1),;(2)。6.2.2 几个常用的统计量6.2.3 抽样分布统计量是由样本构成的函数,因此,将统计量的分布称为抽样分布。定理6.2.2 设是来自总体的一个样本,是已知常数,则1. 正态总体样本的线性函数的分布6.2.3 抽样分布标准正态分布的分位点设,对于给定的,称满足的点为标准正态分布的上分位点,如图所示。的值与有关,可通过查标准正态分布表得到,如当时,即,查表得,。图6.2.1 标准正态分布的上分位点6.2.3 抽样分布2024/2/27定义6.2.3 设是相互独立且的服从的一组随机变量,则服从自由度为的分布,记为值得注意的是,自由度n是指中独立变量的个数. 关于分布有如下性质.分布的密度函数为2. 分布其中,。6.2.3 抽样分布2024/2/27自由度不同,分布的概率密度函数图形状不同,当自由度分别取1,5,10,20时,的图形如图6.2.2所示:图6.2.2 不同自由度下分布的概率密度函数图6.2.3 抽样分布2024/2/272.1. 若,则,;分布的可加性:若,,,相互独立,且,,,,则分布的重要性质6.2.3 抽样分布2024/2/27分布的分位点设 对于给定的称满足的点为分布的上分位点,如图6.2.3所示。的值与和有关,可通过查分布表得到,如当,时,。但表中只列举到的情形。图6.2.3 分布的上分位点6.2.3 抽样分布2024/2/27费歇(R.A.Fisher)曾证明,当充分大时, 分布的近似分布为,该特征从图6.2.2中也有所体现,自由度越大,分布的概率密度函数图像越接近正态分布。因此,当时,可由下式计算,其中是服从标准正态分布的上分位点。6.2.3 抽样分布2024/2/27定义6.2.4 设且与相互独立,则称随机变量服从自由度为的分布,记为.分布又称学生(student)分布.分布的密度函数为,3. 分布自由度不同,分布的概率密度函数图形状不同,当自由度分别取1,10,以及时,的图形如图6.2.4所示:6.2.3 抽样分布图6.2.4 不同自由度下分布的概率密度函数图6.2.3 抽样分布2024/2/27分布的重要性质:当n足够大时,t分布的近似分布为标准正态分布,即6.2.3 抽样分布2024/2/27分布的分位点设,对于给定的,称满足的点为分布的上分位点,如图6.2.5所示。的值与和有关,可通过查分布表得到,例如当,时,。图6.2.5 分布的上分位点根据分布上分位点的定义及其概率密度函数图像的对称性,可知6.2.3 抽样分布表中只列举到的情形,这是由于当时,分布的概率密度函数逼近标准正态分布(见图6.2.4),因此在时,可用标准正态分布近似分布,即,其中,是标准正态分布的上分位点。6.2.3 抽样分布2024/2/27定义6.2.5 设,,且与相互独立,则称随机变量服从第一自由度为,第二自由度为的分布,记作。例6.2.2 已知,证明。4. 分布6.2.3 抽样分布证明 若,根据分布的定义,有其中,,,且与相互独立,则根据分布的定义可知,,且与相互独立,根据分布的定义,有6.2.3 抽样分布分布的概率密度函数为6.2.3 抽样分布2024/2/27自由度不同,分布的概率密度函数形状不同,固定第一自由度,当第二自由度分别取5,15,25时,的图形如图6.2.6所示:图6.2.6 不同自由度下分布的概率密度函数图6.2.3 抽样分布2024/2/27分布的分位点 设,对于给定的,称满足的点为分布的上分位点,如图6.2.7所示,它与有关,书后有附表可查。分布的重要性质:若,则。图6.2.7 分布的上分位点6.2.3 抽样分布2024/2/27根据分布上分位点的定义及分布的性质,可知的值与,以及有关,可通过查分布表得到,例如当,,时,。表中只列举了,0.05,0.025,0.01,0.005的情形,对于,0.95,0.975,0.99,0.995的情形,可利用分布上分位点的性质得出,如。PART 36.3 常用统计量的分布6.3.1 单个正态总体的抽样分布2024/2/27定理6.3.1 设是来自正态总体的样本,是样本均值,是样本方差,则有(1),即;(2),;(3)与相互独立;(4)。6.3.1 单个正态总体的抽样分布2024/2/27即证明 (1)由于是来自正态总体的样本因此,之间相互独立且同分布于又,则根据正态分布的线性性质,有6.3.1 抽样分布——单个正态总体的抽样分布2024/2/27(4)由(1)、(2)可知,,且两者相互独立,根据分布的定义,有(2)①由于,则。根据卡方分布的定义可知,。②证明过程参见文献[1]。(3)证明过程参见文献[1]。6.3.1 抽样分布——单个正态总体的抽样分布2024/2/27整理得6.3.2 两个正态总体的抽样分布2024/2/27定理6.3.2 设是来自正态总体的样本,是来自正态总体的样本,且这两个样本相互独立。两个正态总体的样本均值分别记为和,样本方差分别记为和,,,则(1);两个正态总体的抽样分布2024/2/27(2)当时,其中,;(3);6.3.2 两个正态总体的抽样分布2024/2/27(4)。6.3.2 两个正态总体的抽样分布2024/2/27因此,。证明 (1)根据定理6.3.1可知,,,且两者相互独立,根据正态分布的性质,有6.3.2 两个正态总体的抽样分布2024/2/27且两者相互独立。根据的可加性,有。(2)当时,令,则由(1)可知,。又由定理6.3.1第(2)条可知,,,6.3.2 两个正态总体的抽样分布2024/2/27且两者相互独立,根据分布的定义,有, 整理得(2)由于和相互独立,则根据分布的定义可得(3)根据定理6.3.1,可知,,6.3.2 两个正态总体的抽样分布2024/2/27且两者相互独立。因此,根据分布的定义,有(4)根据定理6.3.1第(2)条,有,,Thanks !概率论与数理统计 展开更多...... 收起↑ 资源预览