资源简介 (共40张PPT)第3章 3.1 集中趋势的度量3.2 离散程度的度量3.3 偏度与峰度的度量3.4 用Stata软理解数据分布特征描述的基本理论数据分布特征的描述第3章理解数据分布特征描述的基本理论;理解集中趋势和离散程度的基本概念;熟练掌握数据集中趋势和离散程度的计算方法;掌握信度和峰度的度量方法。数据分布特征的描述本章教学目的第3章集中趋势和离散程度的计算方法;数据集中趋势和离散程度的计算方法;信度和峰度的度量方法。数据分布特征的描述本章重点和难点第3章 3.1.1算术平均数3.1.2几何平均数3.1.3调和平均数3.1.4中位数3.1.5众数3.1集中趋势的度量量第3章算术平均数又称均值,是统计学中最基本、最常用的指标,主要分为简单算术平均数和加权算术平均数两种。1.简单算术平均数简单算术平均数的计算方法是将观测值的总和除以观测值的个数。简单算术平均数是统计数据中心位置的度量。假设x1,x2,x3,…,xn是n个样本的观测值集合,则观测样本平均数的计算方法如下:3.1 数据分布特征的描述3.1.1算术平均数例如,将某公司16名销售人员年薪收入组成一个样本,如表3-1所示,计算该公司销售人员样本的平均年薪。第3章表3-1 某公司16名销售人员年薪资料表单位:元8 900 8 530 8430 9 340 8 680 8 790 9 210 8 5308 790 8 230 8650 9 130 9 430 8 540 9 540 9 130根据公式计算如下:公式(3-1)说明了当有n个样本观测值时算术平均数的计算方法,总体算术平均数的计算方法与此类似,但需要使用不同的符号来表示总体的算术平均数,通常用N来表示总体观测值的数量,用μ来表示总体的算术平均数。其计算方法如下:3.1 数据分布特征的描述3.1.1算术平均数第3章2.加权算术平均数加权算术平均数是根据统计总体分组整理的资料计算的算术平均数,其计算方法如下:3.1.1算术平均数3.1 集中趋势的度例如,表3-2是20名工人加工零件数量的分组表,计算人均日产量。第3章表3-2 某公司20名工人加工零件均值计算表按零件数分组 组中值x 频 数 f xf105~110 107.5 5 537.5110~115 112.5 7 787.5115~120 117.5 8 940平均日产均加权平均数的大小取决于变量值和频数大小,如果某组数据的频数很大,那么该组数据对平均值的影响也很大。3.1 集中趋势的度3.1.1算术平均数第3章几何平均数是统计分布数列中n个观测变量值连乘后再开n次方的计算结果,通常用字母G来表示。几何平均数通常用来计算平均速度和平均比率问题。几何平均数与算术平均数相类似,分为简单几何平均数和加权几何平均数。3.1.2几何平均数3.1集中趋势的度第3章1.简单几何平均数简单几何平均数一般适用于计算还未进行分组数据的平均速度或平均比率,其计算公式为:式中,xi 表示数列中第i个观测值;n表示数列中观测值的数量;П表示连乘。3.1.2几何平均数3.1 集中趋势的度量例如,某车间生产加工某零件,共四道工序,合格率分别为98%、96%、93%、90%,试计算加工该零件的平均合格率为多少?根据公式(3-4)可知:根据结果可知,该车间加工该零件的平均合格率为94.2%。第3章3.1 集中趋势的度量3.1.2 几何平均数第3章2.加权几何平均数加权几何平均数一般用来计算频数分布数据的平均比率或平均速度,其计算公式如下:3.1.2几何平均数3.1 集中趋势的度量第3章在实际工作中,由于数据资料获取的限制,无法直接获取分组单位数的数据,就不能直接利用算术平均数计算平均数。在这种情况下,需要对算术平均数的公式进行转换变形才能计算出平均数,这个转换变形后的公式就是调和平均数公式。例如,某市场批发水果资料如表3-3所示,试计算该水果的平均批发价格。3.1.3调和平均数3.1 集中趋势的度量第3章表中资料计算平均批发价格时缺少权数资料,无法直接运用算术平均数方法进行计算,需要根据批发成交额和批发价格计算出成交量,然后再利用成交额与成交量计算出平均批发价格。具体计算过程如下:为加权调和平均数计算公式,代入相关数据,可以得到平均批发价格为:3.1.3调和平均数3.1 集中趋势的度量1.中位数的概念中位数是指将所有观测值按大小顺序进行排列后,处在中间位置的观测值就是中位数,一般用M0表示。为了避免数据受到极端观测值的影响,中位数较其他平均数更能代表样本的一般水平。例如,人口学利用中位数观测不同时期人口年龄的变化趋势;为了了解一群人的平均身高,可以将居中位置人的身高当作样本总体的平均值。第3章3.1.4 中位数3.1 集中趋势的度量第3章2.中位数的计算(1)未分组数据的中位数计算:对于还未分组的数据,可以按照大小顺序进行排列,然后确定处于中间位置的观测值。中位数位置可以用(n+1)/2进行计算,其中n为观测值的数量,当n为奇数时,处于中间位置的观测值即为中位数;当n为偶数时,处于中间位置的两个观测值的算术平均数为中位数。例如,人口学利用中位数观测不同时期人口年龄的变化趋势;为了了解一群人的平均身高,可以将居中位置人的身高当作样本总体的平均值。3.1 集中趋势的度量3.1.4中位数第3章(2)分组数据的中位数计算分组数据的中位数计算公式有两种:下限公式和上限公式。下限公式:上限公式:3.1.4中位数3.1 集中趋势的度量第3章例如,某小区居民消费水平的调查资料如表3-4所示,计算该小区居民消费水平的中位数。按月消费额分组(元)x 调查户数(户)f 累 计 频 次 向 上 累 计 向 下 累 计500以下 40 40 500500~800 90 130 460800~1 100 115 245 3701 100~1 400 100 345 2551 400~1 700 70 415 1551 700~2 000 50 465 852 000以上 35 500 35合计 500 —— ——根据表3-4中数据可知:则中位数所在组为消费额1 100~1 400元的组别,根据下限公式(3-7)可得:3.1.4 中位数3.1 集中趋势的度量第3章众数是根据观测值所处位置来确定的平均数,是指在频次分布中出现频次最多的观测值,所以众数也可以说是频数分布的集中趋势。众数一般用字母Mo来表示。1.单项数列的众数计算。对于单项数列的众数计算,需要判断哪组的频次最多,频次最多组的观测值即为众数。3.1.5众数3.1 集中趋势的度量第3章2.组距数列的众数计算。对于组距数列的众数计算,需要根据数列数最多的组确定众数所在的组别,然后利用插补法求出众数的近似值。组距数列的众数计算公式有两种:下限公式和上限公式。下限公式:上限公式:3.1.5众数3.1 集中趋势的度量第3章例如,以表3-4为例,频次最多的组是消费额800~1 100元的组,将相关数据代入公式(3-9)可得:按月消费额分组(元)x 调查户数(户)f 累 计 频 次 向 上 累 计 向 下 累 计500以下 40 40 500500~800 90 130 460800~1 100 115 245 3701 100~1 400 100 345 2551 400~1 700 70 415 1551 700~2 000 50 465 852 000以上 35 500 35合计 500 —— ——3.1.5 众数3.1 集中趋势的度量3.2.1 极差3.2.2 平均差3.2.3 方差和标准差3.2.4 离散系数第3章3.2 离散程度的度量第3章极差又称极距,是指总体中最大观测值与最小观测值的差值,一般用字母R来表示,即对于未分组的数据资料,计算极差只需要将最大观测值减去最小观测值。而组距分配数列,则分为两种类型:开口组和闭口组。一般只计算闭口组分配数列的极差,其计算公式为R=最后一组上限-第一组下限。3.2 离散程度的度量3.2.1 极差第3章平均差是指总体中各个变量测量值与算术平均数差值绝对值的算术平均数,通常用符号A.D来表示。平均差的计算公式如下:无论是采用简单方法还是采用加权方法进行计算,平均差的计算都需要取绝对值,这是因为算术平均数具有正负离差可以相互抵消的性质,所以为了避免离差互相抵消就需要取绝对值,以此来消除公式中正负号对平均差的影响。3.2.2 平均差3.2 离散程度的度量第3章1.方差方差是各个测量值与算术平均数离差平方的平均数。对于未分组的数据资料,可以用如下公式进行计算:对于未分组的数据资料,可以用如下公式进行计算:对于已经分组的数据资料,可以采用如下公式进行计算:3.2.3 方差和标准差3.2 离散程度的度量第3章2.标准差对方差进行开方就会得到标准差,其计算公式如下:3.2.3 方差和标准差3.2 离散程度的度量第3章比较变量自身水平在不同数列之间的离散程度,就需要计算它们的相对离散程度,即离散系数。离散系数是将同一个研究总体中的标准差与其算术平均数相除,以测量研究总体的相对离散程度,离散系数的计算公式如下:3.2.4 离散系数3.2 离散程度的度量第3章3.3.1信度系数3.3.2峰度系数3.3偏度和峰度的度量第3章研究总体的频数分布有对称和非对称两种类型,一般情况下,以正态分布或钟形曲线为比较基准。频数分布非对称分布的偏斜程度称为偏度。根据算术平均数、中位数和众数的数量关系可以大致判断总体分布的特征。3.3.1偏度系数3.3偏度和峰度的度量第3章通过上述三种总体分布特征可以看出,无论总体分布是正态分布、左偏分布还是右偏分布,中位数一直处于中间的位置,同时算术平均数、中位数和众数呈现一定的数量比例关系。众数与中位数的距离大约是算术平均数与中位数距离的2倍,由此公式可以推导出如下公式:通过上述计算公式可以看出,无论总体分布是否呈现正态分布,中位数始终位于平均算术数和众数之间,因此可以利用算术平均数和众数的数量关系来描述频数分布的偏斜程度。3.3偏度和峰度的度量3.3.1偏度系数第3章为了方便比较分析和消除数量级别的影响,一般将算术平均数与众数的差值与标准差相除,其比值称为偏度系数。偏度系数的计算公式如下:3.3.1偏度系数3.3偏度和峰度的度量第3章频数分布除了具有偏度特征以外,还有峰度特征,它是指将频数分布与标准正态分布曲线进行比较时,曲线峰顶的陡峭程度。峰度一般分为三种,如图3-4所示,A为正态峰,B为尖顶峰,C为平顶峰。3.3.2峰度系数3.3偏度和峰度的度量第3章尖顶峰分布表明频数分布比较集中,平顶峰分布则表明频数分布较为分散。一般情况下,频数分布峰度的高低用峰度系数来衡量,它是以四次中心方差与标准差的四次方的比值来计算的,峰度系数通常用字母β来表示,其计算公式如下:3.3.2峰度系数3.3偏度和峰度的度量第3章3.4.1 用summarize命令计算数据的分布特征3.4.2 用tabstat命令计算数据的分布特征3.4 Stata软件计算数据的分布特征第3章1.数据概要在Stata的命令操作中,table和tabulate命令可以实现对定性变量的频数和频率的统计,tabstat和summarize命令可以实现对连续变量的统计描述。describe命令输出的结果包含每个变量的名称、存储方式(byte,float,double和int)、显示格式、变量标签和变量值标签。3.4.1 用summarize命令计算数据的分布特征3.4 Stata软件计算数据的分布特征第3章接着使用codebook命令详细地观察clock.dta文件中price这个变量的相关情况。.codebook pricecodebook命令的执行结果如下:codebook命令输出的结果表明:price采用的是整数格式存储(int),取值范围为[729,2131],没有缺失值(0/32说明32个观测值中有0个缺失),均值是1 326.88,标准差是393.487,最后一行是5种常用的百分位数。3.4.1 用summarize命令计算数据的分布特征3.4 Stata软件计算数据的分布特征第3章2.使用summarize命令计算数据的分布特征对于任何数据分析,使用summarize命令进行数据的核对都是很有必要的,尤其对于缺失值、无效值、奇异值的探测都大有裨益。在summarize后加上想要进行计算数据分布特征的变量名称,如果未加任何变量,则默认对数据中的所有变量计算数据的分布特征。下面是summarize命令的格式,同所有的Stata命令一样,方括号为可选项目。在summarize命令中可以使用 if 和 in 限定范围,也可以使用weight添加权重。.summarize [varlist] [if] [in] [weight] [,options]3.4.1 用summarize命令计算数据的分布特征3.4 Stata软件计算数据的分布特征下面用clock.dta文件,使用summarize命令对price做基本的统计分析。命令及其结果如下:使用summarize命令对clock.dta文件中的所有变量做基本的统计分析。命令及其结果如下:输出结果从左到右每列分别显示了变量名、观测值个数、均值、标准差、最小值和最大值。第3章3.4 Stata软件计算数据的分布特征3.4.1 用summarize命令计算数据的分布特征第3章命令tabstat与summarize相似,但tabstat命令提供了更加灵活的统计量组合。如果不加by( )选项,那么tatstat是summarize的一个很好的替代,因为可以通过stat( )添加各种所需的统计量。by( )选项允许对by( )中变量不同的取值分别计算数据的分布特征。表3-5是tabstat命令报告中的统计量。tabstat命令的格式,与summarize命令的格式基本一致:.tabstat varlist [if] [in] [weight] [,options]3.4.2 用tabstat命令计算数据的分布特征3.4 Stata软件计算数据的分布特征下面是tabstat命令的格式,与summarize命令的格式基本一致:.tabstat varlist [if] [in] [weight] [,options]下面用clock.dta文件,使用tabstat命令计算变量price的相关分布特征。命令及其结果如下:第3章3.4 Stata软件计算数据的分布特征3.4.2 用tabstat命令计算数据的分布特征 展开更多...... 收起↑ 资源预览