资源简介 (共54张PPT)第 4 章 数据的描述统计量4.1 描述水平的统计量4.2 描述差异的统计量4.3 描述分布形状的统计量statistic思考一下如果用一个值代表一个地区的收入水平,你是用平均数还是用中位数?“双十一”每个人网购金额的标准差是500元,平时是400元,你认为是“双十一”网购金额的差异大,还是平时网购金额的差异大?假定你们班的统计学平均考试分数是80分,标准差是5分,而你的考试分数是90分,你的考试分数距离平均数有几个标准差的距离?你可以手工计算30个人的平均上网时间,但你能手工计算300万个人的平均上网时间吗?4.1 描述水平的统计量4.1.1 平均数4.1.2 分位数4.1.3 众数第 4 章 数据的描述统计量4.1.1 平均数4.1 描述水平的统计量 x x平均数(mean)也称为均值,常用的统计量之一消除了观测值的随机波动易受极端值的影响根据总体数据计算的,称为平均数,记为 ;根据样本数据计算的,称为样本平均数,记为 x简单算数平均(Simple mean)设一组数据为:x1 ,x2 ,… ,xn (总体数据xN)样本平均数总体平均数统计函数—AVERAGEExcel加权平均数(Weighted mean)设各组的组中值为:M1 ,M2 ,… ,Mk相应的频数为: f1 , f2 ,… ,fk样本加权平均:总体加权平均:平均数(例题分析)【例4—1】随机抽取20个年龄在18—25周岁之间的成年人,得到的身高数据如表4—1所示。计算20个人的平均身高表176 165 182 174 177170 178 174 176 169176 165 185 175 170180 164 179 162 173用【AVERAGE】函数计算平均数(例题分析)第1步:将光标放在任意空白单元格。然后点击【公式】,点击插入函数【】第2步:在【选择类别】中选择【统计】,并在【选择函数】中点击【AVERAGE】,单击【确定】第3步:在【Number1】中选择要计算平均数的数据区域,然后单击【确定】加权平均数(例题分析) 150个出租车司机某天营业额的加权平均数计算表营业额分组 组中值() 人数() 200—250 225 7 1575250—300 275 11 3025300—350 325 22 7150350—400 375 38 14250400—450 425 29 12325450—500 475 20 9500500—550 525 12 6300550—600 575 6 3450600—650 625 3 1875650—700 675 2 1350合计 — 150 608004.1.2 分位数(quantile)4.1 描述水平的统计量中位数(median)排序后处于中间位置上的值。不受极端值影响Me50%50%2. 位置确定3. 数值确定中位数的计算【例4—3】沿用例4—1。计算20个人身高的中位数。确定中位数的位置:中位数是排序后的第10.5位置上的数值,即中位数在第10个数值(174)和第11个数值(175)中间(0.5)的位置上中位数用【MEDIAN】函数计算中位数第1步:将光标放在任意空白单元格。然后点击【公式】,点击插入函数【】第2步:在【选择类别】中选择【统计】,并在【选择函数】中点击【MEDIAN】,单击【确定】第3步:在【Number1】中选择要计算中位数的数据区域,然后单击【确定】四分位数—用3个点等分数据(quartile)排序后处于25%和75%位置上的值不受极端值的影响QLQMQU25%25%25%25%四分位数的计算(位置的确定)Excel给出的四分位数位置的确定方法如果位置不是整数,按比例分摊位置两侧数值的差值四分位数的计算(例题分析)【例4—4】沿用例4—1。计算计算20个人身高的四分位数先对n个数据从小到大进行排序,然后计算出四分位数的位置:,在第5个数值(169)和第6个数值(170)之间0.75的位置上,因此,。在第15个数值(177)和第16个数值(178)之间0.25的位置上,因此,。由于在和之间大约包含了50%的数据。就上面20人的身高而言,可以说大约有一半人的身高在169.75cm和177.25cm之间。用【QUARTILE.INC】函数计算四分位数(例题分析)第1步:将光标放在任意空白单元格。然后点击【公式】,点击插入函数【】第2步:在【选择类别】中选择【统计】,并在【选择函数】中点击【QUARTILE.INC】,单击【确定】第3步:在【Array】中选择要计算中位数的数据区域,在【quart】后输入相应的数字以决定函数返回哪一个数值。quart 等于0,返回最小值;quart 等于1,返回第1个四分位数,即25%位置上的四分位数;quart 等于2,返回中位数;quart 等于3,返回第3个四分位数,即75%位置上的四分位数;quart 等于4,返回最大值然后单击【确定】,即得到相应的分位数值百分位数(percentile)百分位数用99个点将数据分成100等分,处于各分位点上的数值就是百分位数。百分位数提供了各项数据在最小值和最大值之间分布的信息有多种算法,每种算法的结果不尽相同,但差异不会很大。设为第个百分位数,Excel给出的第个百分位数的位置公式为:如果位置是整数,百分位数就是该位置对应的数值;如果位置不是整数,百分位数等于该位置前面的数值加上按比例分摊的位置两侧数值的差值中位数就是第50个百分位数,和就是第25个百分位数和第75个百分位数百分位数的计算(例题分析)【例4—4】沿用例4—1。计算计算20个人身高的四分位数第5个百分位数的位置为:Excel将排序后的第1个数值位置设定为0,最后一个数值位置设定为1。因此,第5个百分位数在第1个值(162)和第2个值(164)之间0.95的位置上,因此第90个百分位数的位置为:第90个百分位数在第18个值(180)和第19个值(182)之间0.1的位置上,因此用【PERCENTILE.INC】函数计算百分位数(例题分析)第1步:将光标放在任意空白单元格。然后点击【公式】,点击插入函数【】第2步:在【选择类别】中选择【统计】,并在【选择函数】中点击【PERCENTILE.INC】,单击【确定】第3步:在【Array】中选择要计算百分位数的数组或数据区域,在【K】后输入相应的数字以决定函数返回哪一个数值。K为0到1之间的百分点值,包含0和1。例如,K=0返回最小值,K=1返回最大值。K=0.01返回地1个百分位数;K=0.25返回第25%位置上的四分位数(第1个四分位数);K=0.5返回中位数;K=0.75返回75%位置上的四分位数(第3个四分位数;等等。单击【确定】,即得到相应的分位数值4.1.3 众数4.1 描述水平的统计量众数(mode)一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数mo用【MODE.SNGL】函数计算众数(例题分析)第1步:将光标放在任意空白单元格。然后点击【公式】,点击插入函数【】。第2步:在【选择类别】中选择【统计】,并在【选择函数】中点击【MODE.SNGL】,单击【确定】。第3步:在【Number1】中选择要计算中位数的数据区域,然后单击【确定】众数、中位数、平均数的特点和应用平均数易受极端值影响数学性质优良,实际中最常用数据对称分布或接近对称分布时代表性较好中位数不受极端值影响数据分布偏斜程度较大时代表性接好众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时代表性较好4.2 差异的描述4.2.1 全距和四分位距4.2.2 方差和标准差4.2.3 离散系数4.2.4 标准分数第 4 章 数据的描述统计量4.2.1 全距和四分位距4.2 描述差异的统计量全距(range)一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布计算公式为:R = max(xi) - min(xi)四分位距(quartile deviation)也称为四分位差计算公式:Qd = Q25% – Q75%反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性25%75%4.2.2 方差和标准差4.2 描述差异的统计量方差和标准差(variance and standard deviation)数据离散程度的最常用测度值反映各变量值与均值的平均差异根据总体数据计算的,称为总体方差(标准差),记为 2( );根据样本数据计算的,称为样本方差(标准差),记为s2(s)样本方差和标准差(sample variance and standard deviation)未分组数据组距分组数据未分组数据组距分组数据方差的计算公式标准差的计算公式注意:样本方差用n-1去除!总体方差和标准差(Population variance and Standard deviation)未分组数据组距分组数据未分组数据组距分组数据方差的计算公式标准差的计算公式样本标准差(例题分析)【例4—7】沿用例4—1。计算20个人身高的方差和标准差标准差为:。用【VAR.S】函数和【STDEV.S】函数计算样本方差和标准差(例题分析)第1步:将光标放在任意空白单元格。然后点击【公式】,点击插入函数【】第2步:在【选择类别】中选择【统计】,并在【选择函数】中点击【VAR.S】,单击【确定】第3步:在【Number1】中选择要计算方差的数据区域,然后单击【确定】。即可得到样本方差(计算标准差时选择【STDEV.S】函数即可)注:计算总体方差的函数为【VAR.P】;计算总体标准差的函数为【STDEV.P】分组数据标准差(例题分析)【例4—8】沿用第2章例2—2。根据表2—9的分组数据,计算营业额的标准差营业额分组 组中值() 人数()200—250 225 7 -180.3333 227640.7778250—300 275 11 -130.3333 186854.5556300—350 325 22 -80.3333 141975.7778350—400 375 38 -30.3333 34964.2222400—450 425 29 19.6667 11216.5556450—500 475 20 69.6667 97068.8889500—550 525 12 119.6667 171841.3333550—600 575 6 169.6667 172720.6667600—650 625 3 219.6667 144760.3333650—700 675 2 269.6667 145440.2222合计 — 150 — 1334483.33334.2.3 离散系数4.2 描述差异的统计量离散系数(coefficient of variation)1. 标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响4. 用于对不同组别数据离散程度的比较5. 计算公式为离散系数(例题分析)【例4—9】 为分析不同行业上市公司每股收益的差异,在互联网服务行业和机械制造行业各随机抽取10家上市公司,得到某年度的每股收益数据如表4—4所示。比较两类上市公司每股收益的离散程度互联网公司 机械制造公司0.32 0.680.47 0.430.89 0.280.97 0.030.87 0.421.09 0.240.73 0.660.96 0.290.96 0.020.63 0.59离散系数(例题分析)【例4—9】 为分析不同行业上市公司每股收益的差异,在互联网服务行业和机械制造行业各随机抽取10家上市公司,得到某年度的每股收益数据如表4—4所示。比较两类上市公司每股收益的离散程度统计量 互联网公司 机械制造公司平均数 0.789 0.364标准差 0.247002 0.236606离散系数 0.313057 0.6500154.2.4 标准分数4.2 描述差异的统计量标准得分(standard score)1. 也称标准化值2. 对某一个值在一组数据中相对位置的度量3. 可用于判断一组数据是否有离群点(outlier)用于对变量的标准化处理表明某个数据与平均数相比相差多少个标准差计算公式为用【STANDARDIZE】函数计算标准分数(例题分析)【 例4-10】沿用例4—1。计算20个人身高的标准分数第1步:将光标放在任意空白单元格。然后点击【公式】,点击插入函数【】第2步:在【选择类别】中选择【统计】,并在【选择函数】中点击【STANDARDIZE】,单击【确定】第3步:在【X】输入要计算标准分数的原始数据(最好是点击原始数据所在的单元格,以便方便复制得到多个数据的标准分数);在【Mean】框后输入该组数据的平均数;在【Standard_dev】框后输入该组数据的标准差。单击【确定】标准得分(例题分析)【 例4-10】沿用例4—1。计算20个人身高的标准分数身高 标准分数 身高 标准分数176 0.3998 185 1.8390170 -0.5597 179 0.8795176 0.3998 174 0.0800180 1.0394 176 0.3998165 -1.3593 175 0.2399178 0.7196 162 -1.8390165 -1.3593 177 0.5597164 -1.5192 169 -0.7196182 1.3593 170 -0.5597174 0.0800 173 -0.0800经验法则 经验法则表明:当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内4.3 描述分布形状的统计量4.3.1 偏态4.3.2 峰度第 4 章 数据的描述统计量4.3.1 偏度4.3 描述形状的统计量偏态(skewness)统计学家K.Pearson于1895年首次提出。是指数据分布的不对称性测度统计量是偏斜系数(coefficient of skewness)2. 偏斜系数=0为对称分布;>0为右偏分布;<0为左偏分布偏斜系数大于1或小于-1,为高度偏态分布;偏斜系数在0.5~1或-1~-0.5之间,为是中等偏态分布;偏斜系数越接近0,偏斜程度就越低计算公式4.3.2 峰度4.3 描述形状的统计量峰度(kurtosis)统计学家K.Pearson于1905年首次提出。数据分布峰值的高低测度统计量是峰度系数(coefficient of kurtosis)峰度系数=0扁平峰度适中峰度系数<0为扁平分布峰度数>0为尖峰分布计算公式用【SKEW】函数和【KURT】函数计算偏度系数和峰度系数第1步:将光标放在任意空白单元格。然后点击【公式】,点击插入函数【】第2步:在【选择类别】中选择【统计】,并在【选择函数】中点击【SKEW】,单击【确定】第3步:在【Number1】中选择要计算偏度系数的数据区域,然后单击【确定】。即可得到样本数据的偏度系数(计算峰度系数时选择【KURT】函数即可)4.4 Excel【数据分析】工具的应用第 4 章 数据的描述统计量Excel【数据分析】工具的应用(例题分析)第1步:将光标放在任意空白单元格。然后点击【数据】 【数据分析】。在分析工具中选择【描述统计】。单击【确定】。第2步:在【输入区域】输入原始数据所在的区域;在【输出选项】中选择结果的输出位置;选择【汇总统计】(其他选项可根据需要选择),单击【确定】即可得到结果互联网公司 统计量 机械制造公司 统计量平均 0.789 平均 0.364标准误差 0.078109 标准误差 0.074821中位数 0.88 中位数 0.355众数 0.96 众数 #N/A标准差 0.247002 标准差 0.236606方差 0.06101 方差 0.055982峰度 -0.20382 峰度 -1.06272偏度 -0.87636 偏度 -0.11929区域 0.77 区域 0.66最小值 0.32 最小值 0.02最大值 1.09 最大值 0.68求和 7.89 求和 3.64观测数 10 观测数 10结 束THANKS 展开更多...... 收起↑ 资源预览