第4章数据描述统计量课件(共54张PPT）- 《统计学—基于Execl》同步教学（人民大学版）

资源简介

(共54张PPT)
第 4 章数据的描述统计量
4.1 描述水平的统计量
4.2 描述差异的统计量
4.3 描述分布形状的统计量
statistic
思考一下
如果用一个值代表一个地区的收入水平，你是用平均数还是用中位数？
“双十一”每个人网购金额的标准差是500元，平时是400元，你认为是“双十一”网购金额的差异大，还是平时网购金额的差异大？
假定你们班的统计学平均考试分数是80分，标准差是5分，而你的考试分数是90分，你的考试分数距离平均数有几个标准差的距离？
你可以手工计算30个人的平均上网时间，但你能手工计算300万个人的平均上网时间吗？
4.1 描述水平的统计量
4.1.1 平均数
4.1.2 分位数
4.1.3 众数
第 4 章数据的描述统计量
4.1.1 平均数
4.1 描述水平的统计量
x
x
平均数
(mean)
也称为均值，常用的统计量之一
消除了观测值的随机波动
易受极端值的影响
根据总体数据计算的，称为平均数，记为；根据样本数据计算的，称为样本平均数，记为 x
简单算数平均
(Simple mean)
设一组数据为：x1 ，x2 ，… ，xn (总体数据xN)
样本平均数
总体平均数
统计函数—AVERAGE
Excel
加权平均数
(Weighted mean)
设各组的组中值为：M1 ，M2 ，… ，Mk
相应的频数为： f1 ， f2 ，… ，fk
样本加权平均：
总体加权平均：
平均数
(例题分析)
【例4—1】随机抽取20个年龄在18—25周岁之间的成年人，得到的身高数据如表4—1所示。计算20个人的平均身高表
176 165 182 174 177
170 178 174 176 169
176 165 185 175 170
180 164 179 162 173
用【AVERAGE】函数计算平均数
(例题分析)
第1步：将光标放在任意空白单元格。然后点击【公式】，点击插入函数【】
第2步：在【选择类别】中选择【统计】，并在【选择函数】中点击【AVERAGE】，单击【确定】
第3步：在【Number1】中选择要计算平均数的数据区域，然后单击【确定】
加权平均数
(例题分析)

150个出租车司机某天营业额的加权平均数计算表
营业额分组组中值（）人数（）　
200—250 225 7 1575
250—300 275 11 3025
300—350 325 22 7150
350—400 375 38 14250
400—450 425 29 12325
450—500 475 20 9500
500—550 525 12 6300
550—600 575 6 3450
600—650 625 3 1875
650—700 675 2 1350
合计　— 150 60800
4.1.2 分位数(quantile)
4.1 描述水平的统计量
中位数
(median)
排序后处于中间位置上的值。不受极端值影响
Me
50%
50%
2. 位置确定
3. 数值确定
中位数的计算
【例4—3】沿用例4—1。计算20个人身高的中位数。
确定中位数的位置：
中位数是排序后的第10.5位置上的数值，即中位数在第10个数值（174）和第11个数值（175）中间（0.5）的位置上
中位数
用【MEDIAN】函数计算中位数
第1步：将光标放在任意空白单元格。然后点击【公式】，点击插入函数【】
第2步：在【选择类别】中选择【统计】，并在【选择函数】中点击【MEDIAN】，单击【确定】
第3步：在【Number1】中选择要计算中位数的数据区域，然后单击【确定】
四分位数—用3个点等分数据
(quartile)
排序后处于25%和75%位置上的值
不受极端值的影响
QL
QM
QU
25%
25%
25%
25%
四分位数的计算
(位置的确定)
Excel给出的四分位数位置的确定方法
如果位置不是整数，按比例分摊位置两侧数值的差值
四分位数的计算
(例题分析)
【例4—4】沿用例4—1。计算计算20个人身高的四分位数
先对n个数据从小到大进行排序，然后计算出四分位数的位置：
，
在第5个数值（169）和第6个数值（170）之间0.75的位置上，因此，。
在第15个数值（177）和第16个数值（178）之间0.25的位置上，因此，。
由于在和之间大约包含了50%的数据。就上面20人的身高而言，可以说大约有一半人的身高在169.75cm和177.25cm之间。
用【QUARTILE.INC】函数计算四分位数
(例题分析)
第1步：将光标放在任意空白单元格。然后点击【公式】，点击插入函数【】
第2步：在【选择类别】中选择【统计】，并在【选择函数】中点击【QUARTILE.INC】，单击【确定】
第3步：在【Array】中选择要计算中位数的数据区域，在【quart】后输入相应的数字以决定函数返回哪一个数值。
quart 等于0，返回最小值；
quart 等于1，返回第1个四分位数，即25%位置上的四分位数；
quart 等于2，返回中位数；
quart 等于3，返回第3个四分位数，即75%位置上的四分位数；
quart 等于4，返回最大值
然后单击【确定】，即得到相应的分位数值
百分位数
(percentile)
百分位数用99个点将数据分成100等分，处于各分位点上的数值就是百分位数。百分位数提供了各项数据在最小值和最大值之间分布的信息
有多种算法，每种算法的结果不尽相同，但差异不会很大。设为第个百分位数，Excel给出的第个百分位数的位置公式为：
如果位置是整数，百分位数就是该位置对应的数值；如果位置不是整数，百分位数等于该位置前面的数值加上按比例分摊的位置两侧数值的差值
中位数就是第50个百分位数，和就是第25个百分位数和第75个百分位数
百分位数的计算
(例题分析)
【例4—4】沿用例4—1。计算计算20个人身高的四分位数
第5个百分位数的位置为：
Excel将排序后的第1个数值位置设定为0，最后一个数值位置设定为1。因此，第5个百分位数在第1个值（162）和第2个值（164）之间0.95的位置上，因此
第90个百分位数的位置为：
第90个百分位数在第18个值（180）和第19个值（182）之间0.1的位置上，因此
用【PERCENTILE.INC】函数计算百分位数
(例题分析)
第1步：将光标放在任意空白单元格。然后点击【公式】，点击插入函数【】
第2步：在【选择类别】中选择【统计】，并在【选择函数】中点击【PERCENTILE.INC】，单击【确定】
第3步：在【Array】中选择要计算百分位数的数组或数据区域，在【K】后输入相应的数字以决定函数返回哪一个数值。K为0到1之间的百分点值，包含0和1。例如，K=0返回最小值，K=1返回最大值。K=0.01返回地1个百分位数；K=0.25返回第25%位置上的四分位数（第1个四分位数）；K=0.5返回中位数；K=0.75返回75%位置上的四分位数（第3个四分位数；等等。单击【确定】，即得到相应的分位数值
4.1.3 众数
4.1 描述水平的统计量
众数
(mode)
一组数据中出现次数最多的变量值
适合于数据量较多时使用
不受极端值的影响
一组数据可能没有众数或有几个众数
mo
用【MODE.SNGL】函数计算众数
(例题分析)
第1步：将光标放在任意空白单元格。然后点击【公式】，点击插入函数【】。
第2步：在【选择类别】中选择【统计】，并在【选择函数】中点击【MODE.SNGL】，单击【确定】。
第3步：在【Number1】中选择要计算中位数的数据区域，然后单击【确定】
众数、中位数、平均数的特点和应用
平均数
易受极端值影响
数学性质优良，实际中最常用
数据对称分布或接近对称分布时代表性较好
中位数
不受极端值影响
数据分布偏斜程度较大时代表性接好
众数
不受极端值影响
具有不惟一性
数据分布偏斜程度较大且有明显峰值时代表性较好
4.2 差异的描述
4.2.1 全距和四分位距
4.2.2 方差和标准差
4.2.3 离散系数
4.2.4 标准分数
第 4 章数据的描述统计量
4.2.1 全距和四分位距
4.2 描述差异的统计量
全距
(range)
一组数据的最大值与最小值之差
离散程度的最简单测度值
易受极端值影响
未考虑数据的分布
计算公式为：R = max(xi) - min(xi)
四分位距
(quartile deviation)
也称为四分位差
计算公式：Qd = Q25% – Q75%
反映了中间50%数据的离散程度
不受极端值的影响
用于衡量中位数的代表性
25%
75%
4.2.2 方差和标准差
4.2 描述差异的统计量
方差和标准差
(variance and standard deviation)
数据离散程度的最常用测度值
反映各变量值与均值的平均差异
根据总体数据计算的，称为总体方差(标准差)，记为 2( )；根据样本数据计算的，称为样本方差(标准差)，记为s2(s)
样本方差和标准差
(sample variance and standard deviation)
未分组数据
组距分组数据
未分组数据
组距分组数据
方差的计算公式
标准差的计算公式
注意：
样本方差用n-1去除!
总体方差和标准差
(Population variance and Standard deviation)
未分组数据
组距分组数据
未分组数据
组距分组数据
方差的计算公式
标准差的计算公式
样本标准差
(例题分析)
【例4—7】沿用例4—1。计算20个人身高的方差和标准差
标准差为：。
用【VAR.S】函数和【STDEV.S】函数计算样本方差和标准差
(例题分析)
第1步：将光标放在任意空白单元格。然后点击【公式】，点击插入函数【】
第2步：在【选择类别】中选择【统计】，并在【选择函数】中点击【VAR.S】，单击【确定】
第3步：在【Number1】中选择要计算方差的数据区域，然后单击【确定】。即可得到样本方差（计算标准差时选择【STDEV.S】函数即可）
注：计算总体方差的函数为【VAR.P】；计算总体标准差的函数为【STDEV.P】
分组数据标准差
(例题分析)
【例4—8】沿用第2章例2—2。根据表2—9的分组数据，计算营业额的标准差
营业额分组组中值（）人数（）
200—250 225 7 -180.3333 227640.7778
250—300 275 11 -130.3333 186854.5556
300—350 325 22 -80.3333 141975.7778
350—400 375 38 -30.3333 34964.2222
400—450 425 29 19.6667 11216.5556
450—500 475 20 69.6667 97068.8889
500—550 525 12 119.6667 171841.3333
550—600 575 6 169.6667 172720.6667
600—650 625 3 219.6667 144760.3333
650—700 675 2 269.6667 145440.2222
合计　— 150 　— 1334483.3333
4.2.3 离散系数
4.2 描述差异的统计量
离散系数
(coefficient of variation)
1. 标准差与其相应的均值之比
对数据相对离散程度的测度
消除了数据水平高低和计量单位的影响
4. 用于对不同组别数据离散程度的比较
5. 计算公式为
离散系数
(例题分析)
【例4—9】为分析不同行业上市公司每股收益的差异，在互联网服务行业和机械制造行业各随机抽取10家上市公司，得到某年度的每股收益数据如表4—4所示。比较两类上市公司每股收益的离散程度
互联网公司机械制造公司
0.32 0.68
0.47 0.43
0.89 0.28
0.97 0.03
0.87 0.42
1.09 0.24
0.73 0.66
0.96 0.29
0.96 0.02
0.63 0.59
离散系数
(例题分析)
【例4—9】为分析不同行业上市公司每股收益的差异，在互联网服务行业和机械制造行业各随机抽取10家上市公司，得到某年度的每股收益数据如表4—4所示。比较两类上市公司每股收益的离散程度
统计量互联网公司机械制造公司
平均数 0.789 0.364
标准差 0.247002 0.236606
离散系数 0.313057 0.650015
4.2.4 标准分数
4.2 描述差异的统计量
标准得分
(standard score)
1. 也称标准化值
2. 对某一个值在一组数据中相对位置的度量
3. 可用于判断一组数据是否有离群点(outlier)
用于对变量的标准化处理
表明某个数据与平均数相比相差多少个标准差
计算公式为
用【STANDARDIZE】函数计算标准分数
(例题分析)
【例4-10】沿用例4—1。计算20个人身高的标准分数
第1步：将光标放在任意空白单元格。然后点击【公式】，点击插入函数【】
第2步：在【选择类别】中选择【统计】，并在【选择函数】中点击【STANDARDIZE】，单击【确定】
第3步：在【X】输入要计算标准分数的原始数据（最好是点击原始数据所在的单元格，以便方便复制得到多个数据的标准分数）；在【Mean】框后输入该组数据的平均数；在【Standard_dev】框后输入该组数据的标准差。单击【确定】
标准得分
(例题分析)
【例4-10】沿用例4—1。计算20个人身高的标准分数
身高标准分数身高标准分数
176 0.3998 185 1.8390
170 -0.5597 179 0.8795
176 0.3998 174 0.0800
180 1.0394 176 0.3998
165 -1.3593 175 0.2399
178 0.7196 162 -1.8390
165 -1.3593 177 0.5597
164 -1.5192 169 -0.7196
182 1.3593 170 -0.5597
174 0.0800 173 -0.0800
经验法则
经验法则表明：当一组数据对称分布时
约有68%的数据在平均数加减1个标准差的范围之内
约有95%的数据在平均数加减2个标准差的范围之内
约有99%的数据在平均数加减3个标准差的范围之内
4.3 描述分布形状的统计量
4.3.1 偏态
4.3.2 峰度
第 4 章数据的描述统计量
4.3.1 偏度
4.3 描述形状的统计量
偏态
(skewness)
统计学家K.Pearson于1895年首次提出。是指数据分布的不对称性
测度统计量是偏斜系数(coefficient of skewness)
2. 偏斜系数=0为对称分布；>0为右偏分布；<0为左偏分布
偏斜系数大于1或小于-1，为高度偏态分布；偏斜系数在0.5～1或-1～-0.5之间，为是中等偏态分布；偏斜系数越接近0，偏斜程度就越低
计算公式
4.3.2 峰度
4.3 描述形状的统计量
峰度
(kurtosis)
统计学家K.Pearson于1905年首次提出。数据分布峰值的高低
测度统计量是峰度系数(coefficient of kurtosis)
峰度系数=0扁平峰度适中
峰度系数<0为扁平分布
峰度数>0为尖峰分布
计算公式
用【SKEW】函数和【KURT】函数计算偏度系数和峰度系数
第1步：将光标放在任意空白单元格。然后点击【公式】，点击插入函数【】
第2步：在【选择类别】中选择【统计】，并在【选择函数】中点击【SKEW】，单击【确定】
第3步：在【Number1】中选择要计算偏度系数的数据区域，然后单击【确定】。即可得到样本数据的偏度系数（计算峰度系数时选择【KURT】函数即可）
4.4 Excel【数据分析】工具
的应用
第 4 章数据的描述统计量
Excel【数据分析】工具的应用
(例题分析)
第1步：将光标放在任意空白单元格。然后点击【数据】【数据分析】。在分析工具中选择【描述统计】。单击【确定】。
第2步：在【输入区域】输入原始数据所在的区域；在【输出选项】中选择结果的输出位置；选择【汇总统计】（其他选项可根据需要选择），单击【确定】即可得到结果
互联网公司统计量机械制造公司统计量
平均 0.789 平均 0.364
标准误差 0.078109 标准误差 0.074821
中位数 0.88 中位数 0.355
众数 0.96 众数 #N/A
标准差 0.247002 标准差 0.236606
方差 0.06101 方差 0.055982
峰度 -0.20382 峰度 -1.06272
偏度 -0.87636 偏度 -0.11929
区域 0.77 区域 0.66
最小值 0.32 最小值 0.02
最大值 1.09 最大值 0.68
求和 7.89 求和 3.64
观测数 10 观测数 10
结束
THANKS

展开更多......

收起↑

请用微信扫码

第4章 数据描述统计量 课件(共54张PPT）- 《统计学—基于Execl》同步教学（人民大学版）

第4章 数据描述统计量 课件(共54张PPT）- 《统计学—基于Execl》同步教学（人民大学版）

第4章数据描述统计量课件(共54张PPT）- 《统计学—基于Execl》同步教学（人民大学版）

第4章数据描述统计量课件(共54张PPT）- 《统计学—基于Execl》同步教学（人民大学版）