第4章数据的描述统计量 课件(共47张PPT)-《统计学(微课版)》同步教学(人民邮电版)

资源下载
  1. 二一教育资源

第4章数据的描述统计量 课件(共47张PPT)-《统计学(微课版)》同步教学(人民邮电版)

资源简介

(共47张PPT)
1
统计学
Statistics
2
第 4 章 数据的描述统计量
4.1 “位置”的度量
4.2 离散程度的度量
4.3 分布形状的度量
4.4 标准得分
4.5 小结
3
数据的描述统计量
不包含总体的任何未知参数的样本的函数,称为统计量(statistic)。
不同的统计量可以从不同的角度描述数据的分布特征,主要包括三个方面:
一是数据的“位置”;
二是数据的离散程度;
三是数据的分布形状。
4
第 4 章 数据的描述统计量
4.1 “位置”的度量
5
“位置”的度量——均值
均值(mean)是将一组数据加总后除以数据的个数得到的结果。
设一组样本数据为 ,样本数据的个数(即样本量)为n,用 表示样本均值,其计算公式为:
根据上式计算得到的平均数也称为简单平均数(simple mean)或算术平均数(arithmetic average)。
6
“位置”的度量——均值
【例4.1】2018年10月25日,美国财经杂志《福布斯》(Forbes)发布了2018福布斯中国富豪榜,排名前十位的企业家财富值如表4-1,试计算十位企业家的平均财富值。
排名 1 2 3 4 5 6 7 8 9 10
姓名 马云 马化腾 许家印 王健林 何享健 杨惠妍 王卫 李彦宏 李书福 丁磊
财富 2387.4 2263.2 2125.2 1566.3 1345.5 1179.9 1028.1 1007.4 979.8 931.5
表4-1 2018年福布斯中国十大富豪财富值 单位:亿元
解:如果用均值来反映这十位企业家的平均财富水平,根据公式计算得到
7
“位置”的度量——均值
由于均值用到了原始数据的所有信息,相当于是一组数据的“重心”位置,因此在现实中应用非常广泛。
但也正是因为均值的这一特点,任何一个数据的取值发生变化,均值也会随之改变。
如果一组数据中出现了极端值(极大值或极小值),作为“重心”的均值就会向极端值倾斜,对平均水平的代表性可能就会受到较大影响。
8
“位置”的度量——中位数
中位数(median)是将一组数据排序后位于中间位置的那个数值。
如果一组数据 的个数n是奇数,那么能够找到正好对应中间位置的数值即为中位数;如果n是偶数,中位数就等于中间两个数值的简单平均数。设排序后的数据依次为 ,用 表示样本中位数,其计算公式为:
9
“位置”的度量——中位数
【例4.2】沿用例4.1的数据,试计算十位企业家财富值的中位数。
解:表4-1已经给出了按照财富值排序后的十位企业家,由于n是偶数,位于中间的是排名第5和第6的两位企业家,其财富值分别是1345.5亿元和1179.9亿元,因此根据公式计算得到
10
“位置”的度量——中位数
中位数主要由一组数据的大小顺序和位于中间位置的数值决定,并没有充分利用每一个数据的取值信息。
但也正因为此,中位数对数据中可能存在的极端值并不敏感,即使其他所有数据的取值都发生变化,只要位于中间位置的数值不变,中位数就将保持不变。
11
“位置”的度量——四分位数
四分位数(quartile)是将一组数据由小到大排序后,分别位于25%、50%和75%位置上的三个数。
四分位数将数据等分为四份,第二四分位数就是中位数(50%分位数),也可表示为Q50%。位于75%位置的第一四分位数称为上四分位数,记为Q75%,表示该组数据中有75%的数值小于或等于它。位于25%位置的第三四分位数则称为下四分位数, 记为Q25%,表示该组数据中有25%的数值小于或等于它。
12
“位置”的度量——四分位数
上下四分位数的计算方法与中位数类似,先将数据由小到大排序,然后确定四分位数所在的位置:
Q25%位置= ,Q75%位置=
如果根据公式计算得到的位置是整数,四分位数就是该位置对应的数值,否则就要对该位置左右两个数值进行相应的线性插值。
13
“位置”的度量——四分位数
【例4.3】沿用例4.1的数据,试计算十位企业家财富值的上下四分位数。
解:首先,需要将十位企业家按照财富值由低到高排序(与表4-1中的排序恰好相反),如表4-2所示。
排序 1 2 3 4 5 6 7 8 9 10
财富 931.5 979.8 1007.4 1028.1 1179.9 1345.5 1566.3 2125.2 2263.2 2387.4
表4-2 2018年福布斯中国十大富豪财富值(由低到高排序) 单位:亿元
然后,根据公式计算得到上下四分位数位置分别为:Q25%位置=(10+1)/4=2.75;Q75%位置=3×(10+1)/4=8.25。
因此,下四分位数位于表4-2中排在第2和第3的两位企业家财富值之间0.75的位置,即Q25%=979.8 +(1007.4-979.8)×0.75=1000.5亿元;上四分位数位于表4-2中排在第8和第9的两位企业家财富值之间0.25的位置,即Q75%= 2125.2 +(2263.2-2125.2)×0.25=2160亿元。
14
“位置”的度量——百分位数
如果一组数据由小到大排序后,用99个点将数据划分成100等份,那么这些分位点上对应的数值就是百分位数(percentile)。
人们可以根据需要计算k%分位数,表示数据中有k%的数值小于或等于它。
将一组数据由小到大排序后,百分位数的位置为:
k%分位数位置=(n+1)×k%
如果根据公式计算得到的位置是整数,k%分位数就是该位置对应的数值,否则就要对该位置左右两个数值进行相应的线性插值。
15
“位置”的度量——百分位数
【例4.4】沿用例4.3的数据,试计算十位企业家财富值的10%分位数和90%分位数。
解:表4-2已经给出十位企业家财富值由低到高的排序结果,根据公式计算得到该例中的10%和90%分位数的位置分别为:
10%分位数位置=(10+1)×10%=1.1
因此,10%分位数位于表4-2中排在第1和第2的两位企业家财富值之间0.1的位置,即10%分位数=931.5 +(979.8-931.5)×0.1=936.3亿元;90%分位数位于表4-2中排在第9和第10的两位企业家财富值之间0.9的位置,即90%分位数=2263.2+(2387.4-2263.2)×0.9=2375亿元。
90%分位数位置=(10+1)×90%=9.9
16
“位置”的度量——众数
众数(mode)是一组数据中出现频数最高的数值,通常用 表示。
对于类别数据(尤其是无序类别数据),众数是用于描述其“中心位置”的一个常用平均数,因为类别数据无法计算均值(无序类别数据也不能计算中位数)。
众数的确定十分简单,也不会受极端值的影响。但可以想象,如果一组数据中不同取值出现的频数都相同,那么就没有众数;而如果一组数据的分布存在两个甚至更多个“高峰”,那么众数可能不唯一。
此外,众数只告诉我们一组数据中哪个数值出现的次数最多,却掩盖了所有数据的具体取值。
17
“位置”的度量——众数
【例4.5】某大学新开设“数据科学”实验班,并面向2019级全校本科生进行选拔,最终进入该实验班的20名同学的性别和年龄如表4-3所示。试确定这20名同学性别和年龄的众数。
性别 男 男 女 男 男 男 女 女 男 男
年龄 19岁 19岁 18岁 19岁 18岁 19岁 17岁 19岁 19岁 19岁
性别 男 女 男 女 男 男 男 男 女 男
年龄 18岁 19岁 19岁 19岁 16岁 18岁 19岁 19岁 18岁 19岁
表4-3 “数据科学”实验班20名同学的性别和年龄
18
“位置”的度量——众数
解:基于表4-3中的数据分别统计“性别”和“年龄”两个变量不同取值出现的频数,如表4-4所示。
性别 频数 年龄 频数
女 6 16岁 1
男 14 17岁 1
18岁 5
    19岁 13
表4-4 “数据科学”实验班20名同学性别和年龄的频数统计
显然,该实验班男同学的人数远多于女同学,因此“性别”的众数是男性;20名同学中19岁的人数也多于其他年龄的人数,因此“年龄”的众数是19岁。
19
“位置”的度量——众数
【例4.6】沿用例3.2的数据,试结合直方图确定150名“网约车”司机日营业额的众数。
解:在例3.2中,我们已经对150名“网约车”司机日营业额数据进行了分组和频数统计,并最终绘制了直方图。为便于观察,将直方图复制至此,如图4-1所示。
图4-1 150名“网约车”司机日营业额的直方图
20
“位置”的度量——众数
依据直方图的含义,图4-1中横坐标是“网约车”司机日营业额,每一个矩形的宽度对应的是数据分组后每一组的取值区间,纵坐标是频数。
因此,从图形中可以非常快捷地发现,矩形“最高峰”所在的位置就是众数所在的组别,即350元至400元,取该组上下限的中点375元作为这150名“网约车”司机日营业额的众数。
21
“位置”的度量
均值、中位数和众数是描述数据“中心位置”的三个主要统计量。
由于均值利用了最多的原始数据信息,且容易理解,在日常生活中最为常用。
但作为“重心”的均值,容易受到数据分布形状的影响,如果数据存在较为严重的偏斜程度(即存在极端值),均值对一组数据平均水平的代表性较差,此时计算中位数可能是更好的选择。
而对于无序类别数据,使用众数则是一种必然。
22
第 4 章 数据的描述统计量
4.2 离散程度的度量
23
离散程度的度量——极差
极差(range)是一组数据的最大值和最小值的差值,也称全距,通常用R表示。
极差计算简单,反映了一组数据取值的波动范围。
但极差只利用了最大值和最小值两个数值的信息,对极端值十分敏感,对数据内部的具体变动情况揭示不够完整。
24
离散程度的度量——极差
【例4.7】针对新上映的两部国产贺岁片,随机采访10位观众,评分结果如表4-5所示。试分别计算观众对两部电影评分的极差。
序号 1 2 3 4 5 6 7 8 9 10
贺岁片1 7 7 5 6 8 6 7 2 5 10
贺岁片2 6 8 8 9 7 7 9 9 9 8
表4-5 10位观众对两部国产贺岁片的评分 单位:分
25
离散程度的度量——极差
解:首先,将10位观众对两部电影的评分分别由低到高排序,如表4-6所示。
排序 1 2 3 4 5 6 7 8 9 10
贺岁片1 2 5 5 6 6 7 7 7 8 10
贺岁片2 6 7 7 8 8 8 9 9 9 9
表4-6 10位观众对两部国产贺岁片的评分(排序后) 单位:分
基于表4-6中的数据,10位观众对贺岁片1的最高评分为10分,最低评分为2分,因此极差 =10-2=8分;而对贺岁片2的最高评分为9分,最低评分为6分,极差=9-6=3分。
26
离散程度的度量——四分位差
四分位差(interquartile range)是一组数据上四分位数与下四分位数的差值,也称四分位距或内距,通常用IQR表示,即IQR= Q75%- Q25%。
四分位差反映了中间50%数据的离散程度,由上下四分位数的取值决定,不受数据极端值的影响。
在箱线图中,箱子的长度就等于四分位差。
27
离散程度的度量——四分位差
【例4.8】沿用例4.7的数据,试分别计算10位观众对两部电影评分的四分位差。
解:根据公式计算得到两组评分的上下四分位数位置为:
Q25%位置=(10+1)/4=2.75;Q75%位置=3×(10+1)/4=8.25
因此,对贺岁片1有
Q25%=5;Q75%= 7+(8-7)×0.25=7.25;IQR= Q75%- Q25%=7.25-5=2.25(分)
对贺岁片2有
Q25%=7;Q75%= 9;IQR= Q75%- Q25%=9-7=2(分)
28
离散程度的度量——方差和标准差
方差(variance)是用于度量一组数据中每一个数值与该组数据均值的平均偏离程度的重要统计量。
设一组样本数据为 ,样本数据的个数(即样本量)为n,用 表示样本方差,其计算公式为:
方差通过计算每一个数值与均值的离差平方和,避免了数据变动差值的正负抵消,再除以减去1之后的样本量,反映了一组数据在均值附近取值的平均离散程度。
29
离散程度的度量——方差和标准差
标准差(standard deviation)是方差的平方根,即
由于方差和标准差利用了每一个原始数据的取值,揭示了比极差和四分位差更为全面的信息,因此是最常用的度量数据离散程度的统计量。
相较于方差,标准差具有与原始数据相同的计量单位,更易理解,在分析实际问题时也被应用得更频繁。
30
离散程度的度量——方差和标准差
【例4.9】沿用例4.7的数据,试分别计算10位观众对两部电影评分的方差和标准差。
解:分别用 和 表示10位观众对两部电影评分的均值, 和 表示10位观众对两部电影评分的方差。
首先,根据均值公式计算得到
然后,根据方差公式计算得到
进一步地
31
离散程度的度量——离散系数
离散系数(coefficient of variation)是一组数据的标准差与该组数据均值的比值,也称变异系数,通常用CV表示,其计算公式为:
由于标准差与均值计量单位相同,而均值又在一定程度上代表了原始数据取值大小的一般水平,因此离散系数消除了二者对标准差的影响,反映了一组数据的相对离散程度,可用于不同数据的比较。
32
离散程度的度量——离散系数
【例4.10】表4-7给出了2017年16家上市公司的每股收益数据,其中8家为医药企业,8家为钢铁企业。试比较这两个不同行业公司每股收益的离散程度。
医药企业 钢铁企业
0.42 0.27
0.36 0.04
1.17 0.17
0.61 0.04
0.84 0.88
1.27 0.67
1.37 0.43
1.45 0.27
表4-7 2017年16家上市公司的每股收益 单位:元
33
离散程度的度量——离散系数
解:分别用 和 表示8家医药企业和8家钢铁企业每股收益的均值, 和 表示各自的标准差。
首先,根据公式计算得到
进一步计算医药企业和钢铁企业每股收益的离散系数,分别用 和 表示
34
第 4 章 数据的描述统计量
4.3 分布形状的度量
35
分布形状的度量
借助直方图(或箱线图)可以初步地观察数据的分布形状。如果数据的直方图只有一个“最高峰”,就是单峰分布。
图4-2给出了三种常见的数据单峰分布形状,从图中可以直观地看出,图4-2(a)、(b)、(c)分别为对称分布、左偏分布和右偏分布。
图4-2 三种常见的数据单峰分布形状
36
分布形状的度量——偏度系数
偏度(skewness)是指数据分布的偏斜性(即不对称性),测度数据分布偏斜程度的统计量称为偏度系数(coefficient of skewness),通常用SK表示。
设一组样本数据为 ,样本数据的个数(即样本量)为n,偏度系数的计算公式为:
当数据呈左右对称分布时,偏度系数等于0,否则说明数据分布存在一定的偏斜程度。通常情况下,偏度系数大于1或小于-1,视为严重偏斜分布;偏度系数为0.5~1或-1~-0.5,视为中等偏斜分布;偏度系数为-0.5~0.5,视为轻微偏斜分布。
37
分布形状的度量——偏度系数
偏度系数为负值表示数据呈左偏分布,对应图4-2(b),分布曲线的左侧有一个长尾,说明数据中存在个别的极小值;偏度系数为正值表示数据呈右偏分布,对应图4-2(c),分布曲线的右侧有一个长尾,说明数据中存在个别的极大值。
多数情况下,如果一组数据呈单峰对称分布,那么这三个平均数应该大体相等;如果数据呈左偏分布,作为“重心”的均值则会受极小值的影响,向左尾倾斜,三者的大小关系为 ;反之,如果数据呈右偏分布,均值则会受极大值的影响,向右尾倾斜,从而 。
38
分布形状的度量——偏度系数
图4-3结合箱线图直观展示了三种数据分布形状下均值、中位数和众数的关系。
图4-3 三种数据分布形状下均值、中位数和众数的关系
39
分布形状的度量——峰度系数
峰度(kurtosis)是指数据分布的陡峭程度(即峰值的高低),测度峰度的统计量称为峰度系数(coefficient of kurtosis),通常用K表示。
设一组样本数据为 ,样本数据的个数(即样本量)为n,峰度系数的计算公式为:
由于标准正态分布的峰度系数为0,因此一组数据的峰度通常是与其相比较。如果峰度系数大于0,说明数据的峰值更陡峭,分布更集中;如果峰度系数小于0,则说明数据的峰值更扁平,分布更分散。
40
第 4 章 数据的描述统计量
4.4 标准得分
41
标准得分
对于均值和标准差不同的两组(或多组)数据,如何对其进行比较?
例如,某大学为金融专业本科生开设了两个平行班的《统计学》课程,由两位老师分别授课、统一考试。一班的期末考试平均成绩为75分,标准差为10分;二班的期末考试平均成绩为80分,标准差为6分。一班的小明和二班的小雨考试成绩都是90分,谁的表现更好呢?
42
标准得分
对于均值和标准差不同的两组(或多组)数据,需要将其进行标准化处理之后才能对比,而常用的一种标准化方法就是计算标准得分。
标准得分(standard score)是一组数据中的某个数值与该组数据均值之差再除以该组数据标准差之后的结果,又称为z得分(z-score)。
设一组样本数据为 ,用zi表示xi对应的标准得分,其计算公式为:
43
标准得分
标准得分的含义是某个数值离该组数据均值几个标准差远,它测度了每个数值在该组数据中的相对位置。
小明成绩的标准得分是(90-75)/10=1.5,而小雨成绩的标准得分是(90-80)/6=1.67,小雨的表现更好一些!
将不同的原始数据转换为标准得分,实际上是将其统一转换到均值为0、方差为1的“新”尺度下,这样就可以进行“公平”的比较。
44
标准得分
标准得分的另一个重要用途是帮助识别离群点。
对于单峰对称分布的数据,有经验法则表明:均值加减1个标准差的范围内应包含一组数据大约68%的数值;均值加减2个标准差的范围内应包含一组数据大约95%的数值;均值加减3个标准差的范围内应包含一组数据大约99.73%的数值。
也就是说,正常情况下,来自同一总体的一组样本数据的标准得分应该大部分在-2到2之间变化,否则就有些“不同寻常”;而一个数值距离一组数据均值超过3个标准差的概率更是不到0.3%,这显然是一个小概率事件。因此,如果一个数值的标准得分大于3或小于-3,人们常常会怀疑这可能是一个离群点。
45
第 4 章 数据的描述统计量
4.5 小结
46
小结
借助统计量可以直观快捷地揭示数据的基本分布特征,不同的统计量有各自的优缺点和适用情形。
均值、中位数和众数是度量一组数据“中心位置”的三个常用平均数,也可以根据分析需要计算其他指定的百分位数。
平均数对一组数据的代表性好坏与其离散程度有直接关联,方差和标准差是最常用的度量一组数据离散程度的统计量,要对比多组数据的离散程度,则应计算离散系数。
47
小结
偏度系数和峰度系数可以分别度量数据分布的偏斜程度以及峰值的高低,如果数据分布左右对称,均值、中位数和众数大体相等,均值作为一组数据平均水平的代表是最好的选择;但如果数据存在较为严重的偏斜程度,中位数的代表性会更好;而对于无序类别数据,众数则是一种必然选择。
对于均值和标准差不同的数据,可以将其转换为标准得分再进行比较,并且利用标准得分还可以判断某个数值在一组数据中的相对位置是否异常,识别可能存在的离群点。

展开更多......

收起↑

资源预览