3 第三章 数据特征的描述(综合练习)课件(共23张PPT)《管理统计学》同步教学(华南理工版)

资源下载
  1. 二一教育资源

3 第三章 数据特征的描述(综合练习)课件(共23张PPT)《管理统计学》同步教学(华南理工版)

资源简介

(共23张PPT)
管 理 统 计 学
[第四版]
第三章 数据特征的描述
案例导入
某互联网公司人力资源部主管为了解本公司员工通勤情况,随机抽查20位员工每日上下班平均时长(分钟):
120 80 80 50 140 100 90 100 80 50 60 90 140 80 80 60 50 70 100 80
通过以上抽样数据,请问本公司员工平均需要花费多长时间上下班?员工通勤时长的分布情况如何?通过本章的学习,你将学会如何分析和描述数据,如何从数据中掌握事件的动态发展。
学习目标
本章学习数据分布的集中趋势特征和离中趋势特征的描述方法。重点要掌握众数、中位数、均值、标准差、变异系数和相关系数等指标的计算和应用问题。
3.1 描述统计
3.1.1 描述统计
描述统计的内容包括频数分布,但主要是关于集中趋势和离中趋势的描述问题。
例如,BND医院为了制定一个收容计划,工作人员搜集了一个含有67个病人被工作组收容的时间记录数据,该样本反映了病人被收容后1~185天内住院时长的变化情况。
平均数:35.7天 中位数:17天 众 数:1天
利用这些信息,可以提高制定收容计划的科学性。
常见的频数分布曲线
(1)正态分布:如农作物的单位面积产量、零件的公差、纤维强度
(2)偏态分布:如上例中病人被收容的时间分布
(3)J型分布:如经济学中的供给曲线和需求曲线
(4)U型分布:如人和动物的死亡率分布
3.1 描述统计
3.1.2 集中趋势和离中趋势
我们可以从两个方面对正态分布的特征进行描述:一是数据分布的集中趋势,二是数据分布的离散程度
集中趋势特征指标
(1)众数
(2)中位数
(3)均值
离中趋势特征指标
(1)极差
(2)四分位差
(3)标准差
(4)变异系数
3.2 正态分布特征的描述
3.2.1 众数、中位数、四分位数和均值
众数
众数是一组数据中出现次数最多的变量值。众数是一组数据中心位的一个代表值。一组数据中可以有多个众数也可以没有众数。
中位数
中位数是一组数据按大小排序后,处于正中间位置上的变量值。
中位数位置=(N+1)/2
用、 和分别表示把全部数据分割为各占1/4的四个部分的三个等分点,分别称为第一分位数、第二分位数和第三分位数,其中Q2就是中位数。
均值
均值是全部数据的算术平均值,也称为算术平均数,记为
表示算术平均数,表示变量值,表示权数
3.2 正态分布特征的描述
3.2.1 众数、中位数、四分位数和均值
表3-1 集中趋势和离中趋势计算表
根据表3-1可得:
众数=30
中位数=30
平均数=30
图3-1 正态分布图
3.2 正态分布特征的描述
3.2.2 极差、四分位差、标准差和变异系数
极差
极差等于数据分布中最大值与最小值之差,记为R。表3-1中R=55-5=50。
四分位差
四分位差等于第3个四分位数()与第1个四分位数( )之差,记为RQ。则有
在表3-1中,
与极差相比,四分位差不受极端值的影响,对数据分布的离散趋势的描述比较客观。但中间部分数据的离散状况也无法反映出来。
3.2 正态分布特征的描述
3.2.2 极差、四分位差、标准差和变异系数
标准差
标准差等于离差平方平均数的平方根,记为,则有
在表3-1中,
变异系数
变异系数是反映数据分布相对离散程度的常用指标。它等于标准差除以均值记为,则有
在表3-1中,
由于标准差受计量单位大小的影响,还受到数据均值水平的影响,于是,计算变异系数来消除这些影响。
3.2 正态分布特征的描述
3.2.2 极差、四分位差、标准差和变异系数
表3-2 A、B、C三组数据分布状况比较
3.2 正态分布特征的描述
3.2.2 极差、四分位差、标准差和变异系数
反映数据分布的两大数量特征为均值和标准差。但在比较表3-2中A、B、C三组数据的离散程度时,变异系数发挥着重要作用。如下所示,由于,所以A组的相对离散程度最高,C组最低。
图3-2 三组分布状况比较
3.3 偏态分布特征的描述
3.3.1 偏态分布:正偏态和负偏态
表3-3 偏态频率分布表
3.3 偏态分布特征的描述
3.3.1 偏态分布:正偏态和负偏态
偏态分布分为正偏态和负偏态。当均值大于众数时称为正偏态;当均值小于众数时称为负偏态。
(a) 正偏态 (b)负偏态
图3-3 偏态分布图
3.3 偏态分布特征的描述
3.3.2 分组下的众数和中位数
在组距分组情况下,众数的计算要考虑最大频数所在组相邻组的分布,其计算公式如下:
在表3-3中,
在组距分组条件下,中位数的计算要考虑频数的全部排序,其计算公式如下:
在表3-3中,
3.3 偏态分布特征的描述
3.3.3 分组下的均值及其与众数和中位数的关系
分组下的均值
在组距分组条件下计算均值,其公式与单变量分组情况相同,则有
表3-3中,从均值(26.087)大于众数(20.833)可知,数据分布为正偏态。
分组下的均值与众数、中位数的关系
在适度偏态条件下,均值、众数和中位数之间的关系可以估算为:
均值-众数=3×(均值-中位数)
表3-3中, 均值 ≈ (3×中位数-众数)/2= (3×25-20.83)/ 2 = 27.09
中位数 ≈ (众数+2×均值) / 3= (20.83 + 2×26.08) / 3 = 24.33
3.3 偏态分布特征的描述
3.3.4 标准差、变异系数和偏度系数
偏态
数据分布状况对标准差的计算条件无影响
偏度系数
偏度系数反映数据分布偏移中心位置的程度,记为SK,则有
SK = (均值-中位数)/标准差
在表3-3中,SK=(26.083-25)/11.95 = 0.091
在正态分布条件下,由于均值等于众数所以偏度系数等于0。当偏度系数大于0时,称为正偏态;当偏度系数小于0时,称为负偏态。
3.4 双变量交叉分布特征的描述
3.4.1 相关关系与协方差
表3-4 居民家庭的人均食品支出(X)与家庭人均收入(Y)相关计算表
3.4 双变量交叉分布特征的描述
3.4.1 相关关系与协方差
一个变量的变化会依存另一个变量的变化而变化,我们称这两种关系为相关关系。
对于变量x和y来说,协方差是指这两个变量各点的离差之积的平均数,记为,则有
3.4 双变量交叉分布特征的描述
3.4.1 相关关系与协方差
图3-5 协方差类别示意图
当 时,为正相关(散点在第一、三象限)
当时,为负相关(散点在第二、四象限)
当 时,为完全无相关(散点在各象限)
当 最大值时,为完全相关(散点为一条直线)
3.4 双变量交叉分布特征的描述
3.4.2 相关系数
协方差的大小会受到计量单位和数据均值水平的影响,从而使不同相关总体之间的相关程度缺乏可比性。为了使不同相关总体之间的相关程度具有广泛的可比性,需要计算相关系数。
相关系数是指协方差与两个标准差之比,记为r,则有
在表3-4中,= 0.973 95
一般地说,相关系数大于0.8就为高度相关;超过0.5为显著相关;小于0.3为低度相关。
从本例中可知相关系数为0.97,表明家庭人均收入水平的提高会引起人均食品支出的增加,两者之间的依存关系非常稳定。
本章小结
数据的分布特征分为集中趋势特征和离中趋势特征。通过计算众数、中位数和均值等可以了解集中趋势特征;通过计算标准差和变异系数可以了解离中趋势特征。另外,通过计算协方差和相关系数可以了解两种现象之间的相关密切程度。
谢 谢 观 看!

展开更多......

收起↑

资源预览