资源简介 (共23张PPT)管 理 统 计 学[第四版]第三章 数据特征的描述案例导入某互联网公司人力资源部主管为了解本公司员工通勤情况,随机抽查20位员工每日上下班平均时长(分钟):120 80 80 50 140 100 90 100 80 50 60 90 140 80 80 60 50 70 100 80通过以上抽样数据,请问本公司员工平均需要花费多长时间上下班?员工通勤时长的分布情况如何?通过本章的学习,你将学会如何分析和描述数据,如何从数据中掌握事件的动态发展。学习目标本章学习数据分布的集中趋势特征和离中趋势特征的描述方法。重点要掌握众数、中位数、均值、标准差、变异系数和相关系数等指标的计算和应用问题。3.1 描述统计3.1.1 描述统计描述统计的内容包括频数分布,但主要是关于集中趋势和离中趋势的描述问题。例如,BND医院为了制定一个收容计划,工作人员搜集了一个含有67个病人被工作组收容的时间记录数据,该样本反映了病人被收容后1~185天内住院时长的变化情况。平均数:35.7天 中位数:17天 众 数:1天利用这些信息,可以提高制定收容计划的科学性。常见的频数分布曲线(1)正态分布:如农作物的单位面积产量、零件的公差、纤维强度(2)偏态分布:如上例中病人被收容的时间分布(3)J型分布:如经济学中的供给曲线和需求曲线(4)U型分布:如人和动物的死亡率分布3.1 描述统计3.1.2 集中趋势和离中趋势我们可以从两个方面对正态分布的特征进行描述:一是数据分布的集中趋势,二是数据分布的离散程度集中趋势特征指标(1)众数(2)中位数(3)均值离中趋势特征指标(1)极差(2)四分位差(3)标准差(4)变异系数3.2 正态分布特征的描述3.2.1 众数、中位数、四分位数和均值众数众数是一组数据中出现次数最多的变量值。众数是一组数据中心位的一个代表值。一组数据中可以有多个众数也可以没有众数。中位数中位数是一组数据按大小排序后,处于正中间位置上的变量值。中位数位置=(N+1)/2用、 和分别表示把全部数据分割为各占1/4的四个部分的三个等分点,分别称为第一分位数、第二分位数和第三分位数,其中Q2就是中位数。均值均值是全部数据的算术平均值,也称为算术平均数,记为表示算术平均数,表示变量值,表示权数3.2 正态分布特征的描述3.2.1 众数、中位数、四分位数和均值表3-1 集中趋势和离中趋势计算表根据表3-1可得:众数=30中位数=30平均数=30图3-1 正态分布图3.2 正态分布特征的描述3.2.2 极差、四分位差、标准差和变异系数极差极差等于数据分布中最大值与最小值之差,记为R。表3-1中R=55-5=50。四分位差四分位差等于第3个四分位数()与第1个四分位数( )之差,记为RQ。则有在表3-1中,与极差相比,四分位差不受极端值的影响,对数据分布的离散趋势的描述比较客观。但中间部分数据的离散状况也无法反映出来。3.2 正态分布特征的描述3.2.2 极差、四分位差、标准差和变异系数标准差标准差等于离差平方平均数的平方根,记为,则有在表3-1中,变异系数变异系数是反映数据分布相对离散程度的常用指标。它等于标准差除以均值记为,则有在表3-1中,由于标准差受计量单位大小的影响,还受到数据均值水平的影响,于是,计算变异系数来消除这些影响。3.2 正态分布特征的描述3.2.2 极差、四分位差、标准差和变异系数表3-2 A、B、C三组数据分布状况比较3.2 正态分布特征的描述3.2.2 极差、四分位差、标准差和变异系数反映数据分布的两大数量特征为均值和标准差。但在比较表3-2中A、B、C三组数据的离散程度时,变异系数发挥着重要作用。如下所示,由于,所以A组的相对离散程度最高,C组最低。图3-2 三组分布状况比较3.3 偏态分布特征的描述3.3.1 偏态分布:正偏态和负偏态表3-3 偏态频率分布表3.3 偏态分布特征的描述3.3.1 偏态分布:正偏态和负偏态偏态分布分为正偏态和负偏态。当均值大于众数时称为正偏态;当均值小于众数时称为负偏态。(a) 正偏态 (b)负偏态图3-3 偏态分布图3.3 偏态分布特征的描述3.3.2 分组下的众数和中位数在组距分组情况下,众数的计算要考虑最大频数所在组相邻组的分布,其计算公式如下:在表3-3中,在组距分组条件下,中位数的计算要考虑频数的全部排序,其计算公式如下:在表3-3中,3.3 偏态分布特征的描述3.3.3 分组下的均值及其与众数和中位数的关系分组下的均值在组距分组条件下计算均值,其公式与单变量分组情况相同,则有表3-3中,从均值(26.087)大于众数(20.833)可知,数据分布为正偏态。分组下的均值与众数、中位数的关系在适度偏态条件下,均值、众数和中位数之间的关系可以估算为:均值-众数=3×(均值-中位数)表3-3中, 均值 ≈ (3×中位数-众数)/2= (3×25-20.83)/ 2 = 27.09中位数 ≈ (众数+2×均值) / 3= (20.83 + 2×26.08) / 3 = 24.333.3 偏态分布特征的描述3.3.4 标准差、变异系数和偏度系数偏态数据分布状况对标准差的计算条件无影响偏度系数偏度系数反映数据分布偏移中心位置的程度,记为SK,则有SK = (均值-中位数)/标准差在表3-3中,SK=(26.083-25)/11.95 = 0.091在正态分布条件下,由于均值等于众数所以偏度系数等于0。当偏度系数大于0时,称为正偏态;当偏度系数小于0时,称为负偏态。3.4 双变量交叉分布特征的描述3.4.1 相关关系与协方差表3-4 居民家庭的人均食品支出(X)与家庭人均收入(Y)相关计算表3.4 双变量交叉分布特征的描述3.4.1 相关关系与协方差一个变量的变化会依存另一个变量的变化而变化,我们称这两种关系为相关关系。对于变量x和y来说,协方差是指这两个变量各点的离差之积的平均数,记为,则有3.4 双变量交叉分布特征的描述3.4.1 相关关系与协方差图3-5 协方差类别示意图当 时,为正相关(散点在第一、三象限)当时,为负相关(散点在第二、四象限)当 时,为完全无相关(散点在各象限)当 最大值时,为完全相关(散点为一条直线)3.4 双变量交叉分布特征的描述3.4.2 相关系数协方差的大小会受到计量单位和数据均值水平的影响,从而使不同相关总体之间的相关程度缺乏可比性。为了使不同相关总体之间的相关程度具有广泛的可比性,需要计算相关系数。相关系数是指协方差与两个标准差之比,记为r,则有在表3-4中,= 0.973 95一般地说,相关系数大于0.8就为高度相关;超过0.5为显著相关;小于0.3为低度相关。从本例中可知相关系数为0.97,表明家庭人均收入水平的提高会引起人均食品支出的增加,两者之间的依存关系非常稳定。本章小结数据的分布特征分为集中趋势特征和离中趋势特征。通过计算众数、中位数和均值等可以了解集中趋势特征;通过计算标准差和变异系数可以了解离中趋势特征。另外,通过计算协方差和相关系数可以了解两种现象之间的相关密切程度。谢 谢 观 看! 展开更多...... 收起↑ 资源预览