资源简介
(共28张PPT)
项目五
统计数据的描述
目录
CONTENTS
1
统计整理概述
2
统计分组
3
分配数列
4
数据的显示
5
Excel 在统计整理中的应用
学习目标
· 了解统计分组的概念,区分品质分组、变量分组、简单分组和复合分组;
· 系统学习统计整理的概念,掌握统计整理的步骤;
· 理解分配数列的概念和种类,掌握变量分布数列的编制方法,区分不同的次数分布类型;
01
02
03
04
05
· 认识统计表的构成和分类,识别常见的统计图;
· 熟练掌握 Excel 在统计整理中的应用。
项目导航
统计整理
统计整理概述
统计分组
数据的显示
统计整理的步骤
统计分组的概念和作用
统计分组的类型
分配数列的概念和种类
变量分布数列的编制
次数分布的类型
常见统计图
公式输入
分组统计
绘制统计图
统计表的构成与种类
Excel在统计整理中的作用
统计整理的意义
分配数列
案例导入
2019 年,中国青年网校园通讯社围绕手机上网话题,对全国 1220 名大学生进行问卷调查。结果显示:超四成学生每天上网超过 5 小时,超八成学生上网主要是社交聊天,多数学生认为手机上网让移动支付、信息获取、社交方式更便捷。图 5-1 为大学生每天上网时间对比图。
大学生手机上网调查:超四成每天上网超 5 小时
超四成学生每天手机上网超过 5 小时。上网时,83.93% 的学生主要是在社交聊天,其次是查阅资料和听歌,分别占 62.46% 和 58.61% (见图 5-2 )。
案例导入
手机上网给大学生的日常生活带来了哪些便捷呢 中国青年网记者在调查中发现,多数受访学生认为手机上网让移动支付、信息获取、社交方式更便捷,分别占 90.25% 、80.49% 和 78.52% (见图 5-3 )。
大学生手机上网调查:超四成每天上网超 5 小时
相较于学习时间,大学生花在网络上的时间更多,虽然这已经成为一种普遍现象,但还是建议同学们要重视学习。目前,很多学生离开手机就会变得很焦虑,其实,大学生利用网络安排好自己的空闲时间,多关注与自身专业或就业相关的公众号和网课,会对未来考研或找工作都有帮助。
思考与讨论:
上文是 2019 年中国青年网关于大学生上网调查的一部分,通过阅读以上内容可以对调查目的有一定的了解。请讨论以下问题:
(1)调查中的数据是怎样由一份独立的调查问卷整理得来的
(2)文中的图表如何绘制
02
模块二
统 计 分 组
一、统计分组的概念和作用
(一)统计分组的概念
统计分组是根据统计研究的目的、任务和研究对象总体的内在特点,将总体按某一标志划分为若干个性质不同但又有联系的部分或组别。
字面上理解,统计分组包括两层含义:“分”和“组”。“分”指的是把总体内部性质具有差异的单位进行区分;“组”则是针对单位而言,即把性质上差异不明显的单位归并在一起。
研究社会经济现象,要同时关注现象的一般性和特殊性。
想一想
假设经济学家在对人口普查结果进行分析,设想要达到以下不同的研究目的应该怎样对总体进行分组。
(1)了解总体人口的民族构成。
(2)了解人口的性别构成。
(3)了解人口的文化程度。
一、统计分组的概念和作用
(二)统计分组的作用
区分总体现象的类型
· 客观现象是错综复杂的,通常存在各种不同的类型。不同类型的客观现象在水平、规模、结构关系等方面的数量表现上具有差异性。
研究总体内部结构及其特征
· 依据统计研究的目的,样本总体被划分成了若干组别。通过计算各类别单位数占总体单位数的比重,客观现象的内部结构及其特征得以被反映出来。
体现变量之间的依存关系
· 客观现象是一个复杂的整体,各个现象之间并不是相互独立的,而是相互影响、相互制约的。
二、统计分组的类型
(一)品质分组和变量分组
按分组标志的性质不同,统计分组可分为品质分组和变量分组两种类型。
品质分组是指按品质标志分组,品质标志是反映客观现象属性或特征的标志。性别、文化程度和工种等都是反映总体特征属性的品质标志。
变量分组是指按数量标志分组,数量标志是反映客观现象数量特征的标志,工资收入、年龄和工龄等都是反映总体数量特征的数量标志,也是变量。
知识拓展
统计用产品分类目录
品质分组能直接反映现象性质的不同,给人以具体、明确的概念。按品质标志分组,概念、界限比较明确,区分容易,分组相对比较稳定。但在某些情况下,这类分组相当复杂,因为涉及的组数较多,而且组与组之间的界限不容易划分,如人口按职业分组。在统计工作实践中,对重要的品质标志分组编有标准的分类目录,作为全国统一的分类口径,便于各部门掌握和使用,如《统计用产品分类目录》等(见图 5-6 )。
二、统计分组的类型
(二)简单分组和复合分组
按分组标志的多少,统计分组可分为简单分组和复合分组两种类型。
简单分组是指只按一个标志进行分组。如图 5-7 所示,职员按照性别进行分组。
复合分组是指按两个或两个以上标志进行层叠分组。也就是先按照某个标志进行分组,然后按另一个标志将已分好的各个组又划分为若干组,以此类推。
与简单分组相比,复合分组更为形象地展现了各现象
之间的依存关系,也更利于对现象进行深入分析。
图 5-7
03
模块三
分 配 数 列
一、分配数列的概念和种类
(一)分配数列的概念
· 在分组的基础上,把总体的所有单位按组进行归类整理,按一定的顺序进行排列,就形成总体中各个单位在各组间的分布,这被称为统计分布。由于统计分布的实质是把总体的全部单位按标志进行分组并形成数列,因此这个形成的数列又称分配数列或分布数列。
一、分配数列的概念和种类
(一)分配数列的概念
组。组即总体按某标志所分的类别。
次数。次数即分配到各组的单位数。
分配数列是统计整理的一种重要表现形式。它在统计研究中有重要的意义,也是统计分析的一种重要方法:分配数列揭示了总体单位的分布特征和结构情况,以此为基础研究标志的平均水平、变化规律等客观现象。
分配数列要素
一、分配数列的概念和种类
(二)分配数列的种类
按分组标志的不同,分配数列可分为品质分配数列和变量分配数列。
1. 品质分配数列
按品质标志分组形成的分配数列称作品质分配数列,简称品质数列。表 5-2 即为员工按照性别进行分组形成的品质数列。
员工性别 人数/人
男性 40
女性 60
一、分配数列的概念和种类
(二)分配数列的种类
2. 变量分配数列
按数量标志分组形成的分配数列称作变量分配数列,简称变量数列。表 5-3 即为按工龄对总体进行分组形成的变量数列。变量数列包含变量值形成的组和组的单位数两个要素。
工龄/年 人数/人
<3 15
3~5 30
>5~10 40
>10~15 10
>15 5
二、变量分布数列的编制
按分组变量表现形式的不同,变量数列可分为单项变量数列和组距变量数列。
单项变量数列即单项数列,单项数列中每个组只用一个变量值来表示。当变量值变化幅度小且为离散变量时,可以采用单项数列来反映现实客观现象。例如,统计某公司职工一个月内出勤天数,如表 5-4 所示。
出勤天数/天 人数/人
27 11
28 15
29 34
30 51
二、变量分布数列的编制
按分组变量表现形式的不同,变量数列可分为单项变量数列和组距变量数列。
当变量值的变化幅度很大时,更常用的是组距变量数列,即组距数列。组距数列是用一个变量值区间表示数列中的组的变量数列,组距数列适用于分组变量连续且变动范围较大的情况。
年龄/岁 人数/人 年龄/岁 人数/人 年龄/岁 人数/人 年龄/岁 人数/人
53 2 30 7 41 2 48 1
55 1 35 5 44 1 50 3
33 5 39 3 22 2 29 4
45 2 40 3 23 5 26 8
20 4 19 2 25 7 36 4
28 3 21 3 52 1 37 1
以某公司职工年龄调查结果的原始资料为例(见表 5-5 ),介绍变量分布数列的编制步骤。
01
03
05
02
04
二、变量分布数列的编制
计算单位数和编制变量数列
确定组限和组中值
确定组距与组数
确定变量数列的类型
计算全距
二、变量分布数列的编制
(一)计算全距
由于原始资料中的信息是分散凌乱的,先将原始资料中分组数值依据大小进行排列,整理得到表 5-6 ,从表中找出最大值和最小值并计算全距。
年龄/岁 人数/人 年龄/岁 人数/人 年龄/岁 人数/人 年龄/岁 人数/人
19 2 26 8 36 4 45 2
20 4 28 3 37 1 48 1
21 3 29 4 39 3 50 3
22 3 30 7 40 3 52 1
23 5 33 5 41 2 53 2
25 7 35 5 41 1 55 1
二、变量分布数列的编制
(二)确定变量数列的类型
据所研究变量的类型和变量的变动幅度,可以确定编制单项数列还是编制组距数列。
对于连续变量(如身高、体重等),只能编制组距数列。对于离散型变量,则需根据变量值的变动多少和幅度来确定。
一般而言,变量少而变动幅度小会选择编制单项数列,变量多而变动幅度大会选择编制组距数列。通过观察表 5-6 ,可以确定变量(年龄)跨度从 19 岁到55 岁,共计 24 组数据,应编制组距数列。
01
02
03
二、变量分布数列的编制
(三)确定组距与组数
组距指的是每组中最大变量值与最小变量值之间的差值。最大变量值称为上组限,简称上限。最小变量值称为下组限,简称下限。组距的计算公示为
组距 = 上限 - 下限
根据组距和全距,可以计算组数,即
组数 = 全距/组距
从公式可以看出,当全距一定时,组距与组数成反比:组距越大,组数越少;组距越小,组数越多。
二、变量分布数列的编制
(四)确定组限和组中值
· 组限指的是区分事物质的差别的数量界限。对于离散型变量与连续型变量,组限的确定方式是不同的。由于离散型变量相邻的两个数值之间没有中间值,因此可以以不重叠的方式设置每组的上限和下限。
· 对于连续型变量,变量值是不可分割且连续的,所以相邻两组的组限必定重叠。组的上限和下限界定了变量在该组的取值范围。统计工作中,通常用组中值来表示分布在各组中个体单位变量值的一般水平。组中值计算公式为
组中值 = (上限 + 下限)/2
二、变量分布数列的编制
(五)计算单位数和编制变量数列
经过以上四步,我们确定了全距、组距和组限,现在变量值便可以按组归类从而得出各组单位数。单位数指的是各组所占有的总体次数,即频数。将分组和相应的单位数用表格进行罗列就得到要编制的变量数列。
对表 5-6 中数据进行分组,最终得到如表 5-7 所示变量数列。
年 龄 组 频数/人 频率/ %
20 岁以下 2 2.5
20~30 岁 36 45.6
30~40 岁 25 31.6
40~50 岁 9 11.4
50 岁以上 7 8.9
合计 79 100
三、次数分布的类型
(一)钟形分布
钟形分布形态上的基本特征是“中间大,两头小”:单位集中在中间标志值处,越向最小标志值和最大标志值的两个方向上延伸,单位出现的次数越少。因为其形态似一古钟,所以被称为钟形分布。在社会经济现象中,钟形分布包括对称分布和非对称分布两种形式。
图 5-8 正态分布
图 5-9 右偏分布
图 5-10 左偏分布
三、次数分布的类型
(二) U 形分布
U 形分布与钟形分布的形状相反,表现出“中间小,两头大”的基本特征:单位集中在最小标志值和最大标志值处,越向中间标志值处靠拢,单位出现的次数越少,如图 5-11 所示。
图 5-11 U 形分布
展开更多......
收起↑