第3章数据的图表展示 课件(共40张PPT)-《统计学(微课版)》同步教学(人民邮电版)

资源下载
  1. 二一教育资源

第3章数据的图表展示 课件(共40张PPT)-《统计学(微课版)》同步教学(人民邮电版)

资源简介

(共40张PPT)
1
统计学
Statistics
2
第 3 章 数据的图表展示
3.1 类别数据的图表展示
3.2 数值数据的图表展示
3.3 图表的合理使用
3.4 小结
3
第 3 章 数据的图表展示
3.1 类别数据的图表展示
4
类别数据的图表展示
当收集得到类别变量的一组数据时,人们通常希望了解该变量不同类别取值出现的次数,这就是频数(frequency)。
将类别变量的各个取值及其相应的频数用表格的形式展示出来就是频数分布表(frequency distribution table),同时还可以计算不同取值的频数在全部数据个数中所占的比例。
如果希望分析两个甚至更多个类别变量交叉分类的取值情况,则需要制作交叉表,也称列联表(crosstab)。
5
类别数据的图表展示
【例3.1】1点点、喜茶、CoCo都可、贡茶、快乐柠檬是目前市面上知名的“网红”奶茶品牌。为研究人们的选择偏好,一家咨询机构随机调查了80名消费者,记录下每位消费者的性别及最爱喝的奶茶品牌,如表3-1所示。试制作该数据的频数分布表,从不同角度观察数据的分布特征。
性别 奶茶品牌 性别 奶茶品牌 性别 奶茶品牌 性别 奶茶品牌
女 1点点 女 喜茶 女 快乐柠檬 女 CoCo都可
女 喜茶 男 1点点 女 1点点 男 喜茶
女 1点点 女 1点点 男 贡茶 男 喜茶
男 喜茶 女 CoCo都可 男 快乐柠檬 男 贡茶
女 CoCo都可 女 喜茶 女 CoCo都可 女 快乐柠檬
男 贡茶 男 喜茶 男 喜茶 男 1点点
男 1点点 男 1点点 女 1点点 男 快乐柠檬
女 贡茶 女 CoCo都可 女 1点点 女 1点点
女 快乐柠檬 女 快乐柠檬 女 喜茶 女 1点点
男 快乐柠檬 女 快乐柠檬 男 1点点 男 喜茶
女 1点点 女 贡茶 男 喜茶 男 喜茶
女 1点点 女 喜茶 男 贡茶 男 1点点
女 喜茶 女 1点点 女 喜茶 男 贡茶
女 CoCo都可 男 1点点 女 贡茶 女 喜茶
男 1点点 男 贡茶 女 1点点 女 CoCo都可
男 贡茶 男 喜茶 男 CoCo都可 女 CoCo都可
男 CoCo都可 男 快乐柠檬 男 喜茶 女 1点点
女 贡茶 女 喜茶 女 贡茶 女 喜茶
女 1点点 女 1点点 女 1点点 男 1点点
男 喜茶 男 喜茶 女 1点点 女 贡茶
表3-1 80名受访者的性别及最爱喝的奶茶品牌
6
类别数据的图表展示
解:该调查收集得到的数据包含两个类别变量:性别、奶茶品牌。首先,可以分别对这两个变量制作频数分布表,了解受访者的性别构成和对五种奶茶品牌的偏好情况。由SPSS生成的结果如表3-2和表3-3所示。
频率 百分比 有效百分比 累积百分比
有效 男 34 42.5 42.5 42.5
女 46 57.5 57.5 100.0
合计 80 100.0 100.0
表3-2 受访者性别频数分布表
频率 百分比 有效百分比 累积百分比
有效 1点点 26 32.5 32.5 32.5
CoCo都可 10 12.5 12.5 45.0
贡茶 13 16.3 16.3 61.3
快乐柠檬 9 11.3 11.3 72.5
喜茶 22 27.5 27.5 100.0
合计 80 100.0 100.0
表3-3 受访者最爱喝的奶茶品牌频数分布表
7
类别数据的图表展示
解:接下来,我们可能会猜想不同性别的消费者对于奶茶品牌的偏好是否存在差异?制作“性别”和“奶茶品牌”两个变量的交叉频数分布表可以帮助我们直观地判断一下。SPSS生成的(默认)结果如表3-4所示。
性别 合计
男 女
奶茶品牌 1点点 9 17 26
CoCo都可 2 8 10
贡茶 7 6 13
快乐柠檬 4 5 9
喜茶 12 10 22
合计 34 46 80
表3-4 受访者的性别和奶茶品牌的交叉表(默认选项)
8
类别数据的图表展示
解:如果希望进一步了解不同性别和不同奶茶品牌的交叉百分比构成情况,也可以在软件中通过选择相应的选项来实现,输出结果如表3-5所示。
奶茶品牌 合计
1点点 CoCo都可 贡茶 快乐柠檬 喜茶
性别 男 计数 9 2 7 4 12 34
性别 中的 % 26.5% 5.9% 20.6% 11.8% 35.3% 100.0%
奶茶品牌 中的 % 34.6% 20.0% 53.8% 44.4% 54.5% 42.5%
总数的 % 11.3% 2.5% 8.8% 5.0% 15.0% 42.5%
女 计数 17 8 6 5 10 46
性别 中的 % 37.0% 17.4% 13.0% 10.9% 21.7% 100.0%
奶茶品牌 中的 % 65.4% 80.0% 46.2% 55.6% 45.5% 57.5%
总数的 % 21.3% 10.0% 7.5% 6.3% 12.5% 57.5%
合计 计数 26 10 13 9 22 80
性别 中的 % 32.5% 12.5% 16.3% 11.3% 27.5% 100.0%
奶茶品牌 中的 % 100.0% 100.0% 100.0% 100.0% 100.0% 100.0%
总数的 % 32.5% 12.5% 16.3% 11.3% 27.5% 100.0%
表3-5 受访者的性别和奶茶品牌的交叉表(含百分比)
9
类别数据的图表展示
条形图(bar chart)是用宽度相同的条形来表示数据中不同类别出现频数的高低。
类别变量既可以放在横轴,也可以放在纵轴,相应的另一个坐标轴则为频数(也可以是百分比)。
条形图在保留频数分布表中的具体数字之外,更加直观地展示了不同类别频数的高低差异。
还可以根据分析需要将上述两个类别变量绘制在同一个条形图中进行交叉比较,这就是复式条形图。
10
类别数据的图表展示
沿用例3.1中的数据,我们可以分别绘制受访者的性别和最爱喝的奶茶品牌的条形图,如图3-1所示。
图3-1 受访者的性别和奶茶品牌的条形图
11
类别数据的图表展示
图3-2展示了例3.1中数据的两种复式条形图。
图3-2 受访者的性别和奶茶品牌的复式条形图
12
类别数据的图表展示
饼图(pie chart)是将一个圆划分成多个扇形,用每个扇形的面积(即角度)大小代表不同类别的频数在总频数中所占的百分比。
从饼图中我们可以更加直观地考察一组数据中不同类别个体的构成结构和相对频数大小(当然也可以在图中标注出每一类别的绝对频数值),即使数据量发生变化,只要内部结构没有变动,饼图中扇形的划分比例将保持不变。
13
类别数据的图表展示
图3-3分别展示了例3.1中受访者的性别和奶茶品牌的饼图。
图3-3 受访者的性别和奶茶品牌的饼图
14
类别数据的图表展示
图3-4分别展示了男性受访者和女性受访者最爱喝的奶茶品牌的饼图,可用于对比分析不同性别的消费者对奶茶品牌的偏好结构。
图3-4 男性受访者和女性受访者最爱喝的奶茶品牌的饼图
15
类别数据的图表展示
环形图(doughnut chart)是将两个或两个以上的饼图叠放在一起,然后“挖去”中间的部分所构成的图形。
环形图中用每一个环形代表不同的样本,同一个样本(同一个环)的不同构成部分则用环上的不同分段来表示。
环形图与饼图的基本功能类似,但如果需要同时对比多个样本数据的构成结构,环形图将更为直观和简洁。
16
类别数据的图表展示
图3-5展示了男性受访者(内环)和女性受访者(外环)最爱喝的奶茶品牌的环形图。
图3-5 男性受访者(内环)和女性受访者(外环)最爱喝的奶茶品牌的环形图
17
第 3 章 数据的图表展示
3.2 数值数据的图表展示
18
数值数据的图表展示
按照具体取值形式的不同,数值变量可以分为离散变量和连续变量。
如果离散变量只有少数几个可能的取值,那么对这样的离散数据可以采取与类别数据类似的方法制作频数分布表,即分别统计一组数据中每一个取值出现的次数和所占的百分比。
然而,大多数情况下,离散变量的可能取值往往较多,而连续变量是在区间范围内取值,均不适合一一列举。因此,对数值数据进行描述分析,通常需要先分组,再制作频数分布表。
19
数值数据的图表展示
分组是将变量的所有取值划分为若干个区间,每一个区间作为一组,区间的最小值称为组下限,最大值称为组上限。
分组应遵循“不重不漏”的基本原则,也就是不同区间的划分应该使得所有的数据都能够并且只能够被归属到某一个区间内。
数值数据的分组步骤如下:
首先,确定组数。一般情况下,一组数据所分的组数应不少于5组且不多于15组。实际应用时,可根据数据的多少和特点及研究目的来确定。
20
数值数据的图表展示
其次,确定各组的组距。组距是每一组的区间范围,即组上限与组下限的差值。如果每一组的组距都相等,称为等距分组,否则为不等距分组。等距分组是最常见的分组方式,组距可根据全部数据的最大值和最小值及所分的组数来确定,计算公式为:
组距=(最大值-最小值)÷组数
最后,根据区间的划分统计出各组包含的数据个数及相应的比例,制作频数分布表。
21
数值数据的图表展示
【例3.2】为分析北京市“网约车”行业的收入情况,某咨询机构随机调查了150名专职提供“网约车”服务的司机,记录他们某一天的营业额数据,如表3-6所示。试对该数据进行分组,并制作频数分布表。
319 493 346 362 532 283 413 207 444 426
264 510 615 365 355 418 329 315 439 446
354 550 450 346 510 391 516 378 470 453
351 586 345 380 384 476 434 313 202 400
357 419 426 369 461 268 435 416 226 363
237 638 354 487 401 209 433 454 424 361
638 390 392 355 302 569 583 459 421 289
375 408 475 546 299 384 462 349 370 480
436 572 251 431 296 349 240 475 453 377
586 334 528 516 492 331 391 489 366 530
321 494 309 402 660 327 351 360 319 255
350 367 387 365 433 388 391 459 394 297
257 397 432 303 381 433 317 418 393 458
528 360 500 273 240 392 403 447 319 300
501 535 420 314 447 393 443 463 698 327
表3-6 150名“网约车”司机日营业额 单位:元
22
数值数据的图表展示
解:
首先,考虑到数据量和分析需要,我们可以将本例中分组的组数确定为10组。
接下来,计算每一组的组距。本组数据的最大值为698,最小值为202,代入公式计算得到组距等于49.6,为便于理解,可取整数50。
遵循“不重不漏”的基本原则,第一组的组下限应低于数据的最小值,最后一组的组上限应高于数据的最大值,二者最终分别确定为200和700,并且每一组的区间以(a ,b]的形式划分。
23
数值数据的图表展示
确定好组数和组距后,我们就可以利用软件统计出每一组所包含的数据个数,制作频数分布表,SPSS生成的结果如表3-7所示。
频率 百分比 有效百分比 累积百分比
有效 200~250 7 4.7 4.7 4.7
250~300 12 8.0 8.0 12.7
300~350 22 14.7 14.7 27.3
350~400 38 25.3 25.3 52.7
400~450 29 19.3 19.3 72.0
450~500 20 13.3 13.3 85.3
500~550 12 8.0 8.0 93.3
550~600 5 3.3 3.3 96.7
600~650 3 2.0 2.0 98.7
650~700 2 1.3 1.3 100.0
合计 150 100.0 100.0
表3-7 150名“网约车”司机日营业额频数分布表
24
数值数据的图表展示
要更加直观地展示数值数据的分布特征,同样可以绘制图形。
直方图和箱线图是用于展示单个数值变量分布特征最常用的两类图形。
要观察两个变量之间的数值关系,则需要绘制散点图。
雷达图是比较多个样本多个数值变量相似程度(或差异)的常用图形。
25
数值数据的图表展示
直方图(histogram)是用矩形的宽度和高度(即面积)来表示数值数据的频数分布。横坐标是数值变量的取值,每一个矩形的宽度对应的是数值数据分组后每一组的区间,纵坐标可以是频数也可以是百分比。
沿用例3.2中的数据及分组结果,绘制得到的直方图如图3-6所示。
图3-6 150名“网约车”司机日营业额的直方图
26
数值数据的图表展示
直方图和条形图外观近似,但实际上其性质和功能完全不同。
条形图主要用于描述类别数据的频数分布,通常用矩形代表不同的类别,因此其宽度并没有实际意义,在绘制条形图时不同类别的矩形往往是分开排列的。
而直方图则主要适用于描述数值数据的频数分布,矩形的宽度代表的是分组后各组的组距,有实际的数值含义,因此绘制直方图时各个矩形必然是连续排列的。
27
数值数据的图表展示
箱线图(box plot)是用于展示未分组的数值数据分布特征的一类常用图形。
首先,找出一组数据的三个四分位数,画出箱子。上、下四分位数构成封闭箱子的边界,中位数位于箱子内部。
然后,计算出内围栏和相邻值,画出须线。内围栏是分别低于下四分位数和高于上四分位数1.5倍四分位差的两个值,取值位于上下内围栏之间的数据的最大值和最小值(即非离群点的最大值和最小值)称为上、下相邻值,用直线将上下相邻值分别与箱子连接,形成须线。
最后,标出离群点。离群点是大于上内围栏或小于下内围栏的数值。
28
数值数据的图表展示
箱线图的一般形式如图3-7所示。
图3-7 箱线图的一般形式
29
数值数据的图表展示
箱线图既可以用于观察未分组数据的分布形态和离散程度,还可以用于识别异常值。此外,箱线图的另一个重要用途是可以针对多个数值变量的多组数据,方便地比较其分布特征。
沿用例3.2中的原始数据,我们可以绘制得到150名“网约车”司机日营业额的箱线图如图3-8所示。
图3-8 150名“网约车”司机日营业额的箱线图
30
数值数据的图表展示
【例3.3】某大学开设了三个班次的《统计学》课程,分别由三位老师按照相同的教学大纲进行授课,每个班的选课人数均为30人,学期末参加统一的闭卷考试,考试成绩如表3-8所示。试分别绘制三个班级考试成绩的箱线图,并比较它们的分布特征。
1班 2班 3班
75 75 65 77 81 69 88 85 84
75 83 79 74 73 75 90 84 74
61 83 71 73 60 53 92 83 80
91 76 87 74 83 86 89 86 77
75 82 86 80 77 76 90 84 78
79 81 76 61 74 84 83 82 80
94 81 87 65 76 83 87 84 77
92 80 85 67 67 72 84 80 78
73 84 90 86 71 94 83 80 76
82 95 77 70 77 78 84 82 76
表3-8 某大学三个班级《统计学》课程考试成绩 单位:分
31
数值数据的图表展示
解:SPSS绘制的三个班级《统计学》课程考试成绩的箱线图如图3-9所示。
图3-9 三个班级《统计学》课程考试成绩的箱线图
32
数值数据的图表展示
散点图(scatter diagram)是用于展示两个数值变量之间关系的一种常用图形。
如果收集得到变量x对应变量y的两组数据,分别用横坐标和纵坐标代表两个变量,那么每一对数据(xi,yi)就可以标记为二维坐标系中的一个点,所有数据点构成的图形即为散点图。
33
数值数据的图表展示
【例3.4】表3-9给出了2017年我国31个省市地区生产总值和教育经费数据,试绘制散点图并观察二者之间的关系。
地区 地区生产总值(亿元) 教育经费 (万元) 地区 地区生产总值(亿元) 教育经费
(万元)
北 京 28014.9 11934724 湖 北 35478.1 13009264
天 津 18549.2 5365129 湖 南 33903.0 13781959
河 北 34016.3 14203834 广 东 89705.2 33675376
山 西 15528.4 7942196 广 西 18523.3 10914241
内蒙古 16096.2 7624806 海 南 4462.5 3068767
辽 宁 23409.2 9206907 重 庆 19424.7 8863208
吉 林 14944.5 6439837 四 川 36980.2 17620946
黑龙江 15902.7 7336607 贵 州 13540.8 10335342
上 海 30633.0 11218946 云 南 16376.3 11886446
江 苏 85869.8 24020855 西 藏 1310.9 1857714
浙 江 51768.3 18908104 陕 西 21898.8 10049114
安 徽 27018.0 12357931 甘 肃 7459.9 6706137
福 建 32182.1 10473975 青 海 2624.8 2162973
江 西 20006.3 10468837 宁 夏 3443.6 2072544
山 东 72634.2 22422970 新 疆 10882.0 7823914
河 南 44552.8 18902582
表3-9 2017年我国31个省市地区生产总值和教育经费数据
34
数值数据的图表展示
解:将“地区生产总值”作为横坐标变量x,“教育经费”为纵坐标变量y,SPSS绘制的散点图如图3-10所示。
图3-10 2017年我国31个省市地区生产总值和教育经费的散点图
35
数值数据的图表展示
雷达图(radar chart)是从一个点出发,用不同方向的射线分别代表不同的变量,将同一个样本各个变量的取值落在射线上的点连接成一个“蜘蛛网”,多个样本则形成多个“蜘蛛网”。
【例3.5】表3-10给出了2018年我国三大房地产上市公司主要财务指标数据,试绘制雷达图并比较三家公司的财务状况特征 数据整理自各上市公司2018年财务年报。
公司 财务指标
资产净利率(%) 净资产收益率(%) 利息保障倍数 净利润增长率(%) 总资产增长率(%)
保利地产 3.39 16.521 17.969 20.98 21.54
万科A 3.658 23.418 7.546 20.39 31.17
绿地控股 1.7 17.152 9.872 25.86 22.16
表3-10 2018年我国三大房地产上市公司主要财务指标数据
36
数值数据的图表展示
解:Excel绘制的上述三家房地产公司财务指标的雷达图如图3-11所示。
图3-11 2018年我国三大房地产上市公司财务指标雷达图
37
第 3 章 数据的图表展示
3.3 图表的合理使用
38
图表的合理使用
从一般性而言,图表的最大优势就是直观、形象。既要有助于引导读者理解数据,又要避免造成错误的印象,绘制图表时应注意以下几点:
第一,正确理解不同图表的用途,合理选择适用的图表。
第二,真实展示数据特征,合理安排图表结构。
第三,遵循图表制作规范。
39
第 3 章 数据的图表展示
3.4 小结
40
小结
图表是描述数据分布特征的两大基本工具。
针对类别数据,可以直接统计其不同类别出现的频数和百分比,制作频数分布表。利用条形图可以进一步观察不同类别之间的频数差异,饼图则可以帮助直观分析同一组数据内部不同类别的构成结构。
针对数值数据,通常需要先分组,再统计每一组所包含的数据个数和所占比例,进而制作频数分布表。直方图和箱线图都是用于观察数值数据基本分布特征的重要图形,分别适用于分组数据和未分组数据,后者还便于比较多组数据的分布情况。如果要观察两个数值变量的变动关系,则可以绘制散点图。

展开更多......

收起↑

资源预览