24.4 数据的分组 课件(20页) 2025-2026学年人教版(2024) 初中数学八年级下册

资源下载
  1. 二一教育资源

24.4 数据的分组 课件(20页) 2025-2026学年人教版(2024) 初中数学八年级下册

资源简介

(共20张PPT)
24.4 数据的分组
第二十四章 数据的分析
1.理解组内离差平方和与计算.
2.经历数据分类的活动,知道按照组内离差平方和最小的原则对数据进行分类的方法.
在实际问题中,当面临的对象复杂多样时,分类往往可以为我们处理问题带来方便. 对于一组取值多样的数据,对其进行合理分组,也会有助于我们解决问题.
在社会生活中,分类现象普遍存在. 例如,超市商品从“牛奶、面包、牙膏、洗发水”变成“食品区、日用品区、生鲜区”,能快速找到你要的东西.
【问题】一家公司向社会招聘一名员工,所有应聘者先统一参加笔试,然后根据笔试成绩确定一部分应聘者进入面试.将10名应聘者的笔试成绩(百分制)按从小到大的顺序排列如下:
58 64 68 75 76 83 85 89 90 92
你认为哪一部分应聘者应当进入面试
【分析】自然,应当选择笔试成绩好的应聘者进人面试.那么笔试成绩怎样才算好呢?
可以有不同的标准.例如,前三名或85分及以上等,不管哪种标准,目的都是把笔试成绩分成好和差两组.
但是83分和85分的差距很小,若以“85分及以上”为好成绩的标准,则85分属于好成绩,而83分属于不太好的成绩.
这么看,有些标准没有考虑数据自身的特点. 从公司确定面试应聘者的角度看,把笔试成绩相对接近的分到同一组,是一种较合理的做法. 因此,笔试成绩可以根据组内差异最小的原则进行分组.
58 64 68 75 76 83 85 89 90 92
将笔试成绩按从小到大的顺序排列,使相互最接近的笔试成绩都挨在了一起. 因此,要使分组后的组内差异最小,只需在已排序数据的基础上寻找分组方法. 可以发现,10个笔试成绩按顺序排列形成9个间隔,如图所示.
58 64 68 75 76 83 85 89 90 92
每个间隔都可以把笔试成绩分成好和差两组,共有9种分法.
【思考】怎么刻画组内笔试成绩差异的大小呢?哪种分法能使笔试成绩好和差两组的组内差异最小?
在前面的学习中,我们知道,离差平方和可以刻画一组数据的离散程度.下面我们利用离差平方和刻画组内数据的离散程度,进而对数据进行分组.
如果把这组数据分为两组,前m(md12=(x1-1)2+(x2-1)2++(xm-1)2,
d22=(xm+1-2)2+(xm+2-2)2++(xn-2)2,
那么d2=(x1-)2+(x2-)2++(xn-)2
=(x1-1+1-)2+(x2-1+1-)2++(xm-1+1-)2+ (xm+1-2+2-)2+
(xm+2-2+2-)2++(xn-2+2-)2
=(x1-1)2+(x2-1)2++(xm-1)2+(xm+1-2)2+(xm+2-2)2++(xn-2)2+
m(1-)2+(n-m)(2-)2
=d12+d22+m(1-)2+(n-m)(2-)2.
一般地,设有n个数据x1,x2,,xn,其平均数记为,则离差平方和为
d2=(x1-)2+(x2-)2++(xn-)2.
其中d12+d22称为组内离差平方和. 表示两个组内数据的离散程度;
记d122=m(1-)2+(n-m)(2-)2,d122是m个第一组数据平均数、(n-m)个第二组数据平均数关于总体数据平均数的离差平方和,称为组间离差平方和,表示两个组间的差异.根据组内离差平方和最小的原则进行分组时,由于d 不变,既可以按d12+d22最小来分组,也可以按d122最大来分组.
d2=d12+d22+m(1-)2+(n-m)(2-)2.
这样,根据组内离差平方和最小的原则,能使笔试成绩相差较小的应聘者分在同一组.利用计算器或信息技术工具,可以计算出图中的9种分法的组内离差平方和(结果保留小数点后一位),如表所示.
分组 第一组离差平方和 第二组离差平方和 组内离差平方和
第1个间隔 0 799.6 799.6
第2个间隔 18 503.5 521.5
第3个间隔 50.7 271.4 322.1
第4个间隔 152.8 170.8 323.6
第5个间隔 228.8 54.8 283.6
第6个间隔 411.3 26 437.3
第7个间隔 587.4 4.7 592.1
第8个间隔 819.5 2 821.5
第9个间隔 1 026.2 0 1 026.2
观察最后一列组内离差平方和可以发现,当按第5个间隔分组时,组内离差平方和最小.
因此,按组内离差平方和最小的分法为{58,64,68,75,76}和{83,85,89,99,92}.
分组 第一组离差平方和 第二组离差平方和 组内离差平方和
第1个间隔 0 799.6 799.6
第2个间隔 18 503.5 521.5
第3个间隔 50.7 271.4 322.1
第4个间隔 152.8 170.8 323.6
第5个间隔 228.8 54.8 283.6
第6个间隔 411.3 26 437.3
第7个间隔 587.4 4.7 592.1
第8个间隔 819.5 2 821.5
第9个间隔 1 026.2 0 1 026.2
利用组内离差平方和最小原则对数据分组
【例】10个城市某月的每日最高温度的平均数(简称平均高温)如表所示.
城市 北京 石家庄 呼和 浩特 哈尔滨 上海 广州 海口 成都 贵阳 昆明
平均高温/℃ 3 3 -3 -11 10 21 22 12 9 17
解:将表中的数据按从小到大排列,可得
-11 -3 3 3 9 10 12 17 21 22
根据平均高温的组内离差平方和最小的原则:把这10个城市分为两组.
将它们分成两组共有9种情况,利用计算器或信息技术工具,分别计算组内离差平方和(结果保留小数点后一位),如表所示.
分组 第一组离差平方和 第二组离差平方和 组内离差平方和
第1个间隔 0 584.2 584.2
第2个间隔 32 380.9 412.9
第3个间隔 98.7 285.7 384.4
第4个间隔 132 158.8 290.8
第5个间隔 228.8 113.2 342
第6个间隔 308.8 62 370.8
第7个间隔 397.4 14 411.4
第8个间隔 562 0.5 562.5
第9个间隔 789.6 0 789.6
分组 第一组离差平方和 第二组离差平方和 组内离差平方和
第1个间隔 0 584.2 584.2
第2个间隔 32 380.9 412.9
第3个间隔 98.7 285.7 384.4
第4个间隔 132 158.8 290.8
第5个间隔 228.8 113.2 342
第6个间隔 308.8 62 370.8
第7个间隔 397.4 14 411.4
第8个间隔 562 0.5 562.5
第9个间隔 789.6 0 789.6
观察最后一列组内离差平方和可以发现,当按第4个间隔分组时,组内离差平方和最小.因此,按组内离差平方和最小的分法为
{北京,石家庄,呼和浩特,哈尔滨}
和{上海,广州,海口,成都,贵阳,昆明}.
结合地理课所学知识,说一说这样分组合理吗?
合理. 这样分组大致沿秦岭淮河一线分为南北方.
{北京,石家庄,呼和浩特,哈尔滨}
和{上海,广州,海口,成都,贵阳,昆明}.
①排序:将一组数据从小到大排列;
②分组:把数据分成两组,前 m (m③计算:分别计算这两组数据的离差平方和 ;
④求和:计算组内离差平方和 .
组内离差平方和的计算步骤:
组内离差平方和: d122=m(1-)2+(n-m)(2-)2
组内离差平方和最小原则:组内数据越集中,组间差异越清楚,分组才有意义
数据的分组
1. 五个城市某月的平均低温单位: 如下表所示:
城市 A B C D
平均低温/ 0 -2 5 2 3
根据平均低温的组内离差平方和最小的原则,把这5个城市分为两组.
解:将平均低温按从小到大的顺序排列,5个平均低温按顺序排列形成4个间隔,如图所示.
每个间隔都可以把平均低温分成两组,共有4种分法.
分组 第一组离差平方和 第二组离差平方和 组内离差平方和
第1个间隔 0 13 13
第2个间隔 2 4.67 6.67
第3个间隔 8 2 10
第4个间隔 14.75 0 14.75
观察最后一列组内离差平方和可以发现,当按第2个间隔分组时,组内离差平方和最小,因此,按组内离差平方和最小的分法为{A ,B}和{C,D,E} .
2.下表记录了我国10个省份2020年人均地区生产总值(人均GDP)的数据.数据表明,这10个省份的人均GDP是有区别的.如果要把这10个省份依据人均GDP的多少分为两个组,你认为应当如何划分 请说出划分的道理,
解:将表中10个数据按从小到大排列,得到6.24,7.16,7.18,7.37,8.85,10.07,10.11,12.13,15.68,16.42.将它们分成两组共有9种情况,分别计算组内离差平方和,如下表.
观察组内离差平方和可以发现,当按第7个间隔分组时,组内离差平方和最小. 因此,按组内离差平方和最小的分法为
{省份2,省份3,省份4,省份7,省份8,省份9,省份10}和{省份1,省份5,省份6}.
分组 组内离差平方和
第1个间隔 99.546
第2个间隔 87.023
第3个间隔 70.706
第4个间隔 50.822
第5个间隔 40.050
第6个间隔 36.286
第7个间隔 24.713
第8个间隔 28.399
第9个间隔 72.195

展开更多......

收起↑

资源预览