4.3 数据的分类 课件(共19张PPT) 2025-2026学年湘教版八年级数学下册

资源下载
  1. 二一教育资源

4.3 数据的分类 课件(共19张PPT) 2025-2026学年湘教版八年级数学下册

资源简介

(共19张PPT)
第4章 数据的分析
4.3 数据分类
设一组数据为 x1,x2,…,xn,各个数据与平均数  之差的平方和,称为这组数据的离差平方和,记作 S2.

2. 方差的概念
各个数据与平均数  之差的平方的平均值,称为这组数据的方差,记作 s2.

1. 离差平方和的概念:
某田径队10名运动员跳远的最好成绩如下:
编号 ① ② ③ ④ ⑤ ⑥ ⑦ ⑧ ⑨ ⑩
成绩/m 5.85 6.13 6.11 6.01 5.91 6.19 5.81 5.84 6.22 5.98
教练组拟根据这组数据将队员分为两组进行分层训练,应当如何划分呢?
一种划分的方法是,使得每一组的数据比较稳定,即每一组数据的组内差异小,组间差异大.
1
数据分类
一般地,设一组数据为 x1,x2,…,xn,它的平均数为 ,离差平方和为 S2. 如果把这组数据分为两组,前 m 个数据为第一组,后 (n-m) 个数据为第二组,第一组的平均数记作 ,第二组的平均数记作 , 令
知识要点
其中 为组内离差平方和,反映承两个组内数据的离散程度,
为组间离差平方和,反映了两组数据之间的差异程度.
数学上已经证明
=+.
x1,x2,…,xm,xm+1,xm+2,…,xn
m个
(n-m)个
平均数
平均数
将上述 10 名运动员跳远的最好成绩的数据从小到大排列,得 5.81,5.84,5.85,5.91,5.98,6.01,6.11,6.13,6.19,6.22.
于是可以尝试把前 5 个数据作为第一组,后5个数据作为第二组,且将第一组数据的平均数记作 ,第二组数据的平均数记作 ,将这10个数据的平均数记作 .
观察上述数据,前 5 个数据相差不多,后 5 个数据也相差不多.
5.81,5.84,5.85,5.91,5.98,
6.01,6.11,6.13,6.19,6.22.
= (5.81 + 5.84 + 5.85 + 5.91 + 5.98) = 5.878,
= ( 6.01 + 6.11 + 6.13 + 6.19 + 6.22) = 6.132,
= ( 5.81 + 5.84 + 5.85 + 5.91 + 5.98 + 6.01 + 6.11
+ 6.13 + 6.19 + 6.22)
= 6.005.
= (5.81 - 5.878) + (5.84 - 5.878) + (5.85 - 5.878)
+(5.91 - 5.878) + (5.98 - 5.878) +(6.01 - 6.132)
+(6.11 - 6.132) +(6. 13 - 6.132) +(6.19 - 6.132)
+(6.22 - 6.132)
= 0.04476.
组间离差平方和 为
因此组间离差平方和 为
= 5×(5.878 - 6.005) + 5×(6.132 - 6.005)
= 0.16129.
S2 = (5.81 - 6.005) + (5.84 - 6.005) +(5.85 - 6.005)
+(5.91 - 6.005) +(5.98 - 6.005) +(6.01 - 6.005)
+(6.11 - 6.005) +(6.13 - 6.005) +(6.19 - 6.005)
+(6.22 - 6.005)
= 0.206 05.
于是

在大数据分析中,数据的分组是重要的方法之一.虽然可以有多种方法对数据进行分组,但是,使得“组内离差平方和最小”的方法是最传统的,也是 非常合理的.
思考:上述分组符合“组内离差平方和最小”的原则吗
按照组内离差平方和最小的原则,应保证跳远最好成绩相差不多的运动员在一个组.将从小到大排列后的 10 个数据依次分为两组,有下面 9 种情况:
对上面的分组,可以利用计算机设计算法、编写程序,然后依次计算组内 离差平方和(前面已经计算出第一组、第二组各5个数据的组内离差平方和), 得到下表(结果保留四位小数):
第一组 1 个数据,第二组 9 个数据;
第一组 2 个数据,第二组 8 个数据;
···;
第一组 9 个数据,第二组 1 个数据.
分组情况 组内离差平方和
第一组1个,第二组9个 0.163 8
第一组2个,第二组8个 0.125 1
第一组3个,第二组7个 0.079 8
第一组4个,第二组6个 0.051 0
第一组5个,第二组5个 0.044 8
第一组6个,第二组4个 0.040 7
第一组7个,第二组3个 0.074 8
第一组8个,第二组2个 0.106 1
第一组9个,第二组1个 0.154 7
计算结果表明,将排序后的前 6 个数据分为一组,后 4 个数据分为另一组, 可以使组内离差平方和最小. 即应将编号为 ①④⑤⑦⑧⑩的运动员分为一组, 其他运动员为另一组进行分层训练.通过数据也可以看到,这样的分组是合理的.
【归纳总结】
数据分组的步骤:
①数据排序:从小到大排列原始数据;
②确定切割点:在排序后数据的间隔处分组
[n 个数据有 (n-1) 个间隔];
③计算比较:对每个切割点计算组内离差平方和,选择组内离差平方和最小对应的分组.
例1 10 个城市某月的每日最高温度的平均数(简称平均高温)如表所示.
城市 北京 石家庄 呼和浩特 哈尔滨 上海 广州 海口 成都 贵阳 昆明
平均高温/℃ 3 3 -3 -11 10 21 22 12 9 17
根据平均高温的组内离差平方和最小的原则,把这10个城市分为两组.
解:将表中的数据按从小到大排列,可得
-11 -3 3 3 9 10 12 17 21 22
将它们分成两组共有 9 种情况,利用计算器或信息技术工具,分别计算组内离差平方和(结果保留小数点后一位),如表所示.
分组 第一组离差平方和 第二组离差平方和 组内离差平方和
第1个间隔 0 584.2 584.2
第2个间隔 32 380.9 412.9
第3个间隔 98.7 285.7 384.4
第4个间隔 132 158.8 290.8
第5个间隔 228.8 113.2 342
第6个间隔 308.8 62 370.8
第7个间隔 397.4 14 411.4
第8个间隔 562 0. 5 562.5
第9个间隔 789.6 0 789.6
观察最后一列组内离差平方和可以发现,
当第 4 个间隔分组时,组内离差平方和最小,
因此,按组内离差平方和最小的分法为
{北京,石家庄,呼和浩特,哈尔滨}
和{上海,广州,海口,成都,贵阳,昆明}.
数据的分组
组内离差平方和
组间离差平方和
分组原则
1. 已知一组数据:3, 10, 1, 20.
(1)将数据从小到大排序为: ;
(2)按“第一个间隔”分组(即切割点在数字
和 之间),计算组内离差平方和为 ;
(3)按“第二个间隔”分组(即切割点在数字
和 之间),计算组内离差平方和为 ;
1,3,10,20 
1 
3 
146 
3 
10 
52 
(5)按“第 个间隔”分组,组内离差平方和
最小.
三 
1. 已知一组数据:3, 10, 1, 20.
(4)按“第三个间隔”分组(即切割点在数字
和 之间),计算组内离差平方和为 ;
10 
20 
2. 已知6名学生的成绩为 70, 75, 80, 85, 90,
95(单位:分).
将数据分为两组,使组内离差平方和最小化(即组内
成绩差异最小),计算最小组内离差平方和(保留 1
位小数).
解:最小组内离差平方和为 100.0,对应切割点在
80 和 85 之间,数据分组为 {70,75,80} 和 {85,
90,95}.
解:最小组内离差平方和为 100.0,对应切割点在
80 和 85 之间,数据分组为 {70,75,80} 和 {85,
90,95}.

展开更多......

收起↑

资源预览