4.3 数据分类 课件(共41张PPT) 2025-2026学年数学湘教版八年级下册

资源下载
  1. 二一教育资源

4.3 数据分类 课件(共41张PPT) 2025-2026学年数学湘教版八年级下册

资源简介

(共41张PPT)
湘教版 八年级 数学(下)
第4章 数据分布
4.3 数据分类
情景导入
一家公司研发了三种不同的肥料(A,B,C),想了解它们对玉米产量的影响是否有显著差异.他们在试验田中选取了15块面积相等的土地,随机施用三种肥料,每种肥料5块地,最后得到的产量(kg)如下:
肥料A: 20, 22, 21, 19, 23
肥料B: 25, 24, 26, 23, 27
肥料C: 18, 20, 19, 17, 21
(1)如果我们把所有15个数据看成一个整体,这个整体数据波动的大小,我们用什么来衡量?
答:总离差平方和,经计算,S2=114.8.
(2)这114.8的总变异,是从哪里来的呢?
答:它可能来自两个方面:
同一肥料内部,由于土壤、光照等随机因素造成的波动(组内变异).
由于使用不同肥料这个“系统性因素”造成的不同组之间的波动(组间变异)
如何求组内差异和组间差异呢?
知识模块一  组内、组间离差平方和的有关概念及计算
自学互研
某田径队10名运动员跳远的最好成绩如下:
编号 ① ② ③ ④ ⑤ ⑥ ⑦ ⑧ ⑨ ⑩
成绩/m 5.85 6.13 6.11 6.01 5.91 6.19 5.81 5.84 6.22 5.98
教练组拟根据这组数据将队员分为两组进行分层训练,应当如何划分呢
一种划分的方法是,使得每一组的数据比较稳定,即每一组数据的组内差异小,组间差异大.
一般地,设一组数据为x1,x2,…,xn,它的平均数为 ,离差平方和为S2.如果把这组数据分为两组,前m个数据为第一组,后(n-m)个数据为第二组,第一组的平均数记作 ,第二组的平均数记作 ,令
S12=(x1- 1)2+(x2- 1)2+…+(xm- 1)2+(xm+1-
2)2+(xm+2- 2)2+…+(xn- 2)2,
S22=m( 1- )2+(n-m)( 2- )2,
x
x1
x2
x
x
x
x
x
x
x
x
x
x
总结归纳
其中S12为组内离差平方和,反映了两个组内数据的离散程度, S22为组间离差平方和,反映了两组数据之间的差异程度.
数学上已经证明
S2 =S12 + S22
将上述10名运动员跳远的最好成绩的数据从小到大排列,得
5.81, 5.84, 5.85, 5.91, 5.98, 6.01, 6.11, 6.13, 6.19, 6.22.
观察上述数据,前5个数据相差不多,后5个数据也相差不多,于是可以尝试把前5个数据作为第一组,后5个数据作为第二组,且将第一组数据的平均数记作 ,第二组数据的平均数记作 ,将这10个数据的平均数记作 .
x1
x2
x
于是 = (5.81 + 5.84 +5.85 +5.91 +5.98)=5.878,
x1
5
1
= (6.01 + 6.11 + 6.13 +6.19 + 6.22)=6.132,
x2
5
1
= (5.81+5.84+5.85+5.91+5.98+6.01+6.11+6.13
+6.19+6.22)
=6.005.
10
1
x
因此组内离差平方和S12为
S12=(5.81-5.878)2+(5.84-5.878)2+(5.85-5.878)2+(5.91-
5.878) 2+(5.98-5.878) 2+(6.01-6.132) 2+(6.11-6.132) 2
+(6.13-6.132) 2+(6.19-6.132) 2+(6.22-6.132) 2
=0.04476
组间离差平方和S22为
S22=5×(5.878 -6.005) 2 + 5 × (6.132 - 6.005) 2 =0.161 29.
另外,这10个数据的离差平方和S2为
S2=(5.81-6.005) 2+(5.84-6.005) 2 +(5.85-6. 005) 2 +(5.91-
6.005) 2 +(5.98-6.005) 2 +(6.01-6.005) 2 +(6.11-6.005) 2
+(6. 13-6. 005) 2 +(6. 19-6. 005) 2 +(6. 22-6.005) 2
=0.206 05.
又S12 + S22 = 0.044 76+0.161 29 = 0.206 05,
于是S2 =S12 + S22
在大数据分析中,数据的分组是重要的方法之一.虽然可以有多种方法对数据进行分组,但是,使得“组内离差平方和最小”的方法是最传统的,也是非常合理的.




已知甲组3人,成绩为[85, 90, 95];乙组3人,成绩为[75, 80, 85].
(1) 计算总平均值;
(2)计算总离差平方和;
(3)计算组内离差平方和;
(4)计算组间离差平方和;
(5)验证“总离差平方和 =组内离差平方和 + 组间离差平方和”是否成立.
解:(1) = (85+90+95+75+80+85)÷6=85(分).
x
(2)总离差平方和为 (85-85)2 + (90-85)2 +(95-85)2 +(75-85)2 +(80-85)2 + (85-85)2 = 0+25+100+100+25+0=250.
(3) 甲=(85+90+95)÷3=90,
x
x
乙=(75+80+85)÷3=80.
组内离差平方和为= (85-90)2+(90-90)2+(95-90)2+(75-80)2+(80-80)2+(85-80)2 = (25+0+25)+(25+0+25)=100.
(4)组间离差平方和为 3×(90-85)2 + 3 × (80-85)2 = 3×25 + 3 ×25 = 150.
(5)100 + 150 = 250,∴成立.
知识模块二 利用组内离差平方和进行分组
自学互研
上述分组符合“组内离差平方和最小”的原则吗
按照组内离差平方和最小的原则,应保证跳远最好成绩相差不多的运动员在一个组,将从小到大排列后的10个数据依次分为两组,有下面9种情况:
第一组1个数据,第二组9个数据;
第一组2个数据,第二组8个数据;
… ;
第一组9个数据,第二组1个数据.
对上面的分组,可以利用计算机设计算法、编写程序,然后依次计算组内离差平方和(前面已经计算出第一组、第二组各5个数据的组内离差平方和),得到下表(结果保留四位小数):
分组情况 组内离差平方和
第一组1个,第二组9个 0.163 8
第一组2个,第二组8个 0.1251
第一组3个,第二组7个 0.079 8
第一组4个,第二组6个 0.051 0
第一组5个,第二组5个 0.044 8
第一组6个,第二组4个 0.040 7
第一组7个,第二组3个 0.074 8
第一组8个,第二组2个 0.106 1
第一组9个,第二组1个 0.154 7
计算结果表明,将排序后的前6个数据分为一组,后4个数据分为另一组,可以使组内离差平方和最小.即应将编号为①④⑤⑦⑧⑩的运动员分为一组,其他运动员为另一组进行分层训练. 通过数据也可以看到,这样的分组是合理的.




某班 7 名学生的数学小测成绩:75,80,85,90,95,100,105,按 “组内成绩更集中” 的原则分为两组(一组 3 人,一组 4 人),确定最优分组.
方式1:第一组[75,80,85](3人),第二组 [90,95,100,105](4人)
第一组平均值 1=(75+80+85)÷3=80,平方和S1=(75-80)2+(80-80)2+(85-80)2=25+0+25=50.
x
第二组平均值 2=(90+95+100+105)÷4=97.5,
x
平方和S2=(90-97.5)2+(95-97.5)2+(100-97.5)2+(105-97.5)2=56.25+6.25+6.25+56.25=125.
总平方和S=50+125=175.
方式2:第一组[75,80,85,90](4人),第二组[95,100,105](3人)
第一组平均值 1=(75+80+85+90)÷4=82.5,
平方和S1=(75-82.5)2+(80-82.5)2+(85-82.5)2+(90-82.5)2=56.25+6.25+6.25+56.25=125.
第二组平均值 2=(95+100+105)÷3=100,
总平方和S=125+50=175.
x
平方和S2=(95-100)2+(100-100)2+(105-100)2=25+0+25=50.
x
最优分组为[75,80,85]和[90,95,100,105](或[75,80,85,90]和[95,100,105]),总离差平方和最小(175),组内成绩更集中.
课堂小结
S12为组内离差平方和,反映了两个组内数据的离散程度, S22为组间离差平方和,反映了两组数据之间的差异程度.
S2 =S12 + S22
随堂练习
下面是我国9个城市2024年4月份的平均相对湿度 (单位:%):
53, 56, 61,62, 58, 58, 66, 70, 65.
将这些平均相对湿度数据分成两组:
第一组,53,56,58,58;
第二组,61,62,65,66,70.
试计算上述分组情况下的组内离差平方和。
第一组数据的平均数为:
1=(53+56+58+58)÷4=56.25,
S1=(53-56.25)2+(56-56.25) 2+(58- 56.25) 2 + (58 - 56.25) 2
x
第一组数据的组内离差平方和为:
=(-3.25) 2+(-0.25 ) 2 +1.75 2 + 1.75 2
=10.5625 + 0.0625 + 3.0625 + 3.0625
= 16.75
第二组数据的平均数为:
2=(61+62+65+66+70)÷5=64.8,
S2=(61-64.8)2+(62-64.8) 2+(65-64.8) 2 + (66 - 64.8) 2 +
(70 - 64.8) 2
x
第二组数据的组内离差平方和为:
=(-3.8) 2+(-2.8 ) 2 +0.2 2 + 1.2 2 + 5.2 2
= 14.44 + 7.84 + 0.04 + 1.44 + 27.04
= 50.8
分组情况下的组内离差平方和为:
S= S1 + S2 = 16.75 + 50.8 = 67.55
答:分组情况下的组内离差平方和为67.55。
湘教版 八年级 数学(下)
第4章 数据分布
4.3 数据分类
习题4.3
1.下面是我国8个城市2024年3月的平均气温(单位:°C):
7.7, 9.2, 12.3, 7.2, 5.5, 18.1, 17.6, 16.7.
将这些平均气温数据分成两组:
第一组:5.5,7.2,7.7,9.2;第二组:12.3, 16.7,17.6,18.1.
试计算上述分组情况下的组内离差平方和。
第一组数据的离差平方和计算:
数据:5.5,7.2,7.7,9.2,均值
= (5.5+7.2+7.7+9.2)=7.4 .
x1
S1= (5.5-7.4)2 + (7.2-7.4)2+ (7.7-7.4)2+ (9.2-7.4)2
=(-1.9)2+(-0.2)2+0.32+1.82
=3.61 + 0.04+ 0.09 +3.24
= 6.98
第二组数据的离差平方和计算:
数据:12.3,16.7,17.6,18.1,,均值
=(12.3+16.7+17.6+18.1)=16.175 .
x2
S2= (12.3-16.175)2 + (16.7 - 16.175)2 + (17.6 -16.175)2 + (18.1 - 16.175)2
=(-3.875)2 +0.5252 +1.4252 + 1.9252
=15.015625 + 0.275625 + 2.030625 + 3.705625
= 21.0275
组内离差平方和
S= S1 + S2 = 6.98 + 21.0275 = 28.0075
2.(利用计算机完成)下图是我国10个省份2023年人均地区生产总值(人均GDP,单位:万元)的数据.
如果要把这10个省份依据人均GDP的多少分为两个组,你认为应当如何划分,并说出划分的理由.










省份序号
人均GDP/万元
25
20
15
10
5
19.08
9.06
12.98
9.55
20.04
15.06
10.26
12.55
10.72
9.38
10个省份的人均GDP(万元)为:
19.08 ,9.06, 12.98, 9.55 , 20.04,
15.06,10.26 , 12.55, 10.72, 9.38
先将数据从小到大排序:
9.06, 9.38, 9.55, 10.26 , 10.72,
12.55, 12.98, 15.06, 19.08 , 20.04
分组方案(使组内离差平方和最小)
将前5个分为一组,后5个分为另一组:
第一组:9.06, 9.38, 9.55, 10.26 , 10.72,
第二组: 12.55, 12.98, 15.06, 19.08 , 20.04
第一组数据的离差平方和计算:
= (9.06+9.38+9.55+10.26+10.72)=9.794 .
x2
S2= (9.06- 9.794)2 + (9.38- 9.794)2+ (9.55- 9.794)2
+ (10.26- 9.794)2+ (10.72- 9.794)2
= 1.84432
第一组离差平方和:
第二组数据的离差平方和计算:
= (12.55+12.98+15.06+19.08+20.04)=15.942 .
x2
S2= (12.55- 15.942)2 + (12.98- 15.942)2+ (15.06- 15.942)2+ (19.08- 15.942)2+ (20.04- 15.942)2
= 47.69768
第一组离差平方和:
这种划分方式使得组内离差平方和最小,说明组内数据的差异更小,组间差异更大,分组更合理。
第一组:9.06, 9.38, 9.55, 10.26 , 10.72,
(人均GDP较低的省份)
第二组: 12.55, 12.98, 15.06, 19.08 , 20.04
(人均GDP较高的省份)

展开更多......

收起↑

资源预览