24.4 数据的分组 课件(20页) 2025-2026学年人教版(新教材)初中数学八年级下册

资源下载
  1. 二一教育资源

24.4 数据的分组 课件(20页) 2025-2026学年人教版(新教材)初中数学八年级下册

资源简介

(共20张PPT)
24.4 数据的分组
第二十四章 数据的分析
01
理解组内离差平方和与组间离差平方和的定义,明确两者的关联,并能准确计算.
02
学会运用 “组内离差平方和最小” 原则对数据进行合理分组,解决实际分类问题.
问:校医需分析七年级某班20名学生的身高分布:
155,155,156,157,158,159,160,161,162,162,
163,165,165,166,167,167,168,169,172,178.
若想分为3组制作频数分布表,等距分组法(如150-160,160-170,170-180)可能存在什么问题
有的组人数过多(如160-170集中12人),有的组过少(170-180仅2人),无法清晰反映分布特征.
是否存在更科学的分组方法,使得每组内部数据尽可能相似?如何衡量“组内差异度”?
问题 一家公司向社会招聘一名员工,所有应聘者先统一参加笔试,然后根据笔试成绩确定一部分应聘者进人面试. 将10名应聘者的笔试成绩(百分制)按从小到大的顺序排列如下:
58、64、68、75、76、83、85、89、90、92.
公司要从这10人中选部分人进入面试,该如何确定“成绩好”的标准?你有哪些分组方法?
基于数据自身特点的分组方法——数据的分组(基于离差平方和)
观察排序后的成绩间隔:58|64|68|75|76|83|85|89|90|92.
10个数据有几个间隔?每个间隔能将数据分成几组?
10个数据有 9 个间隔,每个间隔对应1种“两组分法”(如第1个间隔分“{58}和{64,68,…,92}”,第2个间隔分“{58,64}和{68,…,92}”),共 9 种分法.
组内数据差异最小
活动1:理解“组内差异最小”的需求
那怎样能做到组内数据差异最小呢
活动2:学习“组内离差平方和”的概念与计算
一般地,设有一般地,设有n个数据x1,x2,…,xn,假设这些数据都不相等,其平均数记为 x,则离差平方和为
=(x1- x)2+(x2- x)2+…+(xn- x)2.
如果把这组数据分为两组,前m(m<n)个数据为一组(称为第一组),后(n-m)个数据为一组(称为第二组),那么这n个数据的离差平方和可以分解为两类离差平方和:一类反映两个组内数据的离散程度,另一类反映两组数据之间的差异程度.
它们的平均数分别记为 x1和 x2,离差平方和分别为
=(x1- x1)2+(x2- x1)2+…+(xm- x1)2,
=(xm+1- x2)2+(xm+2- x2)2+…+(xn- x2)2.
=(x1- x)2+(x2- x)2+…+(xn- x)2
=(x1- x)2+(x2- x)2+…+(xm- x)2+(xm+1- x)2+(xm+2- x)2+…+(xn- x)2
=(x1- x1+ x1 - x )2+(x2- x1 + x1 - x )2+…+(xm- x1 + x1 - x )2+
(xm+1- x2 + x2 - x )2+(xm+2- x2 + x2 - x )2+…+(xn- x2 + x2 - x )2
=(x1- x1)2+(x2- x1)2+…+(xm- x1)2+(xm+1- x2)2+(xm+2- x2)2+…+(xn- x2)2
= + + m(x1- x)2+(n-m)(x2- x)2.
组内离差平方和越小,说明两组内部的数据越集中,分组越合理.
d12 + d22 称为组内离差平方和,表示两个组内数据的离散程度.
以招聘成绩的“第5个间隔”为例,分步计算组内离差平方和:
第一步:计算第一组平均数 =(58+64+68+75+76)÷5=72.2;
第二步:计算第一组离差平方和 =(58-72.2) +(64-72.2) +(68-72.2) +(75-72.2) +(76-72.2) =228.8;
第三步:计算第二组平均数 =(83+85+89+90+92)÷5=87.8;
58|64|68|75|76|83|85|89|90|92.
第四步:计算第二组离差平方和=(83-87.8) +(85-87.8) +(89-87.8) +(90-87.8) +(92-87.8) =54.8;
第五步:组内离差平方和=228.8+54.8=283.6.
分组任务:将数据分为9组,每组计算1种间隔的组内离差平方和. 观察汇总结果,你能得出什么结论?
活动3:验证“组内离差平方和最小”的分法
因此最优分法为{58,64,68,75,76}(不进面试)和{83,85,89,90,92}(进面试).
最小
由于不变,所以除了可以按最小来分组,也可以按最大来分组.
+m(1- +(n-m)(2-
活动4:学习“组间离差平方和”的概念与计算
称为组间离差平方和,是m个第一组数据平均数、(n-m)个第二组数据平均数关于总体数据平均数的离差平方和,表示两个组间的差异.
记为
计算前面例子的组间离差平方和,验证最小则最大.
分组
第1个间隔 799.6 444.4
第2个间隔 521.5 722.5
第3个间隔 322.1 922.6
第4个间隔 323.6 920.1
第5个间隔 283.6 960.4
第6个间隔 437.3 806.4
第7个间隔 592.1 652
第8个间隔 821.5 422.5
第9个间隔 1026.2 217.9
58、64、68、75、76、83、85、89、90、92.
最大
数据分组的步骤:
(1)将数据按从小到大排序;
(2)确定所有可能的间隔(n个数据有n-1个间隔,对应n-1种两组分法);
(3)计算每种分法的两组平均数及组内离差平方和;
(4)选择组内离差平方和最小(或组间离差平方和最大)的分法作为最优分组.
例 10 个城市某月的每日最高温度的平均数(简称平均高温)如表所示.
城市 北京 石家庄 呼和浩特 哈尔滨 上海 广州 海口 成都 贵阳 昆明
平均高温/℃ 3 3 -3 -11 10 21 22 12 9 17
(1)根据平均高温的组内离差平方和最小的原则,把这 10 个城市分为两组.
解:将表中的数据按从小到大排列,可得
-11 -3 3 3 9 10 12 17 21 22
将它们分成两组共有9种情况,利用计算器或信息技术工具,分别计算组内离差平方和(结果保留小数点后一位),如下表所示.
分组 第一组 离差平方和 第二组 离差平方和 组内
离差平方和
第1个间隔 0 584.2 584.2
第2个间隔 32 380.9 412.9
第3个间隔 98.7 285.7 384.4
第4个间隔 132 158.8 290.8
第5个间隔 228.8 113.2 342
第6个间隔 308.8 62 370.8
第7个间隔 397.4 14 411.4
第8个间隔 562 0.5 562.5
第9个间隔 789.6 0 789.6
最小
因此,按组内离差平方和最小的分法为
{北京,石家庄,呼和浩特,哈尔滨}
和 {上海,广州,海口,成都,贵阳,昆明}
(2)根据平均高温的组间离差平方和最大原则,把这 10 个城市分为两组.所得分组结果与(1)中结果一致吗?
分别计算各组数据的平均数和组间离差平方和,如表所示:
城市 北京 石家庄 呼和浩特 哈尔滨 上海 广州 海口 成都 贵阳 昆明
平均高温/℃ 3 3 -3 -11 10 21 22 12 9 17
最大
所得分组结果与(1)中结果一致.
数据的分组
离差平方和
组内离差平方和
组间离差平方和
计算公式
应用
1.按照“组内离差平方和达到最小”的方法,小明将一组数据分成了两组{80,82}和{87,86,90,85},这两组数据组内离差平方和为 .
16
计算第一组{80,82}的组内离差平方和=2,
计算第二组{87,86,90,85}的组内离差平方和=14,
=2+14=16.
2.如图记录了某地连续5天的日最低气温,若把这5天的最低气温按组间离差平方和最大的原则分成两组,则这两组是__________________和_________________________.
{星期一,星期二}
{星期三,星期四,星期五}
3.学校运动会上,5 名学生的跳远成绩(单位:米)分别是 4.2、4.5、4.8、5.2、5.5,体育老师要按照组内离差平方和最小的原则将学生成绩分为两组,用于后续训练安排,求分组方案.
解:把这5个数据分为两组,共有4种情况:
分为{4.2}和{4.5,4.8,5.2,5.5}时,组内离差平方和=0.58;
分为{4.2,4.5}和{4.8,5.2,5.5}时,组内离差平方和≈0.292;
分为{4.2,4.5,4.8}和{5.2,5.5}时,组内离差平方和=0.225;
分为{4.2,4.5,4.8,5.2}和{5.5}时,组内离差平方和=0.5475;
通过比较每组的组内离差平方和,可知应当分为{4.2,4.5,4.8}和{5.2,5.5}两组.

展开更多......

收起↑

资源预览