第20章 数据的初步分析 知识梳理(含答案)2025--2026学年沪科版八年级数学下册

资源下载
  1. 二一教育资源

第20章 数据的初步分析 知识梳理(含答案)2025--2026学年沪科版八年级数学下册

资源简介

§20 数据的初步分析
1、绘制频数直方图的一般步骤:
(1)确定数据变动范围,也就是极差. (极差=最大值—最小值)
(2)决定组距和组数. (,组数向上取整数且控制在6~8组)
(3)决定分点. (为避免数据落在分点上,一般向前和后各扩大一点)
(4)列频数分布表.()
(5)画频数直方图.(每一个矩形上方标上频数,矩形之间无空隙)
2、数据的集中趋势
(1)平均数:平均数是常用来刻画数据集中趋势的一种方法.
一组数据,,, ,,的平均数为
(2)加权平均数:
权的三种常见表现形式:数据出现的次数;百分数;整数比.
平均数可以充分利用数据信息,刻画数据整体的平均状态,但不能反映个体性质,易受到极端值的影响.
(3)中位数和众数:
中位数和众数也是刻画数据集中趋势的两种方法
①一般地,当将一组数据按大小顺序排列后,位于正中间的一个数据(当数据的个数是奇数时)或正中间的两个数据的平均数(当数据的个数是偶数时)叫做这组数据的中位数.
②一组数据中出现次数最多的数据叫做这组数据的众数.
中位数代表了这组数据数值大小的“中点”,不易受极端值影响,不能充分利用所有数据的信息.
众数是一组数据中出现次数最多的数据.可能不止一个,也可能没有.
3、数据的离散程度
①设一组数据是 x1,x2,…,xn,它们的平均数是.那么称
为它们的离差平方和,简记
②将一组数据的离差平方和的平均数称为这组数据的方差,即
在实际操作中,我们一般选用方差来衡量数据的离散程度,而离差平方和常常会出现在回归分析等多种分析方法中.
将一组数据中的每一个数据都加上(或减去)同一个常数,所得的一组新数据的方差不变.
将一组数据中的每一个数据都变为原来的k倍,所得的一组新数据的方差变为原数据方差的k2倍.
③离差平方和与方差都具有如下性质:
(I)最小值为0;
(II)数据的离散程度大(即波动大),它们的值也大;
(III)方差越大,数据的波动越大;方差越小,数据的波动越小.
4、四分位数和箱线图
(1)四分位数:(将一组数据按从小到大排列后)
m25,m50,m75就把这组数据分成个数相等的四部分,因此分别称为第一四分位数(Q1)、第二四分位数(Q2)和第三四分位数(Q3),统称四分位数.
按照定义可知,第p百分位数可能不唯一,因此按照如下方式定第p百分位数.
①将数据从小到大排列,记为x1,x2,…,xn.
②计算指数(数位)i = n×p%.
③若i不是整数,记j为大于i的最小整数,第p百分位数为第j个据xj,若i是整数,第p百分位数为第i个和第(i+1)个数据的平均数.
(2)箱线图(约翰·图基20世纪首次提出)
一组数据仅从平均数、方差进行分析还不够全面,我们还可以从四分位数进行分析. 统计学上,常用箱线图直观地展示一组数据的统计特征值,便于分析不同类别数据各层次水平的差异(如离散程度、分布差异等).
5、数据分组(组内离差平方和最小,组间离差平方和最大原则.)
一般地,假设有n个数据x1,x2,x3,…,xn ,若将其分成两组,其中前 m 个数据为一组 ( 称为第一组 ), 后 ( n-m ) 个数据为一组 ( 称为第二组 ).
这 n 个数据的总体离差平方和 S 2 可以表示为:
,.
,. 则:
称为组内离差平方和,表达了两个组内数据的离散程度.
称为组间离差平方和,表达了两组数据之间的差异.
一个合理的分组原则是使组内离差平方和达到最小,组间离差平方和达到最大.由于总体离差平方和 S2不变,只需考虑使组内离差平方和达到最小即可.
数据的分组一般步骤:
S1. 排序;
S2. 确定组数和各组内数据的个数. 我们只讨论分两组的情形,如果一共有n个数据,要把较小的m个数据分为一组,把剩下的 (n-m) 个数据分为另一组.
S3. 通过“组内离差平方和最小” 的原则来确定 m 的大小.
组内离差平方和:数值越小,组内差异越小.
组间离差平方和:数值越大,不同组之间差异越明显.
总体离差平方和 = 组内 + 组间.
6、重点题型
例1:求下列各组数据的四分位数.
(1)11,10,12,19,13,11,6,4,17,9,13,17,15;
(2)11,10,12,19,13,11,6,4,17,9,13,17.
解:(1)将这 13 个数据从小到大排列,得
4,6,9,10,11,11,12,13,13,15,17,17,19.
因为数据的个数是奇数,所以中位数 m50 = 12.
13×25% = 3.25,13×75% = 9.75.
第 25 百分位数 m25 是第4个数10,
第 75 百分位数 m75 是第 10 个数15.
因此,该组数据的四分位数分别为 10,12,15.
(2)将这 12 个数据从小到大排列,得
4,6,9,10,11,11,12,13,13,17,17,19.
12×50% = 6,中位数 m50 是第6,7个数的平均数
12×25% = 3,12×75% = 9.
第 25 百分位数 m25 是第3,4个数的平均数 ,
第 75 百分位数 m75 是第 9,10 个数的平均数.
因此,该组数据的四分位数分别为9.5,11.5,15.
例2:小红同学为了在明年中考体育考试中取得好的成绩,每天自己在家里练习做一分钟仰卧起坐,妈妈统计了她连续六天内仰卧起坐的个数:28,25,30,27,30,26.按照“组内离差平方和最小”的方法分成两组,则组内离差平方和的最小值是( )
A. B. C. D. 5
提示:排序后分组:2+4;3+3;4+2 答案:B
例3:根据甲、乙两个县各15名选手竞赛成绩的最小值、最大值和四分位数画出箱线图,并根据箱线图进行分析.
甲:69,70,70,71,72,75,78,80,82,
83,87,88,88,93,97;
乙:70,72,73,75,77,79,79,80,80,
81,83,83,85,92,94.
解:易求得甲、乙两个县各15名选手竞赛成绩(单位:分)的最小值、最大值和四分位数,如下表所示:
县 最小值/分 M25(Q1)/分 m50(Q2)/分 m75(Q3)/分 最大值/分
甲 69 71 80 88 97
乙 70 75 80 83 94
画出箱线图如下图.
通过箱线图可以直观看出,甲、乙两个县选手成绩的中位数相同,但是甲县选手的成绩差距较大,乙县选手的成绩差距较小,并结合甲、乙两个县选手成绩的平均数,可以说甲、乙两个县选手的平均水平相当,但是乙县选手的成绩相对于甲县选手的更集中.

展开更多......

收起↑

资源预览