第九章统计与成对数据的统计分析课件（共4份PPT打包）2027版高三数学一轮复习

资源简介

(共51张PPT)
第九章
统计与成对数据的统计分析
第1节　随机抽样、统计图表
课标解读　1.理解随机抽样的必要性和重要性.
2.会用简单随机抽样方法从总体中抽取样本，了解分层随机抽样方法，掌握分层随机
抽样的样本均值和样本方差.
3.理解统计图表的含义.
内
容
索
引
必备知识巩固
关键能力提升
教考衔接
知识梳理
考点一简单随机抽样
考点二分层随机抽样
考点三统计图表
1.[教材改编]总体由编号为1，2，…，99，100的100个个体组成.现用随机数法选取60个个体，利用电子表格软件产生若干个1~100范围内的整数随机数，前20个数据如下所示，则选出来的第5个个体的编号为　　.
【解析】在随机抽样中，随机数法获取的个体编号在指定编号范围内，遇到大于总体编号或者重复编号的舍去.由给定的数据知，第5个数据仍是8，重复，应舍去，∴选出来的第5个个体的编号为31.
8 44 2 17 8 31 57 4 55 6
88 77 74 47 7 21 76 33 50 63
31
2.[教材改编]已知23名男生的平均身高是170.6 cm，27名女生的平均身高是160.6 cm，则这50名学生的平均身高为　　 cm.
【解析】平均身高为×170.6＋×160.6=165.2 cm.
3.[教材改编]如图所示为100位居民月均用水量的频率分布直方图，则月均用水量为[2，2.5)范围内的居民数为　　.
【解析】由频率分布直方图可知，月均用水量为[2，2.5)范围内的居民所占频率为0.5×0.5=0.25，∴月均用水量为[2，2.5)范围内的居民数为100×0.25=25.
165.2
25
4. (不了解总体与样本的概念)为了了解一批炮弹的杀伤半径，从中选取了50发炮弹进行试验，则在这次调查中，总体是　　，个体是_________
　　，样本是　　，样本容量是　　.
5. (不理解简单随机抽样中每个个体入样是等可能的)一个总体含有100个个体，用简单随机抽样法从该总体中抽取一个容量为5的样本，则指定的某个个体被抽到的概
率为　.
易错题
易错题
一批炮弹的杀伤半径
每发炮弹
的杀伤半径
50发炮弹的杀伤半径
50
6. (比例分配的分层随机抽样中找不准比例标准)某校有高一学生n名，其中男生数量与女生数量之比为6∶5，为了解学生的视力情况，现采用按比例分配的分层随机抽样法抽取一个样本容量为的样本，若样本中男生比女生多8人，则n=　　.
【解析】依题意，男生抽取(人)，女生抽取(人)，
∴=8，解得n=880.
易错题
880
1.简单随机抽样
(1)简单随机抽样分为放回简单随机抽样和不放回简单随机抽样(除非特殊声明，本章所指的简单随机抽样是指不放回简单随机抽样).
(2)简单随机样本：通过简单随机抽样获得的样本称为简单随机样本.
(3)简单随机抽样的常用方法：　　和随机数法.
2.分层随机抽样
(1)分层随机抽样的概念
一般地，按一个或多个变量把总体划分成若干个子总体，每个个体属于且仅属于一个子总体，在每个子总体中独立地进行简单随机抽样，再把所有子总体中抽取的样本合在一起作为总样本，这样的抽样方法称为　　，
每一个子总体称为层.
抽签法
分层随机抽样
(2)比例分配的分层随机抽样所获得的样本均值与方差
利用比例分配的分层(两层)随机抽样获得的样本中，第一层的样本量为n1，均值为，
方差为；第二层的样本量为n2，均值为，方差为.则总的样本均值=____________
　，总的样本方差s2= 　.
3.统计图表
(1)常见的统计图表有条形图、扇形图、折线图、频数分布直方图、频率分布直方图等.
(2)频率分布表、频率分布直方图的制作步骤
[＋()2]＋[＋()2]
[优化拓展]
1.不论哪种抽样方法，总体中的每一个个体入样的概率都是相同的.
2.分层随机抽样是按比例抽样，每一层入样的个体数为该层的个体数×抽样比.
3.在频率分布直方图中，中位数左边和右边的直方图的面积是相等的.
4.频率分布直方图中纵轴上的数据是各组的频率除以组距，不要和条形图混淆.
考点一　简单随机抽样
(1)总体由编号为01，02，…，19，20的20个个体组成，利用下面的随机数表选取6个个体，选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字，则选出来的第5个个体的编号为(　　)
A. 08 B. 02 C. 63 D. 01
【解析】根据题意，依次读出的数据为65(舍去)，72(舍去)，08，02，63(舍去)，14，07，02(重复，舍去)，43(舍去)，69(舍去)，97(舍去)，28(舍去)，01.
例 1
7816 6572 0802 6314 0702 4369 9728 0198
3204 9234 4935 8200 3623 4869 6938 7481
D
(2)(多选)下列抽样方法中，不是简单随机抽样的有(　　)
A. 在机器传送带上抽取30件产品作为样本
B. 从平面直角坐标系中抽取5个点作为样本
C. 箱子里共有100个零件，今从中选取10个零件进行检验，在抽样操作时，每次任意地拿出1个零件进行质量检验，检验后不再把它放回箱子里，直到抽取10个零件为止
D. 某可乐公司从仓库中的1 000箱可乐中一次性抽取20箱进行质量检查
【解析】 A不是，传送带上的产品数量不确定；B不是，总体的数量无限；C是，满足简单随机抽样的定义；D是，一次性抽取和逐个不放回地随机抽取是等价的.
AB
1.简单随机抽样需满足：(1)被抽取的样本总体的个体数有限；(2)逐个抽取；(3)等可能抽取.
2.简单随机抽样常用抽签法(适用于总体中个体数较少的情况)、随机数法(适用于总体中个体数较多的情况).
(1)(2025·江苏南京调研)炎炎夏日，冰淇淋成为青年人的“消暑利器”，现用简单随机抽样的方法检测某品牌冰淇淋是否符合食品安全标准，若从21个冰淇淋中逐个抽取一个容量为3的样本，则其中某一个体A“第一次被抽到”的可能性与“第二次被抽到”的可能性分别是(　　)
A. B. C. D.
【解析】在简单随机抽样的过程中，个体A每一次被抽到的概率都是相等的，∵总体容量为21，∴个体A“第一次被抽到”的可能性与“第二次被抽到”的可能性均为.
(2)为了解一个鱼塘中养殖鱼的生长情况，从这个鱼塘的多个不同位置捕捞出100条鱼，分别做上记号，再放回鱼塘，几天后，再从鱼塘的多个不同位置捕捞出120条鱼，发现其中带有记号的鱼有6条，则鱼塘中的鱼大概有　　条.
【解析】设鱼塘中的鱼有x条，∵捕捞出的120条鱼中有6条有记号，∴由题意可得，解得x=2 000，即鱼塘中的鱼大概有2 000条.
跟踪训练1
B
2 000
考点二　分层随机抽样
(1)某学校为了解学生参加体育运动的情况，用比例分配的分层随机抽样方法进行抽样调查，拟从初中部和高中部共抽取60名学生，已知该校初中部和高中部分别有学生400名和200名，则在初中部和高中部抽取的人数分别为　　.
【解析】由题意，初中部和高中部学生人数之比为，∴抽取的60名学生中初中部应有60×=40(名)，高中部应有60×=20(名).
(2)为了解学生的课外阅读情况，某校采用按比例分配的分层随机抽样的方法对高中三个年级的学生进行平均每周课外阅读时间(单位：小时)的调查，所得样本数据如下表所示：
例 2
年级抽样人数样本平均数样本方差
高一 40 5 3.5
高二 30 2
高三 30 3
40，20
已知高中三个年级的总样本平均数为4.1，总样本方差为3.14，则高二年级学生的样本平均数=　　，高三年级学生的样本方差=　　.
【解析】由高中三个年级的总样本平均数为4.1，可得=4.1，解得=4；∵总样本方差为3.14，∴×[3.5＋(5－4.1)2]＋×[2＋(4－4.1)2]＋×[＋(3－4.1)2]=3.14，解得=1.5.
4
1.5
(1)(2025·山西大同模拟)某校高三年级有1 200名学生，其中男生有660人，现按男女生人数比例采用分层随机抽样的方法抽取一个容量为40的样本，则男生应抽取的人数是(　　)
A. 22 B. 18 C. 16 D. 14
【解析】依题意，男生应抽取的人数是40×=22(人).　
(2)(2025·江西萍乡一模)某中学有初中生600名，高中生200名，为保障学生的身心健康，学校举办了“校园安全知识”竞赛.现采用按比例分配的分层随机抽样的方法，分别抽取初中生m名，高中生n名，经统计：m＋n名学生的平均成绩为74分，其中m名初中生的平均成绩为72分，n名高中生的平均成绩为x分，则x=(　　)
A. 74 B. 76 C. 78 D. 80
【解析】由题意，得可得=74，解得x=80.
跟踪训练2
A
D
考点三　统计图表
(多选)某学校为了了解本校学生的上学方式，在全校范围内随机抽查部分学生，了解到学生的上学方式主要有：A结伴步行，B自行乘车，C家人接送，D其它方式.并将收集的数据整理绘制成如图所示的两幅不完整的统计图.根据图中信息，下列说法中，正确的有(　　)
A. 扇形图中D的占比最小
B. 条形图中A和C一样高
C. 无法计算扇形图中A的占比
D. 估计该校一半的学生选择结伴步行或家人接送
例 3
考向1 扇形图、条形图
学生上学方式条形图　学生上学方式扇形图
ABD
【解析】由条形图知，自行乘车上学的有42人，家人接送上学的有30人，其它方式上学的有18人，采用B，C，D三种方式上学的共90人.设结伴步行上学的有x人，由扇形图知，结伴步行上学与自行乘车上学的学生共占60%，∴，解得x=30，故条形图中A，C一样高；扇形图中A的占比与C一样，都为25%；A和C共占50%，即估计该校一半的学生选择结伴步行或家人接送；扇形图中D的占比最小.
1.通过扇形统计图可以清楚地表示出各部分数量同总数之间的比例关系.
2.由条形图可知总体中样本的种类及对应各类样本的数量.
为了研究我市甲、乙两个旅游景点的游客情况，文旅局统计了今年4月到9月甲、乙两个旅游景点的游客人数(单位：万人)，得到如图所示的折线图.根据两个景点的游客人数的折线图，下列说法中，错误的是(　　)
例 4
考向2 折线图
D
A. 7，8，9月的总游客人数甲景点比乙景点少
B. 乙景点4~9月的游客人数总体呈上升趋势
C. 甲景点4~9月游客人数的平均值在[31，32]内
D. 甲、乙两个景点4~9月中游客量的最高峰期都在8月
【解析】对于A，由游客人数折线图可知，甲景点7，8，9月的总游客人数为30＋52＋47=129，乙景点的7，8，9月的总游客人数为33＋44＋53=130，129＜130，A正确；对于B，根据乙景点的游客人数折线图可知，乙景点每月的游客人数逐月增多，∴总体呈上升趋势，B正确；对于C，甲景点游客人数的平均值为×(14＋21＋26＋30＋52＋47)≈31.7，31.7∈[31，32]，C正确；对于D，由游客人数折线图可知，甲景点4~9月中游客量的最高峰期在8月，乙景点4~9月中游客量的最高峰期在9月，D错误.
折线图可以显示随时间(根据常用比例放置)而变化的连续数据，因此非常适用于展示在相等时间间隔下数据的变化趋势.
(多选)某地发起“寻找绿色合伙人——低碳生活知识竞赛”活动，从参赛选手的答卷中随机抽取了n份，将得分(满分100分)进行适当的分组(每组为左闭右开的区间)，画出如图所示的频率分布直方图，且竞赛成绩落在[90，100]内的人数为10，则(　　)
A. m=0.010
B. n=100
C. 估计参赛选手得分的平均分低于70分
D. 估计参赛选手得分的中位数在[70，80)内
例 5
考向3 频率分布直方图
ABD
【解析】对于A，B，由10×(0.006＋0.012＋0.020＋0.032＋0.02＋m)=1，得m=0.010，则n==100，A，B正确；对于C，设参赛选手得分的平均分为，则=0.06×45＋0.12×55＋0.2×65＋0.32×75＋0.2×85＋0.1×95=72.8，C错误；对于D，∵0.06＋0.12＋0.2=0.38＜0.5，0.06＋0.12＋0.2＋0.32=0.7＞0.5，∴估计参赛选手得分的中位数在[70，80)内，D正确.
频率分布直方图的相关结论：
(1)频率分布直方图中纵轴表示，故每组样本的频率为组距×，即对应矩形的面积；
(2)频率分布直方图中各矩形的面积之和为1；
(3)频率分布直方图中每组样本的频数为频率×总数.
(1)如图所示为某同学两次月考成绩占总成绩百分数的扇形统计图，已知该同学第一次月考总分低于第二次月考总分，则(　　)
A. 该同学数学学科成绩一定下降
B. 该同学政治学科成绩一定下降
C. 该同学化学学科成绩可能下降
D. 该同学语文学科成绩一定提升
跟踪训练3
D
【解析】对于A，第一次月考数学成绩占16%，第二次月考数学成绩占17%，且第一次月考总分低于第二次月考总分，∴第二次月考数学成绩比第一次数学成绩要高，A错误；对于B，第一次月考政治成绩占17%，第二次月考政治成绩占16%，由于只知道第一次月考总分低于第二次月考总分，故无法判断这两次月考政治学科成绩的变化，B错误；对于C，第一次月考化学成绩占16%，第二次月考化学成绩占17%，且第一次月考总分低于第二次月考总分，∴第二次月考化学成绩比第一次化学成绩要高，C错误；对于D，第一次月考语文成绩占16%，第二次月考语文成绩占18%，且第一次月考总分低于第二次月考总分，∴第二次月考语文成绩比第一次语文成绩要高，D正确.
(2)(多选)《黄帝内经》中十二时辰养生法认为子时的睡眠在一天中至关重要(子时是指23点到次日凌晨1点).相关数据表明，入睡时间越晚，沉睡时间越少，睡眠指数也就越低.根据某次抽样的数据，对早睡群体和晚睡群体的睡眠指数统计如下图所示，则下列说法中，错误的有(　　)
ACD
A. 在睡眠指数[60，80)的人群中，早睡人数多于晚睡人数
B. 早睡人群睡眠指数主要集中在[80，90)
C. 早睡人群睡眠指数的极差比晚睡人群睡眠指数的极差小
D. 晚睡人群睡眠指数主要集中在[60，80)
【解析】由题图知，每一组中的早睡人群占比与晚睡人群占比都是以各自的总人数为基数的，∴每一组中的早睡人数与晚睡人数不能从所占的百分比来判断，A错误；早睡人群睡眠指数主要集中在[80，90)，晚睡人群睡眠指数主要集中在[50，60)，B正确，D错误；早睡人群睡眠指数的极差和晚睡人群睡眠指数的极差的大小无法确定，C错误.
(3)为了了解某校高三学生的视力情况，随机抽查了该校100名高三学生的视力情况，得到频率分布直方图如图所示，已知后5组数据的频数之和为62，设视力在4.6~4.8之间的学生人数为a，最大频率为0.32，则a的值为　　.
【解析】前三组的人数之和为100－62=38，第三组的人数为38－(1.1＋0.5)×0.1×100=22，则a=22＋0.32×100=54.
54
课时作业
答案速对
第九章对点练77　随机抽样、统计图表　　题号 1 2 3 4 5 6
答案 C C A B B B
题号 7 8 9 10 13 14
答案 B C ABC ABC C AC
1.下列情况中，适合用全面调查的是(　　)　　　　　　　　　　　　　　　
A. 检查某人血液中的血脂含量
B. 调查某地区的空气质量状况
C. 乘客上飞机前的安检
D. 调查某市市民对垃圾分类处理的意识
C
2.“神舟二十号”的成功发射再次激发了国人对载人航天工程的兴趣，某中学为此举行了“航天知识知多少”主题抢答比赛.若将报名的30位同学编号为01，02，…，30，经随机模拟产生了36个随机数如下所示，则选出来的第7个个体的编号为(　　)
45　67　32　12　12　31　02　01　04　52
15　20　01　12　51　29　32　04　92　34
49　35　82　00　36　23　48　69　69　38
74　81　46　52　73　64
A. 12 B. 20 C. 29 D. 23
C
3.从某班50名同学中选出5人参加户外活动，利用随机数法抽取样本时，先将50名同学按01，02，…，50进行编号，然后从随机数表的第1行第5列和第6列数字开始从左往右依次选取两个数字，如图所示为随机数表的第1行与第2行，则选出的第5个个体的编号为
(　　)
A. 24 B. 36 C. 46 D. 47
0347 4373 8636 9647 3661 4698 6371 6297
7424 6792 4281 1457 2042 5332 3732 1676
A
4.某社区有100户高收入家庭，210户中等收入家庭，90户低收入家庭，从中抽取100户来调查家庭购买力的某项指标；(2)从某中学高二年级的10名体育特长生中抽取3人来调查其学习负担情况.要完成这两项调查，应采取的抽样方法是(　　)
A. (1)(2)都用简单随机抽样法
B. (1)用分层随机抽样法，(2)用简单随机抽样法
C. (1)用简单随机抽样法，(2)用分层随机抽样法
D. (1)(2)都用分层随机抽样法
B
5.为研究某药品的疗效，某机构选取了若干名志愿者进行临床试验，所有志愿者的舒张压数据(单位：kPa)的分组区间为[12，13)，[13，14)，[14，15)，[15，16)，[16，17]，将其按从左到右的顺序分别编号为第一组，第二组，……，第五组，如图所示为根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人，第三组中没有疗效的有8人，则第三组中有疗效的人数为(　　)
A. 8 B. 10 C. 12 D. 18
B
6.为调查某地区中学生每天的睡眠时间，现采用样本量比例分配的分层随机抽样，抽取初中生800人，其每天睡眠时间均值为9小时，方差为1，抽取高中生1 200人，其每天睡眠时间均值为8小时，方差为0.5，则估计该地区中学生每天睡眠时间的方差为　(　　)
A. 0.96 B. 0.94
C. 0.79 D. 0.75
【解析】由题意，总体的均值为×9×8=8.4，根据分层随机抽样的性质，可得总体的方差为×[1＋(8.4－9)2]×[0.5＋(8.4－8)2]=0.544＋0.396=0.94.
B
7.某养猪场定购了一批仔猪，从中随机抽查了100头仔猪的体重(单位：斤)，经数据处理得到如图所示的频率分布直方图，其中体重最轻的14头仔猪的体重的频数分布表如表所示.为了将这批仔猪分栏喂养，需计算频率分布直方图中的一些数据，其中a＋b的值为
(　　)
A. 0.144 B. 0.152 C. 0.76 D. 0.076
【解析】由题意得c＋d==0.024，且[2(c＋d)＋a＋b]×5=1，∴2×0.024＋a＋b=0.2，∴a＋b=0.152.
体重 22 24 26 27 28 29 31
频数 1 1 2 3 3 2 2
B
8.(2025·甘肃张掖模拟)某中学从高一学生中抽取了50名男生和50名女生来调查高一学生的身高情况.已知这100名学生身高的方差为48，其中50名男生身高的平均数为172.5 cm，方差为16，50名女生身高的平均数为162.5 cm，则50名女生身高的方差为(　　)
A. 15 B. 24 C. 30 D. 36
【解析】设男生身高的平均数和方差分别是，女生身高的平均数和方差分别是，则=172.5 cm，=16，=162.5 cm，可得所有100名学生身高的平均数(5050)=167.5 cm.所有100名学生身高的方差s2=，
即48=，解得=30.
C
9.(多选)(2025·福建福州模拟)某企业2025年12个月的收入与支出数据的折线图如图所示.已知：利润=收入－支出，根据该折线图，下列说法中，正确的有(　　)
A. 该企业2025年1月至6月的总利润低于2025年7月至12月的总利润
B. 该企业2025年1月至6月的平均收入低于2025年7月至12月的平均收入
C. 该企业2025年8月至12月的支出持续增长
D. 该企业2025年11月份的月利润最大
ABC
【解析】图中的实线与虚线的相对高度表示当月利润.由折线统计图可知1月至6月的相对高度的总量要比7月至12月的相对高度总量少，A正确；由折线统计图可知1月至6月的收入普遍低于7月至12月的收入，B正确；由折线统计图可知2025年8月至12月的虚线是上升的，∴支出持续增长，C正确；由折线统计图可知11月的相对高度比7月、8月都要小，D错误.
10.(多选)某旅游城市为向游客介绍本地的气温情况，绘制了一年中各月平均最高气温和平均最低气温的雷达图，如图所示.图中点A表示十月的平均最高气温约为15 ℃，点B表示四月的平均最低气温约为5 ℃.下列叙述中，正确的有(　　)
ABC
A. 各月的平均最低气温都在0 ℃以上
B. 七月的平均温差比一月的平均温差大
C. 三月和十一月的平均最高气温基本相同
D. 平均最高气温高于20 ℃的月份有5个
【解析】由图可知0 ℃在虚线框内，∴各月的平均最低气温都在0 ℃以上，A正确；由图可知七月的平均温差大于5 ℃，而一月的平均温差小于5 ℃，∴七月的平均温差比一月的平均温差大，B正确；由图可知三月和十一月的平均最高气温都在10 ℃左右，基本相同，C正确；由图可知平均最高气温高于20 ℃的月份只有3个，D错误.
11.在样本频率分布直方图中，共有9个小长方形，若中间一个小长方形面积等于其他8个小长方形的面积和的，且样本容量为140，则中间一组样本的频数为　　.
【解析】设中间一个小长方形的面积为x，其他8个小长方形的面积和为x，根据频率分布直方图各小长方形的面积之和为1，得xx=1，则x=，即中间一组的频率为，∴中间一组样本的频数为140×=40.
40
12.利用比例分配的分层随机抽样的方法，调研某校学生参加某次数学竞赛的成绩(满分100分)，获得的样本数据如下表所示：
则总样本的平均数为　　，方差为　　(参考数据：8×(36＋802)＋32×(16＋702)－40×722=1 440).
【解析】方法一　总样本的平均数×70×80=72.设32名男生的成绩分别为x1，x2，x3，…，x32，8名女生的成绩分别为x33，x34，…，x40，∴男生成绩的方差[(…)－32×702]=16，女生成绩的方差[(…)－8×802]=36，∴…=32×(16＋702)，…=8×(36＋802)，
∴总样本的方差s2=×[32×(16＋702)＋8×(36＋802)－40×722]=36.
方法二　总样本的平均数×70×80=72，总样本的方差s2=×{32×[16＋(70－72)2]＋8×[36＋(80－72)2]}=36.
人数成绩平均数成绩方差
男生 32 70 16
女生 8 80 36
72
36
13.某地区公共部门为调查本地区中学生的吸烟情况，对随机抽出的编号为1~1 000的1 000名学生进行了调查.调查中使用了以下两个问题，问题1：您的编号是否为奇数？问题2：您是否吸烟？被调查者从设计好的装置(内有除颜色外完全相同的白球100个，红球100个)中随机摸出一个小球：若摸出白球则回答问题1，若摸出红球则回答问题2，共有270人回答“是”，则下列说法中，正确的是(　　)
A. 估计被调查者中约有520人吸烟
B. 估计约有10人对问题2的回答为“是”
C. 估计该地区约有4%的中学生吸烟
D. 估计该地区约有2%的中学生吸烟
【解析】随机抽出的1 000名学生中，回答问题1的概率是，其编号是奇数的概率也是，∴回答问题1且回答是的人数大约为1 000×=250，∴回答问题2且回答是的人数大约为270－250=20，由此估计此地区中学生吸烟人数的百分比为×100%=4%，估计被调查者中约有1 000×4%=40(人)吸烟，C正确.
C
14.(多选)某学校高三年级学生有500人，其中男生320人，女生180人.为了获得该校全体高三学生的身高信息，现采用分层随机抽样的方法抽取样本，并观测样本的指标值(单位：cm)，计算得男生样本的均值为174，方差为16，女生样本的均值为164，方差为30.下列说法中，正确的有(　　)
A. 如果抽取25人作为样本，则抽取的样本中男生有16人
B. 该校全体高三学生的身高均值为171
C. 抽取的样本的方差为44.08
D. 如果已知男、女的样本量都是25，则总样本的均值和方差可以作为总体均值和方差的
估计值
【解析】根据分层随机抽样，抽取25人作为样本，则抽取的样本中男生有25×=16(人)，A正确；全体学生的身高均值为×174×164=170.4，B错误；抽取的样本的方差为×[16＋(174－170.4)2]×[30＋(164－170.4)2]=44.08，C正确；∵抽样中未按比例进行分层随机抽样，∴总体中每个个体被抽到的可能性不完全相同，因而样本的代表性差，∴作为总体的估计不合适，D错误.
AC
15.某地各项事业都取得了令人瞩目的成就，以2025年为例，该地社会固定资产总投资额约为3 730亿元，其中社会固定资产包括中央项目、省属项目、地(市)属项目、县(市)属项目和其他项目.图1、图2分别是这五个项目的投资额的不完整条形图和扇形图，依次完成下列问题.
图1 图2
(1)求地(市)属项目的投资额；
解：(1)∵该地社会固定资产总投资额约为3 730亿元，∴地(市)属项目投资额为3 730－(200＋530＋670＋1 500)=830(亿元).
(2)在图2中，县(市)属项目部分所占百分比为m%，对应的圆心角为β，求m，β(m，β均取整数).
(2)由条形图可以看出县(市)属项目投资额为670亿元，∴县(市)属项目投资额所占百分比为m%=×100%≈18%，即m=18，对应的圆心角为β≈360°×0.18≈65°.(共65张PPT)
第3节　成对数据的统计分析
课标解读　1.了解样本相关系数的统计含义.
2.了解一元线性回归模型和2×2列联表，会运用这些方法解决简单的实际问题.
内
容
索
引
必备知识巩固
关键能力提升
教考衔接
知识梳理
考点一成对数据的相关性
考点二回归分析
考点三独立性检验
1.[教材改编]下列四个散点图中，变量x与y之间具有负的线性相关关系的是(　　)
【解析】 D图散点分布较集中，且大体接近某一条直线，呈现明显的负相关.
D
2.[教材改编]根据分类变量x与y的样本数据，计算得到χ2=2.974.依据α=0.05的独立性检验，结论为(　　)
A. 变量x与y不独立
B. 变量x与y不独立，这个结论犯错误的概率不超过0.05
C. 变量x与y相互独立
D. 变量x与y相互独立，这个结论犯错误的概率不超过0.05
【解析】由题表可知当α=0.05时，xα=3.841，∵χ2=2.974＜x0.05=3.841，∴分类变量x与y相互独立，但不能推出“这个结论犯错误的概率不超过0.05”.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
C
3.[教材改编]下图为2×2列联表：
则表中a，b的值分别为　　，　　.
【解析】 ∵a＋21=73，∴a=52，又a＋22=b，∴b=74.
y1 y2 合计
x1 a 21 73
x2 22 25 47
合计 b 46 120
52
74
4.[教材改编]某食品研究部门为了解一种酒品的储藏年份与芳香度之间的相关关系，在市场上收集了一部分不同年份的该酒品，并测得其芳香度，如下表所示.
由最小二乘法得到经验回归方程 =1.03x＋1.13，但不小心污损了表格上的一个数据，可推测该数据为　　.
【解析】由表格数据知=4，设污损的数据为a，则，∴=1.03×4＋1.13，解得a=6.1，即污损的数据为6.1.
储藏年份x 0 1 4 5 6 8
芳香度y 1.3 1.8 5.6 7.4 9.3
6.1
5. (对独立性检验理解不当)某医疗机构通过抽样调查(样本容量n=1 000)，利用2×2列联表和χ2统计量研究患肺病是否与吸烟有关.计算得χ2=4.453，经查阅临界值表知P(χ2≥3.841)≈0.05，下列结论中，正确的是(　　)
A. 在100个吸烟的人中约有95个人患肺病
B. 若某人吸烟，那么他有95%的可能性患肺病
C. 有95%的把握认为“患肺病与吸烟有关”
D. 只有5%的把握认为“患肺病与吸烟有关”
【解析】由已知数据可得，有1－0.05=95%的把握认为“患肺病与吸烟有关”.
易错题
C
6. (忽视回归直线过样本中心点)已知变量x和y的统计数据如下表所示：
根据上表可得经验回归方程为 = x－0.25，据此可以预测当x=8时, =(　　)
A. 6.4 B. 6.25 C. 6.55 D. 6.45
【解析】由题意知=5，=4，将点(5，4)代入
= x－0.25，解得 =0.85，则 =0.85x－0.25，∴当x=8时， =0.85×8－0.25=6.55.
易错题
x 3 4 5 6 7
y 2.5 3 4 4.5 6
C
1.变量的相关关系
(1)相关关系的分类：正相关和负相关.
(2)线性相关：一般地，如果两个变量的取值呈现正相关或负相关，而且散点落在　　附近，我们就称这两个变量线性相关.
一般地，如果两个变量具有相关性，但不是线性相关，那么我们就称这两个变量非线性相关或曲线相关.
一条直线
2.样本相关系数
(1)相关系数r的计算
变量x和变量y的样本相关系数r的计算公式：r= 　 .
(2)相关系数r的性质
①当r＞0时，称成对样本数据　　相关；当r＜0时，称成对样本数据　　相关；
当r=0时，称成对样本数据间没有线性相关关系.
②样本相关系数r的取值范围是　　.
当|r|越接近1时，成对样本数据的线性相关程度越　　；
当|r|越接近0时，成对样本数据的线性相关程度越　　.
正
负
[－1，1]
强
弱
3.一元线性回归模型
(1)我们将 = x＋称为Y关于x的经验回归方程，其中
(2)决定系数
R2=1－，R2越　　，即拟合效果越好，R2越　　，模型拟合效
果越差.
大
小
4.列联表与独立性检验
(1)关于分类变量X和Y的抽样数据的2×2列联表
记n=a＋b＋c＋d，则随机变量χ2=.
(2)独立性检验
基于小概率值α的检验规则是：
①当χ2≥xα时，我们推断H0不成立，即认为X和Y不独立，该推断犯错误的概率不超过α；
②当χ2＜xα时，我们没有充分证据推断H0不成立，可以认为X和Y独立.
下表给出了χ2独立性检验中5个常用的小概率值和相应的临界值
X Y 合计
Y=0 Y=1 X=0 A b a＋b
X=1 C d c＋d
合计 a＋c b＋d n
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
[优化拓展]
1.求解经验回归方程的关键是确定回归系数，，应充分利用回归直线过样本的中心点().
2.根据χ2的值可以判断两个分类变量有关的可信程度，若χ2越大，则两个分类变量有关的把握越大.
3.回归分析和独立性检验都是基于对成对样本观测数据的估计或推断，因此得出的结论都可能犯错误.
考点一　成对数据的相关性
(1)下列图中，相关系数r最大的是(　　)
【解析】观察4幅图可知，A图散点分布比较集中，且大体接近某一条直线，线性回归模型拟合效果比较好，呈现明显的正相关，r值相比于其他3幅图更接近1.
例 1
A
(2)(2025·杭州模拟)某兴趣小组为研究光照时长x(单位：h)和向日葵种子发芽的数量y(单位：颗)之间的关系，采集了5组数据，作如图所示的散点图.若去掉D(10，2)，则下列说法中，正确的是(　　)
A. 相关系数r变小
B. 决定系数R2变小
C. 残差平方和变大
D. 解释变量x与响应变量y的相关性变强
【解析】可知点D偏离程度较大，去掉点D后，相关系数r变大，决定系数R2变大，残差平方和变小，解释变量x与响应变量y的相关性变强.
D
判定两个变量相关性的方法：
(1)画散点图：点的分布从左下角到右上角，两个变量正相关；点的分布从左上角到右下角，两个变量负相关.
(2)样本相关系数：当r＞0时，正相关；当r＜0时，负相关；|r|越接近于1，相关性越强.
(3)决定系数：利用决定系数R2判定，R2越接近1，模型的拟合效果越好，相关性越强.
跟踪训练1　 (1)对两组数据x，y和v，u分别进行回归分析，得到散点图如图所示，并求得经验回归方程分别是，并对变量x，y进行线性相关检验，得到样本相关系数r1，对变量v，u进行线性相关检验，得到样本相关系数r2，则下列结论中，正确的是
(　　)
A. ＞0 B. ＜0 C. |r1|＜|r2| D. r1＋r2＜0
【解析】由散点图可知，x与y负相关，v与u正相关，则＜0，＞0，A，B错误；且图形中点(x，y)比(v，u)更加集中在一条直线附近，则|r1|＞|r2|.又r1＜0，r2＞0，得r1＋r2＜0，C错误，D正确.
跟踪训练1
D
(2)(多选)为研究女儿身高y与母亲身高x的关系，现经过随机抽样获得成对样本数据(x1，y1)，(x2，y2)，…，(xn，yn)，下列说法中，正确的有(　　)
A. 落在回归直线上的样本点越多，经验回归方程的拟合效果越好
B. 样本相关系数|r|越大，变量x，y线性相关程度越强
C. 决定系数R2越小，残差平方和越大，模型的拟合效果越好
D. 决定系数R2越大，残差平方和越小，模型的拟合效果越好
【解析】经验回归方程拟合效果的好坏是由决定系数R2来判断的，A错误；|r|≤1，且样本相关系数|r|越接近1，变量x，y线性相关程度越强，B正确；决定系数R2越小，残差平方和越大，模型的拟合效果越差，决定系数R2越大，残差平方和越小，模型的拟合效果越好，C错误，D正确.
BD
考点二　回归分析
(2025·湖北长沙阶段练习)随机抽取了某集团公司旗下五家超市，得到广告支出x(万元)与销售额y(万元)的数据如下表所示：
(1)计算x，y的相关系数r，并判断是否可以认为广告支出与销售额具有较高的线性相关程度(若0.3＜|r|＜0.75，则线性相关程度一般；若|r|≥0.75，则线性相关程度较高，≈18.55)？
例 2
考向1 线性回归分析
广告支出x 2 4 5 6 8
销售额y 20 30 50 60 70
解：(1)根据表格里的数据可得=5，=46.
∴(xi－)(yi－)=(2－5)×(20－46)＋(4－5)×(30－46)＋(5－5)×(50－46)＋(6－5)×(60－46)＋(8－5)×(70－46)=180.
=(2－5)2＋(4－5)2＋(5－5)2＋(6－5)2＋(8－5)2=20.
=(20－46)2＋(30－46)2＋(50－46)2＋(60－46)2＋(70－46)2=1 720.
r=≈0.97＞0.75.
∴可以认为广告支出与销售额具有较高的线性相关程度.
(2)求出y关于x的线性回归方程，并预测若广告支出15万元，则销售额约为多少万元？
参考公式：回归直线的斜率和截距的最小二乘法估计公式、相关系数r的公式分别为 =
(2)根据公式可得 ==9, =－, =46－9×5=1.
∴y关于x的线性回归方程为, =9x＋1.
当广告支出15万元时，销售额约为 =9×15＋1=136(万元).
回归分析问题的类型及解题方法：
(1)求经验回归方程：①当两个系数均未知时，可利用公式法求解；②当两个系数已知一个求另一个时，可利用经验回归直线过样本的中心点求解.
(2)利用经验回归方程进行预测，把经验回归方程看作一次函数，求函数值.
(3)经验回归方程的拟合效果可以利用样本相关系数判断，当|r|越趋近于1时，两个变量的线性相关性越强.
近年来，我国众多新能源汽车制造企业迅速崛起.某企业着力推进技术革新，利润稳步提高.统计该企业2021年至2025年的利润(单位：亿元)，得到如图所示的散点图.其中2021年至2025年对应的年份代码依次为1，2，3，4，5.
例 3
考向2 非线性回归分析
(1)根据散点图判断，y=a＋bx和y=c＋dx2哪一个更适合作为企业利润y(单位：亿元)关于年份代码x的回归方程模型(给出判断即可，不必说明理由)？
解：(1)由散点图的变化趋势，知y=c＋dx2适宜作为企业利润y(单位：亿元)关于年份代码x的回归方程模型.
(2)根据(1)中的判断结果，建立y关于x的回归方程；
(2)由题意得，=11，yi=78，
==0.85， =－ ×()=78－0.85×11=68.65，
∴ =68.65＋0.85x2.
(3)根据(2)的结果，估计2026年该企业的利润.
参考公式及数据： =， =－ =55，=979，yi=390，xiyi=1 221，yi=4 607.9.
(3)令x=6， =68.65＋0.85×62=99.25，∴估计2026年该企业的利润为99.25亿元.
1.非线性回归分析问题的解题方法：借助散点图，确定合适的非线性回归模型，再通过变换，转化为求线性经验回归方程，最后还原.
2.常见非线性经验回归方程的变换：
(1) = ＋ (x－c)2→ = ＋ t(令t=(x－c)2)；
(2) = ＋ ln (x－c)→ = ＋ t(令t=ln (x－c))；
(3) = ＋ → = ＋ t(令t=)；
(4) = ＋ → = ＋ t；
(5) = · →ln =ln ＋ xln → = ＋ x，其中
(1)(多选)已知某企业对新品按事先拟定的价格进行试销，得到以下数据：
由表中数据，求得经验回归方程为 =－0.4x＋，下列说法中，正确的有(　　)
A. 产品的销量和单价呈负相关
B. 该经验回归直线过点(65，35)
C. 样本点(60，38)的残差为－1
D. 当单价定为100元时，销量估计为21件
跟踪训练2
单价x/元 40 50 60 70 80 90
销量y/件 45 39 38 35 30 23
ABD
【解析】由线性回归方程 =－0.4x＋中的回归系数－0.4＜0，可知产品的销量和单价呈负相关，A正确；由表中数据得=65，=35，∴该经验回归直线过点(65，35)，B正确；由=－0.4＋得35=－0.4×65＋，解得 =61，∴ =－0.4x＋61.当x=60时 =－0.4×60＋61=37，∴样本点(60，38)的残差为38－37=1，C错误；当x=100时 =－0.4×100＋61=21，∴当单价定为100元时，销量估计为21件，D正确.
(2)某商业银行对存款利率与日存款总量的关系进行调研，发现存款利率每上升一定的百分点，日均存款总额就会发生一定的变化，经过统计得到下表：
(i)在给出的坐标系中画出上表数据的散点图；
利率上升百分点x 0.1 0.2 0.3 0.4 0.5
日均存款总额y/亿元 0.2 0.35 0.5 0.65 0.8
(ii)根据上表提供的数据，用最小二乘法求出y关于x的经验回归方程 = x＋；
(iii)已知现行利率下的日均存款总额为0.625亿元，试根据(ii)中的经验回归方程，预测日均存款总额为现行利率下的2倍时，利率需上升多少个百分点？
参考公式及数据： =， = － xiyi=0.9，=0.55.
解：(i)如图所示.
(ii)由表格数据可得×(0.1＋0.2＋0.3＋0.4＋0.5)=0.3，×(0.2＋0.35＋0.5＋0.65＋0.8)=0.5，
∴ ==1.5， =－ =0.5－1.5×0.3=0.05，故 =1.5x＋0.05.
(iii)设利率需上升x个百分点，由(ii)得，0.625×2=1.5x＋0.05，解得x=0.8，∴预测利率需上升0.8个百分点.
考点三　独立性检验
(2025·新高考Ⅰ卷)为研究某疾病与超声波检查结果的关系，从做过超声波检查的人群中随机调查了1 000人，得到如下列联表：
(1)记超声波检查结果不正常者患该疾病的概率为p，求p的估计值；
解：(1)根据表格可知，检查结果不正常的200人中有180人患病，∴p的估计值为.
例 4
超声波检查结果组别正常不正常合计
患该疾病 20 180 200
未患该疾病 780 20 800
合计 800 200 1 000
(2)根据小概率值α=0.001的独立性检验，分析超声波检查结果是否与患该疾病有关.
附：χ2=，
(2)零假设为H0：超声波检查结果与患病无关，根据表中数据可得，χ2==765.625＞10.828=x0.001，根据小概率值α=0.001的χ2独立性检验，我们推断H0不成立，即认为超声波检查结果与患该病有关，该推断犯错误的概率不超过0.001.
P(χ2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
独立性检验的一般步骤：
(1)根据样本数据制成2×2列联表；
(2)根据公式χ2=计算；
(3)比较χ2与临界值的大小关系，作统计推断.
(1)(2025·四川成都三模)为考察某种药物A对预防疾病B的效果，进行了动物试验，根据120个有放回随机样本的数据，得到如下列联表：
经计算得到χ2≈2.981，根据小概率值α=0.05的独立性检验(在χ2独立性检验中，x0.05=3.841)，结论为
(　　)
A. 药物A对预防疾病B没有效果
B. 药物A对预防疾病B没有效果，这种判断犯错误的概率不超过0.05
C. 药物A对预防疾病B有效果
D. 药物A对预防疾病B有效果，这种判断犯错误的概率不超过0.05
【解析】设零假设H0：药物A对预防疾病B没有效果；∵χ2≈2.981＜x0.05=3.841，故零假设成立，药物A对预防疾病B没有效果，但不能推出“这种判断犯错误的概率不超过0.05”.
跟踪训练3
药物A 疗效合计
未患疾病B 患疾病B 未服用 10 50 60
服用 18 42 60
合计 28 92 120
A
(2)为考察某种药物A对预防疾病B的效果，进行了动物(单位：只)试验，得到如下列联表.
(i)求s，t；
(ii)记未服用药物A的动物患疾病B的概率为p，给出p的估计值；
(iii)根据小概率值α=0.01的独立性检验，能否认为药物A对预防疾病B有效？
附：χ2=.
药物A 疾病B 合计
未患病患病未服用 100 80 s
服用 150 70 220
合计 250 t 400
P(χ2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
解：(i)由列联表知s=100＋80=180，t=80＋70=150.
(ii)由列联表知未服用药物A的动物有s=180(只)，未服用药物A且患疾病B的动物有80只，∴未服用药物A的动物患疾病B的频率为，∴未服用药物A的动物患疾病B的概率的估计值为p=.
(iii)零假设为H0：药物A对预防疾病B无效，由列联表得到χ2=≈6.734＞6.635.
根据小概率值α=0.01的独立性检验，推断H0不成立，即认为药物A对预防疾病B有效，该推断犯错误的概率不超过0.01.
课时作业
答案速对
第九章对点练79　成对数据的统计分析题号 1 2 3 4 5
答案 C D B A B
题号 6 7 8 13 答案 ABC ABC BC AC 1.某机构为调查网游爱好者是否有性别差异，通过调研数据统计：在500名男生中有200名爱玩网游，在400名女生中有50名爱玩网游.若要确定网游爱好是否与性别有关，则下列最适合的统计方法是(　　)
A. 均值
B. 方差
C. 独立性检验
D. 回归分析
C
2.甲、乙、丙、丁4位同学各自对A，B两个变量的线性相关性做试验，并用回归分析方法分别求得样本相关系数r与残差平方和m，如下表所示：
则四位同学中，其试验结果最能体现A，B两个变量有很强的线性相关性的是(　　)
A. 甲
B. 乙
C. 丙
D. 丁
甲乙丙丁
r 0.82 0.78 0.69 0.85
m 106 115 124 103
D
3.(2025·甘肃金昌二模)某公司男、女职工人数相等，该公司为了了解职工是否接受去外地长时间出差，在男、女职工中各随机抽取了100人进行调查，数据显示男职工和女职工接受去外地长时间出差的人数分别为40和20.下列结论中，正确的是(　　)
附表：
附：χ2=，其中n=a＋b＋c＋d.
A. 依据小概率值α=0.005的独立性检验，不能认为是否接受去外地长时间出差与性别
有关
B. 依据小概率值α=0.005的独立性检验，可以认为是否接受去外地长时间出差与性别
有关
C. 有99.9%的把握认为是否接受去外地长时间出差与性别有关
D. 是否接受去外地长时间出差与性别无关
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
B
4.(2025·宁夏银川模拟)已知变量x，y线性相关，其一组样本数据(xi，yi)(i=1，2，3，…，9)，满足xi=33，用最小二乘法得到的经验回归方程为 =2x－1.若增加一个数据(－3，3)后，得到修正后的回归直线的斜率为2.1，则数据(4，8.2)的残差为(　　)
A. 0.1 B. 0.2 C. －0.2 D. －0.1
A
5.已知变量y与x的一组数据如表所示，根据数据得到y关于x的经验回归方程为 =
若 =e13，则x=(　　)
A. 6 B. 7 C. 8 D. 9
x 1 2 3 4
y e2 e3 e5 e6
B
6.(多选)(2026·重庆模拟)下列说法中，正确的有(　　)
A. 两个变量线性相关性越强，则相关系数|r|越接近于1
B. 若用不同的模型拟合同一组数据，则决定系数R2越大的模型，拟合效果越好
C. 在经验回归方程 =6x＋3中，当解释变量每增加1个单位时，响应变量平均增加6个单位
D. 依据分类变量x与y的成对样本数据，计算得到χ2=6.998＞6.635=x0.01，则依据α=0.01的独立性检验，可以认为两个变量没有关联
【解析】对于A，由相关系数的绝对值越接近于1，模型拟合效果越好，即两个变量线性相关性越强，A正确；对于B，由决定系数R2越大，残差平方和越小，即模型的拟合效果越好，B正确；对于C，由于回归方程的一次项系数为6，即解释变量每增加1个单位时，响应变量平均增加6个单位，C正确；对于D，由χ2=6.998＞6.635=x0.01，依据α=0.01的独立性检验，可以认为两个变量有关联的可信度高，D错误.
ABC
7.(多选)5G技术在我国已经进入高速发展的阶段，5G手机的销量也逐渐上升，某手机商城统计了最近5个月手机的实际销量，如下表所示：
若y与x线性相关，且经验回归方程为 =0.24x＋，则下列说法中，正确的有
(　　)
A. 由题中数据可知，变量y与x正相关
B. 经验回归方程 = 0.24x ＋中 =0.28
C. 可以预测x=6时该商场5G手机的销量约为1.72千只
D. x=5时，残差为－0.02
时间x 1 2 3 4 5
销售量y/千只 0.5 0.8 1.0 1.2 1.5
ABC
【解析】从数据看y随x的增加而增加，∴变量y与x正相关，A正确；由表中数据知，×(1＋2＋3＋4＋5)=3，×(0.5＋0.8＋1＋1.2＋1.5)=1，∴样本中心点为(3，1)，代入 =0.24x＋中得 =1－3×0.24=0.28，B正确；当x=6时该商场5G手机的销量约为
=0.24×6＋0.28=1.72(千只)，C正确；经验回归方程为 =0.24x＋0.28，∴ =0.24×5＋0.28=1.48， =1.5－1.48=0.02，D错误.
8.(多选)为了解阅读量多少与幸福感强弱之间的关系，一个调查机构根据所得到的数据，绘制了如下所示的2×2列联表(个别数据暂用字母表示)：
计算得χ2≈12.981，参照下表：
幸福感强幸福感弱合计
阅读量多 m 18 72
阅读量少 36 n 78
合计 90 60 150
α 0.10 0.05 0.025 0.010 0.005 0.001
xα 2.706 3.841 5.024 6.635 7.879 10.828
下列选项中，正确的有(　　)
A. 根据小概率值α=0.010的独立性检验，可以认为阅读量多少与幸福感强弱无关
B. m=54
C. 根据小概率值α=0.005的独立性检验，可以在犯错误的概率不超过0.5%的前提下认为
阅读量多少与幸福感强弱有关
D. n=52
【解析】 ∵χ2≈12.981＞7.879＞6.635，∴根据小概率值α=0.010的独立性检验，可以在犯错误的概率不超过1%的前提下认为阅读量多少与幸福感强弱有关，根据小概率值α=0.005的独立性检验，可以在犯错误的概率不超过0.5%的前提下认为阅读量多少与幸福感强弱有关，A错误，C正确；∵m＋36=90，18＋n=60，∴m=54，n=42，B正确，D错误.
BC
9.一项研究同年龄段的男、女生的注意力差别的脑功能实验，其实验数据如表所示.
则χ2=　　(结果精确到小数点后三位)，依据概率值α=0.05的独立性检验，该实验　　(填“不支持”或“支持”)该年龄段的学生在注意力的稳定性上对于性别没有显著差异的结论.
【解析】由表中数据可知a=29，b=7，c=33，d=5，n=a＋b＋c＋d=74，根据χ2=，计算可知χ2=≈0.538＜3.841=x0.05，∴没有充分证据认为学生在注意力的稳定性上与性别有关，即该实验支持该年龄段的学生在注意力的稳定性上对于性别没有显著差异的结论.
注意力稳定注意力不稳定
男 29 7
女 33 5
0.538
支持
10.(2025·广东汕头一模)在政府发布的光伏发电补贴政策的引导下，西北某地光伏发电装机量急剧上升，现对2016年至2023年的新增光伏装机量进行调查，根据散点图选择了两个模型进行拟合，并得到相应的经验回归方程.为判断模型的拟合效果，甲、乙、丙3位同学进行了如下分析：
(1)甲同学通过计算残差作出了两个模型的残差图，如图所示；
(2)乙同学求出模型①的残差平方和为0.417 5，模型②的残差平方和为1.562 5；
(3)丙同学分别求出模型①的决定系数=0.952 0，模型②的决定系数为=0.978 1；
经检验，模型①拟合效果最佳，则甲、乙、丙3位同学中，运算结果肯定出错的同学是
　　(填“甲”或“乙”或“丙”).
【解析】甲的残差图中，模型①的残差点更均匀地分布在以横轴为对称轴的水平带状区域内，且水平带状区域更窄，说明模型①拟合效果更好；残差平方和越大，即决定系数越小，说明数据点越离散，∴乙的计算结果显示模型①的拟合效果更好，而丙的计算结果显示模型②的拟合效果更好.
丙
11.某企业拟对某产品进行科技升级，根据市场调研与模拟，得到科技升级投入m(单位：万元)与科技升级直接收益y(单位：万元)的数据统计如下所示：
根据表格中的数据，建立了y与m的两个回归模型：模型①： =4.1m＋11.8；
模型②： =21.3－14.4.
序号 1 2 3 4 5 6 7
m 2 3 4 6 8 10 13
y 13 22 31 42 50 56 58
(1)根据下列表格中的数据，比较模型①、②的相关指数的大小，并选择拟合精度更高、更可靠的模型；
解：(1)由表格中的数据，182.4＞79.2，
∴，1－＜1－，∴模型①的相关指数小于模型②的相关指数，即模型②的拟合效果精度更高、更可靠.
回归模型模型① 模型②
回归方程 =4.1m＋11.8 =21.3－14.4
(yi－ )2 182.4 79.2
(2)根据(1)选择的模型，预测对该产品科技升级的投入为100万元时的直接收益.
附：刻画回归效果的相关指数R2=1－，R2越大，模型的拟合效果越好.
(2)当m=100(万元)时，科技升级直接收益的预测值为 =21.3×－14.4=213－14.4=198.6(万元).　
12.(2025·重庆开学考试)某景区自从实行门票打折、开展沉浸式体验活动、推出特色美食、不断提高服务质量等措施后，旅游人数明显增加.该景区改进措施后前5个月的旅游人数y(单位：十万)与第x个月的数据如下表所示.
(1)已知可用线性回归模型拟合y与x的关系，请建立y关于x的线性回归方程 = x＋，并预测第8个月的旅游人数；
解：(1)=3，=5， ==
=1.6，
= =5－3×1.6=0.2，则 =1.6x＋0.2，
当x=8时， =13，∴预测第8个月的旅游人数为130万.
x 1 2 3 4 5
y 2 3 5 7 8
(2)为了解景区游客性别与满意度的关系，随机抽查了200名游客，得到如下所示的列联表：
请填写上表，并依据小概率值α=0.001的独立性检验，能否认为游客是否满意与性别有关.
参考公式： =， = ，
χ2=，其中n=a＋b＋c＋d.
满意不满意合计
男 100 150
女 30
合计
α 0.050 0.010 0.001
χα 3.841 6.635 10.828
(2)由题意，填写列联表如下所示：
零假设H0：游客是否满意与性别无关，
χ2=≈11.111＞10.828，∴依据小概率值α=0.001的独立性检验，我们可以推断H0不成立，即认为游客是否满意与性别有关.
满意不满意合计
男 100 50 150
女 20 30 50
合计 120 80 200
13.(多选)(2025·云南保山开学考试)某小组为探究变量x，y的关系，经统计得到了成对数据(x，y)的7个样本：(－3，9)，(－2，4)，(－1，1)，(0，0)，(1，1)，(2，4)，(3，9).记这组数据中变量x，y的均值分别为，方差分别为，样本相关系数为r.删去数据(0，0)后，x，y的均值分别为，方差分别为s，s，样本相关系数为r'.下列说法中，正确的有(　　)
附：样本相关系数r=　
A.
B.
C. r=r'=0
D. 变量x和y的相关性很弱
AC
【解析】对于A，依题意，=0，=4，删去数据(0，0)后，=0，，∴，A正确；对于B，[(－3－0)2＋(－2－0)2＋(－1－0)2＋(0－0)2＋(1－0)2＋(2－0)2＋(3－0)2]=4，s[(9－4)2＋(4－4)2＋(1－4)2＋(0－4)2＋(1－4)2＋(4－4)2＋(9－4)2]=12，s
s=4s=12，∴ss，B错误；对于C，r=
，其中xiyi－7 =(－3)×9＋(－2)×4＋(－1)×1＋0×0＋1×1＋2×4＋3×9－7×0×4=0，∴r=0，x'iy'i－7 =(－3)×9＋(－2)×4＋(－1)×1＋1×1＋2×4＋3×9－6×0×=0，∴r'=0，∴r=r'=0，C正确；对于D，∵r=0，变量x和y的线性相关性很弱，但观察数据可知，所有数据均在函数y=x2的图象上，即变量x和y存在函数关系，其相关性最强，D错误.
14.已知具有相关关系的两个随机变量的一组观测数据的散点图分布在函数y=2e2x＋1的图象附近，设z=ln y，将其变换后得到经验回归方程为z=mx＋n，则mn=　　.
【解析】由z=ln y，则ln y=ln，即z=ln 2＋ln e2x＋1=ln 2＋2x＋1，则z=2x＋ln 2＋1，故m=2，n=ln 2＋1，∴mn=2ln 2＋2.
2ln 2＋2
15.某工厂进行生产线智能化升级改造后，从该工厂甲、乙2个车间的产品中随机抽取150件进行检验，数据如下表所示：
(1)填写如下列联表：
并判断是否有95%的把握认为甲、乙2个车间产品的优级品率存在差异？
优级品合格品不合格品总计
甲车间 26 24 0 50
乙车间 70 28 2 100
总计 96 52 2 150
优级品非优级品
甲车间
乙车间
解：(1)根据题意可得列联表：
可得χ2==4.687 5，∵3.841＜4.687 5＜6.635，∴有95%的把握认为甲、乙2个车间产品的优级品率存在差异，没有99%的把握认为甲、乙2个车间产品的优级品率存在差异.
优级品非优级品
甲车间 26 24
乙车间 70 30
(2)已知升级改造前该工厂产品的优级品率p=0.5，设为升级改造后抽取的n件产品的优级品率.如果＞p＋1.65，则认为该工厂产品的优级品率提高了，根据抽取的150件产品的数据，能否认为生产线智能化升级改造后，该工厂产品的优级品率提高了(≈12.247)？
附：χ2=.
(2)由题意可知：生产线智能化升级改造后，该工厂产品的优级品的频率为=0.64，用频率估计概率可得=0.64，又升级改造前该工厂产品的优级品率p=0.5，则p＋1.65=0.5＋1.65≈0.5＋1.65×≈0.567，可知＞p＋1.65，∴可以认为生产线智能化升级改造后，该工厂产品的优级品率提高了.
α 0.050 0.010 0.001
xα 3.841 6.635 10.828(共51张PPT)
第2节　用样本估计总体
课标解读　1.会用统计图表对总体进行估计，会求n个数据的第p百分位数.
2.会用数字特征估计总体集中趋势和总体离散程度.
内
容
索
引
必备知识巩固
关键能力提升
教考衔接
知识梳理
考点一总体百分位数的估计
考点二样本的数字特征的计算
考点三总体离散程度的估计
1.[教材改编]如果一组数据的中位数比平均数小很多，则下列叙述中，一定错误的是(　　)
A. 数据中可能有异常值
B. 这组数据是近似对称的
C. 数据中可能有极端大的值
D. 数据中众数可能和中位数相同
【解析】 ∵中位数比平均数小很多，∴数据不是近似对称的.
B
2.[教材改编]为了合理调配电力资源，某市欲了解全市50 000户居民的日用电量.若通过简单随机抽样从中抽取了300户进行调查，得到其日用电量的平均数为5.5 kW·h，则可以推测全市居民日用电量的平均数(　　)
A. 一定为5.5 kW·h
B. 高于5.5 kW·h
C. 低于5.5 kW·h
D. 约为5.5 kW·h
【解析】由样本的数字特征与总体的数字特征的关系，可知全市居民日用电量的平均数约为5.5 kW·h.
D
3.[教材改编]若数据x1，x2，…，x9的方差为2，则数据2x1，2x2，…，2x9的方差为(　　)
A. 2 B. 4
C. 6 D. 8
【解析】根据方差的性质可知，数据x1，x2，…，x9的方差s2=2，那么数据2x1，2x2，…，2x9的方差为22s2=8.
4.[教材改编]已知数据1，2，2，3，4，5，6，6，7，8的中位数为m，60%分位数为a，则m=　　，a=　　.
【解析】由题意得中位数m==4.5，而10×60%=6，则60%分位数a==5.5.
D
4.5
5.5
5. (挖掘不出统计图表反映的信息)某班全
体学生的物理测试成绩(单位：分)的频率分布直方图
如图所示，则估计该班物理测试成绩的众数、中位
数、平均数分别是　　、　　、　　.
【解析】由题意知众数为=70.∵0.005×20＋0.010×20=0.3＜0.5，(0.005＋0.010＋0.020)×20=0.7＞0.5，∴中位数位于[60，80)内，设中位数为x，则(0.005＋0.010)×20＋(x－60)×0.020=0.5，解得x=70.平均数为30×0.1＋50×0.2＋70×0.4＋90×0.3=68.
易错题
70
70
68
6. (不理解数字特征的含义)已知数据x1，x2，x3，…，xn是某市n(n≥10，n∈N*)个普通职工的年收入，设这n个数据的中位数为x，平均数为y，方差为z，如果再加上世界首富的年收入xn＋1，则这n＋1个数据中，年收入的平均数　　，方差
　　，众数　　(填“变大”“不变”或“变小”).
【解析】 ∵数据x1，x2，x3，…，xn是某市n(n≥10，n∈N*)个普通职工的年收入，xn＋1为世界首富的年收入，∴xn＋1远大于x1，x2，x3，…，xn，故这n＋1个数据中，年收入的平均数变大，方差变大，众数不变.
易错题
变大
变大
不变
1.百分位数
一般地，一组数据的第p百分位数是这样一个值，它使得这组数据中至少有　　的数据小于或等于这个值，且至少有　　的数据大于或等于这个值.
2.众数、中位数、平均数
(1)众数：一组数据中　　的那个数据，叫做这组数据的众数.
(2)中位数：把n个数据按大小顺序排列，处于　　位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.
(3)平均数：把称为a1，a2，…，an这n个数的平均数.
p%
(100－p)%
出现次数最多
最中间
3.标准差与方差：设一组数据x1，x2，x3，…，xn的平均数为，则这组数据的标准差和方差分别是
s= 　，
s2= 　.
4.总体(样本)方差
(1)一般式：如果总体中所有个体的变量值分别为Y1，Y2，…，YN，总体平均数为，则总体方差S2=(Yi－)2.
(2)加权式：如果总体的N个变量值中，不同的值共有k(k≤N)个，不妨记为Y1，Y2，…，Yk，其中Yi出现的频数为fi(i=1，2，…，k)，则总体方差为S2=fi(Yi－)2.
[(x1－)2＋(x2－)2＋…＋(xn－)2]
[优化拓展]
1.平均数反映了数据取值的平均水平.标准差、方差反映了数据相对于平均数的波动情况，即标准差、方差越大，数据的离散程度越大，越不稳定；反之离散程度越小，越稳定.
2.若数据x1，x2，…，xn的平均数为，则mx1＋a，mx2＋a，mx3＋a，…，mxn＋a的平均数是m＋a.
3.若数据x1，x2，…，xn的方差为s2，则数据ax1＋b，ax2＋b，…，axn＋b的方差为a2s2.
考点一　总体百分位数的估计
(1)(2025·广东梅州模拟)一组数据10，13，17，25，47的第80百分位数为n，若6，m，n三个数成等差数列，则m=(　　)　　　　　　　　　　　　　　　　
A. 21 B. 23
C. D.
【解析】 ∵5×80%=4，∴n==36，又6，m，n三个数成等差数列，∴m==21.
例 1
A
(2)如图所示，将高三某班60名学生参加某次数学模拟考试所得的成绩(成绩均为整数)整理后画出频率分布直方图，则此班的数学模拟考试成绩的80%分位数是　　(结果保留两位小数).
【解析】由频率分布直方图可知，分数在120分以下的学生所占的比例为(0.01＋0.015＋0.015＋0.03)×10×100%=70%，分数在130分以下的学生所占的比例为(0.01＋0.015＋0.015＋0.03＋0.022 5)×10×100%=92.5%，∴80%分位数一定位于[120，130)内.∵120＋×10≈124.44，∴此班的数学模拟考试成绩的80%分位数约为124.44.
124.44
1.总体百分位数的估计需要注意的两个问题：
(1)总体百分位数估计的基础是样本百分位数的计算，因此计算准确是关键.
(2)由于样本量比较少，所以对总体的估计可能存在误差，因此对总体百分位数的估计一般是估计值而非精确值.
2.由频率分布直方图求第p百分位数的方法：
确定要求的p%分位数所在分组[A，B)，由频率分布表或频率分布直方图可知，样本中小于A的频率为a，小于B的频率为b，∴p%分位数=A＋组距×.
(1)数据4，2，5，2，6，0的上四分位数是(　　)
A. 2 B. 4
C. 5 D. 6
【解析】将数据从小到大排列得，0，2，2，4，5，6，∵6×75%=4.5，∴上四分位数是第5个数据，为5.
(2)若数据3.2，3.4，3.8，4.2，4.3，4.5，x，6.6的第65百分位数是4.5，则实数x的取值范围是
　　.
【解析】 ∵8×65%=5.2，∴这组数据的第65百分位数是第6个数据，即4.5，∴应该有5个数据不大于4.5，则x≥4.5.
跟踪训练1
C
[4.5，＋∞)
考点二　样本的数字特征的计算
(1)(2024·新课标Ⅱ卷)某农业研究部门在面积相等的100块稻田上种植一种新型水稻，得到各块稻田的亩产量(单位：kg)并整理得下表：
根据表中数据，下列结论中，正确的是(　　)
A. 100块稻田亩产量的中位数小于1 050 kg
B. 100块稻田中亩产量低于1 100 kg的稻田所占比例超过80%
C. 100块稻田亩产量的极差介于200 kg至300 kg之间
D. 100块稻田亩产量的平均值介于900 kg至1 000 kg之间
例 2
亩产量 [900，950) [950，1 000) [1 000，1 050)
频数 6 12 18
亩产量 [1 050，1 100) [1 100，1 150) [1 150，1 200)
频数 30 24 10
C
【解析】对于A，根据频数分布表可知，6＋12＋18=36＜50，∴亩产量的中位数不小于
1 050 kg，A错误；对于B，亩产量不低于1 100 kg的频数为24＋10=34，∴低于1 100 kg的稻田占比为=66%，B错误；对于C，稻田亩产量的极差最大为1 200－900=300，最小为1 150－950=200，C正确；对于D，由频数分布表可得，平均值为×(6×925＋12×975＋18×1 025＋30×1 075＋24×1 125＋10×1 175)=1 067，D错误.
(2)秉持“绿水青山就是金山银山”的生态文明发展理念，为推动新能源汽车产业迅速发展，有必要调查研究新能源汽车市场的生产与销售.下图是我国某地区2020年至2025年新能源汽车的销量(单位：万台)按季度(一年四个季度)统计制成的频率分布直方图. 123123
(i)求直方图中a的值，并估计销量的中位数；
(ii)请根据频率分布直方图估计新能源汽车平均每个季度的销售量(同一组数据用该组中间值代表)，并以此预测2026年的销售量.
解：(i)由于频率分布直方图的所有矩形面积之和为1，
则0.012 5＋a＋0.075＋0.025×2×4=1，解得a=0.112 5，
由于(0.012 5＋0.112 5)×4=0.5，因此，销量的中位数为16.
(ii)由频率分布直方图可知，新能源汽车平均每个季度的销售量为10×0.05＋14×0.45＋18×0.3＋22×0.1＋26×0.1=17(万台)，由此预测2026年的销售量为17万台.
1.中位数、众数和平均数分别反映了一组数据的“中等水平”“多数水平”和“平均水平”，我们应根据实际需要选择使用.
2.频率分布直方图中的数字特征：
(1)众数：最高的矩形底边中点的横坐标.
(2)中位数：中位数左边和右边的矩形的面积和是相等的.
(3)平均数：平均数是频率分布直方图的“重心”，等于频率分布直方图中每个矩形的面积乘以小长方形底边中点的横坐标之和.
(1)某大学共有12 000名学生，为了了解学生课外图书阅
读量情况，该校随机地从全校学生中抽取1 000名，统计
他们每年阅读的书籍数量，由此来估计全体学生阅读书
籍数量的情况，下列估计中，正确的是(注：同一组数据
以该组区间的中点值作为代表)(　　)
A. 中位数为6
B. 众数为10
C. 平均数为6.88
D. 该校读书不低于8本的人数约为3 600
【解析】由图知，中位数x在[4，8)内，∴0.06×4＋0.1×(x－4)=0.5，解得x=6.6，A错误；由图知，众数在[4，8)内，故众数为6，B错误；平均数为4×(2×0.06＋6×0.1＋10×0.07＋14×0.015＋18×0.005)=6.88，C正确；由图知，该校读书不低于8本的频率之和为1－0.16×4=0.36，∴该校读书不低于8本的人数约为0.36×12 000=4 320，D错误.
跟踪训练2
C
(2)(多选)(2023·新课标Ⅰ卷)有一组样本数据x1，x2，…，x6，其中x1是最小值，x6是最大值，则(　　)
A. x2，x3，x4，x5的平均数等于x1，x2，…，x6的平均数
B. x2，x3，x4，x5的中位数等于x1，x2，…，x6的中位数
C. x2，x3，x4，x5的标准差不小于x1，x2，…，x6的标准差
D. x2，x3，x4，x5的极差不大于x1，x2，…，x6的极差
【解析】取x1=1，x2=x3=x4=x5=2，x6=9，则x2，x3，x4，x5的平均数等于2，标准差为0，x1，x2，…，x6的平均数等于3，标准差为，A，C错误；根据中位数的定义，将x1，x2，…，x6按从小到大的顺序进行排列，中位数是中间两个数的算术平均数，由于x1是最小值，x6是最大值，故x1，x2，…，x6的中位数是将x2，x3，x4，x5按从小到大的顺序排列后中间两个数的算术平均数，与x2，x3，x4，x5的中位数相等，B正确；根据极差的定义，知x2，x3，x4，x5的极差不大于x1，x2，…，x6的极差，D正确.
BD
考点三　总体离散程度的估计
2023·全国乙卷理)某厂为比较甲、乙两种工艺对橡胶产品伸缩率的处理效应，进行10次配对试验，每次配对试验选用材质相同的两个橡胶产品，随机地选其中一个用甲工艺处理，另一个用乙工艺处理，测量处理后的橡胶产品的伸缩率，甲、乙两种工艺处理后的橡胶产品的伸缩率分别记为xi，yi(i=1，2，…，10)，试验结果如下：
例 3
考向1 方差与标准差
试验序号i 1 2 3 4 5
伸缩率xi 545 533 551 522 575
伸缩率yi 536 527 543 530 560
试验序号i 6 7 8 9 10
伸缩率xi 544 541 568 596 548
伸缩率yi 533 522 550 576 536
记zi=xi－yi(i=1，2，…，10)，z1，z2，…，z10的样本平均数为，样本方差为s2.
(1)求，s2；
解：(1)由题意，求出zi的值如表所示.
则×(9＋6＋8－8＋15＋11＋19＋18＋20＋12)=11，
s2=×[(9－11)2＋(6－11)2＋(8－11)2＋(－8－11)2＋(15－11)2＋(11－11)2＋(19－11)2＋(18－11)2＋(20－11)2＋(12－11)2]=61.
试验序号i 1 2 3 4 5 6 7 8 9 10
zi 9 6 8 －8 15 11 19 18 20 12
(2)判断甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率是否有显著提高.
(2)∵2=2=11=，
∴可认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高.
标准差(方差)反映了数据的离散与集中、波动与稳定的程度.标准差(方差)越大，数据的离散程度越大；标准差(方差)越小，数据的离散程度越小.
(2025·杭州阶段练习)学校为了解学生身高(单位： cm)情况，采用分层随机抽样的方法从
4 000名学生(男女生人数之比为3∶2)中抽取了一个容量为100的样本.其中，男生平均身高为175，方差为184，女生平均身高为160，方差为179，用样本估计总体，则该学校学生身高的方差为　　.
【解析】根据题意，由于男女生人数之比为3∶2，则样本中男女生人数之比为3∶2，其中，男生平均身高为175，方差为184，女生平均身高为160，方差为179，则样本的平均数×175＋×160=169，样本的方差S2=×[184＋(175－169)2]＋×[179＋(160－169)2]=236，用样本估计总体，则该学校学生身高的方差为236.
例 4
考向2 分层随机抽样的方差与标准差
236
分层随机抽样的方差的计算：
在分层随机抽样中，如果第一层的样本量为m，平均值为x，方差为；第二层的样本量为n，平均值为y，方差为，则样本的平均值为μ=·x＋y，方差为s2=[＋(μ－x)2]＋·[＋(μ－y)2].
甲、乙两名学生参加数学竞赛培训，现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次，记录如下表所示：
(1)求两位学生预赛成绩的平均数和方差；
解：(1)×(82＋81＋79＋78＋95＋88＋93＋84)=85，
×(92＋95＋80＋75＋83＋80＋90＋85)=85，
×[(82－85)2＋(81－85)2＋(79－85)2＋(78－85)2＋(95－85)2＋(88－85)2＋(93－85)2＋(84－85)2]=35.5，
×[(92－85)2＋(95－85)2＋(80－85)2＋(75－85)2＋(83－85)2＋(80－85)2＋(90－85)2＋(85－85)2]=41.
跟踪训练3
甲 82 81 79 78 95 88 93 84
乙 92 95 80 75 83 80 90 85
(2)现要从中选派一人参加数学竞赛，从统计学的角度考虑，你认为选派哪位学生参加合适？请说明理由.
(2)由(1)知，甲的成绩较稳定，∴派甲参赛比较合适.
课时作业
答案速对
第九章对点练78　用样本估计总体题号 1 2 3 4 5 6
答案 C B A C C B
题号 7 8 13 14 15 答案 BCD AC C D ABD 1.(2025·新高考Ⅱ卷)样本数据2，8，14，16，20的平均数为(　　)
A. 8 B. 9 C. 12 D. 18
C
2.样本数据5.8，5.9，5.9，6.0，6.1，6.1，6.3，6.1的极差与第70百分位数之差为(　　)
A. －5.8 B. －5.6
C. 5.6 D. 5.8
B
3.有一组样本数据：2，3，3，3，4，4，5，5，6，6，则下列关于该组数据的数字特征，数值最大的为(　　)
A. 第75百分位数 B. 平均数
C. 极差 D. 众数
A
4.(2025·甘肃定西模拟)某品牌电动汽车公司为了解车主使用电动车辅助驾驶功能的情况，进行问卷调查后，从中抽取了100位车主进行抽样分析，得出这100位车主每人在100次驾驶途中使用辅助驾驶功能的次数的频率分布直方图，则样本中车主使用辅助驾驶功能次数的40%分位数为(　　)
A. 62
B. 64
C. 66
D. 68
C
5.一组数据按从小到大的顺序排列为1，4，4，x，7，8(其中x≠7)，若该组数据的中位数是众数的倍，则该组数据的方差和60%分位数分别是(　　)
A. ，5 B. 5，5
C. ，6 D. 5，6
C
6.(2025·江苏镇江模拟)已知一组数据如下：2 022，2 023，2 024，2 024，2 025，2 026，则下列说法中，错误的是(　　)
A. 这组数据的极差为4
B. 这组数据的方差为2
C. 这组数据的众数等于平均数
D. 这组数据的第70百分位数为2 025
【解析】对于A，由数据知，极差为2 026－2 022=4，A正确；对于B，平均数为=2 024，则方差s2=[(2 022－2 024)2＋(2 023－2 024)2＋2(2 024－2 024)2＋(2 025－2 024)2＋(2 026－2 024)2]=，B错误；对于C，众数为2 024，即与平均数相等，C正确；对于D，由6×70%=4.2，则数据的第70百分位数为2 025，D正确.
B
7.(多选)(2025·安徽阜阳模拟)关于一组样本数据的平均数、中位数、众数、方差和频率分布直方图，下列说法中，正确的有(　　)
A. 改变其中一个数据，平均数和众数都会发生改变
B. 在频率分布直方图中，中位数左边和右边的小矩形的面积相等
C. 在频率分布直方图中，众数一定是该直方图中最高矩形底边的某个(些)点的横坐标
D. 样本数据的方差越小，说明样本数据的离散程度越小
【解析】对于A，例如：数据1，3，3，将数据改成2，3，3，数据的众数未改变，仍为3，A错误；对于B，根据频率分布直方图中中位数的求法可知，频率分布直方图中中位数左边和右边的小矩形的面积相等，B正确；对于C，根据众数的意义可知，由频率分布直方图估计众数时，一般用最高矩形的中点横坐标近似代替，C正确；对于D，样本数据方差越小，数据越稳定，离散程度越小，D正确.
BCD
8.(多选)甲、乙2名同学6次模拟考试的英语成绩(不含听力)的折线统计图如图所示，下列说法中，正确的有(　　)
A. 若甲、乙2组成绩的平均数分别为，则
B. 若甲、乙2组成绩的方差分别为，则
C. 甲成绩的中位数大于乙成绩的第三四分位数
D. 甲成绩的极差大于乙成绩的极差
AC
【解析】由折线图可知，甲同学除第二次考试成绩略低于乙同学，其他5次考试成绩都高于乙同学，∴，A正确；由折线图的变化趋势可知，甲同学的成绩比乙同学的成绩稳定，则，B错误；由折线图可得，甲成绩的中位数大于乙成绩的按从小到大排列的第5个数，即第三四分位数，C正确；由折线图可知，甲同学成绩的极差小于乙同学成绩的极差，D错误.
9.(2025·江苏南京模拟)有一组数据，按从小到大排列为1，2，6，8，9，m，这组数据的40%分位数等于它们的平均数，则m的值为　　.
【解析】 ∵该组数据共6个，且40%×6=2.4，∴这组数据的40%分位数为按从小到大排列的第3个数，即6，则=6，解得m=10.
10
10.某校高一年级开设了丰富多彩的校本课程，现从甲、乙2个班各随机抽取了5名学生的校本课程的学分，统计如下表所示：
用分别表示甲、乙2个班各抽取的5名学生学分的方差，则=　　，由此可判断成绩更稳定的班级是　　班.
【解析】甲班学生学分的平均数×(8＋11＋14＋15＋22)=14，∴甲班学生学分的方差×[(8－14)2＋(11－14)2＋(14－14)2＋(15－14)2＋(22－14)2]=22.乙班学生学分的平均数×(6＋7＋10＋23＋24)=14，∴乙班学生学分的方差×[(6－14)2＋(7－14)2＋(10－14)2＋(23－14)2＋(24－14)2]=62，∴=62.由此可判断成绩更稳定的班级是甲班.
甲 8 11 14 15 22
乙 6 7 10 23 24
62
甲
11.某地政府积极引导某村农户因地制宜种植某种经济作物，该类经济作物的质量以其质量指标值来衡量，质量指标值越大表明质量越好.为了解该类经济作物在该村的种植效益，该村引进了甲、乙2个品种，现随机抽取了这两个不同品种的经济作物各100份(每份1千克)作为样本进行检测，检测结果如下表所示(同一区间的数据取该区间的中点值作代表)：
记甲、乙品种质量指标值的样本平均数分别为和，样本方差分别为和.
　　频数经济作物 [0，20) [20，40) [40，60) [60，80) [80，100]
甲品种 2 6 24 48 20
乙品种 2 8 38 42 10
质量指
标值
(1)现已求得=60，=324.64，试求及，并比较两者样本平均数与方差的大小；
解：(1)×(10×2＋30×6＋50×24＋70×48＋90×20)=65.6，=(10－60)2×0.02＋(30－60)2×0.08＋(50－60)2×0.38＋(70－60)2×0.42＋(90－60)2×0.1=292.又=60，=324.64，∴.
(2)该经济作物按其质量指标值划分等级如下表所示：
现利用样本估计总体，试从样本利润平均数的角度分析该村村民种植哪个品种的经济作物获利更多.
(2)记甲、乙2个品种利润的样本平均数分别为，则×(8×10＋72×20＋20×50)=25.2，×(10×10＋80×20＋10×50)=22，∴，∴从样本利润平均数的角度分析，该村村民种植甲品种的经济作物获利更多.
质量指标值 [0，40) [40，80) [80，100]
作物等级二级一级特级
利润(元/千克) 10 20 50
12.某家水果店的店长为了解本店苹果的日销售情况，记录了近期连续120天苹果的日销售量(单位：千克)，并绘制频率分布直方图如图所示.
(1)请根据频率分布直方图估计该水果店苹果日销售量的众数、中位数和平均数(同一组中的数据以这组数据所在区间中点的值为代表)；
解：(1)由题图可知，区间[80，90)的频率最大，∴众数为85.
设中位数为x，则0.025＋0.1＋(x－80)×0.04=0.5，可得x=89.375.平均数为=(65×0.002 5＋75×0.01＋85×0.04＋95×0.035＋105×0.01＋115×0.002 5)×10=89.75.
(2)一次进货太多，水果会变得不新鲜；进货太少，又不能满足顾客的需求.店长希望每天的苹果尽量新鲜，又能90%地满足顾客的需求(在10天中，大约有9天可以满足顾客的需求)，请问每天应该进多少千克苹果？
(2)日销售量在区间[60，100)的频率为0.875＜0.9，日销售量在区间[60，110)的频率为0.975＞0.9，故所求的量位于区间[100，110)内.由0.9－0.025－0.1－0.4－0.35=0.025，得100=102.5(千克)，故每天应该进102.5千克苹果.
13.设样本数据x1，x2，…，x2 025的平均数为，标准差为s，若样本数据4x1＋1，4x2＋1，…，4x2 025＋1的平均数比标准差少3，则的最大值为(　　)
A. 1 B. C. 4 D. 4
【解析】样本数据x1，x2，…，x2 025的平均数为，标准差为s，则样本数据4x1＋1，4x2＋1，…，4x2 025＋1的平均数为41，标准差为4s，依题意有41=4s－3，得=s－1.由s≥0，知s2=s2＋s－1=在s∈上单调递增，当s=0时，取到最小值－1，≤=4，即当s=0时，取得最大值4.
C
14.(2025·山东青岛模拟)某校为了解学生每个月在图书馆借阅书籍的数量，图书管理员甲抽取了一个容量为100的样本，并算得样本的平均数为5，方差为9；图书管理员乙也抽取了一个容量为100的样本，并算得样本的平均数为7，方差为16.若将两个样本合在一起组成一个容量为200的新样本，则新样本数据的(　　)
A. 平均数为5.5 B. 平均数为6.5
C. 方差为12.5 D. 方差为13.5
【解析】甲抽取的样本数据为xi(i=1，2，3，…，100)；乙抽取的样本数据为yi(i=1，2，3，…，100)，依题意，xi=500，yi=700，=900，=1 600，新样本数据的平均数=6，A，B错误；新样本数据的方差s2==
=
[]=13.5，C错误，D正确.
D
15.(多选)(2025·江苏南京模拟)在一次比赛中，10位评委分别给某运动员打分，整理之后的得分数据x1，x2，x3，…，x10满足＜xi(2≤i≤10)，按照规则，要去掉一个最低分和一个最高分，然后再取平均分为该运动员的最终得分，则处理后的数据与原数据相比(　　)
A. 极差变小 B. 中位数不变
C. 平均数变高 D. 第75百分位数变小
【解析】已知比赛数据满足＜xi(2≤i≤10)，则原数据从小到大排序为x1，x2，x3，…，x10，处理后数据从小到大排序为x2，x3，x4，…，x9.原数据极差：x10－x1，处理后数据极差：x9－x2，∵＜xi(2≤i≤10)，∴x10－x1＞x9－x2，A正确；原数据共10个，中位数为第5个和第6个的平均值，即，处理后数据共8个，中位数为第4个和第5个的平均值，即，∴中位数不变，B正确；原数据平均数：，处理后数据平均数：，平均数变化情况取决于与之间的大小关系，故不能确定变化情况，C错误；原数据共10个，第75百分位数是第8个，即x8，处理后数据共8个，第75百分位数是第6个数据与第7个数据的平均数，即，∵x8＞x7，∴x8＞，第75百分位数变小，D正确.
ABD
16.(2025·湖北孝感模拟)某市为提高市民对文明城市创建的认识，举办了“创建文明城市”知识竞赛，从所有答卷中随机抽取100份作为样本，将样本的成绩(满分100分，成绩均为不低于40分的整数)分成六组：[40，50)，[50，60)，…，[90，100]得到如图所示的频率分布直方图.
(1)求频率分布直方图中a的值；
解：(1)∵每组小矩形的面积之和为1，∴(0.005＋0.010＋0.020＋a＋0.025＋0.010)×10=1，∴a=0.030.
(2)求样本成绩的第75百分位数；
(2)成绩落在[40，80)内的频率为(0.005＋0.010＋0.020＋0.030)×10=0.65，落在[40，90)内的频率为(0.005＋0.010＋0.020＋0.030＋0.025)×10=0.9，设第75百分位数为m，由0.65＋(m－80)×0.025=0.75，得m=84，故第75百分位数为84.
(3)已知落在[50，60)的平均成绩是56，方差是7，落在[60，70)的平均成绩是65，方差是4，求这两组成绩的总平均数和总方差s2.
(3)由频率分布直方图知，成绩在[50，60)的市民人数为100×0.1=10，成绩在[60，70)的市民人数为100×0.2=20，∴=62；
由样本方差计算总体方差公式，得总方差为s2=×{10×[7＋(56－62)2]＋20×[4＋(65－62)2]}=23.(共16张PPT)
第九章单元小卷
1.(2025·温州三模)为了研究某种商品的广告投入x和收益y之间的相关关系，某研究小组收集了5组样本数据如表所示，得到线性回归方程为 = x＋0.28，则当广告投入为10万元时，收益的预测值为(　　)
A. 2.48 B. 2.58 C. 2.68 D. 2.88
【解析】由=3，=1，可得数据的样本中心点为(3，1)，代入回归方程1=3 ＋0.28，解得 =0.24，∴当x=10时，y=0.24×10＋0.28=2.68.
x/万元 1 2 3 4 5
y/万元 0.50 0.80 1.00 1.20 1.50
C
2.(2025·温州二模)某班级有30名男生和20名女生，现调查学生周末在家学习时长(单位：小时)，得到男生样本数据的平均值为8，方差为2，女生样本数据的平均值为10.5，方差为0.75，则该班级全体学生周末在家学习时长的平均值和方差s2的值分别是(　　)
A. 9.5，1.5 B. 9，1.5
C. 9.5，3 D. 9，3
【解析】 ×8=9，s2=×[2＋(9－8)2]×[0.75＋(9－10.5)2]=3.
D
3.2025年全民健身运动的主题“奋进新征程，运动促健康”，为了满足大众健身需求，某健身房近几年陆续购买了几台A型跑步机，该型号跑步机已投入使用的时间x(单位：年)与当年所需要支出的维修费用y(单位：千元)的关系如下图所示：
根据表中的数据可得到线性回归方程为y=1.23x，则(　　)
A. y与x的样本相关系数r＜0
B. =0.08
C. 表中维修费用的第60百分位数为6.5
D. 该A型跑步机已投入使用的时间为10年时，当年所需要支出的维修费用一定是12.38
万元
x 2 3 4 5 6
y 2.2 3.8 5.5 6.5 7
B
【解析】由y=1.23x＋，得y与x成正相关，样本相关系数r＞0，A错误；=4，=5，则 =5－1.23×4=0.08，B正确；5×60%=3，∴第60百分位数为=6，C错误；由B知，y=1.23x＋0.08，当x=10时，y=12.38，则当年所需要支出的维修费用约为12.38万元，D错误.
4.(2025·武汉华中师大附中模拟)一组数据按从小到大的顺序排列为1，4，4，x，7，8(其中x≠7)，若该组数据的中位数是众数的倍，则该组数据的方差和60%分位数分别是
(　　)
A. ，5 B. 5，5
C. ，6 D. 5，6
【解析】由题意知，中位数为，众数为4，则=4×，解得x=6，∴该组数据的平均数×(1＋4＋4＋6＋7＋8)=5，该组数据的方差s2=×[(1－5)2＋(4－5)2＋(4－5)2＋(6－5)2＋(7－5)2＋(8－5)2]=.∵6×60%=3.6，∴该组数据的60%分位数是6.
C
5. 某品牌饮料正在进行有奖促销活动，一盒5瓶装的饮料中有2瓶有奖，消费者从中随机取出2瓶，记X为其中有奖的瓶数，则E(X)等于(　　)
A. B. C. D. 1
【解析】依题意，X的可能值为0，1，2，则P(X=0)=，P(X=1)=，P(X=2)=，
∴E(X)=0×1×2×.
C
6.(多选)(2025·广东广州一模)一组样本数据(xi，yi)，i∈{1，2，3，…，100}.其中xi＞1 895，xi=2×105，yi=970，求得其经验回归方程为： =－0.02x＋ 1，残差为 i.对样本数据进行处理：x'i=ln(xi－1 895)，得到新的数据(x'i，yi)，求得其经验回归方程为：
=－0.42x＋ 2，其残差为 i. i， i分布如图所示，且 ~N(0，)， ~N(0，)，则下列说法中，正确的有(　　)
ABD
A. 样本(xi，yi)负相关
B. 1=49.7
C.
D. 处理后的决定系数变大
【解析】由经验回归方程 =－0.02x＋ 1单调递减，可知样本(xi，yi)负相关，A正确；由题意样本均值分别为=2×103，=9.7，由样本中心在经验回归直线上，代入回归直线解得 1=49.7，B正确；由图1的数据波动较大可得 i比 i更集中，∴，C错误；由图1的残差平方和较图2的残差平方和大可知，处理后拟合效果更好，决定系数变大，D正确.
7.(2025·广东梅州一模)若样本数据xi(i=1，2，…，5)的平均数为4，(i=1，2，…，5)的平均数为22，则样本数据2x1＋1，2x2＋1，…，2x5＋1，9的方差为　　.
【解析】由样本数据x1，x2，x3，x4，x5的平均数为4，得x1，x2，x3，x4，x5，4的平均数为4，由的平均数为22，得=5×22=110，则，42的平均数为=21，∴x1，x2，x3，x4，x5，4的方差为21－42=5，
∴2x1＋1，2x2＋1，…，2x5＋1，9的方差为4×5=20.
20
8.(2025·安徽淮南开学考试)针对“中学生追星问题”，某校团委对“学生性别和中学生追星是否有关”作了一次调查，其中女生人数是男生人数的，男生追星的人数占男生人数的，女生追星的人数占女生人数的，若根据α=0.05的独立性检验，认为中学生追星与性别有关，则男生至少有　　人.
附： χ2=，其中n=a＋b＋c＋d，P(χ2≥3.841)≈0.05.
30
【解析】设男生人数为x，由题意得列联表如下；
根据α=0.05 的独立性检验，认为中学生追星与性别有关，计算 χ2=x≥3.841，解得x≥≈26，又x=6k，k∈N，k≥1，
∴ xmin=30，∴男生至少有30人.
喜欢追星不喜欢追星合计
男生 x x x
女生 x x x
合计 x x x
9.统计显示，我国在线直播生活购物用户规模近几年保持高速增长态势，下表为2020—2024年我国在线直播生活购物用户规模(单位：亿人)，其中2020—2024年对应的代码依次为1—5.
参考数据：≈5.16，≈1.68，viyi≈45.10，其中vi=，对于一组数据(v1，y1)，(v2，
y2)，…，(vn，yn)，其经验回归直线v的斜率和截距的最小二乘估计公式分别为
=≈1.83.
年份代码x 1 2 3 4 5
市场规模y 3.98 4.56 5.04 5.86 6.36
由上表数据可知，若用函数模型拟合y与x的关系，请估计2028年我国在线直播生活购物用户的规模(结果精确到0.01).
解：设v=，则 = v＋，∵y≈5.16，v≈1.68，xi=15，
∴ =≈≈1.98，∴y与x的拟合函数关系式为y=1.981.83，当x=9时，y=1.98×3＋1.83=7.77，则估计2028年我国在线直播生活购物用户的规模为7.77亿人.
10.(2025·山东临沂二模节选)体育是培养学生高尚人格的重要途径之一.足球作为一项团队运动项目，深受学生喜爱，为了解学生喜爱足球运动是否与性别有关，随机抽取了100名学生作为样本，统计得到如下的列联表：
已知从这100名学生中随机抽取1个，抽到喜爱足球运动的学生的概率为.
(1)求a，b；
(2)根据小概率值α=0.001的独立性检验，判断学生喜爱足球运动是否与性别有关？
附：χ2=，
喜爱足球运动不喜爱足球运动合计
男生 40 a
女生 b 25
合计 100
α 0.01 0.05 0.001
xα 6.635 7.879 10.828
解：(1)∵从这100名学生样本中随机抽取1个，抽到喜爱足球运动的学生的概率为，∴b=100×－40=20，a=100－40－25－b=15；
(2)零假设H0：喜爱足球运动与性别无关.
作出列联表如下：
由题χ2=≈8.249＜10.828，根据小概率值α=0.001的独立性检验，我们推断H0成立，也就是说没有99.9%的把握认为喜爱足球运动与性别有关.
喜爱足球运动不喜爱足球运动合计
男生 40 15 55
女生 20 25 45
合计 60 40 100

展开更多......

收起↑

请用微信扫码

第九章 统计与成对数据的统计分析 课件（共4份PPT打包）2027版高三数学一轮复习

第九章 统计与成对数据的统计分析 课件（共4份PPT打包）2027版高三数学一轮复习

第九章统计与成对数据的统计分析课件（共4份PPT打包）2027版高三数学一轮复习

第九章统计与成对数据的统计分析课件（共4份PPT打包）2027版高三数学一轮复习