20026届高考数学【提高版】 第九章 统计与成对数据的统计分析 课件(4份打包)

资源下载
  1. 二一教育资源

20026届高考数学【提高版】 第九章 统计与成对数据的统计分析 课件(4份打包)

资源简介

(共82张PPT)
第九章
§9.1 随机抽样、统计图表
数学





1.了解获取数据的基本途径.
2.会用简单随机抽样的方法从总体中抽取样本,了解分层随机抽样.
3.能根据实际问题的特点选择恰当的统计图表,体会使用统计图表的重要性.
课标要求
课时精练
内容索引
第一部分 落实主干知识
第二部分 探究核心题型
落实主干知识
第一部分
1.总体、个体、样本
调查对象的全体(或调查对象的某些指标的全体)称为 ,组成总体的每一个调查对象(或每一个调查对象的相应指标)称为 ,在抽样调查中,从总体中抽取的那部分个体称为 ,样本中包含的个体数称
为 ,简称样本量.
2.简单随机抽样
和 是比较常用的两种方法.
总体
个体
样本
样本容量
抽签法
随机数法
3.分层随机抽样
一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为
,每一个子总体称为 .
4.统计图表
(1)常见的统计图表有 、 、 、_______________等.
分层随机抽样

条形图
扇形图
折线图
频率分布直方图
(2)作频率分布直方图的步骤
①求 ;
②决定 与 ;
③将数据 ;
④列频率分布表;
⑤画频率分布直方图.
极差
组距
组数
分组
1.判断下列结论是否正确.(请在括号中打“√”或“×”)
(1)在简单随机抽样中,每个个体被抽到的机会与先后顺序有关.(  )
(2)抽签法和随机数法都是简单随机抽样.(  )
(3)在按比例分配的分层随机抽样中,每个个体被抽到的可能性与层数及分层有关.(  )
(4)在频率分布直方图中,小长方形的面积越大,表示样本数据落在该区间的频率越大.(  )
×

×

2.从某年级500名学生中抽取60名学生进行体重的统计分析,就这个问题来说,下列说法不正确的是
A.该年级500名学生的体重是总体
B.该年级每名学生的体重是个体
C.抽取的60名学生的体重是一个样本
D.抽取的60名学生的体重是样本容量

由题可知,从某年级500名学生中抽取60名学生进行体重的统计分析,其中总体是该年级500名学生的体重,个体是该年级每名学生的体重,
样本是抽取的60名学生的体重,样本容量是60,故只有D不正确.
3.“中国天眼”为500米口径球面射电望远镜,是具有我国自主知识产权、世界最大、最灵敏的单口径射电望远镜.建造“中国天眼”的目的是
A.通过调查获取数据 B.通过试验获取数据
C.通过观察获取数据 D.通过查询获取数据
“中国天眼”主要是通过观察获取数据.

4.从某校随机抽取某次数学考试100分以上(含100分,满分150分)的学生成绩,将他们的分数绘制成如图所示的频率分布直方图.若共抽取了100名学生的成绩,则分数在[120,130)内的人数为   .
因为频率分布直方图中所有的小矩形面积和为1,所以(0.005+0.035+a+0.020+0.010)×10=1,解得a=0.030,所以分数在[120,130)内的人数为100×0.030×10=30.
30
1.利用按比例分配的分层随机抽样要注意按比例抽取,若各层应抽取的个体数不都是整数,可以进行一定的技术处理,比如将结果取成整数等.
2.频率分布直方图中纵轴上的数据是各组的频率除以组距,不要和条形图混淆.
返回
微点提醒
探究核心题型
第二部分
例1 (1)现要用随机数法从总体容量为240(编号为001到240)的研究对象中挑选出50个样本,则在下列数表中按从左至右的方式抽取到的第四个对象的编号为
32451 74491 14562 16510 02456 89640
56816 55464 41630 85621 05214 84513
12541 02145
A.5 B.44 C.165 D.210

抽样方法
题型一
由随机数表抽样方法可知,以3个数字为单位抽取数字,数字不能大于240,且要去掉重复数字,据此第一个数字为114,第二个为165,第三个为100,第4个为210.
(2)为了调研某工业新区的空气质量状况,某课题组对甲、乙、丙3地的空气质量进行调查,按地域特点分别在三地设置空气质量观测点.已知甲、乙、丙三地区内观测点的个数分别为20,y,z,且依次构成等差数列,而20,y-10,z成等比数列,若用按比例分配的分层随机抽样的方法抽取30个观测点,则丙地应抽取观测点的个数为
A.18 B.16 C.10 D.4

依题意知,解得
所以丙地应抽取观测点的个数为×80=16.
(1)简单随机抽样需满足:①被抽取的样本总体的个体数有限;②等可能抽取.
(2)在按比例分配的分层随机抽样中,抽样比=.
思维升华
跟踪训练1 (1)下列抽样方法是简单随机抽样的是
A.某医院从200名医生中,挑选出50名最优秀的医生去参加培训
B.从10部手机中逐个不放回地随机抽取2部进行质量检验
C.从空间直角坐标系中抽取10个点作为样本
D.饮料公司从仓库中的500箱饮料中一次性抽取前10箱进行质量检查

A选项中,挑选出50名最优秀的医生去参加培训,每个人被抽到的概率不相等,故A错误;
B选项中,从10部手机中逐个不放回地随机抽取2部进行质量检验,是简单随机抽样,故B正确;
C选项中,由于被抽取的样本总体的个数是无限的,所以不是简单随机抽样,故C错误;
D选项中,一次性抽取前10箱,每箱被抽到的概率不相等,所以不是简单随机抽样,故D错误.
(2)(2024·驻马店模拟)某电影上映引发了电信诈骗问题的热议,也加大了各个社区反电信诈骗的宣传力度.已知某社区共有居民480人,其中老年人200人,中年人200人,青少年80人,若按年龄进行按比例分配的分层随机抽样,共抽取36人作为代表,则中年人比青少年多
A.6人 B.9人 C.12人 D.15人

设中年人抽取x人,青少年抽取y人,由按比例分配的分层随机抽样可知,,解得x=15,y=6,故中年人比青少年多9人.
例2 (1)(多选)根据不同年龄段学生身心发展特点,小学生每天睡眠时间应达到10小时,初中生应达到9小时,高中生应达到8小时.某机构调查了1万名学生睡眠及学习的时间,利用信息得出如图所示的折线图,则以下判断错误的有
A.高三年级学生平均学习时间最长
B.中小学生的平均睡眠时间都没有达到标准,其
中高中生平均睡眠时间最接近标准
C.大多数年龄段学生平均睡眠时间长于学习时间
D.与高中生相比,大学生平均学习时间大幅下降,
释放出的时间基本是在睡眠
统计图表
题型二


根据图象可知,高三年级学生平均学习时
间没有高二年级学生平均学习时间长,故
A错误;
根据图象可知,中小学生的平均睡眠时间
都没有达到标准,其中高中生平均睡眠时
间最接近标准,故B正确;
根据图象可知,学习时间长于睡眠时间的有初二、初三、高一、高二、
高三,占比为,睡眠时间长于学习时间的占比为,所以大多数年龄
段学生平均睡眠时间长于学习时间,故C正确;
从高三到大学一年级,学习时间减少了9.65-5.71=3.94(小时/天),睡眠时间增加了8.52-7.91=0.61(小时/天),故D错误.
(2)(多选)如图为某市2024年第二季度全市居民人均消费支出构成图.已知城镇居民人均消费支出7 924元,与上一年同比增长4.4%;农村居民人均消费支出4 388元,与上一年同比增长7.8%,则关于2024年第二季度该市居民人均消费支出,下列说法正确的是
A.2024年第二季度该市居民人均消费支出6 393元
B.居住及食品烟酒两项的人均消费支出总和超过
了总人均消费支出的50%
C.城乡居民人均消费支出的差额与上一年同比在
缩小
D.医疗保健与教育文化娱乐两项人均消费支出总和约占总人均消费支出的20.6%



2024年第二季度全市居民人均消费支出为
2 084+453+1 435+356+791+583+528
+163=6 393(元),故A正确;
易知居住及食品烟酒两项的人均消费支出
总和为2 084+1 435=3 519(元),占总人均消费支出的×100%≈
55.0%>50%,故B正确;
依题意可得2023年第二季度城乡居民
人均消费支出的差额为≈
3 520(元),2024年第二季度城乡居民
人均消费支出的差额为7 924-4 388
=3 536(元),由于3 520<3 536,故C错误;
医疗保健与教育文化娱乐两项人均消费支出总和占总人均消费支出的
×100%≈20.6%,故D正确.
统计图表的主要应用
(1)扇形图:直观描述各类数据占总数的比例.
(2)折线图:描述数据随时间的变化趋势.
(3)条形图和直方图:直观描述不同类别或分组数据的频数和频率.
思维升华
跟踪训练2 (1)(多选)(2025·商洛模拟)如图,是某款新能源汽车在速度、稳定性、安全性、易用性、续航能力这五个方面的综合评分的雷达图,则下列结论正确的是
A.这款新能源汽车在速度方面的综合评分高于稳定
性方面的综合评分
B.这款新能源汽车在稳定性和续航能力这两方面的
综合评分相等
C.这款新能源汽车在安全性方面的综合评分最低
D.这款新能源汽车在速度方面的综合评分高于易用性方面的综合评分



由雷达图可知,这款新能源汽车在速度方面的综合评分在(8,10)内,在稳定性和续航能力这两方面的综合评分都是8分,在安全性方面的综合评分在(6,8)内,在易用性方面的综合评分是10分,故A,B,C正确,D错误.
A.从折线图能看出世界人口的变化情况
B.2050年非洲人口大约将达到13亿
C.2050年亚洲人口比其他各洲人口的总和还要多
D.从1957年到2050年各洲中北美洲人口增长速度最慢
(2)(多选)给出如图所示的三幅统计图,则下列命题中正确的有


对于A,从折线图能看出世界人口的变化情况,所以是正确的;
对于B,从条形图中可得到,2050年非洲人口将达到大约18亿,所以是错误的;
对于C,从扇形图中能够明显的得到结论,2050年亚洲人口比其他各洲人口的总和还要多,所以是正确的;
对于D,由上述三幅统计图并不能得出从1957年到2050年中哪个洲人口增长速度最慢,所以是错误的.
例3 某中学随机抽取50名学生进行体能测试,其得分(满分100分)如下(单位:分):
48 64 52 86 71 48 64 41 86 79
71 68 82 84 68 64 62 68 81 57
90 52 74 73 56 78 47 66 55 64
56 88 69 40 73 97 68 56 67 59
70 52 79 44 55 69 62 58 32 58
根据上面的数据,回答下列问题:
(1)这次测试成绩的最高分和最低分分别是多少?
频率分布直方图
题型三
这次测试成绩的最低分是32分,最高分是97分.
(2)将区间[30,100]平均分成7个小区间,试列出这50名学生体能测试成绩的频率分布表,进而画出频率分布直方图和频率分布折线图.
分组 频数 频率
[30,40) 1 0.02
[40,50) 6 0.12
[50,60) 12 0.24
[60,70) 14 0.28
[70,80) 9 0.18
[80,90) 6 0.12
[90,100] 2 0.04
合计 50 1.00
根据题意,列出样本的频率分布表如下:
频率分布直方图和频率分布折线图如图所示.
频率分布直方图的相关结论
(1)频率分布直方图中各小长方形的面积之和为1.
(2)频率分布直方图中纵轴表示,每组样本的频率为组距×,
即小长方形的面积.
(3)频率分布直方图中每组样本的频数为频率×总数.
思维升华
跟踪训练3 某校为了解学生学习的效果,进行了一次摸底考试,从中选取60名学生的成绩,分成[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]六组后,得到不完整的频率分布直方图如图所示,观察图形,回答下列问题:
(1)求分数在区间[70,80)内的频率,
并补全这个频率分布直方图;
设分数在[70,80)内的频率为x,
根据频率分布直方图,
可得(0.01+0.015+0.02+0.025+0.005)×10+x=1,解得x=0.25,
所以分数在[70,80)内的频率为0.25,
补全这个频率分布直方图,如图所示.
(2)根据评奖规则,排名在前10%的学生可以获奖,请你估计获奖的学生至少需要多少分?
因为分数在区间[80,90)内的频率为0.25,
在区间[90,100]内的频率为0.05,
而0.05<10%<0.25+0.05,
设排名前10%的分界点为90-a,
则0.025a+0.005×10=10%,解得a=2,
所以排名前10%的分界点约为88分,即获奖的学生至少需要88分.
返回
课时精练
对一对
答案
1
2
3
4
5
6
7
8
9
10
11
12
13
14
题号 1 2 3 4 5 6 7 8
答案 A B D B C D ABD BC
题号 9 10 13 14 15 16
答案 17 (1)36 (2)60 14 C B A B
15
16
答案
1
2
3
4
5
6
7
8
9
10
11
12
13
14
(1)由统计图表可知,当3≤n<5时,“一般”档次占比26%,对应的学生
人数为6+7=13,故学生总人数为=50.
(2)由统计图表可知,当5≤n<8时,“良好”档次占比60%,即50×60%=12+x+7,解得x=11,又总人数为50,故y=50-(1+2+6+7+12+11+7+1)=3,即x=11,y=3.
(3)由统计图表可知,“优秀”档次占比为=8%,故该校九年级400名
学生中为“优秀”档次的人数约为400×8%=32.
11.
15
16
答案
1
2
3
4
5
6
7
8
9
10
11
12
13
14
(1)依题可知,患病者该指标的频率分布直方图中第一个小矩形的面积为5×0.002=0.01=1%>0.5%,所以95所以(c-95)×0.002=0.5%,解得c=97.5,
q(c)=0.01×(100-97.5)+5×0.002=0.035=3.5%.
(2)当c∈[95,100)时,
f(c)=p(c)+q(c)=(c-95)×0.002+(100-c)×0.01+5×0.002
=-0.008c+0.82>0.02;
12.
15
16
答案
1
2
3
4
5
6
7
8
9
10
11
12
13
14
当c∈[100,105]时,
f(c)=p(c)+q(c)=5×0.002+(c-100)×0.012+(105-c)×0.002=0.01c-0.98≥0.02,
故f(c)=
所以f(c)在区间[95,105]的最小值为0.02.
12.
15
16
一、单项选择题
1.在“世界读书日”前夕,为了了解某地5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是
A.总体 B.个体
C.样本容量 D.从总体中抽取的一个样本

1
2
3
4
5
6
7
8
9
10
11
12
13
14
知识过关
答案
样本容量是200,抽取的200名居民的阅读时间是一个样本,每个居民的阅读时间就是一个个体,5 000名居民的阅读时间的全体是总体.
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
2.下列问题中,最适合用分层随机抽样抽取样本的是
A.从10名同学中抽取3人参加座谈会
B.红星中学共有学生1 600名,其中男生840名,防疫站对此校学生进行身
体健康调查,抽取一个容量为200的样本
C.从1 000名工人中抽取100人调查上班途中所用的时间
D.从生产流水线上抽取样本检查产品质量

15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
A中总体所含个体无差异且个数较少,适合用简单随机抽样;
C和D中总体所含个体无差异且个数较多,不适合用分层随机抽样;
B中总体所含个体差异明显,适合用分层随机抽样.
15
16
3.把过期的药品随意丢弃,会对土壤和水体造成污染,危害人们的健康.如何处理过期药品,有关机构随机对若干家庭进行调查,调查结果如图所示,其中对过期药品处理不正确的家庭有
A.79% B.80%
C.18% D.82%

1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
把过期药品扔到垃圾箱、拆开冲进下水道会污染土壤和水体,卖给不法收购者再制成药品也会危害人的健康,故处理不正确的家庭为79%+2%+1%=82%.
15
16
4.为了解某校今年报考飞行员的学生的体重情况.将所得的数据整理后,作出了频率分布直方图(如图).已知图中从左到右的前3个小组的频率之比为1∶2∶3,第1小组的频数为4,则某校报考
飞行员的学生总人数是
A.40 B.32
C.28 D.24

1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
由图可知后两个组频率为(0.013+0.037)×5=0.25,又因为从左到右的前3个小组的频率之比为1∶2∶3,所以第1小组的频率为(1-0.25)×=0.125,又因为第1小组的频
数为4,所以报考飞行员的学生人数是4÷0.125=32.
15
16
5.已知全国农产品批发价格200指数月度变化情况如图所示,下列选项正确的是
A.全国农产品夏季价格比冬季低
B.全国农产品批发价格200指数2023年
每个月逐渐增加
C.2023年“菜篮子”产品批发价格指数
与农产品批发价格200指数的变化趋势
基本保持一致
D.2023年6月农产品批发价格200指数大于116

1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
图中给的是批发价格200指数,所以并不
能确定农产品的价格变化,故A错误;
全国农产品批发价格200指数2023年4~6月
呈下降趋势,并未增加,故B错误;
根据图中曲线的变化趋势可发现2023年
“菜篮子”产品批发价格指数与农产品
批发价格200指数的变化趋势基本保持一致,故C正确;
2023年6月农产品批发价格200指数在115附近,故D错误.
15
16
6.(2024·成都模拟)“数九”从每年“冬至”当天开始计算,每九天为一个单位,冬至后的第81天,“数九”结束,天气就变得温暖起来.如图,以温江国家基准气候站为代表记录了2023~2024年从“一九”到“九九”成都市的“平均气温”和“多年平均气温”(单位:℃),下列说法正确的是
A.“四九”以后成都市“平均气温”一直上升
B.“四九”成都市“平均气温”较“多年平均气温”
低0.1 ℃
C.“一九”到“五九”成都市“平均气温”的方差小
于“多年平均气温”的方差
D.“一九”到“九九”成都市“平均气温”的极差小
于“多年平均气温”的极差

1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
“八九”“九九”的平均气温比“七九”的“平均气温”低,故A错误;
“四九”成都市“平均气温”较“多年平均气温”高0.1 ℃,故B错误;
由图表可知,“一九”到“五九”成都市“平均气温”的波动比“多年平均气温”的
波动大,所以“一九”到“五九”成都市“平均气温”的方差大于“多年平均气温”的方差,故C错误;
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
“一九”到“九九”成都市“平均气温”的极差为10.6-5.4=5.2,“多年平均气温”的极差为10.7-5.3=5.4,则“一九”到“九九”成都市“平均气温”的极差小于“多年平均气温”的极差,故D正确.
15
16
二、多项选择题
7.某高中高一学生从物化生政史地六科中选三科组合,其中选物化生组合的学生有600人,选物化地组合的学生有400人,选政史地组合的学生有250人,其他组合均无人选.现从高一学生中选取25人作样本调研情况.为保证调研结果相对准确,下列判断正确的是
A.用按比例分配的分层随机抽样的方法抽取物化生组合的学生为12人
B.用按比例分配的分层随机抽样的方法抽取政史地组合的学生为5人
C.物化生组合学生小张被选中的概率比物化地组合学生小王被选中的概率大
D.政史地组合学生小刘被选中的概率为
1
2
3
4
5
6
7
8
9
10
11
12
13
14

答案


15
16
用按比例分配的分层随机抽样的方法抽取物化生组合的学生为
25×=12(人),故A正确;
用按比例分配的分层随机抽样的方法抽取政史地组合的学生为
25×=5(人),故B正确;
根据按比例分配的分层随机抽样的特征知,每名学生被选中的概率相等,
均为,故C错误,D正确.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
15
16
8.某校为了更好地支持学生个性发展,开设了学科拓展类、科技创新类、体艺特长类三种类型的校本课程,每个学生从中选择一门课程学习.现对该校5 000名学生的选课情况进行了统计,如图1,并用按比例分配的分层随机抽样的方法从中抽取2%的学生对所选课程进行了满意率调查,如图2.则下列说法正确的是
A.满意率调查中抽取的样本容量为5 000
B.该校学生中选择学科拓展类课程的人
数为1 250
C.该校学生中对体艺特长类课程满意的
人数约为875
D.若抽取的学生中对科技创新类课程满意的人数为30,则a=70

1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案

15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
满意率调查中抽取的样本容量为
5 000×2%=100,A错误;
由扇形图知1-35%-40%=25%,则5 000×25%=1 250(人),B正确;
该校学生中对体艺特长类课程满意
的人数约为5 000×35%×50%=875,C正确;
若抽取的学生中对科技创新类课程满意的人数为30,则100×40%×a%=30,则a=75,D错误.
15
16
三、填空题
9.一个总体的60个个体编号为00,01,…,59,现需从中抽取一个容量为6的样本,请从下面给出的随机数表的第1行第10列开始向右读取,直到取足样本,则抽取的第五个样本的号码是   .
95 33 95 22 00 18 74 72 00 18 38 79 58 69 32 81 76 80 26 92 82 80 84 25 39
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
17
依题意,抽取的前5个样本的号码依次是01,47,20,28,17,所以抽取的第五个样本的号码是17.
15
16
10.在结束了380课时初中阶段数学内容的教学后,唐老师根据数学内容所占课时比例,绘制如图所示的统计图表(图1~图3),请根据图表提供的信息,回答下列问题:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
(1)图1中“统计与概率”所在扇形的圆心角为  度;
36
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
由扇形图可知“统计与概率”所在扇形的圆心角为(1-45%-5%-40%)×360°=36°.
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
(2)图2,3中的a=  ,b=  .
60
14
由图1和图2可知a=380×45%-67-44=60,由图3知b=60-18-13-12-3=14.
15
16
四、解答题
11.某校为了解九年级学生近两个月“推荐书目”的阅读情况,随机抽取了该年级的部分学生,调查了他们每人“推荐书目”的阅读本数,设每名学生的阅读本数为n,并按以下规定分为四档:当n<3时,为“偏少”;当3≤n<5时,为“一般”;当5≤n<8时,为“良好”;当n≥8时,为“优秀”,现将调查结果统计后绘制成不完整的统计图表:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
阅读本数n/本 1 2 3 4 5 6 7 8 9
人数/名 1 2 6 7 12 x 7 y 1
请根据以上信息回答下列问题:
(1)求出本次随机抽取的学生总人数;
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
由统计图表可知,当3≤n<5时,“一般”档次占比26%,对应的学生人数为6+7=13,故学生总人数为=50.
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
阅读本数n/本 1 2 3 4 5 6 7 8 9
人数/名 1 2 6 7 12 x 7 y 1
(2)分别求出统计表中的x,y的值;
由统计图表可知,当5≤n<8时,“良好”档次占比60%,即50×60%=12+x+7,解得x=11,又总人数为50,故y=50-(1+2+6+7+12+11+7+1)=3,即x=11,y=3.
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
阅读本数n/本 1 2 3 4 5 6 7 8 9
人数/名 1 2 6 7 12 x 7 y 1
(3)估计该校九年级400名学生中为“优秀”档次的人数.
由统计图表可知,“优秀”档次占比为=8%,故该校九年级400名学生中为“优秀”档次的人数约为400×8%=32.
15
16
12.(2023·新高考全国Ⅱ)某研究小组经过研究发现某种疾病的患病者与未患病者的某项医学指标有明显差异,经过大量调查,得到如图的患病者和未患病者该指标的频率分布直方图:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
利用该指标制定一个检测标准,需要确定临界值c,将该指标大于c的人判定为阳性,小于或等于c的人判定为阴性.此检测标准的漏诊率是将患病者判定为阴性的概率,记为p(c);误诊率是将未患病者判定为阳性的概率,记为q(c).假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
(1)当漏诊率p(c)=0.5%时,求临界值c和误诊率q(c);
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
依题可知,患病者该指标的频率分布直方图中第一个小矩形的面积为5×0.002=0.01=1%>0.5%,所以95所以(c-95)×0.002=0.5%,解得c=97.5,
q(c)=0.01×(100-97.5)+5×0.002=0.035=3.5%.
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
(2)设函数f(c)=p(c)+q(c),当c∈[95,105]时,求f(c)的解析式,并求f(c)在区间[95,105]的最小值.
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
当c∈[95,100)时,
f(c)=p(c)+q(c)=(c-95)×0.002+(100-c)×0.01
+5×0.002=-0.008c+0.82>0.02;
当c∈[100,105]时,
f(c)=p(c)+q(c)=5×0.002+(c-100)×0.012+(105
-c)×0.002=0.01c-0.98≥0.02,
故f(c)=
所以f(c)在区间[95,105]的最小值为0.02.
15
16
13.如图为近一年我国商品零售总额和餐饮收入总额同比增速情况折线图,根据该图,下列结论正确的是
(注:同比,指当前的数据与上一年同期进行比对;环比,指当前数据与上个月的数据进行比对)
A.2024年1~2月份,商品零售总额同比增长9.2%
B.2023年3~12月份,餐饮收入总额同比都降低
C.2023年6~10月份,商品零售总额同比都增加
D.2023年12月,餐饮收入总额环比增速为-14.1%
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案

能力拓展
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
2024年1~2月份,商品零售总额同比增长2.9%,故A错误;
2023年8月份,餐饮收入总额同比增加,故B错误;
2023年6~10月份,商品零售总额同比都增
加,故C正确;
2023年12月,餐饮收入总额环比增速并未告知,故D错误.
15
16
14.二战期间,为估计德军坦克的月生产能力,盟军请统计学家参与情报的收集和分析工作,统计学家从缴获的德军坦克中,随机抽取某月生产的坦克编号作为样本来估计坦克月生产量.抽取的坦克编号从小到大依次为x1,x2,…,xn,假设坦克的月生产量为N(N>xn),xi(i=1,2,…,n)将区间(0,N]分成(n+1)个小区间:(0,x1],(x1,x2],…,(xn-1,xn],(xn,N],统计学家利用前n个区间的平均长度来估计所有(n+1)个区间的平均长度,进而得到N的估计值.若抽取的某月生产的坦克编号为2,13,41,75,107,118,159,194,206,230,则N的估计值为
A.236 B.253 C.360 D.420
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案

15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
因为统计学家利用前n个区间的平均长度来估计所有(n+1)个区间的平均长度,已知某月生产的坦克编号为2,13,41,75,107,118,159,194,206,230,所以n=10,x10=230,此时,解得N=253.
15
16
15.每到春夏交替时节,雌性杨树会以满天飞絮的方式来传播下一代,漫天飞舞的杨絮易引发皮肤病、呼吸道疾病等,给人们造成困扰.为了解市民对治理杨絮方法的赞同情况,某课题小组随机调查了部分市民(问卷调查表如下表所示),并根据调查结果绘制了尚不完整的统计图(如图所示).
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
治理杨絮——您选哪一项?(单选)
a.减少杨树新增面积,控制杨树每年的栽种量
b.调整树种结构,逐渐更换现有杨树
c.选育无絮杨品种,并推广种植
d.对雌性杨树注射生物干扰素,避免产生飞絮
e.其他
由两个统计图可知,选择d的人数和扇形图中e的圆心角分别为
A.500,28.8° B.250,28.6°
C.500,28.6° D.250,28.8°

15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
设接受调查市民的总人数为x,
由调查结果条形图可知选择a的人数为300,
通过调查结果的扇形图可知选择a的人数比
例为15%=,解得x=2 000.
∴选择d的人数为2 000×25%=500,
∴扇形图中e的圆心角为(1-15%-12%-40%-25%)×360°=28.8°.
15
16
用该样本估计总体,以下四个说法错误的是
A.44~56周岁人群理财人数最多
B.18~30周岁人群理财总费用最少
C.B理财产品更受理财人青睐
D.年龄越大的年龄段的人均理财费用越高
16.某银行为客户定制了A,B,C,D,E共5个理财产品,并对5个理财产品的持有客户进行抽样调查,得出如图所示的统计图:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案

15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
15
16
44~56周岁人群理财人数所占比例是37%,是最多的,故A正确;
设总人数为a,则18~30周岁人群的理财总费用约为0.28a×3 500=980a,31~43周岁人群的理财总费用约为0.3a×4 500=1 350a,44~56周岁人群的理财总费用约为0.37a×5 500=2 035a,57周岁及以上人群的理财总费用约为0.05a×6 200=310a,所以57周岁及以上人群的理财总费用最少,故B错误;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
15
16
由条形图可知,B理财产品更受理财人青睐,故C正确;
由折线图知,年龄越大的年龄段的人均理财费用越高,故D正确.
返回(共33张PPT)
第九章
必刷大题18 统计与统计分析
数学





答案
1
2
3
4
(1)该地被调查村的村户年平均收入的估计值为xi=×15=1(万元).
(2)样本相关系数为
r=≈≈0.95.
(3)采用按比例分配的分层随机抽样,理由如下:
1.
答案
1
2
3
4
由(2)知被调查村的村户年平均收入与该村的产业投入资金有很强的正相关性,
由于各被调查村产业资金投入差异很大,因此被调查村的村户年平均收入差异也很大,
所以采用按比例分配的分层随机抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地更准确的验收估计.
1.
答案
1
2
3
4
(1)由(0.005+0.010+0.020+a+0.025+0.010)×10=1,
解得a=0.030.
(2)因为(0.005+0.010+0.020)×10=0.35,
(0.005+0.010+0.020+0.030)×10=0.65,
所以样本数据的第62百分位数在[70,80)内,
可得70+×10=79,
所以样本数据的第62百分位数为79.
2.
答案
1
2
3
4
(3)样本数据落在[50,60)的个数为0.1×100=10,
落在[60,70)的个数为0.2×100=20,
总平均数×52+×64=60,
总方差s2=[6+(52-60)2]+[3+(64-60)2]=36.
2.
答案
1
2
3
4
(1)因为女生样本中,身高在[160,165]范围内的频率为,
故该校高一女生身高在[160,165]范围内的人数估计为100×=40.
(2)记总样本的平均数为,标准差为S,
由题意,设男生样本(20人)的身高平均数为
=169,方差为=39,
女生样本(10人)的身高平均数为=160,方差s2=15,
则=166,
3.
答案
1
2
3
4
S2=[39+(169-166)2]+[15+(160-166)2]
=×48+×51=49,
故μ≈166,σ≈=7.
(3)由=160,s=,则(-2s,+2s),
即(160-2,160+2),
约为(152.2,167.8),由样本数据知,169 (160-2,160+2),为离群值,
3.
答案
1
2
3
4
剔除169后,女生样本(9人)的身高平均数为
'=(160×10-169)=159.
由s2=-10)=-256 000)=15可得,
=256 150,
则剔除169后,女生样本(9人)的身高的方差为
s'2=-1692-9'2)=(256 150-28 561-9×25 281)=.
3.
答案
1
2
3
4
(1)由题中数据可得
=3,
=2.5,
∴(xi-)(yi-)
=(-2)×(-1.3)+(-1)×(-0.7)+0+1×0.7+2×1.3=6.6,
又=10,=4.36,
4.
答案
1
2
3
4
r=≈≈1>0.75.
故月份x与接待游客人数y之间有较强的线性相关关系.
由上可知,=0.66,
∴=2.5-0.66×3=0.52,
4.
答案
1
2
3
4
∴y关于x的经验回归方程为=0.66x+0.52.
(2)依题意,完善表格如下:
零假设为H0:游客对本地景区满意度与报团游或自助游无关联.
根据列联表中的数据,经计算得到χ2==5.625>3.841=x0.05,
4.
报团游 自助游 合计
满意 15 3 18
不满意 5 7 12
合计 20 10 30
答案
1
2
3
4
根据小概率值α=0.05的独立性检验,推断H0不成立,即认为游客对本地景区满意度与报团游或自助游有关联.
4.
1.某地用简单随机抽样的方法抽取15个村进行验收调查,调查得到一组样本数据(xi,yi)(i=1,2,…,15),其中xi和yi分别表示第i个村中村户的年平均收入
(单位:万元)和产业资金投入数量(单位:万元),并计算得到xi=15,yi
=750,=0.82,=1 670,(xi-)(yi-)=35.3.
(1)试估计该地被调查村的村户年平均收入;
1
2
3
4
答案
该地被调查村的村户年平均收入的估计值为xi=×15=1(万元).
(2)根据样本数据,求该地被调查村中村户年平均收入与产业资金投入数量的样本相关系数;(精确到0.01)
1
2
3
4
答案
样本相关系数为
r=≈≈0.95.
(3)根据现有统计资料,各被调查村产业资金投入差异很大.为了准确地进行验收,请给出一种你认为更合理的抽样方法,并说明理由.
1
2
3
4
答案
1
2
3
4
答案
采用按比例分配的分层随机抽样,理由如下:
由(2)知被调查村的村户年平均收入与该村的产业投入资金有很强的正相关性,
由于各被调查村产业资金投入差异很大,因此被调查村的村户年平均收入差异也很大,
所以采用按比例分配的分层随机抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地更准确的验收估计.
1
2
3
4
答案
2.某学校为提高学生对《红楼梦》的了解,举办了“我知红楼”知识竞赛,现从所有答卷卷面成绩中随机抽取100份作为样本,将样本数据(满分100分,成绩均为不低于40分的整数)分成六段:[40,50),[50,60),…,[90,100],并作出如图所示的频率分布
直方图.
(1)求频率分布直方图中a的值;
由(0.005+0.010+0.020+a+0.025+0.010)×10=1,
解得a=0.030.
1
2
3
4
答案
(2)求样本数据的第62百分位数;
因为(0.005+0.010+0.020)×10=0.35,
(0.005+0.010+0.020+0.030)×10=0.65,
所以样本数据的第62百分位数在[70,80)内,
可得70+×10=79,
所以样本数据的第62百分位数为79.
1
2
3
4
答案
(3)已知样本数据落在[50,60)的平均数是52,方差是6;落在[60,70)的平均数是64,方差是3.求这两组数据的总平均数和总方差s2.
样本数据落在[50,60)的个数为0.1×100=10,
落在[60,70)的个数为0.2×100=20,
总平均数×52+×64=60,
总方差s2=[6+(52-60)2]+[3+(64-60)2]=36.
3.某校高一年级有男生200人,女生100人.为了解该校全体高一学生的身高信息,按性别比例进行分层随机抽样,抽取总样本量为30的样本,并观测样本的指标值(单位:cm),计算得男生样本的身高平均数为169,方差为39.下表是抽取的女生样本的数据:
1
2
3
4
答案
抽取次序 1 2 3 4 5 6 7 8 9 10
身高 155 158 156 157 160 161 159 162 169 163
记抽取的第i个女生的身高为xi(i=1,2,3,…,10),样本平均数=160,方差s2=15.
1
2
3
4
答案
抽取次序 1 2 3 4 5 6 7 8 9 10
身高 155 158 156 157 160 161 159 162 169 163
(1)若用女生样本的身高频率分布情况代替该校高一女生总体的身高频率分布情况,试估计该校高一女生身高在[160,165]范围内的人数;
因为女生样本中,身高在[160,165]范围内的频率为,
故该校高一女生身高在[160,165]范围内的人数估计为100×=40.
1
2
3
4
答案
抽取次序 1 2 3 4 5 6 7 8 9 10
身高 155 158 156 157 160 161 159 162 169 163
(2)用总样本的平均数和标准差分别估计该校高一学生总体身高的平均数μ和标准差σ,求μ,σ的值;
1
2
3
4
答案
记总样本的平均数为,标准差为S,
由题意,设男生样本(20人)的身高平均数为
=169,方差为=39,
女生样本(10人)的身高平均数为=160,方差s2=15,
则=166,
S2=[39+(169-166)2]+[15+(160-166)2]=×48+×51=49,
故μ≈166,σ≈=7.
1
2
3
4
答案
抽取次序 1 2 3 4 5 6 7 8 9 10
身高 155 158 156 157 160 161 159 162 169 163
(3)如果女生样本数据在(-2s,+2s)之外的数据称为离群值,试剔除离群值后,计算剩余女生样本身高的平均数与方差.
参考数据:≈3.9,1592=25 281,1692=28 561.
1
2
3
4
答案
由=160,s=,则(-2s,+2s),
即(160-2,160+2),约为(152.2,167.8),
由样本数据知,169 (160-2,160+2),为离群值,
剔除169后,女生样本(9人)的身高平均数为
'=(160×10-169)=159.
由s2=-10)=-256 000)=15可得,
=256 150,
1
2
3
4
答案
则剔除169后,女生样本(9人)的身高的方差为
s'2=-1692-9'2)=(256 150-28 561-9×25 281)=.
4.西藏隆子县玉麦乡位于喜马拉雅山脉南麓,地处边疆,山陡路险,交通闭塞.党的十八大以来,该地区政府部门大力开发旅游等产业,建设幸福家园,实现农旅融合,以创建国家全域旅游示范区为牵引,构建“农业+文创+旅游”发展模式,真正把农村建设成为“望得见山、看得见水、记得住乡愁”的美丽乡村,在新政策的影响下,游客越来越多.当地旅游局统计了玉麦乡景区2023年1月份到5月份的接待游客人数y(单位:万人),统计结果如下:
1
2
3
4
答案
月份x 1 2 3 4 5
接待游客人数y(单位:万人) 1.2 1.8 2.5 3.2 3.8
(1)求样本相关系数r的值,当r>0.75时,线性相关程度为较强,请说明月份x与接待游客人数y之间线性关系的强弱;若线性相关,求出y关于x的经验回归方程;
1
2
3
4
答案
月份x 1 2 3 4 5
接待游客人数y(单位:万人) 1.2 1.8 2.5 3.2 3.8
附:经验回归方程x+的斜率及截距的最小二乘估计公式分别为
,,样本相关系数r=,χ2=,参考数据:≈6.603.
附表:
1
2
3
4
答案
α 0.10 0.05 0.010 0.001
xα 2.706 3.841 6.635 10.828
1
2
3
4
答案
由题中数据可得
=3,
=2.5,
∴(xi-)(yi-)
=(-2)×(-1.3)+(-1)×(-0.7)+0+1×0.7+2×1.3=6.6,
又=10,=4.36,
1
2
3
4
答案
r=≈≈1>0.75.
故月份x与接待游客人数y之间有较强的线性相关关系.
由上可知,=0.66,
∴=2.5-0.66×3=0.52,
∴y关于x的经验回归方程为=0.66x+0.52.
(2)为打造群众满意的旅游区,该地旅游部门对所推出的报团游和自助游项目进行了深入调查,下表是从接待游客中随机抽取的30位游客的满意度调查表,请将下述2×2列联表补充完整,并依据小概率值α=0.05的独立性检验,分析游客对本地景区的满意度是否与报团游或自助游有关联.
1
2
3
4
答案
报团游 自助游 合计
满意 3 18
不满意 5
合计 10 30
月份x 1 2 3 4 5
接待游客人数y(单位:万人) 1.2 1.8 2.5 3.2 3.8
1
2
3
4
答案
零假设为H0:游客对本地景区满意度与报团游或自助游无关联.
根据列联表中的数据,经计算得到χ2==5.625>3.841=x0.05,
根据小概率值α=0.05的独立性检验,推断H0不成立,即认为游客对本地景区满意度与报团游或自助游有关联.
依题意,完善表格如下:
报团游 自助游 合计
满意 15 3 18
不满意 5 7 12
合计 20 10 30(共84张PPT)
第九章
§9.2 用样本估计总体
数学





1.会用统计图表对总体进行估计,会求n个数据的第p百分位数.
2.能用数字特征估计总体集中趋势和总体离散程度.
课标要求
课时精练
内容索引
第一部分 落实主干知识
第二部分 探究核心题型
落实主干知识
第一部分
1.百分位数
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有 的数据小于或等于这个值,且至少有(100-p)%的数据______
这个值.
2.平均数、中位数和众数
(1)平均数: .
(2)中位数:将一组数据按从小到大或从大到小的顺序排列,处在最_____
的一个数据(当数据个数是奇数时)或最中间两个数据的 (当数据个数是偶数时).
p%
大于
或等于
(x1+x2+…+xn)
中间
平均数
(3)众数:一组数据中出现次数 的数据(即频数最大值所对应的样本数据).
3.方差和标准差
(1)方差:s2= 或.
(2)标准差:s= .
最多
(xi-)2
4.总体方差和总体标准差
(1)一般式:如果总体中所有个体的变量值分别为Y1,Y2,…,YN,总体
平均数为,则总体方差S2=(Yi-)2.
(2)加权式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fi(i=1,2,…,k),则总体方差
为S2=fi(Yi-)2.
1.判断下列结论是否正确.(请在括号中打“√”或“×”)
(1)对一组数据来说,平均数和中位数总是非常接近.(  )
(2)方差与标准差具有相同的单位.(  )
(3)如果一组数中每个数减去同一个非零常数,则这组数的平均数改变,方差不变.(  )
(4)在频率分布直方图中,可以用最高的小长方形底边中点的横坐标作为众数的估计值.(  )
×

×

2.在下列统计量中,用来描述一组数据离散程度的量是
A.平均数 B.众数
C.百分位数 D.标准差

标准差反映了数据离散程度的大小,所以说标准差是用来描述一组数据离散程度的统计量,故D正确.
3.已知在高考前最后一次模拟考试中,高三某班8名同学的物理成绩分别为84,79,84,86,95,84,87,93,则该组数据的平均数和众数分别是
A.86,84 B.84.5,85
C.85,84 D.86.5,84
将样本数据按升序排列为79,84,84,84,86,87,93,95,可得平均数=86.5,因为84出现次数最多,所以众数为84.

4.(2024·周口模拟)已知一组从小到大排列的数据为a,2,2,4,4,5,6,b,8,8,若其第70百分位数等于其极差,则2a+b=  .
因为10×0.7=7,所以a,2,2,4,4,5,6,b,8,8的第70百分位数为,其极差为8-a,所以=8-a,解得2a+b=10.
10
1.若x1,x2,…,xn的平均数为,方差为s2,那么mx1+a,mx2+a,…,mxn+a的平均数为m+a,方差为m2s2.
2.数据x1,x2,…,xn与数据x1'=x1+a,x2'=x2+a,…,xn'=xn+a 的方差相等,即数据经过平移后方差不变.
返回
微点提醒
探究核心题型
第二部分
例1 (1)(多选)(2024·郴州模拟)随机抽取8位同学对他们2024年数学新课标全国Ⅰ卷的平均分进行预估,得到一组样本数据:97,98,99,100,101,103,104,106,则下列关于该样本的说法正确的有
A.平均数为101 B.极差为9
C.方差为8 D.第60百分位数为101

样本数字特征的估计
题型一


平均数为=101,A正确;
极差为106-97=9,B正确;
方差为
==8.5,C错误;
因为60%×8=4.8,故第60百分位数为101,D正确.
(2)如图是2023年11月中国的10个城市地铁运营里程(单位:公里)及运营线路条数的统计图,下列判断正确的是
A.这10个城市中北京的地铁运营
里程最长且运营线路条数最多
B.这10个城市地铁运营里程的中
位数是516公里
C.这10个城市地铁运营线路条数
的平均数为15.4
D.这10个城市地铁运营线路条数的极差是12

北京的地铁运营线路条数最多,而运营里程最长的是上海,A错误;
地铁运营里程的中位数是=537.3(公里),B错误;
地铁运营线路条数的平均数为
=15.4,C正确;
地铁运营线路条数的极差是27-8=19,D错误.
计算一组n个数据第p百分位数的步骤
思维升华
跟踪训练1 (1)(多选)某次比赛通过赛后数据记录得到其中一名选手的得分分别为7,12,13,17,18,20,32,则
A.该组数据的极差为25
B.该组数据的75%分位数为19
C.该组数据的平均数为17
D.若该组数据去掉一个数得到一组新数据,则这两组数据的平均数可能
相等



极差为32-7=25,故A正确;
7×75%=5.25,故75%分位数为20,故B错误;
平均数为=17,故C正确;
去掉17后,这两组数据的平均数相等,故D正确.
(2)若某校高一年级10个班参加合唱比赛的得分分别为89,91,90,92,87,93,96,94,96,95,则这组数据的众数是   ;中位数是   .
这组数据从小到大排列为87,89,90,91,92,93,94,95,96,96,其中96出现的次数最多,则这组数据的众数是96,中位数是=92.5.
96
92.5
例2 某考试机构举行了新高考适应性考试,在联考结束后,根据联考成绩,考生可了解自己的学习情况,作出升学规划,决定是否参加强基计划.在本次适应性考试中,某学校为了解高三学生的联考情况,随机抽取了100名学生的联考数学成绩作为样本,并按照分数段[50,70),[70,90),[90,110),[110,130),[130,150]分组,
绘制了如图所示的频率分布直方图.
(1)求出图中a的值并估计本次考试的及格率(“及
格率”指得分为90分及以上的学生所占的比例);
总体集中趋势的估计
题型二
由频率分布直方图的性质,可得
(a+0.004+0.013+0.014+0.016)×20=1,
解得a=0.003.
本次考试的及格率约为
(0.016+0.014+0.003)×20=0.66=66%.
(2)估计该校学生联考数学成绩的第80百分位数;
得分在110分以下的学生所占的比例为(0.004+0.013+0.016)×20=0.66,
得分在130分以下的学生所占的比例为0.66+0.014×20=0.94,
所以第80百分位数位于[110,130)内,
由110+20×=120,估计第80百分位数为120.
(3)估计该校学生联考数学成绩的众数、平均数.
由题图可得,众数的估计值为100.
平均数的估计值为0.08×60+0.26×80+0.32×100+0.28×120+0.06×140=99.6.
频率分布直方图中的数字特征
(1)众数:最高矩形的底边中点的横坐标.
(2)中位数:中位数左边和右边的矩形的面积和应该相等.
(3)平均数:平均数在频率分布直方图中等于各组区间的中点值与对应频率之积的和.
思维升华
跟踪训练2 某高中为了解本校高二年级学生的体育锻炼情况,随机抽取100名学生,统计他们每天体育锻炼的时间,并以此作为样本,按照[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]进行分组,得到如图所示的频率分布直方图.已知样本中体育锻炼时间在[50,60)内的学生有10人.
(1)求频率分布直方图中a和b的值;
由题意可知,学生每天体育锻炼的时间在
[50,60)内的频率为=0.1,
则a==0.01,
由各组频率之和为1,
可知(0.005+0.01+b+0.025×2+0.005)×10=1,
解得b=0.03.
(2)估计样本数据的中位数和平均数(求平均数时,同一组中的数据以该组区间的中点值为代表).
前3组的频率之和为(0.005+0.01+0.03)×10=0.45<0.5,
前4组的频率之和为0.45+0.025×10=0.7>0.5,
所以样本数据的中位数在第4组,设为x,
所以0.45+(x-70)×0.025=0.5,解得x=72,
估计样本数据的中位数是72,
估计平均数是(45+95)×0.05+55×0.1+65×0.3+(75+85)×0.25=72.
例3 某厂为比较甲、乙两种工艺对橡胶产品伸缩率的处理效应,进行了10次配对试验,每次配对试验选用材质相同的两个橡胶产品,随机地选其中一个用甲工艺处理,另一个用乙工艺处理,测量处理后的橡胶产品的伸缩率,甲、乙两种工艺处理后的橡胶产品的伸缩率分别记为xi,yi(i=1,2,…,10).试验结果如下:
总体离散程度的估计
题型三
试验序号i 1 2 3 4 5 6 7 8 9 10
伸缩率xi 545 533 551 522 575 544 541 568 596 548
伸缩率yi 536 527 543 530 560 533 522 550 576 536
记zi=xi-yi(i=1,2,…,10),z1,z2,…,z10的样本平均数为,样本方差为s2.
(1)求,s2;
试验序号i 1 2 3 4 5 6 7 8 9 10
伸缩率xi 545 533 551 522 575 544 541 568 596 548
伸缩率yi 536 527 543 530 560 533 522 550 576 536
由题意得zi=xi-yi 的值分别为9,6,8,-8,15,11,19,18,20,12,
则×(9+6+8-8+15+11+19+18+20+12)=11,
s2=×[(9-11)2+(6-11)2+(8-11)2+(-8-11)2+(15-11)2+0+(19-11)2+(18-11)2+(20-11)2+(12-11)2]=61.
(2)判断甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的
伸缩率是否有显著提高(如果≥2,则认为甲工艺处理后的橡胶产品
的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高,否则不认为有显著提高).
试验序号i 1 2 3 4 5 6 7 8 9 10
伸缩率xi 545 533 551 522 575 544 541 568 596 548
伸缩率yi 536 527 543 530 560 533 522 550 576 536
由(1)知,=11,2=2,
故有≥2,
所以认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高.
总体离散程度的估计
标准差(方差)反映了数据的离散与集中、波动与稳定的程度.标准差(方差)越大,数据的离散程度越大;标准差(方差)越小,数据的离散程度越小.
思维升华
跟踪训练3 某校随机抽取了100名学生参加“奥运会”知识竞赛,统计得到参加竞赛的每名学生的成绩(单位:分),然后按[40,50),[50,60),…,[90,100]分成6组,并绘制成如图所示的频率分布直方图,已知b+0.03=2a.
(1)求a,b的值,并估计参加竞赛的学生成绩
的第30百分位数;
因为在频率分布直方图中所有小矩形的面积之和为1,
所以(0.005+0.01+b+0.03+a+0.01)×10=1,
所以a+b=0.045,
所以解得
因为(0.005+0.01)×10=0.15,(0.005+0.01+0.02)×10=0.35,
所以参加竞赛的学生成绩的第30百分位数在[60,70)内,设为x,
所以(0.005+0.01)×10+(x-60)×0.02=0.3,解得x=67.5.
(2)已知成绩在[80,90)内所有学生的平均成绩为84分,方差为6,成绩在[90,100]内所有学生的平均成绩为98分,方差为10,求成绩在[80,100]内所有学生的平均成绩和方差s2.
成绩在[80,90)和成绩在[90,100]内的学生人数之比为0.025∶0.01=5∶2,
所以=88,
s2=.
返回
课时精练
对一对
答案
1
2
3
4
5
6
7
8
9
10
11
12
13
14
题号 1 2 3 4 5 6 7 8
答案 C D D C A B AC BCD
题号 9 10 13  14 15  16 答案 6 D  C C  BC 15
16
答案
1
2
3
4
5
6
7
8
9
10
11
12
13
14
(1)由题意得这100家企业评分在[96,98)内的频数为100-10-10-20-20=40.
设这100家企业评分的中位数的估计值为x,
因为评分在[90,96)内的频数之和为10+10+20=40<50,
评分在[90,98)内的频数之和为40+40=80>50,
所以x∈[96,98),由,
得x=96.5.
11.
15
16
答案
1
2
3
4
5
6
7
8
9
10
11
12
13
14
(2)这100家企业评分的平均数的估计值为
(91×10+93×10+95×20+97×40+99×20)=96,
这100家企业评分的方差的估计值为
s2=[(91-96)2×10+(93-96)2×10+(95-96)2×20+(97-96)2×
40+(99-96)2×20]=5.8.
11.
15
16
答案
1
2
3
4
5
6
7
8
9
10
11
12
13
14
(1)根据按比例分配的分层随机抽样的规则,
需要在甲班抽取的样本数为18×=10,
在随机数表中依次读取的编号为
48,38,29,34,13,28,41,42,24,19,
编号从小到大依次为13,19,24,28,29,34,38,41,42,48,
所以抽出的学生编号的中位数为=31.5.
12.
15
16
答案
1
2
3
4
5
6
7
8
9
10
11
12
13
14
(2)①依题意,样本中甲班学生有10人,乙班学生有8人,由按比例分配的分层随机抽样的平均数和方差的公式,
得,
因此=81,
s2=]+],
即96=(92+42)++52),解得=56,
所以=81,=56.
12.
15
16
答案
1
2
3
4
5
6
7
8
9
10
11
12
13
14
②因为||=|72-81|=9,
2=2<2<9,
因此||≥2成立,
所以两班学生的英语成绩有明显差异.
12.
15
16
一、单项选择题
1.已知一组样本数据1,2,2,3,4,5,则2.5是该组数据的
A.极差 B.平均数 C.中位数 D.众数

1
2
3
4
5
6
7
8
9
10
11
12
13
14
知识过关
答案
由题意得众数为2,极差为5-1=4,
平均数为,中位数为=2.5.
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
2.若一组数据x1,x2,…,xn的方差为9,则数据2x1+1,2x2+1,…,2xn+1的方差为
A.9 B.18 C.19 D.36

∵x1,x2,x3,…,xn的方差为s2=9,∴2x1+1,2x2+1,…,2xn+1的方差为22·s2=4×9=36.
15
16
3.某时间段公路上车速的频率分布直方图如图所示,则
A.a=0.1
B.车速众数的估计值是70
C.车速平均数的估计值大于其中位数的估计值
D.车速中位数的估计值是62.5

1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
由10(a+3a+4a+2a)=1,得a=0.01,A错误;
车速在[60,70)内的频率最大,所以车速众数的估计值是65,B错误;
车速的平均数约为0.1×45+0.3×55+0.4×65
+0.2×75=62,车速的中位数m∈[60,70),则(m-60)×0.04=0.1,解得m=62.5,C错误,D正确.
15
16
下列关于成绩的统计量中,与被遮盖的数据无关的是
A.平均数,方差 B.中位数,方差
C.中位数,众数 D.平均数,众数
4.某班50名同学进行了党史知识竞赛,测试成绩统计如表所示,其中两个数据被遮盖.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
成绩/分 91 92 93 94 95 96 97 98 99 100
人数 ■ ■ 1 2 3 5 6 8 10 12
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
由表格数据可知,成绩为91分、92分的人数为50-(12+10+8+6+5+3+2+1)=3(人),成绩为100分的出现的次数最多,所以成绩的众数为100,成绩从小到大排列后处在第25,26位的两个数都是98分,所以数据的中位数为98,所以中位数和众数与被遮盖的数据无关.
成绩/分 91 92 93 94 95 96 97 98 99 100
人数 ■ ■ 1 2 3 5 6 8 10 12
15
16
5.身体质量指数,简称体质指数,是国际上常用的衡量人体胖瘦程度以及是否健康的一个标准.该指标是通过体重(kg)除以身高(m)的平方计算得来.这个公式所得比值在一定程度上可以反映人体密度.一般情况下,我国成年人的身体质量指数在18.5~23.9内属正常范围.已知A,B,C三人的体质指数的平均值为20,方差为3.D,E两人的体质指数分别为18和22.则这5人的体质指数的方差为
A. B. C. D.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
设A,B,C三人的体质指数分别为a,b,c,由于A,B,C三人的体质指
数的平均值为20,方差为3,故=3,则(a-20)2+(b-20)2+(c-20)2=9,由于=20,故5个人的体质指数的平均数为20,故[(a-20)2+(b-20)2+(c-20)2+(18-20)2+(22-20)2]=,故方差为.
15
16
6.(2024·海口模拟)已知数据x1,x2,x3,…,x10满足xi-xi-1=1(2≤i≤10),若去掉x1,x10后组成一组新数据,则新数据与原数据相比,下列说法错误的是
A.中位数不变
B.若x1=1,则数据x1,x2,x3,…,x10的第75百分位数为7.5
C.平均数不变
D.方差变小

1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
原来的中位数与现在的中位数均为=x1+4.5,故中位数不变,
故A正确;
当x1=1时,数据按从小到大的顺序排列为1,2,3,4,5,6,7,8,9,10.因为10×75%=7.5,所以该组数据的第75百分位数是第8个数8,故B错误;
由于xi-xi-1=1(2≤i≤10),故x2=x1+1,x3=x1+2,…,x9=x1+8,x10=x1
+9,原来的平均数为=x1+4.5,去掉x1,x10后的平均数为=x1+4.5,平均数不变,故C正确;
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
原来的方差为[(x1-x1-4.5)2+(x2-x1-4.5)2+…+(x10-x1-4.5)2]=8.25,去掉x1,x10后的方差为[(x2-x1-4.5)2+(x3-x1-4.5)2+…+(x9
-x1-4.5)2]=5.25,方差变小,故D正确.
15
16
二、多项选择题
7.某公司为保证产品生产质量,连续10天监测某种新产品生产线的次品件数,得到关于每天出现的次品的件数的一组样本数据:3,4,3,1,5,3,2,5,1,3,则关于这组数据的结论正确的是
A.极差是4 B.众数小于平均数
C.方差是1.8 D.数据的80%分位数为4
1
2
3
4
5
6
7
8
9
10
11
12
13
14

答案

15
16
数据从小到大排列为1,1,2,3,3,3,3,4,5,5.
该组数据的极差为5-1=4,故A正确;
众数为3,平均数为=3,两者相等,故B错误;
方差为×[(1-3)2×2+(2-3)2×1+(3-3)2×4+(4-3)2×1+(5-3)2×
2]=1.8,故C正确;
∵10×80%=8,∴这组数据的80%分位数为第8个数和第9个数的平均数4.5,故D错误.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
15
16
8.移动互联网时代,智能终端市场商机无限,全球商家强势抢攻市场.通过同比数据发现,中国智能手机市场呈现出积极的增长趋势.据报载,2023年11月,中国市场智能手机新机
激活量为2 871万台,同比增长12.9%(同比增长率=×100%),
具体分为7个品牌排名,统计数据如表所示,则下列说法正确的有
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
排名 品牌 当月新机激活量/万台 同比新机激活量增长/万台
No.1 A 604.4 13.0
No.2 B 524.3 160.5
No.3 C 403.1 45.0
No.4 D 401.4 172.9
No.5 E 383.3 -47.5
No.6 F 376.3 -44.8
No.7 G 178.2 28.0
15
16
A.该月7个品牌同比新机激活量增长数据的极差为125.4
B.该月7个品牌新机激活量数据的平均数大于中位数
C.该月D品牌新机激活量同比增长率大于75%
D.去年同期中国市场智能手机新机激活量小于2 600万台

1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案

排名 品牌 当月新机激活量/万台 同比新机激活量增长/万台
No.1 A 604.4 13.0
No.2 B 524.3 160.5
No.3 C 403.1 45.0
No.4 D 401.4 172.9
No.5 E 383.3 -47.5
No.6 F 376.3 -44.8
No.7 G 178.2 28.0

15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
同比新机激活量增长数据的极差为172.9-(-47.5)=220.4,故A错误;
该月新机激活量数据的平均数为≈410.14,该月7个品牌新机激活量
数据的中位数为401.4,故B正确;
去年同期D品牌新机激活量为401.4-172.9=228.5,所以同比增长率为
×100%≈75.67%>75%,故C正确;
设去年同期中国市场智能手机新机激活量为x,由题意可得×100%
=12.9%,解得x≈2 543<2 600,故D正确.
15
16
三、填空题
9.一组数据按从小到大的顺序排列为2,4,m,12,16,17,若该组数
据的中位数是极差的,则该组数据的第40百分位数是  .
6
由题意知该组数据的极差为17-2=15,
中位数为,
所以=15×=9,解得m=6,
又6×40%=2.4,
所以该组数据的第40百分位数是该组数据的第三个数6.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
15
16
10.已知某7个数的平均数为2,方差为4,现加入一个新数据2,此时这8个
数的方差为  .
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
原7个数的方差为=4,
即=4×7=28,
加入一个新数据2后所得8个数的平均数为=2,
所以这8个数的方差为s2=[28+(2-2)2]=.
15
16
四、解答题
11.第8届中国-南亚博览会暨第28届中国昆明进出口商品交易会在昆明滇池国际会展中心隆重开幕.本届南博会以“团结协作,共谋发展”为主题,共设15个展馆,展览面积15万平方米,吸引82个国家、地区和国际组织参会,2 000多家企业进馆参展.某机构邀请了进馆参展的100家企业对此次展览进行评分,分值均在[90,100]内,并将部分数据整理如表:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
分数 [90,92) [92,94) [94,96) [98,100]
频数 10 10 20 20
(1)估计这100家企业评分的中位数(保留小数点后一位);
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
由题意得这100家企业评分在[96,98)内的频数为
100-10-10-20-20=40.
设这100家企业评分的中位数的估计值为x,
因为评分在[90,96)内的频数之和为10+10+20=40<50,
评分在[90,98)内的频数之和为40+40=80>50,
所以x∈[96,98),由,
得x=96.5.
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
分数 [90,92) [92,94) [94,96) [98,100]
频数 10 10 20 20
(2)估计这100家企业评分的平均数与方差(同一组中的数据用该组区间的中点值作代表).
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
这100家企业评分的平均数的估计值为
(91×10+93×10+95×20+97×40+99×20)=96,
这100家企业评分的方差的估计值为
s2=[(91-96)2×10+(93-96)2×10+(95-96)2×20+(97-96)2×40
+(99-96)2×20]=5.8.
15
16
12.某英语老师负责甲、乙两个班的英语课,其中甲班有60名学生,乙班有48名学生.为分析他们的英语成绩,该老师计划用按比例分配的分层随机抽样的方法抽取18名学生,统计他们英语考试的分数.
(1)该老师首先在甲班采用随机数法抽取所需要的学生,为此将甲班学生随机编号为01~60,按照以下随机数表,以第2行第21列的数字4为起点,从左到右依次读取数据,每次读取两位随机数,重复的跳过,一行读完之后接下一行左端.求抽出的学生编号的中位数;
7816 6572 0802 6314 0702 4369 9728 0198
3204 9243 4935 8200 3623 4869 6938 7481
2976 3413 2841 4241 2424 1985 9313 2322
8303 9822 5888 2410 1158 2729 6443 2943
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
根据按比例分配的分层随机抽样的规则,
需要在甲班抽取的样本数为18×=10,
在随机数表中依次读取的编号为
48,38,29,34,13,28,41,42,24,19,
编号从小到大依次为13,19,24,28,29,34,38,41,42,48,
所以抽出的学生编号的中位数为=31.5.
15
16
(2)已知甲班的样本平均数为=72,方差为=92,两班总的样本平均数为=76,方差为s2=96.
①求乙班的样本平均数和方差;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
依题意,样本中甲班学生有10人,乙班学生有8人,由按比例分配的分层随机抽样的平均数和方差的公式,
得,
因此=81,
s2=]+],
即96=(92+42)++52),解得=56,
所以=81,=56.
15
16
②判断两班学生的英语成绩是否有明显差异.(如果||≥2,
则认为两班学生的英语成绩有明显差异,否则不认为有明显差异)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
因为||=|72-81|=9,
2=2<2<9,
因此||≥2成立,
所以两班学生的英语成绩有明显差异.
15
16
13.已知一组数据丢失了其中一个,另外六个数据分别是10,8,8,11,16,8,若这组数据的平均数、中位数、众数依次成等差数列,则丢失数据的所有可能值的和为
A.12 B.20 C.25 D.27
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案

能力拓展
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
设丢失数据是x,则平均数为,众数是8,若x<8,则中位数为8,
此时x=-5;
若8若x≥10,则中位数为10,此时2×10=+8,解得x=23,
所以丢失数据的所有可能值为-5,9,23,其和为27.
15
16
14.(2024·南通模拟)已知实数x0,x1,…,x2 024,则使|xi-k|和
最小的实数k分别为x0,x1,…,x2 024的
A.中位数,标准差 B.平均数,中位数
C.中位数,平均数 D.标准差,平均数
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案

15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
|xi-k|=|x0-k|+|x1-k|+…+|x2 024-k|,表示2 025个绝对值之和,
根据绝对值的几何意义知,绝对值的和的最小值表示距离和的最小值,
因为2 025为奇数,所以k取x0,x1,…,x2 024的中位数时,|xi-k|有
最小值;
-2kxi+k2)=(+…+)-(2x0+
2x1+2x2+…+2x2 024)k+2 025k2为关于k的一元二次函数,
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
故当k=时,有最小值,
即k为x0,x1,…,x2 024的平均数时,有最小值.
15
16
15.在一组数3,3,8,11,28中插入两个整数m,n,使得新的一组数极差为原来极差的两倍,且众数和中位数保持不变,则m+n的最大值为
A.57 B.58 C.60 D.61
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案

15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
15
16
若插入两个整数后众数不变,则插入的数可以是“两个都是3”,或是“一个是3,另一个不是3”,或是“两个不等的且不是3,8,11,28”.
①因为新的一组数极差加倍,所以插入的两个数不可能都是3;
②因为中位数保持不变,若插入的数“一个是3,另一个不是3”,则一个是3,另一个数不小于8,
又因为极差加倍,则另一个数为53,此时m+n=56;
③若插入的两个数是不等的且不是3,8,11,28,且极差为50,中位数保持不变,
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
15
16
则两个数可以为


所以m+n的最大值为60.
16.(多选)(2024·焦作模拟)北京时间2024年8月12日凌晨,第33届法国巴黎奥运会闭幕式正式举行,中国体育代表团以出色的表现再次证明了自己的实力,最终取得了40枚金牌、27枚银牌和24枚铜牌的最佳境外参赛成绩,也向世界展示了中国体育的蓬勃发展和运动员们顽强拼搏的精神.某校社团为发扬奥运体育精神举办了竞技比赛,此比赛共有5名同学参加,赛后经数据统计得到该5名同学在此次比赛中所得成绩的平均数为8,方差为4,比赛成绩x∈(0,15],且x∈N*,则下列可以作为该5名同学中比赛成绩的最高分的有
A.13 B.12 C.11 D.10
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案

15
16

1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
15
16
设该5名同学在此次比赛中所得成绩分别为x1,x2,x3,x4,x5,
由题得(x1+x2+x3+x4+x5)=8,则x1+x2+x3+x4+x5=40,
且s2=]=4,
则=20.
不妨设x5最大,
若x5=13,则=-5不成立,故A错误;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
15
16
若x5=12,则=4,满足题意,例如5位同学的成绩可为7,7,7,7,12,故B正确;
若x5=11,则=11,满足题意,例如5位同学的成绩可为5,7,8,9,11,故C正确;
若x5=10,则x1+x2+x3+x4=30,且=16,则-16(x1+x2+x3+x4)+4×82=16 =16(x1+x2+x3+x4)-4×82+16=16×30-4×82+16=240,则可得
该方程组无正整数解,故D错误.
返回(共97张PPT)
第九章
§9.3 成对数据的统计分析
数学





1.了解样本相关系数的统计含义.
2.了解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题.
3.会利用统计软件进行数据分析.
课标要求
课时精练
内容索引
第一部分 落实主干知识
第二部分 探究核心题型
落实主干知识
第一部分
1.变量的相关关系
(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
(2)相关关系的分类: 和 .
(3)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
正相关
负相关
2.样本相关系数
(1)r=.
(2)当r>0时,称成对样本数据 ;当r<0时,称成对样本数据
.
(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越 ;当
|r|越接近0时,成对样本数据的线性相关程度越 .
正相关
负相关


3.一元线性回归模型
(1)我们将x+称为Y关于x的经验回归方程,
其中
(2)残差: 减去 所得的差称为残差.
观测值
预测值
4.列联表与独立性检验
(1)关于分类变量X和Y的抽样数据的2×2列联表:
X Y 合计
Y=0 Y=1 X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
(2)计算统计量χ2=,利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验.
1.判断下列结论是否正确.(请在括号中打“√”或“×”)
(1)散点图是判断两个变量相关关系的一种重要方法和手段.(  )
(2)经验回归直线x+至少经过(x1,y1),(x2,y2),…,(xn,yn)中的
一个点.(  )
(3)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.
(  )
(4)事件X,Y关系越密切,则由观测数据计算得到的χ2的值越小.(  )
×

×

2.(多选)下列说法正确的是
A.两个具有线性相关关系的变量的相关性越强,则样本相关系数r的值越
接近于1
B.当r=1时,两变量呈函数关系
C.当经验回归方程为=0.3-0.7x时,变量x和y负相关
D.在经验回归方程=0.4+0.5x中,当x每增加1个单位时,相应观测值y增
加0.5个单位


两个具有线性相关关系的变量的相关性越强,则样本相关系数r的绝对值越接近于1,故A错误;
当样本相关系数r=1时,两变量呈确定的函数关系,故B正确;
因为斜率小于0,所以变量x和y负相关,故C正确;
在经验回归方程=0.4+0.5x中,当x每增加1个单位时,相应观测值y约增加0.5个单位,故D错误.
3.想要检验喜欢参加体育活动是不是与性别有关,应该提出统计假设H0为
A.男性喜欢参加体育活动
B.女性不喜欢参加体育活动
C.喜欢参加体育活动与性别有关
D.喜欢参加体育活动与性别无关

独立性检验是一种假设性检验,假设有反证法的意味,应假设两类变量无关,在该假设下构造的随机变量χ2应该很小,如果χ2很小,则不能肯定或否定假设,反之,则在一定程度上说明假设不合理,即认为两个变量在一定程度上有关,所以想要检验喜欢参加体育活动是不是与性别有关,应该提出统计假设H0:喜欢参加体育活动与性别无关.
4.已知变量x和y的统计数据如表:
x 6 7 8 9 10
y 3.5 4 5 6 6.5
若由表中数据得到经验回归方程为=0.8x+,则当x=10时的残差为
   (注:观测值减去预测值所得的差称为残差).
-0.1
=8,
=5,
则=5-0.8×8=-1.4,
所以=0.8x-1.4,当x=10时,=6.6,
所以当x=10时的残差为6.5-6.6=-0.1.
1.经验回归直线过点(,).
2.求时,常用公式.
3.回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,得出的结论都可能犯错误.
返回
微点提醒
探究核心题型
第二部分
例1 (1)(多选)(2025·绵阳模拟)下列说法正确的是
A.回归分析中,样本相关系数r的取值范围为(-1,1)
B.回归分析中,残差图中残差比较均匀地分布在以取值为0的横轴为对称
轴的水平带状区域内,且宽度越窄表示拟合效果越好
C.回归分析中,决定系数R2越大,说明残差平方和越小,拟合效果越好
D.两个随机变量的线性相关性越强,样本相关系数的绝对值越接近于0

成对数据的相关性
题型一

回归分析中,样本相关系数r的取值范围为[-1,1],故选项A错误;
因为在残差的散点图中,残差分布的水平带状区域的宽度越窄,表明数据越集中,模型的拟合效果越好,故选项B正确;
因为决定系数R2越大,表示残差平方和越小,数据就越集中,即模型的拟合效果越好,故选项C正确;
两个随机变量的线性相关性越强,样本相关系数的绝对值越接近于1,故D错误.
(2)已知变量x与变量y线性相关,x与y的样本相关系数为-0.8,且由观测数据算得样本平均数=5,=6,则由该观测数据算得的经验回归方程可能是
A.=0.8x+2 B.=x+1
C.=-0.8x+9 D.=-x+11

因为x与y的样本相关系数为-0.8<0,可知x与y为负相关,故A,B错误;
又因为经验回归直线过点(5,6),对于=-0.8x+9,-0.8×5+9=5≠6,故C错误;
对于=-x+11,-5+11=6,故D正确.
判定两个变量相关性的方法
(1)画散点图:若点的分布从左下角到右上角,则两个变量正相关;若点的分布从左上角到右下角,则两个变量负相关.
(2)样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近1,线性相关性越强.
(3)经验回归方程:当>0时,正相关;当<0时,负相关.
思维升华
跟踪训练1 (多选)下列有关回归分析的结论中,正确的有
A.若经验回归方程为=5+2x,则变量y与x正相关
B.运用最小二乘法求得的经验回归直线一定经过点(,)
C.决定系数R2的值越接近于1,表示回归模型的拟合效果越好
D.若散点图中所有点都在直线y=0.93x-3.6上,则样本相关系数r=0.93



因为经验回归方程为=5+2x,可知2>0,所以变量y与x正相关,故A正确;
由经验回归方程的性质可知,经验回归直线一定经过点(,),故B正确;
决定系数R2的值越接近于1,表示回归模型的拟合效果越好,故C正确;
散点图中所有点都在直线y=0.93x-3.6上,则|r|=1,且0.93>0,所以变量y与x正相关,即r>0,可知r=1,故D错误.
命题点1 一元线性回归模型
例2 (2024·新乡模拟)氮氧化物是一种常见的大气污染物,如图为我国2014年至2022年氮氧化物排放量(单位:万吨)的折线图,其中年份代码1~9分别对应年份2014~2022.
已知yi≈12 000,≈1 100,
≈7.7,tiyi≈51 800.
(1)可否用一元线性回归模型拟合y与t的
关系?请分别根据折线图和样本相关系
数加以说明;
回归模型
题型二
附:样本相关系数r=.
从折线图看,各点落在一条直线附近,因而可以用线性回归模型拟合y与t的关系,
由题意知×(1+2+3+4+5+6+7+8+9)=5,
样本相关系数r=≈=-≈-0.97.
故可以用线性回归模型拟合y与t的关系.
(2)若根据所给数据建立经验回归方程=-138t+2 025,可否用此方程来预测2025年和2035年我国的氮氧化物排放量?请说明理由.
可以预测2025年的氮氧化物排放量,但不可以预测2035年的氮氧化物排放量.
理由如下:
①2025年与所给数据的年份较接近,因而
可以认为短期内氮氧化物排放量将延续该趋势,故可以用此模型进行预测;
②2035年与所给数据的年份相距过远,而影响氮氧化物排放量的因素有很多,这些因素在短期内可能保持不变,但从长期看很有可能会变化,因而用此模型预测可能是不准确的.
命题点2 非线性回归模型
例3 某大型现代化农场在种植某种大棚有机无公害的蔬菜时,为创造更大价值,提高亩产量,积极开展技术创新活动.该农场采用了延长光照时间的方案,该农场选取了20间大棚(每间一亩)进行试点,得到各间大棚产量数据并绘制成散点图.光照时长为x(单位:小时),大棚蔬菜产量为y(单位:吨/亩),记w=ln x.
参考数据:
290 102.4 52 4 870 540.28 137 1 578.2 272.1
参考公式:y关于x的经验回归方程x+中,,.
290 102.4 52 4 870 540.28 137 1 578.2 272.1
(1)根据散点图判断,y=a+bx与y=c+dln x哪一个适宜作为大棚蔬菜产量y关于光照时长x的经验回归方程类型(给出判断即可,不必说明理由);
根据散点图,开始的点在某条直线旁,但后面的点会越来越偏离这条直线,因此y=c+dln x更适宜作为大棚蔬菜产量y关于光照时长x的经验回归方程类型.
290 102.4 52 4 870 540.28 137 1 578.2 272.1
(2)根据(1)的判断结果及表中数据,建立y关于x的经验回归方程(结果保留小数点后两位);
w=ln x,则y=c+dln x,即y=c+dw,
=5.12,=2.6,
≈3.26,
≈5.12-3.26×2.6≈-3.36,
所以=3.26w-3.36,
即=3.26ln x-3.36.
290 102.4 52 4 870 540.28 137 1 578.2 272.1
(3)根据实际种植情况,发现上述回归方程在光照时长位于6~14小时内拟合程度良好,利用(2)中所求方程估计当光照时长为e2小时时(e为自然对数的底数),大棚蔬菜的亩产量.
当x=e2时,=3.26ln e2-3.36=3.16.
即大棚蔬菜亩产量约为3.16吨.
求经验回归方程的步骤
思维升华
跟踪训练2 红蜘蛛是柚子的主要害虫之一,能对柚子树造成严重伤害,每只红蜘蛛的平均产卵数y(个)和平均温度x(摄氏度)有关,现收集了以往某地的7组数据,得到下面的散点图及一些统计量的值.
参考数据(z=ln y):
5 215 17 713 714 27 81.3 3.6
(1)根据散点图判断,y=bx+a与y=cedx(其中e=2.718…为自然对数的底数)哪一个更适合作为平均产卵数y(个)关于平均温度x(摄氏度)的经验回归方程类型?(给出判断即可,不必说明理由)
由散点图可以判断,随温度升高,平均产卵数增长速度变快,符合指数函数模型的增长特点,
所以y=cedx更适宜作为平均产卵数y关于平均温度x的经验回归方程类型.
5 215 17 713 714 27 81.3 3.6
(2)由(1)的判断结果及表中数据,求出y关于x的经验回归方程.
附:x+中,,.
将y=cedx两边同时取自然对数,可得ln y=ln c+dx,即z=ln c+dx,
由题中的数据可得,xizi-7=33.6,
-7=112,
所以=0.3,
则ln =3.6-0.3×27=-4.5,
所以z关于x的经验回归方程为=0.3x-4.5,
故y关于x的经验回归方程为=e0.3x-4.5.
例4 (2025·八省联考)为考察某种药物A对预防疾病B的效果,进行了动物(单位:只)试验,得到如下列联表:
(1)求s,t;
列联表与独立性检验
题型三
药物 疾病 合计
未患病 患病 未服用 100 80 s
服用 150 70 220
合计 250 t 400
s=100+80=180,t=80+70=150.
(2)记未服用药物A的动物患疾病B的概率为p,给出p的估计值;
药物 疾病 合计
未患病 患病 未服用 100 80 s
服用 150 70 220
合计 250 t 400
∵=,∴p的估计值为.
(3)根据小概率值α=0.01的独立性检验,能否认为药物A对预防疾病B有效
附:χ2=.
药物 疾病 合计
未患病 患病 未服用 100 80 s
服用 150 70 220
合计 250 t 400
α 0.05 0.01 0.001
xα 3.841 6.635 10.828
零假设H0:药物A对预防疾病B无效.
根据列联表中的数据可得χ2==≈6.734>6.635=x0.01.
根据小概率值α=0.01的独立性检验,推断H0不成立,即认为药物A对预防疾病B有效.
独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式χ2=计算.
(3)比较χ2与临界值的大小关系,作统计推断.
思维升华
跟踪训练3 (2025·绵阳诊断)近年来,随着深入贯彻新时代强军思想,越来越多的优秀青年学子献身国防,投身军营,高考结束后,很多高考毕业生报考了军事类院校.从某地区学校的高三年级中随机抽取了900名学生,其中男生500人,女生400人,通过调查,有报考军事类院校意向的男生、女生各100名.
(1)完成给出的列联表,并分别估计该地区高三男、女学生有报考军事类院校意向的概率;
有报考意向 无报考意向 合计
男学生
女学生
合计
根据已知条件,填写2×2列联表如下.
故估计该地区高三男生有报考军事类院校意向的概率为,
女生有报考军事类院校意向的概率为.
有报考意向 无报考意向 合计
男学生 100 400 500
女学生 100 300 400
合计 200 700 900
(2)根据小概率值α=0.10的独立性检验,能否认为学生有报考军事类院校的意向与性别有关?
参考公式及数据:χ2=,n=a+b+c+d.
α 0.10 0.05 0.010 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
零假设为H0:学生有报考军事类院校意向与性别无关,
χ2=≈3.214>2.706=x0.10,
所以根据小概率值α=0.10的独立性检验,我们推断H0不成立,即认为学生有报考军事类院校的意向与性别有关.
返回
课时精练
对一对
答案
1
2
3
4
5
6
7
8
9
10
11
12
13
14
题号 1 2 3 4 5 6 7 8
答案 A B C D D D BD ACD
题号 9 10 13  14 答案 34 0.05 C  BD 答案
1
2
3
4
5
6
7
8
9
10
11
12
13
14
(1)根据题表中数据知,甲机床生产的产品中一级品的频率是=0.75,
乙机床生产的产品中一级品的频率是=0.6.
(2)零假设为H0:甲机床的产品质量与乙机床的产品质量无差异,根据题表中的数据可得
χ2==≈10.256>6.635=x0.01,
所以依据小概率值α=0.01的独立性检验,推断H0不成立,即认为甲机床的产品质量与乙机床的产品质量有差异.
11.
答案
1
2
3
4
5
6
7
8
9
10
11
12
13
14
(1)=50,=87,
又xi(i=1,2,3,…,5)的方差为=200,
=(65-87)2+(78-87)2+(85-87)2+(99-87)2+(108-87)2
=484+81+4+144+441=1 154,
r=
12.
答案
1
2
3
4
5
6
7
8
9
10
11
12
13
14
≈≈0.996.
(2)由(1)知r≈0.996接近1,故y与x之间具有极强的线性相关关系,可用线性回归模型进行拟合,
==1.07,
=87-1.07×50=33.5,故=1.07x+33.5.
12.
答案
1
2
3
4
5
6
7
8
9
10
11
12
13
14
当x=100时,=140.5,
故预测每天课后自主学习数学时间达到100分钟时的数学成绩为140.5分.
(3)零假设H0:周末在校自主学习与成绩进步无关,
根据数据,计算得到χ2=≈12.22,
因为12.22>10.828=x0.001,
所以依据小概率值α=0.001的独立性检验,推断H0不成立,即可以认为“周末在校自主学习与成绩进步”有关.
12.
一、单项选择题
1.下列两个变量中,成正相关的两个变量是
A.汽车自身的重量与行驶每公里的耗油量
B.正方形的面积与边长
C.花费在体育活动上的时间与期末考试数学成绩
D.期末考试随机编排的准考证号与期末考试成绩总分

1
2
3
4
5
6
7
8
9
10
11
12
13
14
知识过关
答案
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
一般情况下,汽车越重,则每公里耗油量越多,成正相关,故A正确;
正方形的面积与边长是函数关系,故B错误;
一般情况下,若花费在体育活动上的时间越长,则期末考试数学成绩可能会降低,故不为正相关,故C错误;
期末考试随机编排的准考证号与期末考试成绩总分没有相关关系,故D错误.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
2.为了研究性别与对乡村音乐态度(喜欢和不喜欢两种态度)的关系,运用2×2列联表进行独立性检验,经计算χ2=8.01,则“性别与喜欢乡村音乐有关系”这个推断犯错误的概率不超过(参考数据:x0.005=7.879,x0.001=10.828)
A.0.1% B.0.5% C.99.5% D.99.9%

因为χ2=8.01>7.879=x0.005,所以“性别与喜欢乡村音乐有关系”这个推断犯错误的概率不超过0.5%.
3.(2024·滁州模拟)下表为2018年—2023年的中国数字经济规模(单位:万亿元):
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
年份 2018 2019 2020 2021 2022 2023
年份代码x 1 2 3 4 5 6
中国数字经济规模y 31.3 35.8 39.2 45.5 50.2 53.9
则下列所给函数模型中比较适合这一组数据关系的是
A.y=2x+30 B.y=30+log2(x+1)
C.y=28× D.y=2x+30

1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
对于y=2x+30,当x=6时,y=42,与53.9相差较大;
对于y=30+log2(x+1),当x=6时,y<33,与53.9相差较大;
对于y=2x+30,当x=6时,y=94,与53.9相差较大;
对于y=28×,当x=1,2,3,4,5,6时,与所给数据相差不大,
比较适合这一组数据的关系.
4.学校开设了游泳选修课.某教练为了解学生对游泳运动的喜好和性别是否有关,在全校学生中随机选取了男、女生各n人进行调查,并绘制了如图所示的等高堆积条形图.则
参考公式及数据:χ2=,
其中n=a+b+c+d.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
α 0.1 0.01 0.001
xα 2.706 6.635 10.828
A.参与调查的女生中喜欢游泳运动的人数比不喜欢
游泳运动的人数多
B.全校学生中喜欢游泳运动的男生人数比喜欢游泳
运动的女生人数多
C.若n=50,依据α=0.01的独立性检验,可以认为游泳运动的喜好和性别有关
D.若n=100,依据α=0.01的独立性检验,可以认为游泳运动的喜好和性别有关

1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
α 0.1 0.01 0.001
xα 2.706 6.635 10.828
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
由等高堆积条形图可知,参与调查的女生中喜欢游泳运动的人数比不喜欢游泳运动的人数少,故A错误;
全校学生中男生和女生人数比不确定,故不能确定全校学生中喜欢游泳运动的男生人数比喜欢游泳运动的女生人数多,故B错误;
结合等高堆积条形图可得:
性别 游泳 合计
喜欢 不喜欢 男生 0.6n 0.4n n
女生 0.4n 0.6n n
合计 n n 2n
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
故χ2==0.08n,若n=50,则χ2=0.08n=4<6.635,故依据α=0.01的独立性检验,不可以认为游泳运动的喜好和性别有关,故C错误;
若n=100,则χ2=0.08n=8>6.635,依据α=0.01的
独立性检验,可以认为游泳运动的喜好和性别有关,
故D正确.
若已求得经验回归方程为x+0.34,则下列选项中正确的是
附:样本相关系数r=.
A.=0.21
B.当x=8时,y的预测值为2.2
C.样本数据y的第40百分位数为1
D.去掉样本点(3,1)后,x与y的样本相关系数r不会改变
5.为了研究y关于x的线性相关关系,收集了5组样本数据(见下表):

1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
x 1 2 3 4 5
y 0.5 0.9 1 1.1 1.5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
=3,=1,将(3,1)代入x+0.34得3+0.34=1,解得=0.22,故A错误;
当x=8时,y的预测值为=0.22×8+0.34=2.1,故B错误;
5×40%=2,则样本数据y的第40百分位数为=0.95,故C错误;
去掉样本点(3,1)后,新样本数据的平均值没有变化,即=3,=1仍然成立,不妨设(3,1)为第5组数据,即x5=3,y5=1,则x5-=0,y5-=0,其余数据没有变化.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
则由样本相关系数公式r=可知,新样本数据x与y
的样本相关系数与原数据的样本相关系数相等,即x与y的样本相关系数r不会改变,故D正确.
由上表可得经验回归方程=-0.062x+,则c1等于
A.-4 B.e-4 C.4.166 D.e4.166
6.某学校数学兴趣小组在探究姜撞奶随着时间变化的降温及凝固情况的数学建模活动中,将时间x(分钟)与温度y(摄氏度)的关系用模型y=c1(其中e为自然对数的底数)拟合.设z=ln y,变换后得到一组数据:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
x 2 2.5 3 3.5 4
z 4.04 4.01 3.98 3.96 3.91
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
由表格中数据,
得=3,=3.98,
则3.98=-0.062×3+,
解得=4.166,因此=-0.062x+4.166,
由y=c1两边取对数,得ln y=c2x+ln c1,
又z=ln y,所以c2=-0.062,ln c1=4.166,
即c1=e4.166.
二、多项选择题
7.(2025·长春模拟)暑假结束后,为了解假期中学生锻炼身体情况,学生处对所有在校学生做问卷调查,并随机抽取了180人的调查问卷,其中男生比女生少20人,并将调查结果绘制得到等高堆积条形图.在被调查者中,下列说法正确的是
参考公式及数据:χ2=,
其中n=a+b+c+d.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
A.男生中不经常锻炼的人数比女生中经常
锻炼的人数多
B.男生中经常锻炼的人数比女生中经常锻炼的人多8人
C.经常锻炼者中男生的频率是不经常锻炼者中男生的频率的2倍
D.根据小概率值α=0.01的独立性检验,可以认为假期是否经常锻炼与性
别有关
1
2
3
4
5
6
7
8
9
10
11
12
13
14

答案

α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
设男生人数为x,则女生人数为x+20,
由题意得x+x+20=180,
解得x=80,即在被调查者中,男生、女生人数分别为80,100,可得到如下2×2列联表,
性别 锻炼情况 合计
经常锻炼 不经常锻炼 男 48 32 80
女 40 60 100
合计 88 92 180
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
由表可知,A显然错误;
男生中经常锻炼的人数比女生中经常锻炼的
人数多48-40=8,B正确;
在经常锻炼者中是男生的频率为≈0.545 5,
在不经常锻炼者中是男生的频率为≈0.347 8,≈1.6,C错误;
零假设H0:是否经常锻炼与性别无关,则χ2=≈7.115>6.635
=x0.01,根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为假期是否经常锻炼与性别有关,D正确.
8.(2024·武汉模拟)某科技公司统计了一款APP最近5个月的下载量,如表所
示,若y与x线性相关,且经验回归方程为=-0.6x+,则
A.y与x负相关
B.=5.6
C.预测第6个月的下载量约为2.1万次
D.残差绝对值的最大值为0.2
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
月份编号x 1 2 3 4 5
下载量y(万次) 5 4.5 4 3.5 2.5



因为-0.6<0,所以变量y与x负相关,故A正确;
×(1+2+3+4+5)=3,×(5+4.5+4+3.5+2.5)=3.9,=-0.6x+,则-0.6×3+=3.9,解得=5.7,故B错误;
当x=6时,=-0.6×6+5.7=2.1,故可以预测第6个月的下载量约为2.1万次,
故C正确;
当x=1时,=-0.6×1+5.7=5.1,|y1-|=0.1;当x=2时,=-0.6×2+5.7=4.5,|y2-|=0;当x=3时,=-0.6×3+5.7=3.9,|y3-|=0.1;当x=4时,=-0.6×4+5.7=3.3,|y4-|=0.2;当x=5时,=-0.6×5+5.7=2.7,|y5-|=0.2,故残差绝对值的最大值为0.2,故D正确.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
三、填空题
9.(2025·汉中模拟)奶茶店老板对本店在12月份出售热饮的杯数y与当天的平均气温x(℃)进行线性回归分析,随机收集了该月某4天的相关数据(如
表),并由最小二乘法求得经验回归方程为=45-2x.表中有一个数据看
不清楚,请你推断出该数据的值为  .
34
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
气温x(℃) 10 6 2 -2
售出热饮的杯数y 24 ■ 42 48
设看不清楚的这个数据为m,
则=4,,
由于经验回归直线必过点,
所以=45-2×4,解得m=34.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
10.在某病毒疫苗的研发过程中,需要利用基因编辑小鼠进行动物实验.现随机抽取100只基因编辑小鼠对该病毒疫苗进行实验,得到如下2×2列联表(部分数据缺失):
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
被某病毒感染 未被某病毒感染 合计
注射疫苗 10 50
未注射疫苗 30 50
合计 30 100
计算可知,根据小概率值α=   的独立性检验,认为 “给基因编辑小鼠注射该种疫苗能起到预防该病毒感染的效果”.
附:χ2=,其中n=a+b+c+d.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
0.05
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
零假设为H0:给基因编辑小鼠注射该种疫苗不能起到预防该病毒感染的效果.
因为χ2=≈4.762,4.762>3.841,
所以根据小概率值α=0.05的独立性检验,推断H0不成立,即认为“给基因编辑小鼠注射该种疫苗能起到预防该病毒感染的效果”.
完善2×2列联表如下:
被某病毒感染 未被某病毒感染 合计
注射疫苗 10 40 50
未注射疫苗 20 30 50
合计 30 70 100
四、解答题
11.甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如表:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
一级品 二级品 合计
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
根据题表中数据知,甲机床生产的产品中一级品的频率是=0.75,乙机床生产的产品中一级品的频率是=0.6.
一级品 二级品 合计
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
(2)依据小概率值α=0.01的独立性检验,能否认为甲机床的产品质量与乙机床的产品质量有差异?
附:χ2=,n=a+b+c+d.
一级品 二级品 合计
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
α 0.05 0.01 0.001
xα 3.841 6.635 10.828
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
零假设为H0:甲机床的产品质量与乙机床的产品质量无差异,根据题表中的数据可得
χ2=
=≈10.256>6.635=x0.01,
所以依据小概率值α=0.01的独立性检验,推断H0不成立,即认为甲机床的产品质量与乙机床的产品质量有差异.
12.为了了解高中学生课后自主学习数学时间x(分钟/天)和他们的数学成绩y(分)的关系,某实验小组做了调查,得到一些数据,如表所示.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
编号 1 2 3 4 5
学习时间x(分钟/天) 30 40 50 60 70
数学成绩y(分) 65 78 85 99 108
(1)求数学成绩y与学习时间x的样本相关系数(精确到0.001);
参考数据:xiyi=22 820,yi=435,=38 999,≈107.4,xi的方差为200.
方差:s2=,
样本相关系数:r=.
经验回归方程x+中斜率和截距的最小二乘估计公式分别为
,,χ2=.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
α 0.10 0.05 0.010 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
=50,=87,
又xi(i=1,2,3,…,5)的方差为=200,
=(65-87)2+(78-87)2+(85-87)2+(99-87)2+(108-87)2
=484+81+4+144+441=1 154,
r=≈≈0.996.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
编号 1 2 3 4 5
学习时间x(分钟/天) 30 40 50 60 70
数学成绩y(分) 65 78 85 99 108
(2)请用样本相关系数说明该组数据中y与x之间的关系可用线性回归模型进行拟合,并求出y关于x的经验回归方程,并由此预测每天课后自主学习数学时间为100分钟时的数学成绩;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
由(1)知r≈0.996接近1,故y与x之间具有极强的线性相关关系,可用线性回归模型进行拟合,
==1.07,
=87-1.07×50=33.5,故=1.07x+33.5.
当x=100时,=140.5,
故预测每天课后自主学习数学时间达到100分钟时的数学成绩为140.5分.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
(3)基于上述调查,某校提倡学生周末在校自主学习.经过一学期的实施后,抽样调查了220位学生.按照是否参与周末在校自主学习以及成绩是否有进步统计,得到2×2列联表.依据表中数据及小概率值α=0.001的独立性检验,分析“周末在校自主学习与成绩进步”是否有关.
没有进步 有进步 合计
参与周末在校自主学习 35 130 165
未参与周末在校自主学习 25 30 55
合计 60 160 220
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
零假设H0:周末在校自主学习与成绩进步无关,
根据数据,计算得到χ2=≈12.22,
因为12.22>10.828=x0.001,
所以依据小概率值α=0.001的独立性检验,推断H0不成立,即可以认为“周末在校自主学习与成绩进步”有关.
13.某课外兴趣小组为研究数学成绩优秀是否与性别有关,通过随机抽样调查,得到成对样本观测数据的分类统计结果,并计算得出χ2≈6.816,经查阅χ2独立性检验的小概率值和相应的临界值,知x0.01=6.635,则下列判断正确的是
A.若某人数学成绩优秀,那么他为男生的概率是0.010
B.每100个数学成绩优秀的人中就会有1名是女生
C.数学成绩优秀与性别有关,此推断犯错误的概率不大于0.01
D.在犯错误的概率不超过1%的前提下认为数学成绩优秀与性别无关
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案

能力拓展
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
因为χ2≈6.816>6.635=x0.01,所以数学成绩优秀与性别有关,此推断犯错误的概率不大于0.01,即在犯错误的概率不超过1%的前提下认为“数学成绩优秀与性别有关”,故C正确,D错误;
若某人数学成绩优秀,由已知数据不能判断他为男生的概率,故A错误;
每100个数学成绩优秀的人中可能没有女生,也有可能有多名女生,由已知数据不能确定结论,故B错误.
14.(多选)某地新开了一条夜市街,每晚平均客流量为2万人,每晚最多能接纳的客流量为10万人,主办公司决定通过微信公众号和其他APP进行广告宣传提高营销效果.通过调研,公司发现另一处同等规模的夜市街投入的广告费x(单位:万元)与每晚增加的客流量y(单位:千人)存在如下关系:
x/万元 1 2 3 4 5 6
y/千人 5 6 8 9 12 20
现用曲线C:×2x拟合变量x与y的相关关系,并利用一元线性回归模型求参数,(精确到0.01),以所求经验回归方程C为预测依据,则
参考数据:=10,xiyi=257,=91,2i=126,=5 460,2iyi=1 906.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
附:一元线性回归模型参数的最小二乘估计公式:,.
A.=5.82
B.曲线C经过点(log221,10)
C.广告费每增加1万元,每晚客流量平均增加3 000人
D.若广告费超过9万元,则每晚客流量会超过夜市街的接纳能力
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案

x/万元 1 2 3 4 5 6
y/千人 5 6 8 9 12 20

1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
由题知,2iyi=1 906,=10,
2i=×126=21,=5 460,
所以≈0.23,
≈10-0.23×21=5.17,A错误;
所以=5.17+0.23×2x,
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
令x=log221,求得=10,B正确;
由上式可知,x每增加1万元,y不是平均增加的,C错误;
若x>9,则>122.93,而每晚最多能接纳的客流量为10万人,故D正确.
返回

展开更多......

收起↑

资源列表