【名师导航2024】高中数学二轮复习学案——9.1统计与成对数据的统计分析(新高考)

资源下载
  1. 二一教育资源

【名师导航2024】高中数学二轮复习学案——9.1统计与成对数据的统计分析(新高考)

资源简介

中小学教育资源及组卷应用平台
9.1统计与成对数据的统计分析
【备考指南】 1
【知识导图】 2
【考点梳理】 6
考点一:随机抽样 6
考点二:用样本估计总体 8
考点三:变量间的相关关系 10
考点四:相关系数r 12
考点五:误差分析 15
考点六:独立性检验 17
【真题在线】 20
【专项突破】 26
考点 考情分析 考频
古典概率模型 2022年新高考Ⅰ卷T5 2022年全国甲卷T6 2022年全国甲卷T15 1年3考
相互独立事件 2023年新高考Ⅰ卷T21 2022年全国乙卷T10 2年2考
独立性检验模型 2022年全国甲卷T17 2021年新高考Ⅰ卷T8 2年2考
分布列、均值与统计图 2022年新高考Ⅱ卷T9
分布列、均值与概率 2022年全国甲卷T19
分布列、均值与独立性检验 2023年全国甲卷T19
用样本估计总体 2022年全国甲卷T2 2022年全国乙卷T4 1年2考
正态分布 2022年新高考Ⅱ卷T13
条件概率 2022年新高考Ⅰ卷T20
统计与样本方差 2023年全国乙卷T17
预测:统计与成对数据的统计分析是高考的重点、热点,一般情况考察难度适中,建议加强基础概念的掌握与合理的运用.
考点一:随机抽样
【典例精析】(多选)(2024·贵州黔东南·二模)某学校为了解学生身高(单位:cm)情况,采用分层随机抽样的方法从4000名学生(该校男女生人数之比为)中抽取了一个容量为100的样本.其中,男生平均身高为175,方差为184,女生平均身高为160,方差为179.则下列说法正确的是参考公式:总体分为2层,各层抽取的样本量、样本平均数和样本方差分别为:,,,,,.记总的样本平均数为,样本方差为,则( )
参考公式:
A.抽取的样本里男生有60人
B.每一位学生被抽中的可能性为
C.估计该学校学生身高的平均值为170
D.估计该学校学生身高的方差为236
【变式训练】
一、单选题
1.(2021·甘肃天水·模拟预测)我国古代数学名著《数书九章》中有“米谷粒分”问题;“开仓受纳,有甲户米一千五百三十四石到廊.验得米内夹谷,乃于样内取米一捻,数计二百五十四粒内有谷二十八颗,凡粒米率每勺三百,今欲知米内杂谷多少”,其大意是,粮仓开仓收粮,有人送来米1534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为( )
A.153石 B.154石 C.169石 D.170石
2.(2024·陕西西安·一模)某高校对中文系新生进行体测,利用随机数表对650名学生进行抽样,先将650名学生进行编号,001,002,…,649,650.从中抽取50个样本,下图提供随机数表的第4行到第6行,若从表中第5行第6列开始向右读取数据,则得到的第6个样本编号是( )
32 21 18 34 29 78 64 54 07 32 52 42 06 44 38 12 23 43 56 77 35 78 90 56 42
84 42 12 53 31 34 57 86 07 36 25 30 07 32 86 23 45 78 89 07 23 68 96 08 04
32 56 78 08 43 67 89 53 55 77 34 89 94 83 75 22 53 55 78 32 45 77 89 23 45
A.623 B.328 C.072 D.457
二、多选题
3.(2023·安徽合肥·模拟预测)某学校高三年级学生有500人,其中男生320人,女生180人.为了获得该校全体高三学生的身高信息,现采用分层抽样的方法抽取样本,并观测样本的指标值(单位:cm),计算得男生样本的均值为174,方差为16,女生样本的均值为164,方差为30.则下列说法正确的是( )
A.如果抽取25人作为样本,则抽取的样本中男生有16人
B.该校全体高三学生的身高均值为171
C.抽取的样本的方差为44.08
D.如果已知男 女的样本量都是25,则总样本的均值和方差可以作为总体均值和方差的估计值
4.(2024·湖南怀化·二模)下列说法正确的是( )
A.某校高一年级共有男女学生500人,现按性别采用分层抽样的方法抽取容量为50人的样本,若样本中男生有30人,则该校高一年级女生人数是200
B.数据1,3, 4,5,7,9,11,16的第75百分位数为10
C.线性回归方程中,若线性相关系数越大,则两个变量的线性相关性越强
D.根据分类变量与的成对样本数据,计算得到,根据小概率值的独立性检验,可判断与有关联,此推断犯错误的概率不大于0.05
三、填空题
5.(2024·陕西安康·模拟预测)杭州亚运会期间,某社区有200人参加协助交通管理的志愿团队,为了解他们参加这项活动的感受,用分层抽样的方法随机抽取了一个容量为40的样本,若样本中女性有16人,则该志愿团队中的男性人数为 .
考点二:用样本估计总体
【典例精析】(多选)(2024·河南三门峡·模拟预测)某灯具配件厂生产了一种塑胶配件,该厂质检人员某日随机抽取了100个该配件的质量指标值(单位:分)作为一个样本,得到如下所示的频率分布直方图,则(同一组中的数据用该组区间的中点值作代表)( )
A.
B.样本质量指标值的平均数为75
C.样本质量指标值的众数小于其平均数
D.样本质量指标值的第75百分位数为85
【变式训练】
一、单选题
1.(2024·江西·二模)从甲队60人、乙队40人中,按照分层抽样的方法从两队共抽取10人,进行一轮答题.相关统计情况如下:甲队答对题目的平均数为1,方差为1;乙队答对题目的平均数为1.5,方差为0.4,则这10人答对题目的方差为( )
A.0.8 B.0.675 C.0.74 D.0.82
二、多选题
2.(2023·全国·模拟预测)新能源汽车产业是战略性新兴产业,发展新能源汽车是推动节能减排的有效措施,是解决能源环境问题的有效途径,同时也是实现国家生态文明建设的有力举措.某地区2017年至2021年每年汽车总销量(单位:万辆)和新能源汽车销量占比(注:汽车总销量指新能源汽车销量与非新能源汽车销量之和)如表所示,则( )
年份 2017 2018 2019 2020 2021
汽车总销量/万辆 5.5 5.8 6.0 7.0 7.7
新能源汽车销量占比 4% 6% 8% 7% 20%
A.该地区2017年至2021年平均每年销售汽车6.4万辆
B.该地区2017年至2021年平均每年销售新能源汽车少于0.5万辆
C.该地区2017年至2021年新能源汽车销量逐年增加
D.该地区2017年至2021年非新能源汽车销量逐年减少
三、填空题
3.(2022·吉林·模拟预测)北京时间2022年4月16日09时56分,神舟十三号载人飞船返回舱在东风着陆场成功着陆,将在太空“出差”半年的翟志刚 王亚平 叶光富送回到阔别已久的祖国大地.神舟十三号载人飞行任务的圆满成功,标志着空间站关键技术验证阶段任务圆满完成,中国空间站即将进入建造阶段.某机构研究室通过随机抽样的方式,对18岁及以上人群进行了“你是否曾有过航天梦想”的调查研究,得到如下的统计结果:
根据调查结果,以下说法正确的是 .
①在“曾有过航天梦想”的人群中,54岁及以上的人数最少
②在“曾有过航天梦想”的人群中,年龄越大,在航天相关方面的人均消费越少
③在“曾有过航天梦想”的人群中,18-29岁在航天相关方面的总消费最多
四、解答题
4.(2024·四川成都·三模)某保险公司为了给年龄在20~70岁的民众提供某种疾病的医疗保障,设计了一款针对该疾病的保险,现从10000名参保人员中随机抽取100名进行分析,这100个样本按年龄段分成了五组,其频率分布直方图如下图所示,每人每年所交纳的保费与参保年龄如下表格所示.(保费:元)据统计,该公司每年为该项保险支出的各种费用为一百万元.
年龄
保费
(1)用样本的频率分布估计总体的概率分布,为使公司不亏本,则保费至少为多少元?(精确到整数)
(2)随着年龄的增加,该疾病患病的概率越来越大,经调查,年龄在的老人中每15人就有1人患该项疾病,年龄在的老人中每10人就有1人患该项疾病,现分别从年龄在和的老人中各随机选取1人,记表示选取的这2人中患该疾病的人数,求的数学期望.
考点三:变量间的相关关系
【典例精析】(多选)(2024·山东枣庄·模拟预测)已知两个变量y与x对应关系如下表:
x 1 2 3 4 5
y 5 m 8 9 10.5
若y与x满足一元线性回归模型,且经验回归方程为,则( )
A.y与x正相关 B.
C.样本数据y的第60百分位数为8 D.各组数据的残差和为0
【变式训练】
一、单选题
1.(2024·河北·一模)某校为了解本校高一男生身高和体重的相关关系,在该校高一年级随机抽取了7名男生,测量了他们的身高和体重得下表:
身高x(单位:) 167 173 175 177 178 180 181
体重y(单位:) 90 54 59 64 67 72 76
由表格制作成如图所示的散点图:
由最小二乘法计算得到经验回归直线的方程为,其相关系数为;经过残差分析,点对应残差过大,把它去掉后,再用剩下的6组数据计算得到经验回归直线的方程为,相关系数为.则下列选项正确的是( )
A. B.
C. D.
2.(2024·安徽蚌埠·模拟预测)为维护市场秩序,保护消费者权益,在“五一”假期来临之际,我市物价部门对某商品在5家商场的售价(元)及其一天的销售量(件)进行调查,得到五对数据,经过分析、计算,得,关于的经验回归方程为,则相应于点的残差为( )
A. B.1 C. D.3
二、多选题
3.(2024·浙江金华·三模)某班主任用下表分析高三前5次考试中本班级在年级中的成绩排名y与考试次数x的相关性时,忘记了第二次和第四次考试排名,但他记得平均排名,于是分别用和得到了两个经验回归方程:,,对应的样本相关系数分别为,,排名y对应的方差分别为,,则( )
x 1 2 3 4 5
y 10 m 6 n 2
附:,,.
A. B.
C. D.
三、填空题
4.(2022·北京·模拟预测)某班在一次考试后分析学生在语文 数学 英语三个学科的表现,绘制了各科年级排名的散点图(如下图所示).
关于该班级学生这三个学科本次考试的情况,给出下列四个结论:
①三科中,数学年级排名的平均数及方差均最小;
②语文、数学、英语年级排名均在150名以外的学生为1人;
③本次考试该班语文第一名、数学第一名、英语第一名可能为三名不同的同学;
④从该班学生中随机抽取1人,若其语文排名大于200,则其英语和数学排名均在150以内的概率为.
其中所有正确结论的序号是 .
四、解答题
5.(2024·四川眉山·三模)某公司为改进生产,现对近5年来生产经营情况进行分析.收集了近5年的利润(单位:亿元)与年份代码共5组数据(其中年份代码分别指2019年,2020年,年),并得到如下值:.
(1)若用线性回归模型拟合变量与的相关关系,计算该样本相关系数,并判断变量与的相关程度(精确到0.01);
(2)求变量关于的线性回归方程,并求2024年利润的预报值.
附:①;②若,相关程度很强;,相关程度一般;,相关程度较弱;③一组数据,其回归直线的斜率和截距的最小二乘估计分别为;相关系数.
考点四:相关系数r
【典例精析】(多选)(2024·湖北武汉·二模)下列说法正确的是( )
A.将一组数据的每一个数减去同一个数后,新数据的方差与原数据方差相同
B.线性回归直线一定过样本点中心
C.线性相关系数越大,两个变量的线性相关性越强
D.在残差的散点图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效果越好
【变式训练】
一、单选题
1.(2024·天津·二模)有人通过调查统计发现,儿子成年时的身高与父亲的身高呈线性相关,且儿子成年时的身高(单位:)与父亲的身高(单位:)的经验回归方程为,根据以上信息,下列判断正确的为( ).
A.儿子成年时的身高与父亲的身高的样本相关系数
B.父亲的身高为,儿子成年时的身高一定在到之间
C.父亲的身高每增加,儿子成年时的身高平均增加
D.儿子在成年时的身高一般会比父亲高
2.(2024·上海徐汇·二模)为了研究y关于x的线性相关关系,收集了5组样本数据(见下表):
x 1 2 3 4 5
y 0.5 0.9 1 1.1 1.5
若已求得一元线性回归方程为,则下列选项中正确的是( )
A.
B.当时,y的预测值为2.2
C.样本数据y的第40百分位数为1
D.去掉样本点后,x与y的样本相关系数r不会改变
二、多选题
3.(2024·吉林长春·模拟预测)相关变量x,y的散点图如下,若剔除点13后,剩下数据得到的统计中,较剔除之前值变小的是( )
A.样本的相关系数 B.残差的平方和
C.样本数据y的平均值 D.回归直线中的回归系数
三、填空题
4.(2023·上海徐汇·模拟预测)下列说法中正确的有 (填正确说法的序号).
①若样本数据,,…,的方差为4,则数据,,…,的标准差为4;
②已知随机变量,且,则;
③若线性相关系数越接近1,则两个变量的线性相关性越弱;
④若事件A,B满足,,,则有.
四、解答题
5.(2024·山东聊城·三模)今年五一节期间,聊城百货大楼有限公司搞促销活动,下表是该公司5月1号至10号(日期简记为1,2,3,……,10)连续10天的销售情况:
日期 1 2 3 4 5 6 7 8 9 10
销售额(万元) 19 19.3 19.6 20 21.2 22.4 23.8 24.6 25 25.4
由上述数据,用最小二乘法得到销售额和日期的线性回归方程为,日期的方差约为3.02,销售额的方差约为2.59.
(1)根据线性回归方程,分析销售额随日期变化趋势的特征,并计算第4天的残差;
(2)计算相关系数,并分析销售额和日期的相关程度(精确到0.001);
(3)该公司为了促销,拟打算对电视机实行分期付款方式销售,假设顾客购买一台电视机选择分期付款的期数及相应的概率和公司获得的利润(单位:元)情况如下表:
2 4 6
400 600 800
已知成等比数列.
设该公司销售两台电视机所获得的利润为(单位:元),当的概率取得最大值时,求利润的分布列和数学期望.
参考公式:相关系数.回归方程中斜率和截距的最小二乘法估计公式分别为:.相关数据.
考点五:误差分析
【典例精析】(多选)(2024·江西鹰潭·二模)下列说法中,正确的是( )
A.一组数据10,11,11,12,13,14,16,18,20,22的第40百分位数为12
B.两组样本数据,,,和,,,的方差分别为,,若已知(),则
C.已知随机变量服从正态分布,若,则
D.已知一系列样本点()的回归方程为,若样本点与的残差(残差=实际值-模型预测值)相等,则
【变式训练】
一、单选题
1.(2024·四川成都·三模)地球生命来自外星吗?一篇发布在《生物学快讯》上的文章《基因库的增长是生命起源和演化的时钟》可能给出了一种答案.该论文的作者根据生物功能性基因组里的碱基排列数的大小定义了基因库的复杂度y(单位:1),通过研究各个年代的古代生物化石里基因库的复杂度,提出了一个有趣的观点:生物基因库的复杂度近似是随时间呈指数增长的,只要知道生物基因库的复杂度就可以推测该生物体出现的年代.如图是该论文作者根据生物化石(原核生物,真核生物,蠕虫,鱼类,哺乳动物)中的基因复杂度的常用对数与时间(单位:十亿年)的散点图及回归拟合情况(其中回归方程为:,相关指数).根据题干与图中的信息,下列说法错误的是( )
A.根据信息生物基因库的复杂度近似是随时间呈指数增长的情况,不同于作者采取取常用对数的做法,我们也可采用函数模型来拟合
B.根据回归方程可以得到,每过10亿年,生物基因库的复杂度一定增加到原来的倍
C.虽然拟合相关指数为0.97,但是样本点只有5个,不能很好地阐释其统计规律,所以增加可靠的样本点可以更好地完善回归方程
D.根据物理界主流观点:地球的形成始于45亿年前,及拟合信息:地球在诞生之初时生物的复杂度大约为,可以推断地球生命可能并非诞生于地球
2.(2024·江苏苏州·模拟预测)下列说法中,正确的是( )
A.已知一系列样本点一个经验回归方程,若样本点与的残差相等,则
B.已知随机变量,若,则
C.将5名同学分到三个组开展活动,每个组至少1名,则不同分配方法数是240
D.每人参加一次游戏,每轮游戏有三个题目,每个题目答对的概率均为且相互独立,若答对题数多于答错题数可得4分,否则得2分,则某人参加游戏得分的期望为3
二、多选题
3.(2024·河北唐山·二模)为研究光照时长(小时)和种子发芽数量(颗)之间的关系,某课题研究小组采集了10组数据,绘制散点图如图所示,并进行线性回归分析,若去掉点后,下列说法正确的是( )
A.相关系数变小 B.经验回归方程斜率变小
C.残差平方和变小 D.决定系数变小
三、填空题
4.(2024·广东广州·一模)某校数学建模兴趣小组收集了一组恒温动物体重(单位:克)与脉搏率(单位:心跳次数/分钟)的对应数据,根据生物学常识和散点图得出与近似满足(为参数).令,,计算得,,.由最小二乘法得经验回归方程为,则的值为 ;为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数 .(参考公式:决定系数)
四、解答题
5.(2024·四川德阳·三模)某公司为了确定下季度的前期广告投入计划,收集并整理了近6个月广告投入量x(单位:万元)和收益y(单位:万元)的数据如表(其中有些数据污损不清):
月份 1 2 3 4 5 6
广告投入量 2 7 8 10
收益 20 30 34 37
他们分别用两种模型①,②进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值.
(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型
(2)残差绝对值大于2 的数据被认为是异常数据,需要剔除.
(i)剔除异常数据后,求出(1)中所选模型的回归方程;
(ii)若广告投入量x=19,则(1)中所选模型收益的预报值是多少万元 (精确到0.01)
附:对于一组数据 其回归直线 的斜率和截距的最小二乘估计分别为: .
考点六:独立性检验
【典例精析】(多选)(2024·安徽黄山·二模)下列论述正确的有( )
A.若随机变量满足,则
B.若随机事件,满足:,,,则事件与相互独立
C.基于小概率值的检验规则是:当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过;当时,我们没有充分证据推断不成立,可以认为和独立
D.若关于的经验回归方程为,则样本点的残差为
【变式训练】
一、单选题
1.(2024·黑龙江哈尔滨·二模)针对2025年第九届亚冬会在哈尔滨举办,校团委对“是否喜欢冰雪运动与学生性别的关系”进行了一次调查,其中被调查的男、女生人数相同,男生中喜欢冰雪运动的人数占男生人数的,女生中喜欢冰雪运动的人数占女生人数的,若依据的独立性检验,认为是否喜欢冰雪运动与学生性别有关,则被调查的学生中男生的人数不可能是( )
附:.
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
A.48 B.54 C.60 D.66
2.(2024·山东枣庄·一模)某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到两种疗法治疗数据的列联表:
疗法 疗效 合计
未治愈 治愈
甲 15 52 67
乙 6 63 69
合计 21 115 136
经计算得到,根据小概率值的独立性检验(已知独立性检验中),则可以认为( )
A.两种疗法的效果存在差异
B.两种疗法的效果存在差异,这种判断犯错误的概率不超过0.005
C.两种疗法的效果没有差异
D.两种疗法的效果没有差异,这种判断犯错误的概率不超过0.005
二、多选题
3.(2024·云南·模拟预测)下列说法正确的是( )
A.设随机变量的均值为是不等于的常数,则相对于的偏离程度小于相对于的偏离程度(偏离程度用差的平方表示)
B.若一组数据的方差为0,则所有数据都相同
C.用决定系数比较两个回归模型的拟合效果时,越小,残差平方和越小,模型拟合效果越好
D.在对两个分类变量进行独立性检验时,如果列联表中所有数据都扩大为原来的10倍,在相同的检验标准下,再去判断两变量的关联性时,结论不会发生改变
三、填空题
4.(22-23高三·全国·课后作业)某校团委对“学生性别和喜欢网络游戏是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢网络游戏的人数占男生人数的,女生喜欢网络游戏的人数占女生人数的.若根据独立性检验认为喜欢网络游戏和性别有关,且此推断犯错误的概率超过0.01但不超过0.05,则被调查的学生中男生可能有 人.(请将所有可能的结果都填在横线上)
附表:,其中.
0.050 0.010
3.841 6.635
四、解答题
5.(2024·贵州毕节·三模)2023年12月30日8时13分,长征二号丙/远征一号S运载火箭在酒泉卫星发射中心点火起飞,随后成功将卫星互联网技术试验卫星送入预定轨道由中国航天科技集团有限公司研制的运载火箭48次宇航任务全部取得圆满成功.也代表着中国航天2023年完美收官某市一调研机构为了了解当地学生对我国航天事业发展的关注度,随机从本市大学生和高中生中抽取一个容量为的样本,根据调查结果得到如下列联表:
学生群体 关注度 合计
关注 不关注
大学生
高中生
合计
(1)完成上述列联表;依据小概率值的独立性检验,认为关注航天事业发展与学生群体有关联,求样本容量n的最小值;
(2)用频率估计概率,从本市大学生和高中生中随机选取3人,用X表示不关注的人数,求X的分布列和数学期望.
附:
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
,其中.
一、单选题
1.(2023·全国·高考真题)某学校为了解学生参加体育运动的情况,用比例分配的分层随机抽样方法作抽样调查,拟从初中部和高中部两层共抽取60名学生,已知该校初中部和高中部分别有400名和200名学生,则不同的抽样结果共有( ).
A.种 B.种
C.种 D.种
2.(2022·全国·高考真题)某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如下图:
则( )
A.讲座前问卷答题的正确率的中位数小于
B.讲座后问卷答题的正确率的平均数大于
C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差
D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差
3.(2021·全国·高考真题)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:
根据此频率分布直方图,下面结论中不正确的是( )
A.该地农户家庭年收入低于4.5万元的农户比率估计为6%
B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%
C.估计该地农户家庭年收入的平均值不超过6.5万元
D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
二、多选题
4.(2023·全国·高考真题)有一组样本数据,其中是最小值,是最大值,则( )
A.的平均数等于的平均数
B.的中位数等于的中位数
C.的标准差不小于的标准差
D.的极差不大于的极差
5.(2021·全国·高考真题)下列统计量中,能度量样本的离散程度的是( )
A.样本的标准差 B.样本的中位数
C.样本的极差 D.样本的平均数
三、解答题
6.(2023·全国·高考真题)一项试验旨在研究臭氧效应.实验方案如下:选40只小白鼠,随机地将其中20只分配到实验组,另外20只分配到对照组,实验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).
(1)设表示指定的两只小白鼠中分配到对照组的只数,求的分布列和数学期望;
(2)实验结果如下:
对照组的小白鼠体重的增加量从小到大排序为:
15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.1
32.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2
实验组的小白鼠体重的增加量从小到大排序为:
7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.2
19.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5
(i)求40只小鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于的数据的个数,完成如下列联表:
对照组
实验组
(ii)根据(i)中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与正常环境中体重的增加量有差异.
附:
0.100 0.050 0.010
2.706 3.841 6.635
7.(2023·全国·高考真题)某厂为比较甲乙两种工艺对橡胶产品伸缩率的处理效应,进行10次配对试验,每次配对试验选用材质相同的两个橡胶产品,随机地选其中一个用甲工艺处理,另一个用乙工艺处理,测量处理后的橡胶产品的伸缩率.甲、乙两种工艺处理后的橡胶产品的伸缩率分别记为,.试验结果如下:
试验序号 1 2 3 4 5 6 7 8 9 10
伸缩率 545 533 551 522 575 544 541 568 596 548
伸缩率 536 527 543 530 560 533 522 550 576 536
记,记的样本平均数为,样本方差为.
(1)求,;
(2)判断甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率是否有显著提高(如果,则认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高,否则不认为有显著提高)
8.(2023·全国·高考真题)某研究小组经过研究发现某种疾病的患病者与未患病者的某项医学指标有明显差异,经过大量调查,得到如下的患病者和未患病者该指标的频率分布直方图:
利用该指标制定一个检测标准,需要确定临界值c,将该指标大于c的人判定为阳性,小于或等于c的人判定为阴性.此检测标准的漏诊率是将患病者判定为阴性的概率,记为;误诊率是将未患病者判定为阳性的概率,记为.假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.
(1)当漏诊率%时,求临界值c和误诊率;
(2)设函数,当时,求的解析式,并求在区间的最小值.
9.(2022·全国·高考真题)在某地区进行流行病学调查,随机调查了100位某种疾病患者的年龄,得到如下的样本数据的频率分布直方图:

(1)估计该地区这种疾病患者的平均年龄(同一组中的数据用该组区间的中点值为代表);
(2)估计该地区一位这种疾病患者的年龄位于区间的概率;
(3)已知该地区这种疾病的患病率为,该地区年龄位于区间的人口占该地区总人口的.从该地区中任选一人,若此人的年龄位于区间,求此人患这种疾病的概率.(以样本数据中患者的年龄位于各区间的频率作为患者的年龄位于该区间的概率,精确到0.0001).
10.(2022·全国·高考真题)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截面积 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
并计算得.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数.
11.(2022·全国·高考真题)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:
不够良好 良好
病例组 40 60
对照组 10 90
(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患有该疾病”.与的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R.
(ⅰ)证明:;
(ⅱ)利用该调查数据,给出的估计值,并利用(ⅰ)的结果给出R的估计值.
附,
0.050 0.010 0.001
k 3.841 6.635 10.828
12.(2021·全国·高考真题)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品 二级品 合计
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异
附:
0.050 0.010 0.001
k 3.841 6.635 10.828
一、单选题
1.(2024·辽宁·模拟预测)下表为某地春节假期某日游客抽取的100人样本的出行方式统计数据
出行方式 高铁 自驾 飞机 客车
频数 27 16 28 29
某实验点从这批游客中抽取25人,当中选择飞机出行的人数大约为( )
A.8 B.7 C.6 D.4
2.(2024·河北保定·二模)某学生通过计步仪器,记录了自己最近30天每天走的步数,数据从小到大排序如下:
5588 6054 8799 9851 9901 10111 11029 11207 12634 12901
13001 13092 13127 13268 13562 13621 13761 13801 14101 14172
14191 14292 14426 14468 14562 14621 15061 15601 15901 19972
估计该学生最近30天每天走的步数数据的第75百分位数为( )
A.14292 B.14359 C.14426 D.14468
3.(2024·广东茂名·二模)已知变量和的统计数据如表:
1 2 3 4 5
6 6 7 8 8
根据上表可得回归直线方程,据此可以预测当时,( )
A.8.5 B.9 C.9.5 D.10
4.(2024·上海金山·二模)下列说法不正确的是( ).
A.一组数据10,11,11,12,13,14,16,18,20,22的第60百分位数为14
B.若随机变量服从正态分布,且,则
C.若线性相关系数越接近1,则两个变量的线性相关程度越高
D.对具有线性相关关系的变量、,且回归方程为,若样本点的中心为,则实数的值是
5.(2024·全国·模拟预测)2023年第19届亚运会在杭州举行,亚运会的吉祥物琮琮、莲莲、宸宸深受大家喜爱,某商家统计了最近5个月销量,如下表所示:
时间x 1 2 3 4 5
销售量y/万只 5 4.5 4 3.5 2.5
若y与x线性相关,且线性回归方程为,则下列说法不正确的是( )
A.由题中数据可知,变量y与x负相关 B.当时,残差为0.2
C.可以预测当时销量约为2.1万只 D.线性回归方程中
6.(2024·黑龙江·二模)根据分类变量x与y的成对样本数据,计算得,依据的独立性检验,结论为( )参考值:
0.1 0.05 0.01
2.706 3.841 6.635
A.x与y不独立
B.x与y不独立,这个结论犯错误的概率不超过0.05
C. x与y独立
D.x与y独立,这个结论犯错误的概率不超过0.05
二、多选题
7.(2024·海南海口·二模)已知甲、乙两组样本各有10个数据,甲、乙两组数据合并后得到一组新数据,下列说法正确的是( )
A.若甲、乙两组数据的平均数都为a,则新数据的平均数等于a
B.若甲、乙两组数据的极差都为b,则新数据的极差可能大于b
C.若甲、乙两组数据的方差都为c,则新数据的方差可能小于c
D.若甲、乙两组数据的中位数都为d,则新数据的中位数等于d
8.(2024·江西·模拟预测)下列命题正确的是( )
A.已知由一组样本数据,得到的回归直线方程为,且,则这组样本数据中一定有
B.某学校高三年级学生有男生500人,女生400人,为了获得该校高三全体学生的身高信息,现采用样本量比例分配的分层随机抽样方法抽取了容量为180的样本,经计算得男生样本的均值为170,方差为19,女生样本的均值为161,方差为28,则抽取的样本的方差为43
C.已知互不相同的30个样本数据,若去掉其中最大和最小的数据,则剩下28个数据的分位数可能等于原样本数据的分位数
D.若随机变量,且,则
三、填空题
9.(2024·云南大理·模拟预测)已知某种商品的广告费支出(单位:万元)与销售额(单位:万元)之间有如下表对应数据:
1 3 4 5 7
15 20 30 40 45
根据表中数据得到关于的经验回归方程为,则当时,残差为 .(残差观测值-预测值)
10.(2024·上海金山·二模)为了考察某种药物预防疾病的效果,进行动物试验,得到如下图所示列联表:
药物 疾病 合计
未患病 患病
服用 50
未服用 50
合计 80 20 100
取显著性水平,若本次考察结果支持“药物对疾病预防有显著效果”,则()的最小值为 .
(参考公式:;参考值:)
11.(2024·河北石家庄·三模)为了解全市高三学生的体能素质情况,在全市高三学生中随机抽取了1000名学生进行体能测试,并将这1000名学生的体能测试成绩整理成如下频率分布直方图.则直方图中实数的值为 .
四、解答题
12.(2024·全国·模拟预测)第24届哈尔滨冰雪大世界开园后,为了了解进园游客对本届冰雪大世界的满意度,从进园游客中随机抽取50人进行调查并统计其满意度评分,制成频率分布直方图如图所示,其中满意度评分在的游客人数为18.

(1)求频率分布直方图中的值;
(2)从抽取的50名游客中满意度评分在及的游客中用分层抽样的方法抽取5人,再从抽取的5人中随机抽取2人,求2人中恰有1人的满意度评分在的概率.
13.(2024·陕西西安·模拟预测)全球新能源汽车产量呈上升趋势.以下为年全球新能源汽车的销售量情况统计.
年份 2018 2019 2020 2021 2022 2023
年份编号 1 2 3 4 5 6
销售量/百万辆 2.02 2.21 3.13 6.70 10.80 14.14
若与的相关关系拟用线性回归模型表示,回答如下问题:
(1)求变量与的样本相关系数(结果精确到0.01);
(2)求关于的线性回归方程,并据此预测2024年全球新能源汽车的销售量.
附:线性回归方程,其中,
样本相关系数.
参考数据:.
14.(2024·陕西榆林·三模)“直播的尽头是带货”,如今网络直播带货越来越火爆,但商品的质量才是一个主播能否持久带货的关键.某主播委托甲 乙两个工厂为其生产加工商品,为了了解商品质量情况,分别从甲 乙两个工厂各随机抽取了100件商品,根据商品质量可将其分为一、二、三等品,统计的结果如下图:
(1)根据独立性检验,判断是否有的把握认为商品为一等品与加工工厂有关?
(2)将样本数据的频率视为概率,现在甲 乙工厂为该主播进行商品展示活动,每轮活动分别从甲 乙工厂中随机挑选一件商品进行展示,求在两轮活动中恰有三个一等品的概率;
(3)综合各个方面的因素,最终该主播决定以后只委托甲工厂为其生产商品,已知商品随机装箱出售,每箱30个.商品出厂前,工厂可自愿选择是否对每箱商品进行检验.若执行检验,则每个商品的检验费用为10元,并将检验出的三等品更换为一等品或二等品;若不执行检验,则对卖出的每个三等品商品支付100元赔偿费用.将样本数据的频率视为概率,以整箱检验费用的期望记为,所有赔偿费用的期望记为,以和的大小关系作为决策依据,判断是否需要对每箱商品进行检验?请说明理由.
0.100 0.050 0.010 0.005
2.706 3.841 6.635 7.879
21世纪教育网 www.21cnjy.com 精品试卷·第 2 页 (共 2 页)
21世纪教育网(www.21cnjy.com)中小学教育资源及组卷应用平台
9.1统计与成对数据的统计分析
【备考指南】 1
【知识导图】 2
【考点梳理】 6
考点一:随机抽样 6
考点二:用样本估计总体 9
考点三:变量间的相关关系 14
考点四:相关系数r 19
考点五:误差分析 24
考点六:独立性检验 30
【真题在线】 36
【专项突破】 49
考点 考情分析 考频
古典概率模型 2022年新高考Ⅰ卷T5 2022年全国甲卷T6 2022年全国甲卷T15 1年3考
相互独立事件 2023年新高考Ⅰ卷T21 2022年全国乙卷T10 2年2考
独立性检验模型 2022年全国甲卷T17 2021年新高考Ⅰ卷T8 2年2考
分布列、均值与统计图 2022年新高考Ⅱ卷T9
分布列、均值与概率 2022年全国甲卷T19
分布列、均值与独立性检验 2023年全国甲卷T19
用样本估计总体 2022年全国甲卷T2 2022年全国乙卷T4 1年2考
正态分布 2022年新高考Ⅱ卷T13
条件概率 2022年新高考Ⅰ卷T20
统计与样本方差 2023年全国乙卷T17
预测:统计与成对数据的统计分析是高考的重点、热点,一般情况考察难度适中,建议加强基础概念的掌握与合理的运用.
考点一:随机抽样
【典例精析】(多选)(2024·贵州黔东南·二模)某学校为了解学生身高(单位:cm)情况,采用分层随机抽样的方法从4000名学生(该校男女生人数之比为)中抽取了一个容量为100的样本.其中,男生平均身高为175,方差为184,女生平均身高为160,方差为179.则下列说法正确的是参考公式:总体分为2层,各层抽取的样本量、样本平均数和样本方差分别为:,,,,,.记总的样本平均数为,样本方差为,则( )
参考公式:
A.抽取的样本里男生有60人
B.每一位学生被抽中的可能性为
C.估计该学校学生身高的平均值为170
D.估计该学校学生身高的方差为236
【答案】ABD
【分析】根据分层抽样的公式,以及利用每层样本的平均数和方差公式,代入总体的均值和方差公式,即可判断选项.
【详解】对于项,抽取的样本里男生有人,所以A项正确;
对于B项,由题可知,每一位学生被抽中的可能性为,所以B项正确;
对于C项,估计该学校学生身高的平均值为,所以C项错误;
对于D,估计该学校学生身高的方差为,所以D项正确.
故选:ABD
【变式训练】
一、单选题
1.(2021·甘肃天水·模拟预测)我国古代数学名著《数书九章》中有“米谷粒分”问题;“开仓受纳,有甲户米一千五百三十四石到廊.验得米内夹谷,乃于样内取米一捻,数计二百五十四粒内有谷二十八颗,凡粒米率每勺三百,今欲知米内杂谷多少”,其大意是,粮仓开仓收粮,有人送来米1534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为( )
A.153石 B.154石 C.169石 D.170石
2.(2024·陕西西安·一模)某高校对中文系新生进行体测,利用随机数表对650名学生进行抽样,先将650名学生进行编号,001,002,…,649,650.从中抽取50个样本,下图提供随机数表的第4行到第6行,若从表中第5行第6列开始向右读取数据,则得到的第6个样本编号是( )
32 21 18 34 29 78 64 54 07 32 52 42 06 44 38 12 23 43 56 77 35 78 90 56 42
84 42 12 53 31 34 57 86 07 36 25 30 07 32 86 23 45 78 89 07 23 68 96 08 04
32 56 78 08 43 67 89 53 55 77 34 89 94 83 75 22 53 55 78 32 45 77 89 23 45
A.623 B.328 C.072 D.457
二、多选题
3.(2023·安徽合肥·模拟预测)某学校高三年级学生有500人,其中男生320人,女生180人.为了获得该校全体高三学生的身高信息,现采用分层抽样的方法抽取样本,并观测样本的指标值(单位:cm),计算得男生样本的均值为174,方差为16,女生样本的均值为164,方差为30.则下列说法正确的是( )
A.如果抽取25人作为样本,则抽取的样本中男生有16人
B.该校全体高三学生的身高均值为171
C.抽取的样本的方差为44.08
D.如果已知男 女的样本量都是25,则总样本的均值和方差可以作为总体均值和方差的估计值
4.(2024·湖南怀化·二模)下列说法正确的是( )
A.某校高一年级共有男女学生500人,现按性别采用分层抽样的方法抽取容量为50人的样本,若样本中男生有30人,则该校高一年级女生人数是200
B.数据1,3, 4,5,7,9,11,16的第75百分位数为10
C.线性回归方程中,若线性相关系数越大,则两个变量的线性相关性越强
D.根据分类变量与的成对样本数据,计算得到,根据小概率值的独立性检验,可判断与有关联,此推断犯错误的概率不大于0.05
三、填空题
5.(2024·陕西安康·模拟预测)杭州亚运会期间,某社区有200人参加协助交通管理的志愿团队,为了解他们参加这项活动的感受,用分层抽样的方法随机抽取了一个容量为40的样本,若样本中女性有16人,则该志愿团队中的男性人数为 .
参考答案:
1.C
【分析】这批米内夹谷约为石,则,由此能求出这批米内夹谷数量.
【详解】这批米内夹谷约为石,根据题意可得
解得
故选:C
2.A
【分析】按照随机数表提供的数据,三位一组的读数,并取001到650内的数,重复的只取一次即可
【详解】从第5行第6列开始向右读取数据,
第一个数为253,第二个数是313,
第三个数是457,下一个数是860,不符合要求,
下一个数是736,不符合要求,下一个是253,重复,
第四个是007,第五个是328,第六个数是623,,故A正确.
故选:A.
3.AC
【分析】利用分层抽样计算即可判断选项A;代入均值与方差公式即可判断选项BC;因为抽样中未按比例进行分层抽样,所以总体中每个个体被抽到的可能性不完全相同,因而样本的代表性差,所以作为总体的估计不合适,可以判断D.
【详解】根据分层抽样,抽取25人作为样本,
则抽取的样本中男生有正确;
样本学生的身高均值,B错误;
抽取的样本的方差为,C正确;
因为抽样中未按比例进行分层抽样,
所以总体中每个个体被抽到的可能性不完全相同,
因而样本的代表性差,所以作为总体的估计不合适.D错误.
故选:AC
4.ABD
【分析】利用分层抽样计算判断A;求出第75百分位数判断B;利用线性相关系数的意义判断C;利用独立性检验的思想判断D.
【详解】对于A,该校高一年级女生人数是,A正确;
对于B,由,得第75百分位数为,B正确;
对于C,线性回归方程中,线性相关系数绝对值越大,两个变量的线性相关性越强,C错误;
对于D,由,可判断与有关联,此推断犯错误的概率不大于0.05,D正确.
故选:ABD
5.
【分析】根据题意,结合分层抽样的概念和计算方法,即可求解.
【详解】根据题意,结合分层抽样的概念及运算,可得愿团队中的男性人数为.
故答案为:.
考点二:用样本估计总体
【典例精析】(多选)(2024·河南三门峡·模拟预测)某灯具配件厂生产了一种塑胶配件,该厂质检人员某日随机抽取了100个该配件的质量指标值(单位:分)作为一个样本,得到如下所示的频率分布直方图,则(同一组中的数据用该组区间的中点值作代表)( )
A.
B.样本质量指标值的平均数为75
C.样本质量指标值的众数小于其平均数
D.样本质量指标值的第75百分位数为85
【答案】ACD
【分析】运用频率分布直方图中所有频率之和为1及平均数、众数、百分位数公式计算即可.
【详解】对于A项,由题意知,解得0.030,故A项正确;
对于B项,样本质量指标值的平均数为,故B项错误;
对于C项,样本质量指标值的众数是,故C项正确;
对于D项,前3组的频率之和为,前4组的频率之和为,
故第75百分位数位于第4组,设其为,
则,解得,
即第75百分位数为85,故D项正确.
故选:ACD项.
【变式训练】
一、单选题
1.(2024·江西·二模)从甲队60人、乙队40人中,按照分层抽样的方法从两队共抽取10人,进行一轮答题.相关统计情况如下:甲队答对题目的平均数为1,方差为1;乙队答对题目的平均数为1.5,方差为0.4,则这10人答对题目的方差为( )
A.0.8 B.0.675 C.0.74 D.0.82
二、多选题
2.(2023·全国·模拟预测)新能源汽车产业是战略性新兴产业,发展新能源汽车是推动节能减排的有效措施,是解决能源环境问题的有效途径,同时也是实现国家生态文明建设的有力举措.某地区2017年至2021年每年汽车总销量(单位:万辆)和新能源汽车销量占比(注:汽车总销量指新能源汽车销量与非新能源汽车销量之和)如表所示,则( )
年份 2017 2018 2019 2020 2021
汽车总销量/万辆 5.5 5.8 6.0 7.0 7.7
新能源汽车销量占比 4% 6% 8% 7% 20%
A.该地区2017年至2021年平均每年销售汽车6.4万辆
B.该地区2017年至2021年平均每年销售新能源汽车少于0.5万辆
C.该地区2017年至2021年新能源汽车销量逐年增加
D.该地区2017年至2021年非新能源汽车销量逐年减少
三、填空题
3.(2022·吉林·模拟预测)北京时间2022年4月16日09时56分,神舟十三号载人飞船返回舱在东风着陆场成功着陆,将在太空“出差”半年的翟志刚 王亚平 叶光富送回到阔别已久的祖国大地.神舟十三号载人飞行任务的圆满成功,标志着空间站关键技术验证阶段任务圆满完成,中国空间站即将进入建造阶段.某机构研究室通过随机抽样的方式,对18岁及以上人群进行了“你是否曾有过航天梦想”的调查研究,得到如下的统计结果:
根据调查结果,以下说法正确的是 .
①在“曾有过航天梦想”的人群中,54岁及以上的人数最少
②在“曾有过航天梦想”的人群中,年龄越大,在航天相关方面的人均消费越少
③在“曾有过航天梦想”的人群中,18-29岁在航天相关方面的总消费最多
四、解答题
4.(2024·四川成都·三模)某保险公司为了给年龄在20~70岁的民众提供某种疾病的医疗保障,设计了一款针对该疾病的保险,现从10000名参保人员中随机抽取100名进行分析,这100个样本按年龄段分成了五组,其频率分布直方图如下图所示,每人每年所交纳的保费与参保年龄如下表格所示.(保费:元)据统计,该公司每年为该项保险支出的各种费用为一百万元.
年龄
保费
(1)用样本的频率分布估计总体的概率分布,为使公司不亏本,则保费至少为多少元?(精确到整数)
(2)随着年龄的增加,该疾病患病的概率越来越大,经调查,年龄在的老人中每15人就有1人患该项疾病,年龄在的老人中每10人就有1人患该项疾病,现分别从年龄在和的老人中各随机选取1人,记表示选取的这2人中患该疾病的人数,求的数学期望.
参考答案:
1.D
【分析】根据分层抽样的均值与方差公式计算即可.
【详解】根据题意,按照分层抽样的方法从甲队中抽取人,
从乙队中抽取人,
这人答对题目的平均数为,
所以这人答对题目的方差为.
2.AC
【分析】根据表中数据,依次讨论各选项即可得答案.
【详解】解:对于A:该地区2017年至2021年平均每年销售汽车(万辆,故A正确;
对于B:该地区2017年至2021年新能源汽车销量的平均数为7.7)(万辆),所以B错误;
对于C:2017年至2021年新能源汽车销量依次为0.22万辆,0.348万辆,0.48万辆,0.49万辆,1.54万辆,故C正确;
对于D:该地区2018,2019年非新能源汽车销量分别为5.452万辆,5.52万辆,故D错误.
故选:AC
3.①③
【分析】观察“曾有过航天梦想”的人年龄分布图和在航天相关方面的人均消费可判断①②,再把各年龄阶段在航天相关方面的总消费算出,即可求出答案.
【详解】对于①,从曾有过航天梦想的年龄分布图可知,在“曾有过航天梦想”的人群中,54岁及以上的人数最少,所以①正确;
对于②,在“曾有过航天梦想”的人群中,岁的消费最多,所以②错误;
对于③,设总人数为 ,18-29岁在航天相关方面的总消费约为:,
30-40岁在航天相关方面的总消费约为:,
41-53岁在航天相关方面的总消费约为:,
54岁及以上在航天相关方面的总消费约为:.
所以在“曾有过航天梦想”的人群中,18-29岁在航天相关方面的总消费最多.
故选:①③.
4.(1)30元
(2)
【分析】(1)根据小矩形面积和为得到关于的方程,解出值,再列出不等式,解出即可;
(2)首先分析出的取值为0,1,2,再列出对应概率值,利用期望公式计算即可.
【详解】(1),解得,
保险公司每年收取的保费为:

所以要使公司不亏本,则,即,
解得,即保费元;
(2)由题意知的取值为0,1,2,



列表如下:
.
考点三:变量间的相关关系
【典例精析】(多选)(2024·山东枣庄·模拟预测)已知两个变量y与x对应关系如下表:
x 1 2 3 4 5
y 5 m 8 9 10.5
若y与x满足一元线性回归模型,且经验回归方程为,则( )
A.y与x正相关 B.
C.样本数据y的第60百分位数为8 D.各组数据的残差和为0
【答案】AD
【分析】利用相关性的定义及线性回归直线可判定A,根据样本中心点在回归方程上可判定B,利用百分位数的计算可判定C,利用回归方程计算预测值可得残差即可判定D.
【详解】由回归直线方程知:,所以y与x正相关,即A正确;
由表格数据及回归方程易知,即B错误;
易知,所以样本数据y的第60百分位数为,即C错误;
由回归直线方程知时对应的预测值分别为,
对应残差分别为,显然残差之和为0,即D正确.
故选:AD
【变式训练】
一、单选题
1.(2024·河北·一模)某校为了解本校高一男生身高和体重的相关关系,在该校高一年级随机抽取了7名男生,测量了他们的身高和体重得下表:
身高x(单位:) 167 173 175 177 178 180 181
体重y(单位:) 90 54 59 64 67 72 76
由表格制作成如图所示的散点图:
由最小二乘法计算得到经验回归直线的方程为,其相关系数为;经过残差分析,点对应残差过大,把它去掉后,再用剩下的6组数据计算得到经验回归直线的方程为,相关系数为.则下列选项正确的是( )
A. B.
C. D.
2.(2024·安徽蚌埠·模拟预测)为维护市场秩序,保护消费者权益,在“五一”假期来临之际,我市物价部门对某商品在5家商场的售价(元)及其一天的销售量(件)进行调查,得到五对数据,经过分析、计算,得,关于的经验回归方程为,则相应于点的残差为( )
A. B.1 C. D.3
二、多选题
3.(2024·浙江金华·三模)某班主任用下表分析高三前5次考试中本班级在年级中的成绩排名y与考试次数x的相关性时,忘记了第二次和第四次考试排名,但他记得平均排名,于是分别用和得到了两个经验回归方程:,,对应的样本相关系数分别为,,排名y对应的方差分别为,,则( )
x 1 2 3 4 5
y 10 m 6 n 2
附:,,.
A. B.
C. D.
三、填空题
4.(2022·北京·模拟预测)某班在一次考试后分析学生在语文 数学 英语三个学科的表现,绘制了各科年级排名的散点图(如下图所示).
关于该班级学生这三个学科本次考试的情况,给出下列四个结论:
①三科中,数学年级排名的平均数及方差均最小;
②语文、数学、英语年级排名均在150名以外的学生为1人;
③本次考试该班语文第一名、数学第一名、英语第一名可能为三名不同的同学;
④从该班学生中随机抽取1人,若其语文排名大于200,则其英语和数学排名均在150以内的概率为.
其中所有正确结论的序号是 .
四、解答题
5.(2024·四川眉山·三模)某公司为改进生产,现对近5年来生产经营情况进行分析.收集了近5年的利润(单位:亿元)与年份代码共5组数据(其中年份代码分别指2019年,2020年,年),并得到如下值:.
(1)若用线性回归模型拟合变量与的相关关系,计算该样本相关系数,并判断变量与的相关程度(精确到0.01);
(2)求变量关于的线性回归方程,并求2024年利润的预报值.
附:①;②若,相关程度很强;,相关程度一般;,相关程度较弱;③一组数据,其回归直线的斜率和截距的最小二乘估计分别为;相关系数.
参考答案:
1.A
【分析】根据的特点判断斜率和截距;由于去掉,其它点的线性关系更强,从而可判断相关系数.
【详解】身高的平均数为,
因为离群点的横坐标167小于平均值176,纵坐标90相对过大,
所以去掉后经验回归直线的截距变小而斜率变大,故,
去掉后相关性更强,拟合效果也更好,且还是正相关,所以.
故选:A
2.A
【分析】将样本点中心,并代入回归方程,求,并代入后,即可求解残差.
【详解】因为回归直线过样本点中心即,代入,可得,
解得,当时,,所以残差为.
故选:A
3.AD
【分析】当时,根据相关数据结合,可求得,进而利用可求,利用相关系数公式可求得,利用方差公式可求得,同理计算时,,,,,进而可得结论.
【详解】当时,,,解得,


,得,


同理,当时,,,,,
所以,,,.
故选:AD.
4.①②④
【分析】依据平均数和方差的定义判断①;求得语文、数学、英语年级排名均在150名以外的学生人数判断②;求得语文第一名、数学第一名、英语第一名的同学判断③;求得从该班学生中随机抽取1人,若其语文排名大于200,则其英语和数学排名均在150以内的概率判断④.
【详解】①:三科中,数学对应的点比英语对应的点到横轴的距离近且较为密集,
数学对应的点到横轴的距离比语文对应的点到纵轴距离近且较为密集,
所以数学年级排名的平均数及方差均最小.判断正确;
②:语文、数学、英语年级排名均在150名以外的学生为1人.判断正确;
③:本次考试该班语文第一名、数学第一名、英语第一名为同一名同学.判断错误;
④:由图表可知语文排名大于200的有3位同学,
语文排名大于200且英语和数学排名均在150以内的同学仅有1位同学.
故从该班学生中随机抽取1人,若其语文排名大于200,
则其英语和数学排名均在150以内的概率为.判断正确.
故答案为①②④
5.(1),变量与的相关程度很强
(2),78(亿元)
【分析】(1)根据题意,由相关系数的计算公式代入计算,即可得到结果;
(2)根据题意,由最小二乘法的计算公式代入计算即可得到,,从而得到线性回归方程.
【详解】(1)依题意,,

则,
则,故变量与的相关程度很强.
(2)令变量与的线性回归方程为.

所以,
所以,变量关于的回归方程为.
2024年,即时,(亿元).
所以,该公司2024年利润的预报值为78(亿元).
考点四:相关系数r
【典例精析】(多选)(2024·湖北武汉·二模)下列说法正确的是( )
A.将一组数据的每一个数减去同一个数后,新数据的方差与原数据方差相同
B.线性回归直线一定过样本点中心
C.线性相关系数越大,两个变量的线性相关性越强
D.在残差的散点图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效果越好
【答案】ABD
【分析】借助方差的性质、样本点中心的性质、线性相关系数的性质与残差的性质逐项判断即可得.
【详解】对A:由方差的性质可知,将一组数据的每一个数减去同一个数后,
新数据的方差与原数据方差相同,故A正确;
对B:由,故线性回归直线一定过样本点中心,故B正确;
对C:线性相关系数越大,两个变量的线性相关性越强,故C错误;
对D:在残差的散点图中,残差分布的水平带状区域的宽度越窄,
其模型的拟合效果越好,故D正确.
故选:ABD.
【变式训练】
一、单选题
1.(2024·天津·二模)有人通过调查统计发现,儿子成年时的身高与父亲的身高呈线性相关,且儿子成年时的身高(单位:)与父亲的身高(单位:)的经验回归方程为,根据以上信息,下列判断正确的为( ).
A.儿子成年时的身高与父亲的身高的样本相关系数
B.父亲的身高为,儿子成年时的身高一定在到之间
C.父亲的身高每增加,儿子成年时的身高平均增加
D.儿子在成年时的身高一般会比父亲高
2.(2024·上海徐汇·二模)为了研究y关于x的线性相关关系,收集了5组样本数据(见下表):
x 1 2 3 4 5
y 0.5 0.9 1 1.1 1.5
若已求得一元线性回归方程为,则下列选项中正确的是( )
A.
B.当时,y的预测值为2.2
C.样本数据y的第40百分位数为1
D.去掉样本点后,x与y的样本相关系数r不会改变
二、多选题
3.(2024·吉林长春·模拟预测)相关变量x,y的散点图如下,若剔除点13后,剩下数据得到的统计中,较剔除之前值变小的是( )
A.样本的相关系数 B.残差的平方和
C.样本数据y的平均值 D.回归直线中的回归系数
三、填空题
4.(2023·上海徐汇·模拟预测)下列说法中正确的有 (填正确说法的序号).
①若样本数据,,…,的方差为4,则数据,,…,的标准差为4;
②已知随机变量,且,则;
③若线性相关系数越接近1,则两个变量的线性相关性越弱;
④若事件A,B满足,,,则有.
四、解答题
5.(2024·山东聊城·三模)今年五一节期间,聊城百货大楼有限公司搞促销活动,下表是该公司5月1号至10号(日期简记为1,2,3,……,10)连续10天的销售情况:
日期 1 2 3 4 5 6 7 8 9 10
销售额(万元) 19 19.3 19.6 20 21.2 22.4 23.8 24.6 25 25.4
由上述数据,用最小二乘法得到销售额和日期的线性回归方程为,日期的方差约为3.02,销售额的方差约为2.59.
(1)根据线性回归方程,分析销售额随日期变化趋势的特征,并计算第4天的残差;
(2)计算相关系数,并分析销售额和日期的相关程度(精确到0.001);
(3)该公司为了促销,拟打算对电视机实行分期付款方式销售,假设顾客购买一台电视机选择分期付款的期数及相应的概率和公司获得的利润(单位:元)情况如下表:
2 4 6
400 600 800
已知成等比数列.
设该公司销售两台电视机所获得的利润为(单位:元),当的概率取得最大值时,求利润的分布列和数学期望.
参考公式:相关系数.回归方程中斜率和截距的最小二乘法估计公式分别为:.相关数据.
参考答案:
1.C
【分析】根据题意,由线性回归方程的性质,对选项逐一判断,即可得到结果.
【详解】因为,且,
即与不一定相等,故A错误;
当父亲身高为时,孩子身高可能在到之间,
而不是一定,故B错误;
因为,即父亲的身高每增加,
儿子成年时的身高平均增加,故C正确;
由回归方程可知,是否比父亲高还得取决于父亲身高,因此判断不了儿子成年时一般比父亲高,故D错误;
故选:C
2.D
【分析】由表格数据求出样本点的中心坐标,代入可得的值由此即可判断A,进一步可得回归方程,由此即可验算B选项,由百分位数的概念即可判断C,由相关系数公式即可判断D.
【详解】,所以样本点的中心坐标为,
将它代入得,,解得,故A错误;
对于B,当时,y的预测值为,故B错误;
对于C,样本数据y的第40百分位数为,故C错误;
对于D,由相关系数公式可知,去掉样本点后,x与y的样本相关系数r不会改变,故D正确.
故选:D.
3.ABC
【分析】根据已知条件,结合变量间的相关关系,结合图象分析判断即可.
【详解】由散点图可知,去掉点后,与的线性相关加强,且为负相关,
所以样本的相关系数变小,残差的平方和变小,样本数据y的平均值变小,故ABC正确;
回归直线中的回归系数变大,故D错误.
故选:ABC.
4.①②④
【分析】对于①,利用方差的性质求解判断,对于②,根据正态分布的性质计算,
对于③,根据相关系数的性质判断,对于④,利用独立事件和条件概率公式求解判断.
【详解】由于,所以数据,,…,的方差为16,
故标准差为4,因此①正确;
根据正态分布,,故,即,
故.3,因此②正确;
线性相关系数越接近1,则两个变量的线性相关性越强,故③错误;
由于等价于“事件A与事件B相互独立,即,
故必有,因此④正确.
故答案为:①②④
5.(1)日期每增加一天,销售额约增加万元,第4天的残差为
(2),销售额和日期的相关程度较强
(3)分布列见解析,1200
【分析】(1)根据线性回归方程特点分析,再将代入回归方程计算,利用残差定义求解即可;
(2)由相关系数的公式结合题中的数据计算,然后根据相关系数与1比较即可判断;
(3)先根据等比中项性质得,,由题意可得的可能取值有,计算其对应的概率,利用基本不等式求得的概率取得最大值时,从而列出分布列,求出期望即可.
【详解】(1)根据线性回归方程,日期每增加一天,销售额约增加万元,
把代入回归直线方程,得,
因为,所以第4天的残差为;
(2)由得,
比较接近于1,故销售额和日期的相关程度较强.
(3)由成等比数列,得,且,
设其公比为,则,所以,
由题意可得的值分别为,
则,,,
,,
又,取得最大值的条件即,
此时,
故分布列为:
800 1000 1200 1400 1600
期望.
考点五:误差分析
【典例精析】(多选)(2024·江西鹰潭·二模)下列说法中,正确的是( )
A.一组数据10,11,11,12,13,14,16,18,20,22的第40百分位数为12
B.两组样本数据,,,和,,,的方差分别为,,若已知(),则
C.已知随机变量服从正态分布,若,则
D.已知一系列样本点()的回归方程为,若样本点与的残差(残差=实际值-模型预测值)相等,则
【答案】BC
【分析】A选项,根据百分位数的运算公式得到答案;B选项,利用平均数定义得到,根据方差的计算公式得到;C选项,由正态分布的对称性得到C正确;D选项,由题意得到,得到D错误.
【详解】A选项,,故从小到大从第4个和第5个数的平均数作为第40百分位数,即,A错误;
B选项,,,
因为,(),故,
故,

故,B正确;
C选项,因为,,
关于对称,所以,C正确;
D选项,由题意得,整理得,D错误.
故选:BC
【变式训练】
一、单选题
1.(2024·四川成都·三模)地球生命来自外星吗?一篇发布在《生物学快讯》上的文章《基因库的增长是生命起源和演化的时钟》可能给出了一种答案.该论文的作者根据生物功能性基因组里的碱基排列数的大小定义了基因库的复杂度y(单位:1),通过研究各个年代的古代生物化石里基因库的复杂度,提出了一个有趣的观点:生物基因库的复杂度近似是随时间呈指数增长的,只要知道生物基因库的复杂度就可以推测该生物体出现的年代.如图是该论文作者根据生物化石(原核生物,真核生物,蠕虫,鱼类,哺乳动物)中的基因复杂度的常用对数与时间(单位:十亿年)的散点图及回归拟合情况(其中回归方程为:,相关指数).根据题干与图中的信息,下列说法错误的是( )
A.根据信息生物基因库的复杂度近似是随时间呈指数增长的情况,不同于作者采取取常用对数的做法,我们也可采用函数模型来拟合
B.根据回归方程可以得到,每过10亿年,生物基因库的复杂度一定增加到原来的倍
C.虽然拟合相关指数为0.97,但是样本点只有5个,不能很好地阐释其统计规律,所以增加可靠的样本点可以更好地完善回归方程
D.根据物理界主流观点:地球的形成始于45亿年前,及拟合信息:地球在诞生之初时生物的复杂度大约为,可以推断地球生命可能并非诞生于地球
2.(2024·江苏苏州·模拟预测)下列说法中,正确的是( )
A.已知一系列样本点一个经验回归方程,若样本点与的残差相等,则
B.已知随机变量,若,则
C.将5名同学分到三个组开展活动,每个组至少1名,则不同分配方法数是240
D.每人参加一次游戏,每轮游戏有三个题目,每个题目答对的概率均为且相互独立,若答对题数多于答错题数可得4分,否则得2分,则某人参加游戏得分的期望为3
二、多选题
3.(2024·河北唐山·二模)为研究光照时长(小时)和种子发芽数量(颗)之间的关系,某课题研究小组采集了10组数据,绘制散点图如图所示,并进行线性回归分析,若去掉点后,下列说法正确的是( )
A.相关系数变小 B.经验回归方程斜率变小
C.残差平方和变小 D.决定系数变小
三、填空题
4.(2024·广东广州·一模)某校数学建模兴趣小组收集了一组恒温动物体重(单位:克)与脉搏率(单位:心跳次数/分钟)的对应数据,根据生物学常识和散点图得出与近似满足(为参数).令,,计算得,,.由最小二乘法得经验回归方程为,则的值为 ;为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数 .(参考公式:决定系数)
四、解答题
5.(2024·四川德阳·三模)某公司为了确定下季度的前期广告投入计划,收集并整理了近6个月广告投入量x(单位:万元)和收益y(单位:万元)的数据如表(其中有些数据污损不清):
月份 1 2 3 4 5 6
广告投入量 2 7 8 10
收益 20 30 34 37
他们分别用两种模型①,②进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值.
(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型
(2)残差绝对值大于2 的数据被认为是异常数据,需要剔除.
(i)剔除异常数据后,求出(1)中所选模型的回归方程;
(ii)若广告投入量x=19,则(1)中所选模型收益的预报值是多少万元 (精确到0.01)
附:对于一组数据 其回归直线 的斜率和截距的最小二乘估计分别为: .
参考答案:
1.B
【分析】利用指数式与对数式互化判断A;利用回归方程的意义判断B;利用相关指数的意义判断C;求出地球在诞生之初时生物的复杂度,结合描述判断D.
【详解】对于A,由,得,
令,满足,A正确;
对于B,观察散点图,所给5个点不全在回归直线上,回归拟合是近似的,
不能说每过10亿年,生物基因库的复杂度一定增加到原来的倍,B错误;
对于C,数据越多,拟合的准确性越高,因此增加可靠的样本点可以更好地完善回归方程,C正确;
对于D,当时,,根据回归方程可知,
当时,,即地球在诞生之初时生物的复杂度大约为,
可以推断地球生命可能并非诞生于地球,D正确.
故选:B
2.D
【分析】根据回归方程及残差的概念可判定A,根据正态分布可判定B,根据部分平均分组可判定C,随机变量的期望可判定 D.
【详解】对于A,经验回归方程,若样本点与的残差相等,
则,可得,A错误;
对于B,曲线关于对称,因为,则,
所以,B错误;
对于C,将5名同学分到三个组开展活动,每个组至少1名,
有两种分组方法,即或,
则不同的分配方法有,C错误;
对于D,设为得分,故可能为4或2,
故,,
故,D正确.
故选:D
3.BC
【分析】由图可知:点较其他的点偏离直线最大,所以去掉点后,回归效果更好.结合相关系数、决定系数、残差平方和以及相关性逐项分析判断.
【详解】由图可知:较其他的点偏离直线最大,所以去掉点后,回归效果更好.
对于A,相关系数越接近于1,线性相关性越强,因为散点图是递增的趋势,
所以去掉点后,相关系数变大,故A错误;
对于B,去掉点后,经验回归方程斜率变小,故B正确;
对于C,残差平方和变大,拟合效果越差,所以去掉点后,
残差平方和变小,故C正确;
对于D,决定系数越接近于1,拟合效果越好,所以去掉点后,
决定系数变大,故D错误;
故选:BC.
4.
【分析】根据回归直线方程必过样本中心点求出,即可求出,再根据决定系数公式求出.
【详解】因为,两边取对数可得,
又,,
依题意回归直线方程必过样本中心点,
所以,解得,所以,
又.
故答案为:;
5.(1)模型①;
(2)(i);(ii).
【分析】(1)观察残差图,利用残差波动大小选择.
(2)(i)利用给定数据,计算最小二乘法公式中相关量,求出回归直线方程;(ii)利用求得的回归方程进行数据估计.
【详解】(1)由于模型①残差波动小,应该选择模型①.
(2)(i)剔除异常数据,即3月份的数据,剩下数据的平均数为,
,,,
,,

所以所选模型的回归方程为.
(ii)若广告投入量,
则该模型收益的预报值是(万元).
考点六:独立性检验
【典例精析】(多选)(2024·安徽黄山·二模)下列论述正确的有( )
A.若随机变量满足,则
B.若随机事件,满足:,,,则事件与相互独立
C.基于小概率值的检验规则是:当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过;当时,我们没有充分证据推断不成立,可以认为和独立
D.若关于的经验回归方程为,则样本点的残差为
【答案】BCD
【分析】根据随机变量的方差性质可判定A;根据和事件与独立事件的概率公式可判定B;根据独立性检验的基本思想可判定C;根据残差的定义可判定D.
【详解】对于A,由题意可知,故A错误;
对于B,由题意可知,
所以,所以事件A与B相互独立,即B正确;
对于C,由独立性检验的基本思想可知其正确;
对于D,将样本点代入得预测值为,
所以,故D正确.
故选:BCD.
【变式训练】
一、单选题
1.(2024·黑龙江哈尔滨·二模)针对2025年第九届亚冬会在哈尔滨举办,校团委对“是否喜欢冰雪运动与学生性别的关系”进行了一次调查,其中被调查的男、女生人数相同,男生中喜欢冰雪运动的人数占男生人数的,女生中喜欢冰雪运动的人数占女生人数的,若依据的独立性检验,认为是否喜欢冰雪运动与学生性别有关,则被调查的学生中男生的人数不可能是( )
附:.
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
A.48 B.54 C.60 D.66
2.(2024·山东枣庄·一模)某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到两种疗法治疗数据的列联表:
疗法 疗效 合计
未治愈 治愈
甲 15 52 67
乙 6 63 69
合计 21 115 136
经计算得到,根据小概率值的独立性检验(已知独立性检验中),则可以认为( )
A.两种疗法的效果存在差异
B.两种疗法的效果存在差异,这种判断犯错误的概率不超过0.005
C.两种疗法的效果没有差异
D.两种疗法的效果没有差异,这种判断犯错误的概率不超过0.005
二、多选题
3.(2024·云南·模拟预测)下列说法正确的是( )
A.设随机变量的均值为是不等于的常数,则相对于的偏离程度小于相对于的偏离程度(偏离程度用差的平方表示)
B.若一组数据的方差为0,则所有数据都相同
C.用决定系数比较两个回归模型的拟合效果时,越小,残差平方和越小,模型拟合效果越好
D.在对两个分类变量进行独立性检验时,如果列联表中所有数据都扩大为原来的10倍,在相同的检验标准下,再去判断两变量的关联性时,结论不会发生改变
三、填空题
4.(22-23高三·全国·课后作业)某校团委对“学生性别和喜欢网络游戏是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢网络游戏的人数占男生人数的,女生喜欢网络游戏的人数占女生人数的.若根据独立性检验认为喜欢网络游戏和性别有关,且此推断犯错误的概率超过0.01但不超过0.05,则被调查的学生中男生可能有 人.(请将所有可能的结果都填在横线上)
附表:,其中.
0.050 0.010
3.841 6.635
四、解答题
5.(2024·贵州毕节·三模)2023年12月30日8时13分,长征二号丙/远征一号S运载火箭在酒泉卫星发射中心点火起飞,随后成功将卫星互联网技术试验卫星送入预定轨道由中国航天科技集团有限公司研制的运载火箭48次宇航任务全部取得圆满成功.也代表着中国航天2023年完美收官某市一调研机构为了了解当地学生对我国航天事业发展的关注度,随机从本市大学生和高中生中抽取一个容量为的样本,根据调查结果得到如下列联表:
学生群体 关注度 合计
关注 不关注
大学生
高中生
合计
(1)完成上述列联表;依据小概率值的独立性检验,认为关注航天事业发展与学生群体有关联,求样本容量n的最小值;
(2)用频率估计概率,从本市大学生和高中生中随机选取3人,用X表示不关注的人数,求X的分布列和数学期望.
附:
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
,其中.
参考答案:
1.A
【分析】根据已知条件设男生人数为,结合独立性检验公式得出不等式,根据的取值,即可求解.
【详解】设男生人数为,因为被调查的男、女生人数相同,
所以女生人数也为,根据题意列出列联表:
男生 女生 合计
喜欢冰雪运动
不喜欢冰雪运动
合计
则,
因为依据的独立性检验,认为是否喜欢冰雪运动与学生性别有关,
所以,即,解得,又,
所以B、C、D正确,A错误.
故选:A
2.C
【分析】根据条件可得列联表,计算的值,结合临界值表可得结论.
【详解】零假设为:疗法与疗效独立,即两种疗法效果没有差异.
根据列联表中的数据,,根据小概率值的独立性检验,
没有充分证据推断不成立,
因此可以认为成立,
即认为两种疗法效果没有差异.
故选:C.
3.AB
【分析】根据均值的性质,方差的公式及决定系数的含义可判断A,B,C;根据独立性检验的含义可判断D.
【详解】对于:由均值的性质可知,由于是不等于的常数,
故可得,即相对于的偏离程度小于相对于的偏离程度,A正确;
对于:根据方差公式,可知若一组数据
,的方差为0,则正确;
对于:由决定系数的定义可知,错误;
对于D:如果列联表中所有数据都扩大为原来的10倍,则的值变为原来的10倍,在相同的检验标准下,再去判断两变量的关联性时,结论可能发生改变,D错误,
故选:AB.
4.45,50,55,60,65
【分析】利用独立性检验表达列联表及观测值可解得答案.
【详解】设男生有x人,由题意可得列联表如下,
喜欢 不喜欢 合计
男生 x
女生 x
合计
若认为喜欢网络游戏和性别有关,且该推断犯错误的概率超过0.01但不超过0.05,
则.
∵,
∴,解得,
又x为5的整数倍,∴被调查的学生中男生可能人数为45,50,55,60,65.
故答案为:45,50,55,60,65.
5.(1)列联表见解析,
(2)分布列见解析,
【分析】(1)根据题意即可完成列联表,在由题意可得,即可求出;
(2)由题意可得服从二项分布,再根据二项分布的期望公式即可得解.
【详解】(1)列联表如下:
学生群体 关注度 合计
关注 不关注
大学生
高中生
合计

因为依据小概率值的独立性检验,认为关注航天事业发展与学生群体有关,
所以,
由题可知,n是10的倍数,所以n的最小值为;
(2)由(1)可知,所以不关注的人数为,
用频率估计概率,所以不关注的概率为,
X的所有可能取值为0,1,2,3,


所以X的分布列为
X 0 1 2 3
P
因为,所以.
一、单选题
1.(2023·全国·高考真题)某学校为了解学生参加体育运动的情况,用比例分配的分层随机抽样方法作抽样调查,拟从初中部和高中部两层共抽取60名学生,已知该校初中部和高中部分别有400名和200名学生,则不同的抽样结果共有( ).
A.种 B.种
C.种 D.种
2.(2022·全国·高考真题)某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如下图:
则( )
A.讲座前问卷答题的正确率的中位数小于
B.讲座后问卷答题的正确率的平均数大于
C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差
D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差
3.(2021·全国·高考真题)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:
根据此频率分布直方图,下面结论中不正确的是( )
A.该地农户家庭年收入低于4.5万元的农户比率估计为6%
B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%
C.估计该地农户家庭年收入的平均值不超过6.5万元
D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
二、多选题
4.(2023·全国·高考真题)有一组样本数据,其中是最小值,是最大值,则( )
A.的平均数等于的平均数
B.的中位数等于的中位数
C.的标准差不小于的标准差
D.的极差不大于的极差
5.(2021·全国·高考真题)下列统计量中,能度量样本的离散程度的是( )
A.样本的标准差 B.样本的中位数
C.样本的极差 D.样本的平均数
三、解答题
6.(2023·全国·高考真题)一项试验旨在研究臭氧效应.实验方案如下:选40只小白鼠,随机地将其中20只分配到实验组,另外20只分配到对照组,实验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).
(1)设表示指定的两只小白鼠中分配到对照组的只数,求的分布列和数学期望;
(2)实验结果如下:
对照组的小白鼠体重的增加量从小到大排序为:
15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.1
32.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2
实验组的小白鼠体重的增加量从小到大排序为:
7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.2
19.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5
(i)求40只小鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于的数据的个数,完成如下列联表:
对照组
实验组
(ii)根据(i)中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与正常环境中体重的增加量有差异.
附:
0.100 0.050 0.010
2.706 3.841 6.635
7.(2023·全国·高考真题)某厂为比较甲乙两种工艺对橡胶产品伸缩率的处理效应,进行10次配对试验,每次配对试验选用材质相同的两个橡胶产品,随机地选其中一个用甲工艺处理,另一个用乙工艺处理,测量处理后的橡胶产品的伸缩率.甲、乙两种工艺处理后的橡胶产品的伸缩率分别记为,.试验结果如下:
试验序号 1 2 3 4 5 6 7 8 9 10
伸缩率 545 533 551 522 575 544 541 568 596 548
伸缩率 536 527 543 530 560 533 522 550 576 536
记,记的样本平均数为,样本方差为.
(1)求,;
(2)判断甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率是否有显著提高(如果,则认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高,否则不认为有显著提高)
8.(2023·全国·高考真题)某研究小组经过研究发现某种疾病的患病者与未患病者的某项医学指标有明显差异,经过大量调查,得到如下的患病者和未患病者该指标的频率分布直方图:
利用该指标制定一个检测标准,需要确定临界值c,将该指标大于c的人判定为阳性,小于或等于c的人判定为阴性.此检测标准的漏诊率是将患病者判定为阴性的概率,记为;误诊率是将未患病者判定为阳性的概率,记为.假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.
(1)当漏诊率%时,求临界值c和误诊率;
(2)设函数,当时,求的解析式,并求在区间的最小值.
9.(2022·全国·高考真题)在某地区进行流行病学调查,随机调查了100位某种疾病患者的年龄,得到如下的样本数据的频率分布直方图:

(1)估计该地区这种疾病患者的平均年龄(同一组中的数据用该组区间的中点值为代表);
(2)估计该地区一位这种疾病患者的年龄位于区间的概率;
(3)已知该地区这种疾病的患病率为,该地区年龄位于区间的人口占该地区总人口的.从该地区中任选一人,若此人的年龄位于区间,求此人患这种疾病的概率.(以样本数据中患者的年龄位于各区间的频率作为患者的年龄位于该区间的概率,精确到0.0001).
10.(2022·全国·高考真题)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截面积 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
并计算得.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数.
11.(2022·全国·高考真题)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:
不够良好 良好
病例组 40 60
对照组 10 90
(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患有该疾病”.与的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R.
(ⅰ)证明:;
(ⅱ)利用该调查数据,给出的估计值,并利用(ⅰ)的结果给出R的估计值.
附,
0.050 0.010 0.001
k 3.841 6.635 10.828
12.(2021·全国·高考真题)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品 二级品 合计
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异
附:
0.050 0.010 0.001
k 3.841 6.635 10.828
参考答案:
1.D
【分析】利用分层抽样的原理和组合公式即可得到答案.
【详解】根据分层抽样的定义知初中部共抽取人,高中部共抽取,
根据组合公式和分步计数原理则不同的抽样结果共有种.
故选:D.
2.B
【分析】由图表信息,结合中位数、平均数、标准差、极差的概念,逐项判断即可得解.
【详解】讲座前中位数为,所以错;
讲座后问卷答题的正确率只有一个是个,剩下全部大于等于,所以讲座后问卷答题的正确率的平均数大于,所以B对;
讲座前问卷答题的正确率更加分散,所以讲座前问卷答题的正确率的标准差大于讲座后正确率的标准差,所以C错;
讲座后问卷答题的正确率的极差为,
讲座前问卷答题的正确率的极差为,所以错.
故选:B.
3.C
【分析】根据直方图的意义直接计算相应范围内的频率,即可判定ABD,以各组的中间值作为代表乘以相应的频率,然后求和即得到样本的平均数的估计值,也就是总体平均值的估计值,计算后即可判定C.
【详解】因为频率直方图中的组距为1,所以各组的直方图的高度等于频率.样本频率直方图中的频率即可作为总体的相应比率的估计值.
该地农户家庭年收入低于4.5万元的农户的比率估计值为,故A正确;
该地农户家庭年收入不低于10.5万元的农户比率估计值为,故B正确;
该地农户家庭年收入介于4.5万元至8.5万元之间的比例估计值为,故D正确;
该地农户家庭年收入的平均值的估计值为(万元),超过6.5万元,故C错误.
综上,给出结论中不正确的是C.
故选:C.
【点睛】本题考查利用样本频率直方图估计总体频率和平均值,属基础题,样本的频率可作为总体的频率的估计值,样本的平均值的估计值是各组的中间值乘以其相应频率然后求和所得值,可以作为总体的平均值的估计值.注意各组的频率等于.
4.BD
【分析】根据题意结合平均数、中位数、标准差以及极差的概念逐项分析判断.
【详解】对于选项A:设的平均数为,的平均数为,
则,
因为没有确定的大小关系,所以无法判断的大小,
例如:,可得;
例如,可得;
例如,可得;故A错误;
对于选项B:不妨设,
可知的中位数等于的中位数均为,故B正确;
对于选项C:因为是最小值,是最大值,
则的波动性不大于的波动性,即的标准差不大于的标准差,
例如:,则平均数,
标准差,
,则平均数,
标准差,
显然,即;故C错误;
对于选项D:不妨设,
则,当且仅当时,等号成立,故D正确;
故选:BD.
5.AC
【分析】考查所给的选项哪些是考查数据的离散程度,哪些是考查数据的集中趋势即可确定正确选项.
【详解】由标准差的定义可知,标准差考查的是数据的离散程度;
由中位数的定义可知,中位数考查的是数据的集中趋势;
由极差的定义可知,极差考查的是数据的离散程度;
由平均数的定义可知,平均数考查的是数据的集中趋势;
故选:AC.
6.(1)分布列见解析,
(2)(i);列联表见解析,(ii)能
【分析】(1)利用超几何分布的知识即可求得分布列及数学期望;
(2)(i)根据中位数的定义即可求得,从而求得列联表;
(ii)利用独立性检验的卡方计算进行检验,即可得解.
【详解】(1)依题意,的可能取值为,
则,,,
所以的分布列为:
故.
(2)(i)依题意,可知这40只小白鼠体重增量的中位数是将两组数据合在一起,从小到大排后第20位与第21位数据的平均数,观察数据可得第20位为,第21位数据为,
所以,
故列联表为:
合计
对照组 6 14 20
实验组 14 6 20
合计 20 20 40
(ii)由(i)可得,,
所以能有的把握认为小白鼠在高浓度臭氧环境中与正常环境中体重的增加量有差异.
7.(1),;
(2)认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高.
【分析】(1)直接利用平均数公式即可计算出,再得到所有的值,最后计算出方差即可;
(2)根据公式计算出的值,和比较大小即可.
【详解】(1),


的值分别为: ,

(2)由(1)知:,,故有,
所以认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高.
8.(1),;
(2),最小值为.
【分析】(1)根据题意由第一个图可先求出,再根据第二个图求出的矩形面积即可解出;
(2)根据题意确定分段点,即可得出的解析式,再根据分段函数的最值求法即可解出.
【详解】(1)依题可知,左边图形第一个小矩形的面积为,所以,
所以,解得:,

(2)当时,

当时,
,
故,
所以在区间的最小值为.
9.(1)岁;
(2);
(3).
【分析】(1)根据平均值等于各矩形的面积乘以对应区间的中点值的和即可求出;
(2)设{一人患这种疾病的年龄在区间},根据对立事件的概率公式即可解出;
(3)根据条件概率公式即可求出.
【详解】(1)平均年龄
(岁).
(2)设{一人患这种疾病的年龄在区间},所以

(3)设“任选一人年龄位于区间[40,50)”,“从该地区中任选一人患这种疾病”,
则由已知得:
,
则由条件概率公式可得
从该地区中任选一人,若此人的年龄位于区间,此人患这种疾病的概率为.
10.(1);
(2)
(3)
【分析】(1)计算出样本的一棵根部横截面积的平均值及一棵材积量平均值,即可估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)代入题给相关系数公式去计算即可求得样本的相关系数值;
(3)依据树木的材积量与其根部横截面积近似成正比,列方程即可求得该林区这种树木的总材积量的估计值.
【详解】(1)样本中10棵这种树木的根部横截面积的平均值
样本中10棵这种树木的材积量的平均值
据此可估计该林区这种树木平均一棵的根部横截面积为,
平均一棵的材积量为
(2)

(3)设该林区这种树木的总材积量的估计值为,
又已知树木的材积量与其根部横截面积近似成正比,
可得,解之得.
则该林区这种树木的总材积量估计为
11.(1)答案见解析
(2)(i)证明见解析;(ii);
【分析】(1)由所给数据结合公式求出的值,将其与临界值比较大小,由此确定是否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异;(2)(i) 根据定义结合条件概率公式即可完成证明;(ii)根据(i)结合已知数据求.
【详解】(1)由已知,
又,,
所以有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.
(2)(i)因为,
所以
所以,
(ii)
由已知,,
又,,
所以
12.(1)75%;60%;
(2)能.
【分析】根据给出公式计算即可
【详解】(1)甲机床生产的产品中的一级品的频率为,
乙机床生产的产品中的一级品的频率为.
(2),
故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.
一、单选题
1.(2024·辽宁·模拟预测)下表为某地春节假期某日游客抽取的100人样本的出行方式统计数据
出行方式 高铁 自驾 飞机 客车
频数 27 16 28 29
某实验点从这批游客中抽取25人,当中选择飞机出行的人数大约为( )
A.8 B.7 C.6 D.4
2.(2024·河北保定·二模)某学生通过计步仪器,记录了自己最近30天每天走的步数,数据从小到大排序如下:
5588 6054 8799 9851 9901 10111 11029 11207 12634 12901
13001 13092 13127 13268 13562 13621 13761 13801 14101 14172
14191 14292 14426 14468 14562 14621 15061 15601 15901 19972
估计该学生最近30天每天走的步数数据的第75百分位数为( )
A.14292 B.14359 C.14426 D.14468
3.(2024·广东茂名·二模)已知变量和的统计数据如表:
1 2 3 4 5
6 6 7 8 8
根据上表可得回归直线方程,据此可以预测当时,( )
A.8.5 B.9 C.9.5 D.10
4.(2024·上海金山·二模)下列说法不正确的是( ).
A.一组数据10,11,11,12,13,14,16,18,20,22的第60百分位数为14
B.若随机变量服从正态分布,且,则
C.若线性相关系数越接近1,则两个变量的线性相关程度越高
D.对具有线性相关关系的变量、,且回归方程为,若样本点的中心为,则实数的值是
5.(2024·全国·模拟预测)2023年第19届亚运会在杭州举行,亚运会的吉祥物琮琮、莲莲、宸宸深受大家喜爱,某商家统计了最近5个月销量,如下表所示:
时间x 1 2 3 4 5
销售量y/万只 5 4.5 4 3.5 2.5
若y与x线性相关,且线性回归方程为,则下列说法不正确的是( )
A.由题中数据可知,变量y与x负相关 B.当时,残差为0.2
C.可以预测当时销量约为2.1万只 D.线性回归方程中
6.(2024·黑龙江·二模)根据分类变量x与y的成对样本数据,计算得,依据的独立性检验,结论为( )参考值:
0.1 0.05 0.01
2.706 3.841 6.635
A.x与y不独立
B.x与y不独立,这个结论犯错误的概率不超过0.05
C. x与y独立
D.x与y独立,这个结论犯错误的概率不超过0.05
二、多选题
7.(2024·海南海口·二模)已知甲、乙两组样本各有10个数据,甲、乙两组数据合并后得到一组新数据,下列说法正确的是( )
A.若甲、乙两组数据的平均数都为a,则新数据的平均数等于a
B.若甲、乙两组数据的极差都为b,则新数据的极差可能大于b
C.若甲、乙两组数据的方差都为c,则新数据的方差可能小于c
D.若甲、乙两组数据的中位数都为d,则新数据的中位数等于d
8.(2024·江西·模拟预测)下列命题正确的是( )
A.已知由一组样本数据,得到的回归直线方程为,且,则这组样本数据中一定有
B.某学校高三年级学生有男生500人,女生400人,为了获得该校高三全体学生的身高信息,现采用样本量比例分配的分层随机抽样方法抽取了容量为180的样本,经计算得男生样本的均值为170,方差为19,女生样本的均值为161,方差为28,则抽取的样本的方差为43
C.已知互不相同的30个样本数据,若去掉其中最大和最小的数据,则剩下28个数据的分位数可能等于原样本数据的分位数
D.若随机变量,且,则
三、填空题
9.(2024·云南大理·模拟预测)已知某种商品的广告费支出(单位:万元)与销售额(单位:万元)之间有如下表对应数据:
1 3 4 5 7
15 20 30 40 45
根据表中数据得到关于的经验回归方程为,则当时,残差为 .(残差观测值-预测值)
10.(2024·上海金山·二模)为了考察某种药物预防疾病的效果,进行动物试验,得到如下图所示列联表:
药物 疾病 合计
未患病 患病
服用 50
未服用 50
合计 80 20 100
取显著性水平,若本次考察结果支持“药物对疾病预防有显著效果”,则()的最小值为 .
(参考公式:;参考值:)
11.(2024·河北石家庄·三模)为了解全市高三学生的体能素质情况,在全市高三学生中随机抽取了1000名学生进行体能测试,并将这1000名学生的体能测试成绩整理成如下频率分布直方图.则直方图中实数的值为 .
四、解答题
12.(2024·全国·模拟预测)第24届哈尔滨冰雪大世界开园后,为了了解进园游客对本届冰雪大世界的满意度,从进园游客中随机抽取50人进行调查并统计其满意度评分,制成频率分布直方图如图所示,其中满意度评分在的游客人数为18.

(1)求频率分布直方图中的值;
(2)从抽取的50名游客中满意度评分在及的游客中用分层抽样的方法抽取5人,再从抽取的5人中随机抽取2人,求2人中恰有1人的满意度评分在的概率.
13.(2024·陕西西安·模拟预测)全球新能源汽车产量呈上升趋势.以下为年全球新能源汽车的销售量情况统计.
年份 2018 2019 2020 2021 2022 2023
年份编号 1 2 3 4 5 6
销售量/百万辆 2.02 2.21 3.13 6.70 10.80 14.14
若与的相关关系拟用线性回归模型表示,回答如下问题:
(1)求变量与的样本相关系数(结果精确到0.01);
(2)求关于的线性回归方程,并据此预测2024年全球新能源汽车的销售量.
附:线性回归方程,其中,
样本相关系数.
参考数据:.
14.(2024·陕西榆林·三模)“直播的尽头是带货”,如今网络直播带货越来越火爆,但商品的质量才是一个主播能否持久带货的关键.某主播委托甲 乙两个工厂为其生产加工商品,为了了解商品质量情况,分别从甲 乙两个工厂各随机抽取了100件商品,根据商品质量可将其分为一、二、三等品,统计的结果如下图:
(1)根据独立性检验,判断是否有的把握认为商品为一等品与加工工厂有关?
(2)将样本数据的频率视为概率,现在甲 乙工厂为该主播进行商品展示活动,每轮活动分别从甲 乙工厂中随机挑选一件商品进行展示,求在两轮活动中恰有三个一等品的概率;
(3)综合各个方面的因素,最终该主播决定以后只委托甲工厂为其生产商品,已知商品随机装箱出售,每箱30个.商品出厂前,工厂可自愿选择是否对每箱商品进行检验.若执行检验,则每个商品的检验费用为10元,并将检验出的三等品更换为一等品或二等品;若不执行检验,则对卖出的每个三等品商品支付100元赔偿费用.将样本数据的频率视为概率,以整箱检验费用的期望记为,所有赔偿费用的期望记为,以和的大小关系作为决策依据,判断是否需要对每箱商品进行检验?请说明理由.
0.100 0.050 0.010 0.005
2.706 3.841 6.635 7.879
参考答案:
1.B
【分析】由题意可知:每人被抽到乘飞机的可能性均为,结合分层抽样的性质运算求解.
【详解】由题意可知:每人被抽到乘飞机的可能性均为,
所以选择飞机出行的人数大约为.
故选:B.
2.C
【分析】根据给定数据,利用第75百分位数的意义求解即得.
【详解】由,得样本的第75百分位数为第23个数据,
据此估计该学生最近30天每天走的步数数据的第75百分位数为14426.
故选:C
3.D
【分析】计算出样本中心点的坐标,代入回归直线方程求得a的值,然后在回归直线方程中,令可求得结果.
【详解】,,
则,∴,∴,
∴时,预测.
故选:D
4.A
【分析】利用百分位数的定义即可判断选项A,利用正态分布的性质即可判断选项B,根据线性相关系数的性质即可判断选项C,利用线性回归方程中的基本量即可判断选项D.
【详解】对A:因为,所以第百分位数为,A错误;
对B:若随机变量服从正态分布,且,
则,
则,B正确;
对C:若线性相关系数越接近,则两个变量的线性相关性越强,C正确;
对于D,样本点的中心为,所以,,
因为满足线性回归方程,所以,所以,D正确.
故选:A
5.B
【分析】对于选项A,利用表中数据变化情况或看回归方程的正负均可求解;对于选项B,利用样本中心点求出线性回归方程,再利用回归方程即可求出预测值,进而可求出残差;对于选项C,利用回归方程即可求出预测值;对于选项D,利用回归方程一定过样本中心点即可求解.
【详解】对于选项A,从数据看随的增大而减小,所以变量与负相关,故A正确;
对于选项B,由表中数据知,,
所以样本中心点为,将样本中心点代入中得,
所以线性回归方程为,所以,,故B错误;
对于选项C,当时销量约为(万只),故C正确.
对于选项D,由上,故D正确.
故选:B.
6.C
【分析】利用独立性检验的基本思想即可得解.
【详解】零假设为:x与y独立,
由,依据的独立性检验,可得成立,
故可以认为x与y独立.
故选:C.
7.ABD
【分析】根据平均数,极差,方差和中位数的定义和公式,逐个判断即可得.
【详解】设甲:,乙:,新数据为:,
对于A:因为,所以A正确;
对于B:设甲:,乙:,两组数据极差均为9,
但混合后数据的极差为29,所以B正确;
对于C:因为,
所以,,,
所以新数据的方差为,
因为,
所以新数据的方差一定不小于,所以C错误.
对于D:不妨设,,则,
将混合后数据按从小到大排列,
若,则,所以第10,11个数为和;
若,则,所以第10,11个数为和,
两种情形下,新数据的中位数都等于,所以D正确;
故选:ABD.
8.BD
【分析】根据题意,结合回归方程的性质,样本均值和方程的计算方法,以及百分位数的计算方法,正态分布的概率计算,逐项判定,即可求解.
【详解】对于A中,根据回归方程经过样本中心,但样本中心不一定是数据中的点,
所以这组数据不一定有,所以A错误;
对于中,样本均值,
样本方差:
,所以B正确
对于C中,将这原来的30个数从小到大排列为,则,
所以原来的分位数为,
若去掉其中最大和最小的数据,剩下28个数据为,则,
以剩下28个数据的分位数为,由于互不相同,所以C不正确;
对于D中,由,
则,所以D正确.
故选:BD.
9.
【分析】首先求样本点中心,并代入回归方程,求,并代入后,即可求解残差.
【详解】,
因为回归直线过点,代入,可得,
当时,,
所以残差为.
故答案为:
10.
【分析】由题意列出不等式,结合近似计算求出m的取值范围,即可得答案.
【详解】由题意可知,
则,
解得或,而,
故m的最小值为44.
故答案为:44.
11.
【分析】利用直方图直方块总面积为,进行运算解出即可.
【详解】由直方图可知:组距为,
所以,
解得.
故答案为:.
12.(1),
(2).
【分析】(1)根据评分在的游客人数为18和总人数为50得到,利用频率之和为1得到方程,求出;
(2)根据分层抽样的方法得到评分在的人数为2,设为,满意度评分在的人数为3,设为,列举出所有情况和2人中恰有1人的满意度评分在的情况,求出概率.
【详解】(1)由题知,,
,解得.
(2)由题知,抽取的50名游客中满意度评分在的人数为,
满意度评分在的人数为,
抽取的5人中,满意度评分在的人数为2,设为,满意度评分在的人数为3,设为,
从5人中随机抽取2人的不同取法为,,共有10种不同取法,
设“2人中恰有1人的满意度评分在”为事件,
则事件包含的取法为,,共有6种不同取法.

13.(1)
(2),百万辆
【分析】(1)利用相关系数公式即可求解;
(2)根据已知数据,利用公式先求出,进而求出,得到线性回归方程,再利用线性回归方程进行预测即可.
【详解】(1)因为,

所以,

所以
(2)由题意得,
所以,
得关于的线性回归方程为,
所以可以预测2024年全球新能源汽车的销售量为百万辆.
14.(1)没有的把握认为商品为一等品与加工工厂有关
(2)
(3)应进行检验,理由见解析
【分析】(1)列列联表,由表中数据计算卡方,即可判断;
(2)利用独立事件乘法公式计算甲、乙展示的商品均为一等品的概率及只有一轮展示的商品为一等品的概率,进而利用互斥事件概率加法公式求解即可;
(3)设每箱30个商品中的三等品个数为,由题意知,利用二项分布期望公式求解,然后根据数学期望的定义及性质分别求解进行检验和不进行检验的数学期望,比较大小即可得出结论.
【详解】(1)由题意得列联表如下:
一等品 非一等品 合计
甲 70 30 100
乙 60 40 100
合计 130 70 200

所以没有的把握认为商品为一等品与加工工厂有关.
(2)两轮中,甲展示的商品均为一等品的概率为,
只有一轮展示的商品为一等品的概率为;
两轮中,乙展示的商品均为一等品的概率为,
只有一轮展示的商品为一等品的概率为.
则两轮活动中恰有三个一等品的概率为:.
(3)由已知,每个零件为三等品的概率为,
设每箱30个商品中的三等品个数为,则,所以.
若不进行检验,则450元.
若进行检验,则总检验费用的期望值为元.
因为,所以应进行检验.
21世纪教育网 www.21cnjy.com 精品试卷·第 2 页 (共 2 页)
21世纪教育网(www.21cnjy.com)

展开更多......

收起↑

资源列表