2026年高考数学(通用版)抢分专项训练专题21练透统计案例(8大热点题型)(学生版+解析)

资源下载
  1. 二一教育资源

2026年高考数学(通用版)抢分专项训练专题21练透统计案例(8大热点题型)(学生版+解析)

资源简介

专题21 练透统计案例的八大必刷题型
题型 考情分析 考向预测
1.相关系数 2025年新高考卷Ⅰ:第15题考查了独立性检验解决实际问题 2024年全国甲卷理科:第17题考查了完善列联表、 独立性检验解决实际问题 2023年全国甲卷理科:第19题考查了超几何分布的分布列 、独立性检验解决实际问题 1、重识图、概念、统计意义;2、线性回归+独立性检验几乎每年一道大题,结构固定;3、非线性线性化、相关系数考查;4、新高考强化数据分析、统计直观,弱化公式死记硬背。
2.线性经验回归分析
3.非线性经验回归分析
4.回归模型与分布列的综合问题
5.分类变量与列联表
6.等高堆积条形图
7.独立性检验
8.独立性检验与分布列的综合问题
题型1 相关系数
对于变量x和变量y,设经过随机抽样获得的成对样本数据为(x1,y1),(x2,y2),…,(xn,yn),若x与y存在线性相关关系,可用样本相关系数r定量分析它们的相关程度的强弱. (1)样本相关系数r=; (2)样本相关系数r的性质 ①当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关;当r=0时,称成对样本数据间没有线性相关关系; ②样本相关系数r的取值范围为[-1,1] .当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.
【例1】某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:
月份 1 2 3 4 5 6
人均销售额 6 5 8 3 4 7
利润率(%) 12.6 10.4 18.5 3.0 8.1 16.3
根据表中数据,下列说法正确的是(  )
A.利润率与人均销售额成正比例函数关系
B.利润率与人均销售额成反比例函数关系
C.利润率与人均销售额成正相关关系
D.利润率与人均销售额成负相关关系
【变式1-1】(2026·河南开封·一模)(多选)以下是不同成对样本数据的散点图,则下列说法正确的是( )
A.图(1)中成对样本数据呈负相关
B.图(1)中成对样本数据的线性相关程度比图(2)中强
C.图(1)中成对样本数据的相关系数大于图(2)中成对样本数据的相关系数
D.若从图(2)样本中抽取一部分,则这部分的相关系数不变
【变式1-2】(2026·河北·模拟)为考察两个变量x,y的相关性,搜集数据如表,则两个变量的线性相关程度(  )
x 5 10 15 20 25
y 103 105 110 111 114
(参考数据:,,,≈15.8,≈9.01)
A.很强 B.很弱
C.无相关 D.不确定
题型2 线性经验回归分析
(1)回归直线:从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做经验回归直线; (2)回归方程为=x+,其中==,=-; (3)通过求Q=(yi-bxi-a)2的最小值而得到经验回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法. 回归直线方程的性质 (1)回归直线一定过点(,). (2)一次函数=x+的单调性由的符号决定,函数递增的充要条件是>0,这说明:y与x正相关的充要条件是>0;y与x负相关的充要条件是<0. (3)当x增大一个单位时,增大个单位,这就是回归系数的实际意义. 刻画拟合效果的三种方法 (1)残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适; (2)残差平方和法:残差平方和(yi-)2越小,模型的拟合效果越好; (3)决定系数法:R2=1-越接近1,表明模型的拟合效果越好.
【例2】(2026·宁夏银川·一模)(多选)某市气象部门对本市的温度(单位:℃)与相对湿度进行研究,记录了五组数据如表所示:
温度 28 25 22 19 16
相对湿度 41 48 62 65 70
已知与线性相关,根据表中的数据计算得经验回归方程为,则( )
A.与负相关
B.经验回归直线一定经过点
C.当温度为10℃时,相对湿度大约为87.2%
D.样本相关系数
【变式2-1】(2026·河北沧州·二模)某人统计了2020-2024年某网站“双11”当天的交易额,统计结果如表:
年份 2020 2021 2022 2023 2024
年份代码 1 2 3 4 5
交易额百亿元 9 12 17 21 26
(1)请根据表中提供的数据,用样本相关系数说明与的线性相关程度;
(2)求出关于的经验回归方程,并预测2027年该网站“双11”当天的交易额.
附:在经验回归方程中,,,,
【变式2-2】(2026·广西崇左·一模)(多选)已知相关系数,y关于x的经验回归方程中斜率和截距的最小二乘估计公式分别为,,残差平方和为.已知变量x与变量y的部分数据,建立由最小二乘法得到的两个回归模型:以x为自变量,y为因变量,得出的经验回归方程为;以y为自变量,x为因变量,得出的经验回归方程为.若两个模型的计算均无误,则下列判断正确的是( )
A.若已知变量x的方差,则可知变量y的标准差
B.若不给定其他信息,则也可得知变量x与变量y各自的平均值
C.若不给定其他信息,则也可得知变量x与变量y的相关系数
D.若已知变量x的标准差,则可知以y为自变量的回归模型的残差平方和
题型3 非线性经验回归分析
有些非线性回归分析问题并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)的图象进行比较,挑选一种跟这些散点拟合得最好的函数,用适当的变量进行变换,如通过换元或取对数等方法,把问题化为线性回归分析问题,使之得到解决. (1)其一般步骤为: (2)常见非线性回归方程与线性回归方程之间经常使用取对数进行转换.
【例3】学生的学习除了在课堂上认真听讲,还有一个重要环节就是课后的自主学习,包括提前预习,复习巩固等等,现在人们普遍认为花在课后的学习时间越多越好.某教研机构抽查了部分高中学生,对学生花在课后的学习时间(设为x分钟)和他们的数学平均成绩(设为y)做出了以下数据统计,请根据表格回答问题:
x 60 70 80 90 100 110 120 130
y 92 109 114 120 119 121 121 122
(1)从三个函数①.②().③中选择一个作为学习时间x和平均成绩y的回归类型,判断哪个类型更加符合,不必说明理由.
(2)根据(1)中选择的回归类型,求出y与x的回归方程(系数精确到0.01).
(3)请根据此回归方程,阐述你对花在课后的学习时间和成绩之间关系的看法.
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为.
参考数据:,,,
【变式3-1】(2026高三下·湖南衡阳·专题练习)脑机接口,即指在人或动物大脑与外部设备之间创建的直接连接,实现脑与设备的信息交换.近日埃隆.马斯克宣布,脑机接口公司正在接收第二位植入者申请,该试验可以实现意念控制手机和电脑.未来10到20年,我国脑机接口产业将产生数百亿元的经济价值.为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量y(单位:亿元)与研发人员增量x(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图.
根据收集到的数据,计算得到下表数据,其中,.
7.5 2.25 82.50 4.50 12.14 2.88
(1)根据残差图,判断应选择哪个模型,并说明理由.
(2)根据(1)中所选模型,求出y关于x的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1)
附:对于一组具有线性相关关系的数据,,…,,其经验回归直线的斜率及截距的最小二乘估计分别为,.
【变式3-2】(2026·四川泸州·模拟预测)某市开展“安全随我行”活动,交警部门在某个交通路口增设电子抓拍眼,并记录了某月该路口连续10日骑电动摩托车未佩戴头盔的人数与天数的情况,对统计得到的样本数据作了初步处理,得到下面的散点图及一些统计量的值.
5.5 8.7 1.9 301 385 79.75
表中,.
(1)依据散点图推断,与哪一个更适合作为未佩戴头盔人数与天数的回归方程类型?(给出判断即可,不必说明理由),并求出所选类型的回归方程.
(2)为了解佩戴头盔情况与性别的关联性,交警对该路口骑电动摩托车市民进行调查,得到如下列联表:
性别 佩戴头盔 合计
不佩戴 佩戴
女性 8 12 20
男性 14 6 20
合计 22 18 40
依据的独立性检验,能否认为市民骑电动摩托车佩戴头盔与性别有关联?
参考公式:,,,其中.
0.15 0.10 0.05 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.828
题型4 回归分析与分布列的综合
线性回归方程: 先算、 计算() 分布列概率模型: (1)超几何分布 如果 X~H(n,M,N),则E(X)=,D(X)=·(1-)·. (2)二项分布 如果ξ ~B(n,p),则用公式E(ξ)=np,D(ξ)=np(1-p) (3)古典概型+条件概率 P(A)= 、 P(B|A)=
【例4】某学校校庆时统计连续5天进入学校参加活动的校友数(单位:千人)如下:
日期 10月1日 10月2日 10月3日 10月4日 10月5日
第x天 1 2 3 4 5
参观人数y(千人) 2.2 2.6 3.1 5.2 6.9
(1)由上表数据看出,可用线性回归模型拟合y与x的关系,请用相关系数r加以说明(保留小数点后两位);(若>0.75,则认为y与x的线性相关性很强),并求出y关于x的线性回归方程;
(2)校庆期间学校开放1号门、2号门和3号门供校友出入,校友从1号门、2号门和3号门进入学校的概率分别为,若校友从某个门进入学校,则其从该门出学校的概率为,从其他两个门出学校的概率各为.假设校友从1号门、2号门、3号门出入学校互不影响,现有甲乙丙丁4名校友于10月1日回母校参加活动,设X为4人中从2号门出学校的人数,求X的期望及方差.
附:参考数据:.
参考公式:回归直线方程y=bx+a,其中.相关系数.
【变式4-1】(2026·江西·一模)随着科技的发展,人工智能生成的虚拟角色正逐步取代传统的真人直播带货.某公司使用虚拟角色直播带货后销售金额逐步提升,根据该公司使用虚拟角色直播带货后18个月的销售金额的情况统计,得到一组样本数据,其中和分别表示月份编号和销售金额数量(单位:万元),并计算得, .
(1)求样本的相关系数(精确到0.01),并推断销售金额(单位:万元)和月份编号是否线性相关(当时,即可认为线性相关);
(2)已知这18个月中有10个月的销售金额高于平均数,从这18个月中随机抽取2个月的销售金额,记抽到销售金额高于平均数的月份数为,求随机变量的分布列.
附:相关系数.
【变式4-2】(25-26高三下·江苏扬州·月考)某高中数学兴趣小组,准备利用所学知识研究成年男性的臂长与身高之间的关系,为此他们随机统计了5名成年男性的身高与臂长,得到如下数据:
159 165 170 176 180
67 71 73 76 78
(1)根据上表数据,可用线性回归模型拟合与的关系,请用相关系数加以说明;
(2)建立关于的回归方程(系数精确到0.01);
(3)从5名样本成年男性中任取2人,记这2人臂长差的绝对值为,求.
参考数据:
题型5 分类变量与列联表
分类变量与列联表 (1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量; (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,X表示相互对立的两个事件{X=0}和{X=1},Y表示相互对立的两个事件{Y=0}和{Y=1},其中a,b,c,d是事件{X=x,Y=y}(x,y=0,1)的 频数 ,n是样本量,其样本频数列联表(称为2×2列联表)如表所示: XY合计Y=0Y=1X=0aba+bX=1cdc+d合计a+cb+dn=a+b+c+d
【例5】一款短视频手机应用最近在某校学生中流行起来,某校团委对“学生性别和喜欢该手机应用是否有关”做了一次调查,其中被调查的女生人数是男生人数的,男生喜欢该手机应用的人数占男生人数的,女生喜欢该手机应用的人数占女生人数的,若有的把握认为是否喜欢该手机应用和性别有关,则被调查的男生人数至少为( )
0.05 0.01
3.841 6.635
A.12 B.6 C.10 D.18
【变式5-1】(2026·陕西安康·三模)某高中为研究学生课外阅读时间与视力健康的关联性,从全校的3000名学生中随机抽取了100名学生进行调查,得到部分数据如表.
课外阅读时间 视力健康情况 合计
视力正常 视力不良
小时/天 35 60
小时/天 10
合计 100
(1)试估计全校学生中视力不良的学生人数;
(2)补全列联表,并判断依据小概率值的独立性检验,能否认为学生的视力健康与课外阅读时间有关?
附:.
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
【变式5-2】(2026·上海徐汇·二模)为落实《全民健身条例》,某区体育局对本区居民的健身场所选择偏好进行调研.数据显示,居民主要选择商业健身场馆(如健身房 体育中心)和社区公共运动场(如小区健身点 街心公园)两类场所.为了解年龄因素是否影响健身场所的选择,研究人员将成年居民分为青壮年组(岁且岁)和中老年组(岁),从该区随机抽取170名成年居民进行调查,得到如下不完整的列联表:
青壮年 中老年 合计
商业健身场馆 60
社区公共运动场 50
合计 80 170
(1)请补充列联表,并根据表中数据判断能否有的把握认为年龄与居民健身场所的选择有关;
(2)用分层抽样的方式从选择社区公共运动场的居民中抽取14个人,再从14个人中随机抽取7个人,用随机变量表示这7个人中中老年与青壮年人数之差的绝对值,求的分布和数学期望.
参考公式及数据:,其中.
0.1 0.05 0.025 0.01 0.005 0.001
2.706 3.841 5.024 6.635 7.879 10.828
题型6 等高堆积条形图
等高堆积条形图 (1)等高堆积条形图与表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高堆积条形图展示列联表数据的频率特征; (2)如果通过直接计算或等高堆积条形图发现和相差很大,就判断两个分类变量之间有关系.
【例6】为考察A,B两种药物预防某疾病的效果,进行药物实验,分别得到如下等高堆积条形图:
根据图中信息,在下列各项中,说法最佳的一项是(  )
A.药物B的预防效果优于药物A的预防效果
B.药物A的预防效果优于药物B的预防效果
C.药物A,B对该疾病均有显著的预防效果
D.药物A,B对该疾病均没有预防效果
【变式6-1】(2026·广东梅州·一模)(多选)近年中国新能源汽车进入高速发展时期,为了了解消费者的购车类型与地域是否具有相关性,某品牌车商随机调查了甲、乙两地各200名消费者,得出统计图如下,根据此统计图,下列结论正确的是( )
附:,.
0.05 0.01 0.001
3.841 6.635 10.828
A.在所调查的甲地购车者中,购买燃油车的人数比新能源车的多20人
B.在所调查的乙地购车者中,若用分层随机抽样抽取20人,则其中新能源车主有12人
C.根据小概率值的独立性检验,消费者的购车类型与地域有关
D.从所调查消费者中随机选一人,在已知其为新能源车主的条件下,其来自甲地的概率为0.4
【变式6-2】(2026·广东汕头·一模)某中学的两位学生A与B为研究高三年级学生的性别和身高是否大于170cm的关联性,对该中学的高三学生进行了调查.A同学调查了所有高三学生,并整理得到等高堆积条形图,如图(一);B同学从所有高三学生中获取容量为40的有放回简单随机样本,也整理得到列联表,如表(一).
表(一)单位:人
性别 身高 合计
低于170cm 不低于170cm
女 14 7 21
男 8 11 19
合计 22 18 40
(1)请根据A同学的等高堆积条形图,判断该中学高三年级学生的性别和身高是否有关联,如果结论是有关联,解释它们之间如何相互影响;
(2)根据B同学的列联表,依据的独立性检验,该中学高三年级学生的性别和身高是否有关联,并解释所得结论的实际含义;
(参考公式及数据:,临界值)
(3)请比较(1)和(2)的统计结论是否一致,说明原因.
题型7 独立性检验
1.独立性检验的一般步骤 (1)根据样本数据制作2×2列联表; (2)根据公式χ2=计算; (3)比较χ2与临界值的大小关系,作统计推断.
【例7】某地区的一种传染病与饮用水的调查表如下:
饮用水 是否得病 合计
得病 不得病
干净水 52 466 518
不干净水 94 218 312
合计 146 684 830
(1)这种传染病是否与饮用水的卫生程度有关?请说明理由;
(2)若饮用干净水得病5人,不得病50人;饮用不干净水得病9人,不得病22人.按此样本数据分析这种传染病是否与饮用水的卫生程度有关,并比较两个样本在反映总体时的差异.
附:χ2=.
α 0.1 0.025 0.01 0.005 0.001
xα 2.706 5.024 6.635 7.879 10.828
【变式7-1】(2026·湖北荆州·一模)某校为了了解本校学生在寒假期间参加社会实践活动的情况,随机调查了100名学生,得到如下列联表(单位:人):( )
男生 女生 合计
参加了社会实践活动 30 40 70
未参加社会实践活动 20 10 30
合计 50 50 100
附,其中n=a+b+c+d;
A.依据小概率值的独立性检验,认为学生是否参加社会实践活动与性别无关
B.从男生中随机抽取1人,其参加了社会实践活动的概率为
C.随机抽取1人,若抽取到的是参加了社会实践的学生,则这名学生是男生的概率为
D.按性别用分层抽样的方法从参加社会实践活动的学生中抽取7人,再从这7人中抽取2人,则这2人中至少有一名男生的概率为
【变式7-2】(2026·辽宁大连·模拟预测)如图的列联表中,定义,易知越大越有利于结论“与有关系”.若当值大于常数时,有的把握认为与有关系,那么的值为( )
(已知,其中,)
总计
总计
A. B.
C. D.
题型8 独立性检验与分布列的综合
1.独立性检验的一般步骤 (1)根据样本数据制作2×2列联表; (2)根据公式χ2=计算; (3)比较χ2与临界值的大小关系,作统计推断. 2、分布列概率模型: (1)超几何分布 如果 X~H(n,M,N),则E(X)=,D(X)=·(1-)·. (2)二项分布 如果ξ ~B(n,p),则用公式E(ξ)=np,D(ξ)=np(1-p) (3)古典概型+条件概率 P(A)= 、 P(B|A)=
【例8】在“一带一路”倡议推动下,中国与中亚国家合作日益紧密.2025年,某省计划向海外“郑和学院”项目派遣教师,为此举办了专项教学能力培训.参会人员包括600名高职院校教师和400名企业工程师转岗教师.培训后均参加教学能力考核,考核结果为优秀 合格两种情况,统计得到如下列联表:
高职院校教师 企业工程师 总计
优秀 350 170 520
合格 250 230 480
总计 600 400 1000
(1)根据小概率值的独立性检验,能否认为这次考核结果与教师背景类型有关?
(2)若从参会人员中,采用分层抽样的方法随机抽取10名教师,再从这10人中随机抽取3人进行海外教学意愿调研,设抽取的3人中企业工程师的人数为,求的分布列和数学期望.
附:,其中.
0.1 0.05 0.01 0.001
2.706 3.841 6.635 10.828
【变式8-1】(2026·四川南充·二模)某学校开展阅读兴趣调查,随机采访男生、女生各人,每人从文学类书籍和科普类书籍中选择最喜欢的一类,喜欢文学类书籍的归为甲组,喜欢科普类书籍的归为乙组.调查发现:甲组成员共人,其中男生人.
(1)根据以上数据,填空下述列联表:
甲组 乙组 合计
男生
女生
合计
(2)依据小概率值的独立性检验,分析学生喜欢文学类还是科普类书籍是否与性别有关;
(3)现从调查的女生中,按分层抽样选出人,再从这人中随机抽取人赠送书签,记赠送书签的人在甲组中的人数为,求的分布列及数学期望.
参考公式:,.
参考数据:
【变式8-2】(2026·内蒙古包头·模拟预测)某学校为全面提高学生的语文素养和阅读水平,构建“书香校园”,特举办“课外阅读知识竞赛”,为了调查学生对这次活动的满意程度,在所有参加“课外阅读知识竞赛”的同学中抽取容量为300的样本进行调查,并得到如下列联表:
单位:人
满意程度 性别 合计
男生 女生
满意 120
不满意 150
合计 200
(1)请补全上面的列联表,依据小概率值的独立性检验,能否认为满意程度与性别有关系;
(2)若竞赛成绩在前20的同学进入决赛环节,该环节共设置3道试题,且每一道试题必须依次作答,至少答对2道才能进入总决赛,且每人答对这3道试题的概率分别为,3道试题答对与否互不影响,用表示能进入总决赛的人数,求的数学期望.
附:,其中.
0.1 0.05 0.01 0.001
2.706 3.841 6.635 10.828
1.(2026·天津河西·一模)下列说法中错误的有( )
①回归直线恒过点,且至少过一个样本点;
②根据列联表中的数据计算得出,而,则“两个分类变量有关联”此推断犯错误的概率不大于0.01;
③回归分析时,可以用决定系数刻画模型的回归效果,越大,则拟合的效果越好;
④若随机变量服从正态分布,若则实数
A.1个 B.2个 C.3个 D.4个
2.(2026·天津河北·一模)以下结论错误的是( )
A.根据列联表中的数据计算得出,而,则根据小概率值的独立性检验,认为两个分类变量有关系
B.在回归直线中,变量时,变量y的值一定是15
C.的值越大,两个事件的相关性的可能性就越大
D.在回归分析中,相关指数越大,说明残差平方和越小,回归效果越好
3.(2026·湖北孝感·二模)为了研究物理成绩与数学成绩之间的关系,随机抽取名学生的成绩,用最小二乘法得到关于的线性回归方程为,则样本点的残差为( )
A. B. C. D.
4.(2026·安徽铜陵·模拟预测)已知变量和有较强的线性相关关系,根据下表中两个变量间的相关数据可以得到经验回归方程为,则( )
A.经验回归直线必过点
B.
C.当时,预测值
D.当时,样本点对应的残差为
5.(2026·天津·一模)近年中国新能源汽车进入高速发展时期,为了了解消费者的购车类型与地域是否具有相关性,某品牌汽车商随机调查了甲 乙两地各200名消费者,并用等高堆积条形图直观地展示调查结果如下图所示,经计算得到.
车型与地区
下表是独立性检验中几个常用的小概率值和相应的临界值.
0.05 0.01 0.005 0.001
3.841 6.635 7.879 10.828
下列说法正确的是( )
A.在所调查的甲地购车者中,若按比例分层随机抽样抽取20人,则新能源车主有8人
B.在所调查的乙地购车者中,购买燃油车的人数比新能源车的多20人
C.依据的独立性检验,即消费者的购车类型与地域有关联,此推断犯错误的概率不大于0.001
D.依据的独立性检验,即消费者的购车类型与地域无关联,此推断犯错误的概率不大于0.001
6.(2026·湖北黄冈·一模)下列说法正确的是( )
A.样本相关系数越大,则线性相关性越强
B.1,2,4,5,6,12,18,20的上四分位数是15
C.随机变量的方差,期望,则
D.某班30个男生的数学平均分为90,方差为4,20个女生的数学平均分为85,方差为6,则全班50个学生的数学成绩的方差为10.8
7.(2026·云南红河·模拟预测)(多选)某实验室为了研究荧光抗体法与常规培养法在沙门氏菌检验结果中是否存在差异,用以上两种检验方法对某种食品做了沙门氏菌检验,结果得到列联表如下:
阳性 阴性 合计
荧光抗体法
常规培养法
合计
参考公式:,其中.
附:下列表述正确的是( )
A.,
B.零假设:在沙门氏菌检验中荧光抗体法与常规培养法有差异
C.依据小概率值的独立性检验,认为荧光抗体法与常规培养法在沙门氏菌检验中有差异
D.常规培养法检测沙门氏菌阳性的频率为
8.(2026·重庆·一模)(多选)某儿童医院用甲、乙两种疗法治疗小儿消化不良.为分析两种疗法效果是否有差异,采取有放回的简单随机抽样的方法对治疗情况进行检查,得到如下数据:
疗法 疗效
未治愈 治愈
甲 15 52
乙 6 63
附常用小概率值及其相应的临界值表为:
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
计算得.则下列说法正确的是:( )
A.以频率估计概率,有
B.以频率估计概率,有
C.若取,可以认为疗效与疗法独立
D.若取,可以认为疗效与疗法独立
9.(2026·辽宁大连·一模)某人工智能公司从某年起连续7年的利润情况如下表所示:
第x年 1 2 3 4 5 6 7
利润y/亿元 2.9 3.3 3.6 4.4 4.8 5.2 5.9
根据表中的数据得到y关于x的回归直线方程,则( )
A.y与x之间的相关系数
B.回归系数的意义是x增大一个单位,增大0.5个单位
C.第8年的利润一定为6.3亿元
D.第6年利润的残差为亿元
10.(2026·河北沧州·二模)某新能源汽车4S店在某平台开启了直播销售,星期一至星期五的五个工作日内,直播时长x(小时)与直播时在线观看人数y(百人)如下表:
星期 一 二 三 四 五
直播时长x(小时) 2 5 6 4 8
直播时在线观看人数y(百人) 4 8 9 7 16
附:样本相关系数
经验回归方程中斜率和截距的最小二乘法估计公式分别为:,,,,.
(1)试根据样本相关系数r的值判断该直播的在线观看人数y(百人)与直播时长x(小时)的线性相关性的强弱(若,则认为y与x的线性相关性较强;若,则认为y与x的线性相关性较弱).
(2)利用最小二乘法求出y关于x的经验回归方程,并预测直播时长为10小时时的在线观看人数.
11.(2026·云南昭通·二模)新型AI模型是近年来针对数据降噪任务研发的算法工具,通过创新神经网络结构,优化传统模型难以处理的高噪声数据.实验人员用含噪声的图象数据对一种新型AI降噪模型进行实验,对使用该模型后,图象中的噪声残留量(单位:个/像素)进行检测,统计得到下表:
第轮迭代 1 2 3 4 5
噪声残留量(个/像素) 70 60 52 45 38
并计算得:.
(1)计算变量(迭代轮数)和变量(噪声残留量)的样本相关系数,并说明两变量线性的相关程度;
(2)若图象中的噪声残留量不高于个/像素,则说明数据降噪完成.用最小二乘法求关于的经验回归方程,并预测该AI模型至少需要迭代多少轮才可以完成降噪?
参考数据及公式:
样本数据的相关系数,其回归直线的斜率和截距的最小二乘估计值分别为:,.
12.(2026·安徽安庆·一模)第二十二届卡塔尔世界杯足球赛(FIFA World Cup Qatar 2022)决赛中,阿根廷队通过扣人心弦的点球大战战胜了法国队.某校为了丰富学生课余生活,组建了足球社团.足球社团为了解学生喜欢足球是否与性别有关,随机抽取了男、女同学各100名进行调查,部分数据如表所示:
喜欢足球 不喜欢足球 合计
男生 40
女生 30
合计
(1)根据所给数据完成上表,并判断是否有99.9%的把握认为该校学生喜欢足球与性别有关?
(2)社团指导老师从喜欢足球的学生中抽取了2名男生和1名女生示范点球射门,已知男生进球的概率为,女生进球的概率为,每人射门一次,假设各人射门相互独立,求3人进球总次数的分布列和数学期望.
附:,其中.
0.050 0.010 0.001
k 3.841 6.635 10.828
13.(2026·湖南长沙·一模)某医药研究所为了评估一种新药的疗效,开展了临床试验.研究人员记录了14名志愿者服用不同剂量的药物后,血液中某关键生化指标y(单位:)随给药剂量x(单位:mg)的变化情况.为了寻找最合适的预测模型,研究人员分别利用模型一和模型二对这14组数据进行了拟合,并绘制了相应的残差图(如图所示,图中纵轴为残差,横轴为给药剂量).
(1)观察残差图,判断哪个模型的拟合效果更好,并说明理由;
(2)设这14组数据得到的经验回归方程为.
(ⅰ)已知样本中的某位志愿者的给药剂量为,生化指标为.若该样本点在拟合效果更优的模型中的残差对应于图中标注的四点之一,请指出该点并说明理由;
(ⅱ)若在这14组数据中,给药剂量的标准差为,生化指标的标准差为,求生化指标与给药剂量的相关系数.(结果精确到0.01)
参考公式:相关系数;经验回归方程中斜率和截距的最小二乘估计公式分别为,.
14.(2026·陕西西安·模拟预测)近年来我国新能源汽车行业蓬勃发展,新能源汽车不仅对环境保护具有重大的意义,而且还能够减少对不可再生资源的开发,是全球汽车发展的重要方向.某地区近几年新能源汽车的购买情况如下表所示:
年份 2019 2020 2021 2022 2023
购买量(万辆) 0.40 0.70 1.10 1.50 1.80
(1)计算与的相关系数(保留三位小数);
(2)求关于的线性回归方程,并预测该地区2026年新能源汽车购买数量.
参考公式:.
参考数值:.
15.(2026·宁夏银川·一模)某工厂有甲、乙两条生产线加工同一型号的产品,甲生产线加工的优品率为5%,乙生产线加工的优品率为6%,加工出来的产品混放在一起.已知甲、乙生产线加工的产品数分别占总数的51%,49%.
(1)任取一件产品,如果取到的产品是优品,计算它是甲生产线加工的概率;
(2)现对甲生产线升级改造,从改造前与改造后甲生产线加工的产品中分别随机抽取100件进行检验,数据如下:
优品 非优品 合计
改造前 5 95 100
改造后 15 85 100
合计 20 180 200
根据小概率值的独立性检验,能否认为生产线改造与优品有关联?
附:
0.05 0.01 0.001
3.841 6.635 10.828
16.(2026·山西临汾·一模)水体富营养化导致藻类大量繁殖,以2017年中国太湖蓝藻爆发为例:5月初监测发现湖体中蓝藻细胞密度为每升50万个,随着气温升高至25-30℃且氮磷营养盐浓度超标(总磷浓度达),蓝藻进入增长期.5月10日细胞密度增至每升200万个,5月15日突破每升800万个,5月20日达到每升3200万个,形成面积超150平方公里的绿色水华带.此次爆发导致湖区溶解氧骤降至以下,大量鱼类死亡,自来水厂被迫停产、所以对水资源的保护刻不容缓,现对某区域的藻类面积y(单位:平方公里)与时间x(单位:年)的关系,进行监测,得到如下数据:
x/年 1 2 3 4 5 6 7
y/平方公里 6 11 21 34 66 101 196
根据以上数据,绘制成如图所示的散点图:
观察散点图,两个变量不具有线性相关关系,现考虑用对数函数模型和指数函数模型分别对两个变量的关系进行拟合.
(1)根据散点图判断与(a,b,c,d均为常数)哪一个更适合作为藻类面积y(单位:平方公里)与时间x(单位:年)的关系的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中的数据,求出y关于x的回归方程;
(3)若不及时保护水质,当第八年检测时,请估计藻类面积为多少平方公里.
参考数据:
62.14 1.54 2535 50.12 3.47
其中,
参考公式:对于一组数据,,…,其回归直线的斜率和截距的最小二乘估计公式分别为,.
17.(2026·广东佛山·二模)近年我国人工智能大模型发展迅猛,其中语言模型(处理、理解和生成人类语言)和多模态模型(处理、理解和生成文本、图像、音视频等)是其中两个重要的领域,某研究机构对2025年某区域的企业发布的所有大模型中随机抽取了14款进行标准化测试,由测试数据得到下面的散点图:
(1)用频率估计概率,根据2025年该区域的企业发布大模型的分布情况,估计该区域2026发布的大模型是多模态模型的概率;
(2)若t为时间变量,y为分数,根据多模态模型数据(,2,3,4,5,6,表示2025年1月份,表示2025年6月份,…),计算得,,.
(i)建立y关于t的线性回归方程;
(ii)根据语言模型的数据建立的回归方程为,该区域的某家企业在2026年4月发布了1款标准化测试得分为68分的大模型,定义统计量,Q值越小的大模型发生的可能性越大,则该款大模型更有可能是语言模型还是多模态模型,并说明理由.
附:回归直线的斜率和截距的最小二乘估计公式分别为,,.
21世纪教育网(www.21cnjy.com)
21世纪教育网(www.21cnjy.com)专题21 练透统计案例的八大必刷题型
题型 考情分析 考向预测
1.相关系数 2025年新高考卷Ⅰ:第15题考查了独立性检验解决实际问题 2024年全国甲卷理科:第17题考查了完善列联表、 独立性检验解决实际问题 2023年全国甲卷理科:第19题考查了超几何分布的分布列 、独立性检验解决实际问题 1、重识图、概念、统计意义;2、线性回归+独立性检验几乎每年一道大题,结构固定;3、非线性线性化、相关系数考查;4、新高考强化数据分析、统计直观,弱化公式死记硬背。
2.线性经验回归分析
3.非线性经验回归分析
4.回归模型与分布列的综合问题
5.分类变量与列联表
6.等高堆积条形图
7.独立性检验
8.独立性检验与分布列的综合问题
题型1 相关系数
对于变量x和变量y,设经过随机抽样获得的成对样本数据为(x1,y1),(x2,y2),…,(xn,yn),若x与y存在线性相关关系,可用样本相关系数r定量分析它们的相关程度的强弱. (1)样本相关系数r=; (2)样本相关系数r的性质 ①当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关;当r=0时,称成对样本数据间没有线性相关关系; ②样本相关系数r的取值范围为[-1,1] .当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.
【例1】某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:
月份 1 2 3 4 5 6
人均销售额 6 5 8 3 4 7
利润率(%) 12.6 10.4 18.5 3.0 8.1 16.3
根据表中数据,下列说法正确的是(  )
A.利润率与人均销售额成正比例函数关系
B.利润率与人均销售额成反比例函数关系
C.利润率与人均销售额成正相关关系
D.利润率与人均销售额成负相关关系
【答案】C 
【详解】根据题意,画出利润率与人均销售额的散点图,如图所示,由散点图知,利润率与人均销售额成正相关关系.故选C.
【变式1-1】(2026·河南开封·一模)(多选)以下是不同成对样本数据的散点图,则下列说法正确的是( )
A.图(1)中成对样本数据呈负相关
B.图(1)中成对样本数据的线性相关程度比图(2)中强
C.图(1)中成对样本数据的相关系数大于图(2)中成对样本数据的相关系数
D.若从图(2)样本中抽取一部分,则这部分的相关系数不变
【答案】AB
【详解】对于A:图(1)中,随着增大,整体呈减小趋势,因此成对样本数据呈负相关,A正确;
对于B:图(1)中数据点更贴近直线,线性相关程度比图(2)(数据点分散)强,B正确;
对于C:图(1)的线性相关性强,负相关的相关系数接近 1;图(2)线性相关性弱,相关系数绝对值小(接近 0).
因此图(1)的相关系数(负数,绝对值大)小于图(2)的相关系数(接近 0),C错误;
对于D:从图(2)中抽取部分样本,数据分布会改变,相关系数会变化,D错误.
故选:AB.
【变式1-2】(2026·河北·模拟)为考察两个变量x,y的相关性,搜集数据如表,则两个变量的线性相关程度(  )
x 5 10 15 20 25
y 103 105 110 111 114
(参考数据:,,,≈15.8,≈9.01)
A.很强 B.很弱
C.无相关 D.不确定
【答案】A
【详解】解析:由题可知样本量 ,所以:
=15,=108.6,
又因为:,,,,≈15.8,
所以:
=,
因为相关系数很接近于1,故两个变量的线性相关程度很强.
所以选A.
题型2 线性经验回归分析
(1)回归直线:从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做经验回归直线; (2)回归方程为=x+,其中==,=-; (3)通过求Q=(yi-bxi-a)2的最小值而得到经验回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法. 回归直线方程的性质 (1)回归直线一定过点(,). (2)一次函数=x+的单调性由的符号决定,函数递增的充要条件是>0,这说明:y与x正相关的充要条件是>0;y与x负相关的充要条件是<0. (3)当x增大一个单位时,增大个单位,这就是回归系数的实际意义. 刻画拟合效果的三种方法 (1)残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适; (2)残差平方和法:残差平方和(yi-)2越小,模型的拟合效果越好; (3)决定系数法:R2=1-越接近1,表明模型的拟合效果越好.
【例2】(2026·宁夏银川·一模)(多选)某市气象部门对本市的温度(单位:℃)与相对湿度进行研究,记录了五组数据如表所示:
温度 28 25 22 19 16
相对湿度 41 48 62 65 70
已知与线性相关,根据表中的数据计算得经验回归方程为,则( )
A.与负相关
B.经验回归直线一定经过点
C.当温度为10℃时,相对湿度大约为87.2%
D.样本相关系数
【答案】AC
【详解】对于A.由表格可知,温度越小,越大,所以与负相关,故A正确;
对于B.,,所以经验回归直线一定经过点,故B错误;
对于C.,得,所以,当时,,
所以当温度为时,相对湿度大约为,故C正确;
对于因为与负相关,所以样本相关系数,故D错误.
所以选AC.
【变式2-1】(2026·河北沧州·二模)某人统计了2020-2024年某网站“双11”当天的交易额,统计结果如表:
年份 2020 2021 2022 2023 2024
年份代码 1 2 3 4 5
交易额百亿元 9 12 17 21 26
(1)请根据表中提供的数据,用样本相关系数说明与的线性相关程度;
(2)求出关于的经验回归方程,并预测2027年该网站“双11”当天的交易额.
附:在经验回归方程中,,,,
【答案】(1)非常接近1,说明变量与的线性相关程度很强
(2),38.5百亿元
【详解】(1)由题意,根据表格中的数据,
可得,,
,,

故,
所以,
非常接近,说明变量与的线性相关程度很强.
(2)由(1)可得,,,,
所以,
则.
可得关于的经验回归方程为,
令,可得,
所以预测2027年该网站“双11”当天的交易额为38.5百亿元.
【变式2-2】(2026·广西崇左·一模)(多选)已知相关系数,y关于x的经验回归方程中斜率和截距的最小二乘估计公式分别为,,残差平方和为.已知变量x与变量y的部分数据,建立由最小二乘法得到的两个回归模型:以x为自变量,y为因变量,得出的经验回归方程为;以y为自变量,x为因变量,得出的经验回归方程为.若两个模型的计算均无误,则下列判断正确的是( )
A.若已知变量x的方差,则可知变量y的标准差
B.若不给定其他信息,则也可得知变量x与变量y各自的平均值
C.若不给定其他信息,则也可得知变量x与变量y的相关系数
D.若已知变量x的标准差,则可知以y为自变量的回归模型的残差平方和
【答案】ABC
【详解】对于C,由所给公式得,且回归系数为负数,故相关系数,C正确.
对于A,设变量x与变量y的标准差分别为,,
,,
标准差,
变形可得,
将其代入到得,
整理得,将其代入到,
整理得,代入已知数据得,
即,若已知变量x的方差,即可求得,进而代入上式求得,A正确.
对于B,经验回归直线经过样本中心点,
代入两个回归方程得与,解得,,
故不给定其他信息也可得知变量x与变量y各自的平均值,B正确.
对于D,设以y为自变量的经验回归方程为(其中),
则变量x的残差平方和为

由于样本量n未知,故无法算出残差平方和的具体数值,D错误.
所以选ABC.
题型3 非线性经验回归分析
有些非线性回归分析问题并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)的图象进行比较,挑选一种跟这些散点拟合得最好的函数,用适当的变量进行变换,如通过换元或取对数等方法,把问题化为线性回归分析问题,使之得到解决. (1)其一般步骤为: (2)常见非线性回归方程与线性回归方程之间经常使用取对数进行转换.
【例3】学生的学习除了在课堂上认真听讲,还有一个重要环节就是课后的自主学习,包括提前预习,复习巩固等等,现在人们普遍认为花在课后的学习时间越多越好.某教研机构抽查了部分高中学生,对学生花在课后的学习时间(设为x分钟)和他们的数学平均成绩(设为y)做出了以下数据统计,请根据表格回答问题:
x 60 70 80 90 100 110 120 130
y 92 109 114 120 119 121 121 122
(1)从三个函数①.②().③中选择一个作为学习时间x和平均成绩y的回归类型,判断哪个类型更加符合,不必说明理由.
(2)根据(1)中选择的回归类型,求出y与x的回归方程(系数精确到0.01).
(3)请根据此回归方程,阐述你对花在课后的学习时间和成绩之间关系的看法.
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为.
参考数据:,,,
【答案】(1)②合适 (2); (3)答案见解析
【详解】(1)根据题意,经比较可知,选择②()作为学习时间x和平均成绩y的回归类型最合适;
(2)对()两边取以e为底的对数可得,
设,则,
,所以,
故,即,
所以;
(3)此回归方程为关于学习时间的增函数,说明随着课后的学习时间的增加,学习成绩是提高的,但是函数的增速先快后慢,说明如果原来成绩较低,通过增加课后的学习时间可以有效提高成绩,但是当成绩提高到120分左右时,想要通过延长课后的学习时间来提高学习成绩就比较困难了,需要想别的办法.
【变式3-1】(2026高三下·湖南衡阳·专题练习)脑机接口,即指在人或动物大脑与外部设备之间创建的直接连接,实现脑与设备的信息交换.近日埃隆.马斯克宣布,脑机接口公司正在接收第二位植入者申请,该试验可以实现意念控制手机和电脑.未来10到20年,我国脑机接口产业将产生数百亿元的经济价值.为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量y(单位:亿元)与研发人员增量x(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图.
根据收集到的数据,计算得到下表数据,其中,.
7.5 2.25 82.50 4.50 12.14 2.88
(1)根据残差图,判断应选择哪个模型,并说明理由.
(2)根据(1)中所选模型,求出y关于x的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1)
附:对于一组具有线性相关关系的数据,,…,,其经验回归直线的斜率及截距的最小二乘估计分别为,.
【答案】(1)选择模型②,理由见解析 (2),10人
【详解】(1)选择模型②,理由如下:
由于模型②残差点比较均匀在落在水平的带状区域中,且带状区域的宽度比模型①带状宽度窄,所以模型②的拟合精度更高,回归方程的预报精度相应就会越高,故模型②比较合适.
(2)根据模型②,令,y与t可用线性回归来拟合,有.
则,
所以,
则y关于t的经验回归方程为,
所以y关于x的经验回归方程为.
由题意,,解得,又x为整数,所以.
所以,要使年收益增量超过8亿元,研发人员增量至少为10人.
【变式3-2】(2026·四川泸州·模拟预测)某市开展“安全随我行”活动,交警部门在某个交通路口增设电子抓拍眼,并记录了某月该路口连续10日骑电动摩托车未佩戴头盔的人数与天数的情况,对统计得到的样本数据作了初步处理,得到下面的散点图及一些统计量的值.
5.5 8.7 1.9 301 385 79.75
表中,.
(1)依据散点图推断,与哪一个更适合作为未佩戴头盔人数与天数的回归方程类型?(给出判断即可,不必说明理由),并求出所选类型的回归方程.
(2)为了解佩戴头盔情况与性别的关联性,交警对该路口骑电动摩托车市民进行调查,得到如下列联表:
性别 佩戴头盔 合计
不佩戴 佩戴
女性 8 12 20
男性 14 6 20
合计 22 18 40
依据的独立性检验,能否认为市民骑电动摩托车佩戴头盔与性别有关联?
参考公式:,,,其中.
0.15 0.10 0.05 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.828
【答案】(1)更适合, (2)不能
【详解】(1)由图可以判断,更适合作为未佩戴头盔人数与天数的回归方程类型,
由,得到,因为,则,
则,所以,则.
(2)零假设:市民佩戴头盔与性别无关联.
根据列联表中的数据,经计算得到:

根据小概率值的独立性检验,我们没有理由认为不成立,即认为市民佩戴头盔与性别没有关联.
题型4 回归分析与分布列的综合
线性回归方程: 先算、 计算() 分布列概率模型: (1)超几何分布 如果 X~H(n,M,N),则E(X)=,D(X)=·(1-)·. (2)二项分布 如果ξ ~B(n,p),则用公式E(ξ)=np,D(ξ)=np(1-p) (3)古典概型+条件概率 P(A)= 、 P(B|A)=
【例4】某学校校庆时统计连续5天进入学校参加活动的校友数(单位:千人)如下:
日期 10月1日 10月2日 10月3日 10月4日 10月5日
第x天 1 2 3 4 5
参观人数y(千人) 2.2 2.6 3.1 5.2 6.9
(1)由上表数据看出,可用线性回归模型拟合y与x的关系,请用相关系数r加以说明(保留小数点后两位);(若>0.75,则认为y与x的线性相关性很强),并求出y关于x的线性回归方程;
(2)校庆期间学校开放1号门、2号门和3号门供校友出入,校友从1号门、2号门和3号门进入学校的概率分别为,若校友从某个门进入学校,则其从该门出学校的概率为,从其他两个门出学校的概率各为.假设校友从1号门、2号门、3号门出入学校互不影响,现有甲乙丙丁4名校友于10月1日回母校参加活动,设X为4人中从2号门出学校的人数,求X的期望及方差.
附:参考数据:.
参考公式:回归直线方程y=bx+a,其中.相关系数.
【答案】(1),说明见解析, (2),.
【详解】(1)依题意,,而,,,
则.
因为时线性相关程度高,所以与线性相关性很强,可以用线性回归模型拟合.
,,
因此,回归方程为.
(2)记“甲从2号门出学校”为事件,“甲从1号门进学校”为事件,
“甲从2号门进学校”为事件,“甲从3号门进学校”为事件,
由题意可得,,,
,,
由全概率公式得: ,
同理乙、丙、丁从2号门出学校的概率也为,
为4人中从2号门出学校的人数,则,
,,
,,

故的分布列为:
0 1 2 3 4
,.
【变式4-1】(2026·江西·一模)随着科技的发展,人工智能生成的虚拟角色正逐步取代传统的真人直播带货.某公司使用虚拟角色直播带货后销售金额逐步提升,根据该公司使用虚拟角色直播带货后18个月的销售金额的情况统计,得到一组样本数据,其中和分别表示月份编号和销售金额数量(单位:万元),并计算得, .
(1)求样本的相关系数(精确到0.01),并推断销售金额(单位:万元)和月份编号是否线性相关(当时,即可认为线性相关);
(2)已知这18个月中有10个月的销售金额高于平均数,从这18个月中随机抽取2个月的销售金额,记抽到销售金额高于平均数的月份数为,求随机变量的分布列.
附:相关系数.
【答案】(1),具有很强的正相关性
(2)
0 1 2
【详解】(1)样本的相关系数为:
由于相关系数,故销售金额(单位:万元)和月份编号具有很强的正相关性;
(2)由题意得:的可能取值为0,1,2,
18个月中有10个月的销售金额高于平均数,
所以,


所以的分布列为:
0 1 2
【变式4-2】(25-26高三下·江苏扬州·月考)某高中数学兴趣小组,准备利用所学知识研究成年男性的臂长与身高之间的关系,为此他们随机统计了5名成年男性的身高与臂长,得到如下数据:
159 165 170 176 180
67 71 73 76 78
(1)根据上表数据,可用线性回归模型拟合与的关系,请用相关系数加以说明;
(2)建立关于的回归方程(系数精确到0.01);
(3)从5名样本成年男性中任取2人,记这2人臂长差的绝对值为,求.
参考数据:
【答案】(1)说明见解析 (2) (3)
【详解】(1)由表中的数据和参考数据得
,,,,

,,
∴.
因为y与x的相关系数近似为0.997,说明y与x的线性相关程度相当高,从而可以用线性回归模型拟合y与x的关系.
(2)由及(1)得,

所以y关于x的回归方程为.
(3)X的取值依次为2,3,4,5,6,7,9,11,
,,,
,,,
,,
X的分布列
X
所以.
题型5 分类变量与列联表
分类变量与列联表 (1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量; (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,X表示相互对立的两个事件{X=0}和{X=1},Y表示相互对立的两个事件{Y=0}和{Y=1},其中a,b,c,d是事件{X=x,Y=y}(x,y=0,1)的 频数 ,n是样本量,其样本频数列联表(称为2×2列联表)如表所示: XY合计Y=0Y=1X=0aba+bX=1cdc+d合计a+cb+dn=a+b+c+d
【例5】一款短视频手机应用最近在某校学生中流行起来,某校团委对“学生性别和喜欢该手机应用是否有关”做了一次调查,其中被调查的女生人数是男生人数的,男生喜欢该手机应用的人数占男生人数的,女生喜欢该手机应用的人数占女生人数的,若有的把握认为是否喜欢该手机应用和性别有关,则被调查的男生人数至少为( )
0.05 0.01
3.841 6.635
A.12 B.6 C.10 D.18
【答案】A
【详解】设被调查的男生人数为,则女生人数为,可得列联表如下:
喜欢 不喜欢 合计
男生
女生
合计
由公式算得,因为有的把握认为是否喜欢该手机应用和性别有关,所以,
则.而都是整数,所以的值至少为12.
故选:A.
【变式5-1】(2026·陕西安康·三模)某高中为研究学生课外阅读时间与视力健康的关联性,从全校的3000名学生中随机抽取了100名学生进行调查,得到部分数据如表.
课外阅读时间 视力健康情况 合计
视力正常 视力不良
小时/天 35 60
小时/天 10
合计 100
(1)试估计全校学生中视力不良的学生人数;
(2)补全列联表,并判断依据小概率值的独立性检验,能否认为学生的视力健康与课外阅读时间有关?
附:.
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
【答案】(1)1050 (2)
课外阅读时间 视力健康情况 合计
视力正常 视力不良
小时/天 35 25 60
小时/天 30 10 40
合计 65 35 100
认为学生的视力健康与课外阅读时间无关.
【详解】(1)由题可得课外阅读时间小时/天的学生中视力不良的有人,
所以估计全校学生中视力不良的学生人数为3000.
(2)补全列联表:
课外阅读时间 视力健康情况 合计
视力正常 视力不良
小时/天 35 25 60
小时/天 30 10 40
合计 65 35 100
零假设为:学生的视力健康与课外阅读时间无关,
.930<,
所以依据小概率值的独立性检验,没有充分证据推断不成立,
因此可以认为成立,即认为学生的视力健康与课外阅读时间无关.
【变式5-2】(2026·上海徐汇·二模)为落实《全民健身条例》,某区体育局对本区居民的健身场所选择偏好进行调研.数据显示,居民主要选择商业健身场馆(如健身房 体育中心)和社区公共运动场(如小区健身点 街心公园)两类场所.为了解年龄因素是否影响健身场所的选择,研究人员将成年居民分为青壮年组(岁且岁)和中老年组(岁),从该区随机抽取170名成年居民进行调查,得到如下不完整的列联表:
青壮年 中老年 合计
商业健身场馆 60
社区公共运动场 50
合计 80 170
(1)请补充列联表,并根据表中数据判断能否有的把握认为年龄与居民健身场所的选择有关;
(2)用分层抽样的方式从选择社区公共运动场的居民中抽取14个人,再从14个人中随机抽取7个人,用随机变量表示这7个人中中老年与青壮年人数之差的绝对值,求的分布和数学期望.
参考公式及数据:,其中.
0.1 0.05 0.025 0.01 0.005 0.001
2.706 3.841 5.024 6.635 7.879 10.828
【答案】(1)列联表见解析,有95%的把握认为年龄与健身场所选择有关
(2)的分布见解析,数学期望为(或约)
【详解】(1)根据已知数据计算空缺值,得到完整列联表如下:
青壮年 中老年 合计
商业健身场馆 60 40 100
社区公共运动场 20 50 70
合计 80 90 170
因为,
因此有95%的把握认为年龄与居民健身场所的选择有关.
(2)选择社区公共运动场的居民共70人,其中青壮年20人、中老年50人,抽样比为,
因此抽取的样本中青壮年人数:,中老年人数:.
设抽取的7人中中老年人数为,则青壮年人数为,.
因为青壮年共4人,故,解得,又,
因此,对应的可能取值为.
总情况数为,
(对应或)时,,
(对应)时,,
(对应)时,,
(对应)时,,
因此,的分布列为:
1 3 5 7
所以
题型6 等高堆积条形图
等高堆积条形图 (1)等高堆积条形图与表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高堆积条形图展示列联表数据的频率特征; (2)如果通过直接计算或等高堆积条形图发现和相差很大,就判断两个分类变量之间有关系.
【例6】为考察A,B两种药物预防某疾病的效果,进行药物实验,分别得到如下等高堆积条形图:
根据图中信息,在下列各项中,说法最佳的一项是(  )
A.药物B的预防效果优于药物A的预防效果
B.药物A的预防效果优于药物B的预防效果
C.药物A,B对该疾病均有显著的预防效果
D.药物A,B对该疾病均没有预防效果
【答案】B
【详解】从等高堆积条形图可以看出,服用药物A后未患病的比例比服用药物B后未患病的比例大得多,预防效果更好.
所以选B.
【变式6-1】(2026·广东梅州·一模)(多选)近年中国新能源汽车进入高速发展时期,为了了解消费者的购车类型与地域是否具有相关性,某品牌车商随机调查了甲、乙两地各200名消费者,得出统计图如下,根据此统计图,下列结论正确的是( )
附:,.
0.05 0.01 0.001
3.841 6.635 10.828
A.在所调查的甲地购车者中,购买燃油车的人数比新能源车的多20人
B.在所调查的乙地购车者中,若用分层随机抽样抽取20人,则其中新能源车主有12人
C.根据小概率值的独立性检验,消费者的购车类型与地域有关
D.从所调查消费者中随机选一人,在已知其为新能源车主的条件下,其来自甲地的概率为0.4
【答案】BCD
【详解】A:甲地购买燃油车人数为,购买新能源车人数为,
故购买燃油车的人数比新能源车的多人,A错误.
B:乙地购买新能源车比例为,故用分层随机抽样抽取20人时,新能源车主有人,B正确.
C:列出列联表:
甲地 乙地 总计
燃油车 120 80 200
新能源车 80 120 200
总计 200 200 400
则.
小概率值时,.
因为,所以根据小概率值的独立性检验,消费者的购车类型与地域有关,C正确.
D:所调查的新能源车主共有人,其中甲地80人,在已知其为新能源车主的条件下,其来自甲地的概率为,D正确.
所以选BCD.
【变式6-2】(2026·广东汕头·一模)某中学的两位学生A与B为研究高三年级学生的性别和身高是否大于170cm的关联性,对该中学的高三学生进行了调查.A同学调查了所有高三学生,并整理得到等高堆积条形图,如图(一);B同学从所有高三学生中获取容量为40的有放回简单随机样本,也整理得到列联表,如表(一).
表(一)单位:人
性别 身高 合计
低于170cm 不低于170cm
女 14 7 21
男 8 11 19
合计 22 18 40
(1)请根据A同学的等高堆积条形图,判断该中学高三年级学生的性别和身高是否有关联,如果结论是有关联,解释它们之间如何相互影响;
(2)根据B同学的列联表,依据的独立性检验,该中学高三年级学生的性别和身高是否有关联,并解释所得结论的实际含义;
(参考公式及数据:,临界值)
(3)请比较(1)和(2)的统计结论是否一致,说明原因.
【答案】(1)有关联,女生更倾向于身高低于170 cm,男生更倾向于身高不低于170 cm.
(2)无关联,实际含义见解析
(3)不一致,原因见解析
【详解】(1)有关联,根据等高堆积条形图可知,女生中身高低于170 cm的比例明显高于男生,
而男生中身高不低于170 cm的比例明显高于女生,
故该中学高三年级学生的性别与身高有关联.具体表现为女生更倾向于身高低于170 cm,男生更倾向于身高不低于170 cm.
(2)由题意得,零假设:该中学高三年级学生的性别与身高无关联,
由列联表可得,
根据小概率值的独立性检验,没有充分证据推断不成立,
因此可以认为成立,即认为该中学高三年级学生的性别和身高没有关联,
实际意义是根据该样本数据,不能认为性别对身高是否大于170cm有显著影响,二者可视为相互独立.
(3)(1)与(2)的结论不一致,
A同学调查了所有高三学生,能真实反映总体状况,
若总体中确实存在关联,则其结论可靠;
B同学仅从所有高三学生中获取容量为40的有放回简单随机样本,
样本量较少,并且抽样具有随机性,而独立性检验受样本容量影响较大,
当样本量较少时,独立性检验可能导致检验功效不足,未能检测出总体中实际存在的关联性.
题型7 独立性检验
1.独立性检验的一般步骤 (1)根据样本数据制作2×2列联表; (2)根据公式χ2=计算; (3)比较χ2与临界值的大小关系,作统计推断.
【例7】某地区的一种传染病与饮用水的调查表如下:
饮用水 是否得病 合计
得病 不得病
干净水 52 466 518
不干净水 94 218 312
合计 146 684 830
(1)这种传染病是否与饮用水的卫生程度有关?请说明理由;
(2)若饮用干净水得病5人,不得病50人;饮用不干净水得病9人,不得病22人.按此样本数据分析这种传染病是否与饮用水的卫生程度有关,并比较两个样本在反映总体时的差异.
附:χ2=.
α 0.1 0.025 0.01 0.005 0.001
xα 2.706 5.024 6.635 7.879 10.828
【详解】(1)零假设为H0:这种传染病与饮用水的卫生程度无关.
=≈54.21>10.828=x0.001,
根据小概率值α=0.001的独立性检验,可推断H0不成立,即认为该地区这种传染病与饮用水的卫生程度有关,此推断犯错误的概率不大于0.001.
(2)依题意得2×2列联表如下:
饮用水 是否得病 合计
得病 不得病
干净水 5 50 55
不干净水 9 22 31
合计 14 72 86
零假设为H0:这种传染病与饮用水的卫生程度无关.=≈5.785>5.024=x0.025,
根据小概率值α=0.025的独立性检验,可推断H0不成立,即认为该种传染病与饮用水的卫生程度有关,此推断犯错误的概率不大于0.025.
两个样本都能得到这种传染病与饮用水的卫生程度有关这一相同结论,但两者的准确程度不同.
【变式7-1】(2026·湖北荆州·一模)某校为了了解本校学生在寒假期间参加社会实践活动的情况,随机调查了100名学生,得到如下列联表(单位:人):( )
男生 女生 合计
参加了社会实践活动 30 40 70
未参加社会实践活动 20 10 30
合计 50 50 100
附,其中n=a+b+c+d;
A.依据小概率值的独立性检验,认为学生是否参加社会实践活动与性别无关
B.从男生中随机抽取1人,其参加了社会实践活动的概率为
C.随机抽取1人,若抽取到的是参加了社会实践的学生,则这名学生是男生的概率为
D.按性别用分层抽样的方法从参加社会实践活动的学生中抽取7人,再从这7人中抽取2人,则这2人中至少有一名男生的概率为
【答案】BCD
【详解】零假设为:参加社会实践活动与性别无关联,
则,
依据小概率值的独立性检验,我们推断不成立,
即认为参加社会实践活动与性别有关联,此推断犯错误的概率不大于,故A错误.
从男生中随机抽取1人,其参加了社会实践活动的概率为,故B正确.
记事件表示抽到的学生是参加社会实践的学生,则,
记事件表示抽到的学生是男生,,
所以,故C正确.
按性别用分层抽样的方法从参加社会实践的学生中抽取7人,
则7人中有男生人,有女生人,
从这7人中抽取2人有种取法,全为女生的取法有,
所以从这7人中抽取2人全为女生的概率为,
所以从这7人中抽取2人,这2人中至少有一名男生的概率为,故D正确.
【变式7-2】(2026·辽宁大连·模拟预测)如图的列联表中,定义,易知越大越有利于结论“与有关系”.若当值大于常数时,有的把握认为与有关系,那么的值为( )
(已知,其中,)
总计
总计
A. B.
C. D.
【答案】A
【详解】当有的把握认为与有关系,则,故,
此时临界条件为,此时对应的刚好为,
即此时,即,
故,则,
故,
故选:A.
题型8 独立性检验与分布列的综合
1.独立性检验的一般步骤 (1)根据样本数据制作2×2列联表; (2)根据公式χ2=计算; (3)比较χ2与临界值的大小关系,作统计推断. 2、分布列概率模型: (1)超几何分布 如果 X~H(n,M,N),则E(X)=,D(X)=·(1-)·. (2)二项分布 如果ξ ~B(n,p),则用公式E(ξ)=np,D(ξ)=np(1-p) (3)古典概型+条件概率 P(A)= 、 P(B|A)=
【例8】在“一带一路”倡议推动下,中国与中亚国家合作日益紧密.2025年,某省计划向海外“郑和学院”项目派遣教师,为此举办了专项教学能力培训.参会人员包括600名高职院校教师和400名企业工程师转岗教师.培训后均参加教学能力考核,考核结果为优秀 合格两种情况,统计得到如下列联表:
高职院校教师 企业工程师 总计
优秀 350 170 520
合格 250 230 480
总计 600 400 1000
(1)根据小概率值的独立性检验,能否认为这次考核结果与教师背景类型有关?
(2)若从参会人员中,采用分层抽样的方法随机抽取10名教师,再从这10人中随机抽取3人进行海外教学意愿调研,设抽取的3人中企业工程师的人数为,求的分布列和数学期望.
附:,其中.
0.1 0.05 0.01 0.001
2.706 3.841 6.635 10.828
【答案】(1)能认为这次考核结果与教师背景类型有关 (2)分布列见解析,
【详解】(1)零假设为:这次考核结果与教师背景类型无关,
查临界值表,对应的临界值,由于,
故依据小概率值的独立性检验,我们推断不成立,
即认为这次考核结果与教师背景类型有关,此推断犯错的概率不大于0.01.
(2)分层抽样时,总抽取比例为
因此:高职院校教师抽取人数:(人),
企业工程师抽取人数:(人)
从10人中抽取3人,设企业工程师人数为X,则X服从超几何分布,
可能取值为,
则,


则的分布列为:
0 1 2 3
数学期望由超几何分布性质得:
【变式8-1】(2026·四川南充·二模)某学校开展阅读兴趣调查,随机采访男生、女生各人,每人从文学类书籍和科普类书籍中选择最喜欢的一类,喜欢文学类书籍的归为甲组,喜欢科普类书籍的归为乙组.调查发现:甲组成员共人,其中男生人.
(1)根据以上数据,填空下述列联表:
甲组 乙组 合计
男生
女生
合计
(2)依据小概率值的独立性检验,分析学生喜欢文学类还是科普类书籍是否与性别有关;
(3)现从调查的女生中,按分层抽样选出人,再从这人中随机抽取人赠送书签,记赠送书签的人在甲组中的人数为,求的分布列及数学期望.
参考公式:,.
参考数据:
【答案】(1)
甲组 乙组 合计
男生
女生
合计
有关,理由见解析
(3)分布列为
数学期望为
【详解】(1)根据题中数据可得列联表如下:
甲组 乙组 合计
男生
女生
合计
(2)零假设学生喜欢文学类还是科普类书籍与性别无关,

根据小概率值的独立性检验,我们推断不成立,
即认为学生喜欢文学类还是科普类书籍与性别有关.
(3)从调查的女生中,按分层抽样选出人,再从这人中随机抽取人赠送书签,
这人中,甲组的人数为人,乙组的人数为人,
由题意可知,随机变量的可能取值有、、,
,,,
所以随机变量的分布列如下表所示:
所以.
【变式8-2】(2026·内蒙古包头·模拟预测)某学校为全面提高学生的语文素养和阅读水平,构建“书香校园”,特举办“课外阅读知识竞赛”,为了调查学生对这次活动的满意程度,在所有参加“课外阅读知识竞赛”的同学中抽取容量为300的样本进行调查,并得到如下列联表:
单位:人
满意程度 性别 合计
男生 女生
满意 120
不满意 150
合计 200
(1)请补全上面的列联表,依据小概率值的独立性检验,能否认为满意程度与性别有关系;
(2)若竞赛成绩在前20的同学进入决赛环节,该环节共设置3道试题,且每一道试题必须依次作答,至少答对2道才能进入总决赛,且每人答对这3道试题的概率分别为,3道试题答对与否互不影响,用表示能进入总决赛的人数,求的数学期望.
附:,其中.
0.1 0.05 0.01 0.001
2.706 3.841 6.635 10.828
【答案】(1)
满意程度 性别 合计
男生 女生
满意 120 30 150
不满意 80 70 150
合计 200 100 300
能认为满意程度与性别有关系
(2).
【详解】(1)列联表
满意程度 性别 合计
男生 女生
满意 120 30 150
不满意 80 70 150
合计 200 100 300
推断犯错误的概率不大于0.001;
零假设为:满意程度与性别无关,,
所以依据小概率值的独立性检验,推断不成立,
即能认为满意程度与性别有关系,此推断犯错误的概率不大于0.001.
(2)依题意,设“答对第i道题”(,2,3);“某同学进入总决赛”,
则,,,
所以

依题意,,
所以.
1.(2026·天津河西·一模)下列说法中错误的有( )
①回归直线恒过点,且至少过一个样本点;
②根据列联表中的数据计算得出,而,则“两个分类变量有关联”此推断犯错误的概率不大于0.01;
③回归分析时,可以用决定系数刻画模型的回归效果,越大,则拟合的效果越好;
④若随机变量服从正态分布,若则实数
A.1个 B.2个 C.3个 D.4个
【答案】A
【详解】对于①,回归直线恒过点,不一定过样本点,故①错误;
对于②,根据列联表中的数据计算得出,而,
则有的把握认为两个分类变量有关系,则“两个分类变量有关联”此推断犯错误的概率不大于0.01,故②正确;
对于③,在做回归分析时,可以用决定系数刻画模型的回归效果,若越大,则说明模型拟合的效果越好,故③正确;
对于④,由随机变量,其正态曲线关于直线对称,
由,若,则,即得,
所以,故④正确.
综上,错误的只有①.
2.(2026·天津河北·一模)以下结论错误的是( )
A.根据列联表中的数据计算得出,而,则根据小概率值的独立性检验,认为两个分类变量有关系
B.在回归直线中,变量时,变量y的值一定是15
C.的值越大,两个事件的相关性的可能性就越大
D.在回归分析中,相关指数越大,说明残差平方和越小,回归效果越好
【答案】B
【详解】对于选项A:,故根据小概率值的独立性检验,认为两个分类变量有关系,即A正确:
对于选项B,回归直线方程中,当变量等于200时,的值平均是15,不能说一定是15,故B错误;
对于选项C:越大,“与有关系”可信程度越大,即相关性的可能性就越大,即C正确;
对于选项D:在回归分析中,相关指数越大,说明残差平方和越小,回归效果越好,即D正确.
所以选B.
3.(2026·湖北孝感·二模)为了研究物理成绩与数学成绩之间的关系,随机抽取名学生的成绩,用最小二乘法得到关于的线性回归方程为,则样本点的残差为( )
A. B. C. D.
【答案】A
【详解】时的预测值,
时的真实为值,
样本点的残差为.
4.(2026·安徽铜陵·模拟预测)已知变量和有较强的线性相关关系,根据下表中两个变量间的相关数据可以得到经验回归方程为,则( )
A.经验回归直线必过点
B.
C.当时,预测值
D.当时,样本点对应的残差为
【答案】D
【详解】对于A,因为,,
所以经验回归直线必过点,A错误;
对于B,因为经验回归方程为过点,所以,解得,B错误;
对于C,将代入经验回归方程得,C错误;
对于D,当时,实际值,预测值,所以残差为,D正确.
所以选D.
5.(2026·天津·一模)近年中国新能源汽车进入高速发展时期,为了了解消费者的购车类型与地域是否具有相关性,某品牌汽车商随机调查了甲 乙两地各200名消费者,并用等高堆积条形图直观地展示调查结果如下图所示,经计算得到.
车型与地区
下表是独立性检验中几个常用的小概率值和相应的临界值.
0.05 0.01 0.005 0.001
3.841 6.635 7.879 10.828
下列说法正确的是( )
A.在所调查的甲地购车者中,若按比例分层随机抽样抽取20人,则新能源车主有8人
B.在所调查的乙地购车者中,购买燃油车的人数比新能源车的多20人
C.依据的独立性检验,即消费者的购车类型与地域有关联,此推断犯错误的概率不大于0.001
D.依据的独立性检验,即消费者的购车类型与地域无关联,此推断犯错误的概率不大于0.001
【答案】C
【分析】借助分层随机抽样定义计算可得A;分别计算出购买燃油车的人数与购买新能源车的人数可得B;利用独立性检验定义可得C、D.
【详解】对A:,故新能源车主有人,故A错误;
对B:购买燃油车的人数为,
购买新能源车的人数为,
则购买燃油车的人数比新能源车的多人,故B错误;
对C、D:依据的独立性检验,即消费者的购车类型与地域有关联,
由,故此推断犯错误的概率不大于,故C正确、D错误.
所以选C.
6.(2026·湖北黄冈·一模)下列说法正确的是( )
A.样本相关系数越大,则线性相关性越强
B.1,2,4,5,6,12,18,20的上四分位数是15
C.随机变量的方差,期望,则
D.某班30个男生的数学平均分为90,方差为4,20个女生的数学平均分为85,方差为6,则全班50个学生的数学成绩的方差为10.8
【答案】BD
【详解】A:样本相关系数的绝对值越大,则线性相关性越强,则A错误;
B:该组数据共8个数据,又,
因此上四分位数为第6个数和第7个数的平均数,即,因此B正确;
C:因为,由方差,期望,可得,即C错误.
D:易知全班50个学生的数学成绩的平均值为,
因此方差为,即D正确.
所以选BD.
7.(2026·云南红河·模拟预测)(多选)某实验室为了研究荧光抗体法与常规培养法在沙门氏菌检验结果中是否存在差异,用以上两种检验方法对某种食品做了沙门氏菌检验,结果得到列联表如下:
阳性 阴性 合计
荧光抗体法
常规培养法
合计
参考公式:,其中.
附:下列表述正确的是( )
A.,
B.零假设:在沙门氏菌检验中荧光抗体法与常规培养法有差异
C.依据小概率值的独立性检验,认为荧光抗体法与常规培养法在沙门氏菌检验中有差异
D.常规培养法检测沙门氏菌阳性的频率为
【答案】AC
【详解】对于A,根据表格数据可知:,,A正确;
对于B,为了研究荧光抗体法与常规培养法在沙门氏菌检验结果中是否存在差异,零假设:在沙门氏菌检验中荧光抗体法与常规培养法无差异,B错误;
对于C,由题意得,
零假设不成立,依据小概率值的独立性检验,认为荧光抗体法与常规培养法在沙门氏菌检验中有差异,C正确;
对于D,由表格数据知,常规培养法检测沙门氏菌阳性的频率为,D错误.
所以选AC.
8.(2026·重庆·一模)(多选)某儿童医院用甲、乙两种疗法治疗小儿消化不良.为分析两种疗法效果是否有差异,采取有放回的简单随机抽样的方法对治疗情况进行检查,得到如下数据:
疗法 疗效
未治愈 治愈
甲 15 52
乙 6 63
附常用小概率值及其相应的临界值表为:
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
计算得.则下列说法正确的是:( )
A.以频率估计概率,有
B.以频率估计概率,有
C.若取,可以认为疗效与疗法独立
D.若取,可以认为疗效与疗法独立
【答案】ABD
【详解】由题设求出表格
疗法 疗效 总数
未治愈 治愈
甲 15 52 67
乙 6 63 69
总数 21 115 136
以频率估计概率,有,故A正确;
以频率估计概率,有,故B正确;
零假设:认为疗效与疗法独立,由题且,
所以若取小概率值,则零假设不成立,即不可以认为疗效与疗法独立;
若取小概率值,则没有充分的证据推翻零假设,故可以认为疗效与疗法独立,故C错误,D正确.
故选:ABD
9.(2026·辽宁大连·一模)某人工智能公司从某年起连续7年的利润情况如下表所示:
第x年 1 2 3 4 5 6 7
利润y/亿元 2.9 3.3 3.6 4.4 4.8 5.2 5.9
根据表中的数据得到y关于x的回归直线方程,则( )
A.y与x之间的相关系数
B.回归系数的意义是x增大一个单位,增大0.5个单位
C.第8年的利润一定为6.3亿元
D.第6年利润的残差为亿元
【答案】ABD
【详解】由可知y与x之间的相关系数,故A正确;
回归系数的意义是x增大一个单位,增大0.5个单位,故B正确;
将代入回归方程,得 ,
第8年的利润估计约为6.3亿元,第8年的利润不一定为6.3亿元,故C错误;
将代入回归方程,得 ,
由表可知实际值为5.2,残差为, 故D正确;
所以选ABD.
10.(2026·河北沧州·二模)某新能源汽车4S店在某平台开启了直播销售,星期一至星期五的五个工作日内,直播时长x(小时)与直播时在线观看人数y(百人)如下表:
星期 一 二 三 四 五
直播时长x(小时) 2 5 6 4 8
直播时在线观看人数y(百人) 4 8 9 7 16
附:样本相关系数
经验回归方程中斜率和截距的最小二乘法估计公式分别为:,,,,.
(1)试根据样本相关系数r的值判断该直播的在线观看人数y(百人)与直播时长x(小时)的线性相关性的强弱(若,则认为y与x的线性相关性较强;若,则认为y与x的线性相关性较弱).
(2)利用最小二乘法求出y关于x的经验回归方程,并预测直播时长为10小时时的在线观看人数.
【答案】(1)y与x具有较强的线性相关性. (2),18.3(百人).
【详解】(1)依题意,,,
所以,
又,则,
又,
所以,
因为,所以y与x具有较强的线性相关性.
(2)依题意可得,,
所以y关于x的经验回归方程为
将代入经验回归方程得(百人),
故预测直播时长为10小时时的在线观看人数为18.3(百人).
11.(2026·云南昭通·二模)新型AI模型是近年来针对数据降噪任务研发的算法工具,通过创新神经网络结构,优化传统模型难以处理的高噪声数据.实验人员用含噪声的图象数据对一种新型AI降噪模型进行实验,对使用该模型后,图象中的噪声残留量(单位:个/像素)进行检测,统计得到下表:
第轮迭代 1 2 3 4 5
噪声残留量(个/像素) 70 60 52 45 38
并计算得:.
(1)计算变量(迭代轮数)和变量(噪声残留量)的样本相关系数,并说明两变量线性的相关程度;
(2)若图象中的噪声残留量不高于个/像素,则说明数据降噪完成.用最小二乘法求关于的经验回归方程,并预测该AI模型至少需要迭代多少轮才可以完成降噪?
参考数据及公式:
样本数据的相关系数,其回归直线的斜率和截距的最小二乘估计值分别为:,.
【答案】(1),迭代轮数与噪声残留量之间存在极强的负线性相关关系;
(2)经验回归方程为;该AI模型至少需要迭代7轮才可以完成降噪
【详解】(1)由题可得:,
样本相关系数
,非常接近,说明迭代轮数与噪声残留量之间存在极强的负线性相关关系;
(2)噪声残留量的取值为
因此:,
根据题意可得,
所以关于的经验回归方程为,
要使图象中的噪声残留量不高于25个/像素,则,即,
所以该AI模型至少需要迭代轮才可以完成降噪.
12.(2026·安徽安庆·一模)第二十二届卡塔尔世界杯足球赛(FIFA World Cup Qatar 2022)决赛中,阿根廷队通过扣人心弦的点球大战战胜了法国队.某校为了丰富学生课余生活,组建了足球社团.足球社团为了解学生喜欢足球是否与性别有关,随机抽取了男、女同学各100名进行调查,部分数据如表所示:
喜欢足球 不喜欢足球 合计
男生 40
女生 30
合计
(1)根据所给数据完成上表,并判断是否有99.9%的把握认为该校学生喜欢足球与性别有关?
(2)社团指导老师从喜欢足球的学生中抽取了2名男生和1名女生示范点球射门,已知男生进球的概率为,女生进球的概率为,每人射门一次,假设各人射门相互独立,求3人进球总次数的分布列和数学期望.
附:,其中.
0.050 0.010 0.001
k 3.841 6.635 10.828
【答案】(1)
喜欢足球 不喜欢足球 合计
男生 60 40 100
女生 30 70 100
合计 90 110 200
有;
(2)
0 1 2 3
数学期望.
【详解】(1)依题意,得到列联表如下:
喜欢足球 不喜欢足球 合计
男生 60 40 100
女生 30 70 100
合计 90 110 200
于是,
所以有的把握认为该校学生喜欢足球与性别有关.
(2)依题意,人进球总次数的所有可能取值为,
则,,

所以随机变量的分布列为:
0 1 2 3
所以的数学期望为.
13.(2026·湖南长沙·一模)某医药研究所为了评估一种新药的疗效,开展了临床试验.研究人员记录了14名志愿者服用不同剂量的药物后,血液中某关键生化指标y(单位:)随给药剂量x(单位:mg)的变化情况.为了寻找最合适的预测模型,研究人员分别利用模型一和模型二对这14组数据进行了拟合,并绘制了相应的残差图(如图所示,图中纵轴为残差,横轴为给药剂量).
(1)观察残差图,判断哪个模型的拟合效果更好,并说明理由;
(2)设这14组数据得到的经验回归方程为.
(ⅰ)已知样本中的某位志愿者的给药剂量为,生化指标为.若该样本点在拟合效果更优的模型中的残差对应于图中标注的四点之一,请指出该点并说明理由;
(ⅱ)若在这14组数据中,给药剂量的标准差为,生化指标的标准差为,求生化指标与给药剂量的相关系数.(结果精确到0.01)
参考公式:相关系数;经验回归方程中斜率和截距的最小二乘估计公式分别为,.
【答案】(1)模型一的拟合效果更好,理由见解析(2)(ⅰ)点,理由见解析;(ⅱ)
【详解】(1)模型一的拟合效果更好,理由如下:
模型一残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型二的带状宽度窄,所以模型一的拟合精度更高,经验回归方程的预报精度相应就越高.
(2)(ⅰ)点,理由如下:
因为模型一的拟合效果更好,经验回归方程为,
所以该方程相应于点的残差为,故选点;
(ⅱ)由题可知,,
所以,
由,,
所以

14.(2026·陕西西安·模拟预测)近年来我国新能源汽车行业蓬勃发展,新能源汽车不仅对环境保护具有重大的意义,而且还能够减少对不可再生资源的开发,是全球汽车发展的重要方向.某地区近几年新能源汽车的购买情况如下表所示:
年份 2019 2020 2021 2022 2023
购买量(万辆) 0.40 0.70 1.10 1.50 1.80
(1)计算与的相关系数(保留三位小数);
(2)求关于的线性回归方程,并预测该地区2026年新能源汽车购买数量.
参考公式:.
参考数值:.
【答案】(1);
(2),2.9万辆.
【详解】(1)由题意,,
则,,
则.
故与的相关系数为.
(2)由(1),
则,
故关于的线性回归方程为,
令,则,
故可预测该地区2026年新能源汽车购买数量为万辆.
15.(2026·宁夏银川·一模)某工厂有甲、乙两条生产线加工同一型号的产品,甲生产线加工的优品率为5%,乙生产线加工的优品率为6%,加工出来的产品混放在一起.已知甲、乙生产线加工的产品数分别占总数的51%,49%.
(1)任取一件产品,如果取到的产品是优品,计算它是甲生产线加工的概率;
(2)现对甲生产线升级改造,从改造前与改造后甲生产线加工的产品中分别随机抽取100件进行检验,数据如下:
优品 非优品 合计
改造前 5 95 100
改造后 15 85 100
合计 20 180 200
根据小概率值的独立性检验,能否认为生产线改造与优品有关联?
附:
0.05 0.01 0.001
3.841 6.635 10.828
【答案】(1) (2)有关联,证明见解析.
【详解】(1)设事件:任取一件产品为甲生产线加工,事件:任取一件产品为优品.
由题意得:,,,.
根据全概率公式,可得总优品概率:
根据贝叶斯公式,可得所求条件概率:
(2)由列联表得,总样本量,
代入卡方公式:
因为,
所以有把握认为生产线改造与优品有关联.
16.(2026·山西临汾·一模)水体富营养化导致藻类大量繁殖,以2017年中国太湖蓝藻爆发为例:5月初监测发现湖体中蓝藻细胞密度为每升50万个,随着气温升高至25-30℃且氮磷营养盐浓度超标(总磷浓度达),蓝藻进入增长期.5月10日细胞密度增至每升200万个,5月15日突破每升800万个,5月20日达到每升3200万个,形成面积超150平方公里的绿色水华带.此次爆发导致湖区溶解氧骤降至以下,大量鱼类死亡,自来水厂被迫停产、所以对水资源的保护刻不容缓,现对某区域的藻类面积y(单位:平方公里)与时间x(单位:年)的关系,进行监测,得到如下数据:
x/年 1 2 3 4 5 6 7
y/平方公里 6 11 21 34 66 101 196
根据以上数据,绘制成如图所示的散点图:
观察散点图,两个变量不具有线性相关关系,现考虑用对数函数模型和指数函数模型分别对两个变量的关系进行拟合.
(1)根据散点图判断与(a,b,c,d均为常数)哪一个更适合作为藻类面积y(单位:平方公里)与时间x(单位:年)的关系的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中的数据,求出y关于x的回归方程;
(3)若不及时保护水质,当第八年检测时,请估计藻类面积为多少平方公里.
参考数据:
62.14 1.54 2535 50.12 3.47
其中,
参考公式:对于一组数据,,…,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【答案】(1)更适宜 (2) (3)347
【详解】(1)由散点图得,藻类面积随时间的增加其增长速度越来越快,
所以更适宜作为藻类面积y与时间x的关系的回归方程类型.
(2)由,两边同时取常用对数得,
设,,,则,
由,,得,
则,因此,,
所以y关于x的回归方程为.
(3)当时,(平方公里)
所以若不加治理,第8次检测时,藻类面积约为347平方公里.
17.(2026·广东佛山·二模)近年我国人工智能大模型发展迅猛,其中语言模型(处理、理解和生成人类语言)和多模态模型(处理、理解和生成文本、图像、音视频等)是其中两个重要的领域,某研究机构对2025年某区域的企业发布的所有大模型中随机抽取了14款进行标准化测试,由测试数据得到下面的散点图:
(1)用频率估计概率,根据2025年该区域的企业发布大模型的分布情况,估计该区域2026发布的大模型是多模态模型的概率;
(2)若t为时间变量,y为分数,根据多模态模型数据(,2,3,4,5,6,表示2025年1月份,表示2025年6月份,…),计算得,,.
(i)建立y关于t的线性回归方程;
(ii)根据语言模型的数据建立的回归方程为,该区域的某家企业在2026年4月发布了1款标准化测试得分为68分的大模型,定义统计量,Q值越小的大模型发生的可能性越大,则该款大模型更有可能是语言模型还是多模态模型,并说明理由.
附:回归直线的斜率和截距的最小二乘估计公式分别为,,.
【答案】(1) (2)(i);(ii)该款大模型更有可能是语言模型.
【详解】(1)由2025年的数据可知,随机抽取了14款大模型,其中多模态模型有6款,用频率估计概率,多模态模型的频率为,所以该区域2026发布的大模型是多模态模型的概率为.
(2)(i) 因为,,,
表示2025年1月份,表示2025年6月份,所以
所以,
所以,根据,
所以y关于t的线性回归方程为:
(ii) 已知2026年4月,则,计算多模态模型的预测值和残差,,残差为:,
所以.再计算语言模型的预测值和残差,,残差为:,,所以,所以根据值越小的大模型发生的可能性越大,所以该款大模型更有可能是语言模型.21世纪教育网(www.21cnjy.com)
21世纪教育网(www.21cnjy.com)

展开更多......

收起↑

资源列表