第02讲 成对数据的统计分析(专项训练) (含答案)2026年高考数学一轮复习讲练测(全国通用)

资源下载
  1. 二一教育资源

第02讲 成对数据的统计分析(专项训练) (含答案)2026年高考数学一轮复习讲练测(全国通用)

资源简介

中小学教育资源及组卷应用平台
第02讲 成对数据的统计分析
目录
01 常考题型过关练
题型01 变量间的相关关系
题型02 一元线性回归模型
题型03 非线性回归模型
题型04相关系数
题型05 残差
题型06 列联表与独立性检验
02 核心突破提升练
03 真题溯源通关练
01 变量间的相关关系
1.以下散点图经过标准化后,相关系数最大的是( )
A. B.
C. D.
2.对两组数据进行统计后得到如图所示的散点图,下列结论不正确的是( )
A.图1、图2两组数据都具有线性相关关系
B.图1数据正相关,图2数据负相关
C.图1相关系数小于图2相关系数
D.图1相关系数和图2相关系数之和小于0
3.对某种动物的三项指标,,进行调查研究.现有这种动物若干只,设每只动物的这三项指标为.若与的散点图如图1和图2所示,那么关于的散点图最合理的为( )
A. B.
C. D.
4.对两组数据进行统计后得到如图所示的散点图,下列结论不正确的是( )

A.图1、图2两组数据都具有线性相关关系
B.图1数据正相关,图2数据负相关
C.图1相关系数小于图2相关系数
D.图1相关系数和图2相关系数之和小于0
5.(多选)某研究机构随机选取了100位高三女生及其父亲的身高数据进行研究,计算得到样本相关系数,女生身高(单位:)关于父亲身高(单位:)的经验回归方程为,下列判断正确的是( )
A.女生身高和父亲身高正相关
B.女生身高和父亲身高不存在相关关系
C.已知父亲身高为,估计女儿的身高为
D.若从样本中抽取一部分,则这部分的相关系数一定是0.8985
6.(多选)根据下表的样本数据:
x 3 5 7 9
y 6 a 3 2
得到回归方程,则( )
A.变量x与y是线性正相关关系 B.
C.变量x与y是线性负相关关系 D.
02 一元线性回归模型
7.某饮品店统计了一天营业时间(单位:小时)与饮品销量(单位:杯)的数据如下表:
营业时间 1 2 3 4 5
饮品销量 17 36 56 77 99
已知与线性相关.
(1)根据以上数据求饮品销量关于营业时间的回归直线方程;
(2)若平均一杯饮品的纯利润为5元,某日该饮品店计划早上9点开始营业,晚上9点结束营业,中间不休息,试预测当日饮品的总利润能否超过1000元?
参考公式:回归直线方程中,,.
8.某超市为销售一种商品,派人统计了去年该商品的每日广告费用(百元)与当日销售量(百件)的关系,以便对今年广告方案的制定提供相关的数据参考,得到的数据如下:
日广告费用(百元) 2 3 4 5 6
日销售量(百件) 1.5 1.7 2.0 2.2 2.6
已知与线性相关.
(1)根据表中的数据,求关于的经验回归方程;
(2)利用(1)中的经验回归方程,估计当日广告费用为1000元时,日销售量为多少件?
附:参考公式:经验回归方程斜率和截距的最小二乘估计公式分别为:,
9.在某种实验中,对变量依次得到五组观测数据如下表所示.
数据编号 1 2 3 4 5
x 10 11 13 12 8
y 23 24 30 27 16
该实验小组确定的研究方案是:先从这5组数据中选取2组,用剩下的3组数据求线性回归方程,再用被选取的2组数据进行检验.
(1)求选取的2组数据恰好是编号相邻的2组数据的概率;
(2)若选取的是编号为1和5的两组数据,试根据剩余3组数据求出y关于x的线性回归方程;
(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2,则认为求得的线性回归方程是可靠的,试问:(2)中所得的线性回归方程是否可靠?
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为,.
10.近年来,中国的新能源汽车产业展现出迅猛的发展势头,已然跃升为全球最大的新能源汽车市场.该产业涵盖了电动汽车、插电式混合动力汽车以及燃料电池汽车等多种类型.在电池技术、电机和电控系统等领域,中国的新能源汽车产业取得了引人瞩目的成就.现有一汽车测评栏目为了评估某品牌纯电动汽车的实际续航能力,进行了一系列试验,并收集了相应的数据,详见下表.
速度 6 7 8 9 10
续航里程 4.4 4.2 4 3.9 3.5
(1)根据最小二乘法,计算y关于x的回归方程;
(2)根据你得到的一元线性回归模型,预测速度为时,该电动汽车的续航里程;
(3)计算5组数据的残差,并计算残差之和.
参考公式:线性回归方程中,的最小二乘法估计分别为,.
参考数据:,.
11.某高校数学系为了控制大一学生上课使用手机,针对上课使用手机情况,进行量化比,若发现上课使用手机则扣除其对应的积分,根据调查发现每次被扣分数x与本系大一学生每周上课使用手机人数y的关系如表所示.
x/分 0 2 5 8 10
y/人 50 25 20 15 10
(1)试根据以上数据,建立y关于x的经验回归方程;(参数结果保留一位小数)
(2)根据上述经验回归方程分析每次扣分为多少时,该系大一新生被扣分的总数最大.(精确到整数)
附:在经验回归方程中,,.
03 非线性回归模型
12.某芯片研究团队为制定下一年的研发投入计划,需要了解年研发资金投入量x(单位:亿元)对年销售额(单位:亿元)的影响,结合近12年的年研发资金投入量和年销售额的数据,该团队建立了两个模型:①;②,其中,,,均为常数,为自然对数的底数.经对历史数据的初步处理,得到右侧散点图,如图.令,,计算得如下数据:
20 66 770 200 14
460 4.20 3125000 0.308 21500
(1)设和的相关系数为,和的相关系数为,请从相关系数的角度,旋转一个拟合程度更好的模型:
(2)(i)根据(1)的选择及表中数据,建立y关于x的回归方程(系数精确到0.01);
(ii)若下一年销售额y需达到80亿元,预测下一年的研发资金投入量x是多少亿元 (结果精确到0.01)
附:对于一组数据,样本相关系数
回归直线的斜率和截距的最小二乘估计分别为:
,.
13.自2020年以来,某地区人工智能核心产值规模呈快速增长态势,下表给出了近5年该地区的人工智能核心产值规模(单位:亿元).
年份 2020 2021 2022 2023 2024
年份编号 1 2 3 4 5
核心产值规模 1.5 2.5 3.4 4.9 7.8
(1)若用作为回归模型,并已求得,,,求此模型下的决定系数(精确到0.01).
(2)若用作为回归模型,
①求的值;
②已知该模型下的决定系数,请说明哪种回归模型拟合效果更好,并用拟合效果好的模型预测2025年该地区的人工智能核心产值规模.
参考数据:
3 4.02 16.16 104.91 1.24 22.54 1.1 1.5 11.4
附:(1)上表中;
(2)一组数据,其经验回归直线的斜率和截距的最小二乘估计公式分别为,,决定系数.
14.近年来,新能源汽车因其动力充沛、提速快、用车成本低等特点得到民众的追捧.某机构为研究汽油价格x(单位:元/升)与新能源汽车的月销售量y(单位:万辆)之间的关系,收集整理得到如下数据:
x 6 6.5 7 7.5 8
y 1.5 2 3 4.5 6.8
(1)若用模型模拟x与y之间关系,求出回归方程;
(2)根据建立的回归方程,预测当汽油价格上涨至9元/升时,新能源汽车的销量;
(3)假设当汽油价格为9元/升时,实际销量超过预测值的概率为0.6.现进行5次独立观测,记这5次观测中销量超过预测值的次数为,求的数学期望.
参考数据和公式:.,.
令,,,.
对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:,.
15.泉州少年郎团队从2024年10月份以来,通过深度整合AI算法、大数据分析和自动化技术,不断优化产品与服务,显著提升了运营效率和市场竞争力,推动团队收入持续攀升.该团队在近7个月的经济收入(单位:百万元)的数据如下表:
月份编号 1 2 3 4 5 6 7
收入(百万元) 6 11 21 34 66 101 196
(1)根据以上数据绘制散点图,并根据散点图判断,与(均为大于零的常数)哪一个适宜作为该团队经济收入y关于月份x的回归方程模型?(给出判断即可,不必说明理由)并根据你的判断结果及表中的数据,求出y关于x的回归方程;
(2)请你根据所求的回归方程,预测该团队下一个月的经济收入;
(3)试从统计学角度分析,如果用所求的回归方程预测该团队接下来1年的经济收入情况是否合理?
参考数据:
462 10.78 2711 50.12 2.82 3.47
其中设,
参考公式:,.
16.某电动车公司为了抢占更多的市场份额,计划加大广告投入.该公司第i年的年广告费(单位:百万元)满足递推关系,且,年销售量(单位:百万辆)与年广告费相关.令,经过数据处理得到如下统计量的值:
44 4.8 10 40.3 1.612 19.5 8.06
现有模型作为年销售量y关于年广告费x的回归分析模型,其中均为常数.
(1)求;
(2)求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量影响,设随机变量服从正态分布,且满足,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量)
附:①回归直线
②参考数据:,.
04 相关系数
17.已知某产品的一个零件在甲工厂生产,由于设备老化,甲工厂生产的零件次品率为0.1.
(1)为了解甲工厂生产情况,从生产的所有零件中随机抽取3件,记这3件产品中正品与次品的个数分别为X,Y,记随机变量,求的分布列及;
(2)为降低产品次品率,甲工厂进行了技术改进,从改进后第1个月开始连续收集5个月的观测数据,用表示改进后的第i个月,用(单位:%)表示改进后第i个月的次品率,其中,利用最小二乘法得到经验回归直线方程为,求相关系数r(精确到0.01),并判断该经验回归直线方程是否有价值.
附:①.
②,若,则认为该经验回归直线方程有价值.
③.
18.某人工智能公司从某年起连续年的利润情况如下表所示.
第x年 1 2 3 4 5 6 7
利润y/亿元 2.9 3.3 3.6 4.4 4.8 5.2 5.9
(1)计算出与之间的相关系数(精确到),并求出关于的回归直线方程;
(2)根据回归直线方程,分别预测该人工智能公司第年和第年的利润.
参考公式:样本的回归直线为,其中,,,,,.
19.为促进消费,助力经济发展,某市持续开展了共8期政府消费券发放活动,记第期活动发放的消费券总额为百万元,带动的消费为百万元,根据这8期活动的数据,可得,,且和的样本方差分别为,,用最小二乘法得到关于的线性回归方程为.
(1)求;
(2)若下一期活动政府计划发放10.8百万元的消费券,预计可以带动多少消费;
(3)求相关系数.(结果保留2位小数)
参考公式:相关系数,线性回归方程中,,.参考数据:.
20.云计算是一种通过互联网按需提供可扩展计算资源的服务模式,其应用不限于企业ⅠT优化,更是渗透到教育、医疗、制造等垂直领域,推动智能化与高效化发展.某媒体进行“你是否了解云计算?”的问卷调查,统计了200名调查者,结果如下
男 女
不了解 35 50
了解 65 50
(1)根据调查结果回答:有的把握认为性别与是否了解云计算有关吗?
(2)下表为2020—2025年中国云计算市场规模(单位:千亿元,2025年为预测规模),其中2020—2025年的年份代码x依次为1,2,3,4,5,6
年份代码x 1 2 3 4 5 6
市场规模y 1.67 2.11 2.59 3.10 3.64 4.26
根据上表数据求得y关于x的回归方程为,用相关系数r判断该回归方程是否有价值.
(若,则认为回归方程有价值,反之则无)附:,其中.
0.1 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
21.某企业调研后,得到研发投入(万元)与产品收益(万元)的数据如下:
1 2 3 4 5
9 12 17 21 26
(1)若与线性相关,请根据样本相关系数推断它们的相关程度;(若,则相关程度一般;若,则相关程度很强)
(2)求出关于的经验回归方程,并预测当研发投入6万元时的产品收益.
参考数据:
参考公式:,,.
05 残差
22.已知变量线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若减少一个杂点数据后,得到修正后的回归直线的纵截距为,则数据的残差为( )
A. B. C. D.
23.已知变量线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若增加一个数据后,得到修正后的回归直线的斜率为2.1,则数据的残差为( )
A.0.1 B.0.2 C.-0.2 D.-0.1
24.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了次试验,收集数据如下表所示.
零件数个
加工时间
由上表数据求得关于的经验回归方程为,据此计算出样本点处的残差为( )
A. B. C. D.
25.已知两个变量x和y之间具有较强的线性相关关系,且y关于x的经验回归方程为,由它计算出成对样本数据对应的残差为0.12(残差=观测值-预测值),则( )
A.0.28 B.0.56 C.0.34 D.0.48
26.色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批产品测得的数据列于表中.已知该产品的色度y和色差x之间满足线性相关关系,且,现有一对测量数据为,若该数据的残差为0.6,则 .
色差x 21 23 25 27
色度y 15 18 19 20
06 列联表与独立性检验
27.某项比赛近五年的观众人数(单位:万人)与年份的统计数据如表所示:
年份 2021 2022 2023 2024 2025
年份编号 1 2 3 4 5
观众人数(万人) 1.7 1.8 2 2.2 2.3
(1)已知可用线性回归模型拟合与的关系,请建立关于的线性回归方程,并预测2026年的观众人数;
(2)若该比赛的门票有两个等次的票价,某机构随机调查了100位观众的购票情况,得到的部分数据如表所示,请将列联表补充完整,并判断能否有的把握认为观看比赛的观众是否购买A等票与性别有关.
购买A等票 购买B等票 总计
男性观众 40 55
女性观众 25
总计 100
参考公式及参考数据:回归方程中斜率与截距的最小二乘估计公式分别为.
,其中.
0.050 0.010 0.001
3.841 6.635 10.828
28.从某校高一年级全体学生中随机抽取120人,进行文理选科倾向调查,得到如下列联表:
性别 倾向 男生 女生 合计
偏理科 40 90
偏文科 10
合计 60 120
(1)请完成上述列联表;
(2)从女生中随机抽取一人,求该女生是偏文科生的概率;
(3)根据小概率值的独立性检验,分析性别与选科倾向是否有关.
参考数据:
0.1 0.05 0.01
2.70 3.841 6.635

29.某学习小组为了研究性别与近视之间是否有关联,在年级随机选取了30人,得到如下列联表:
性别 近视 合计
不近视 近视
男 5 17 22
女 2 6 8
合计 7 23 30
(1)在样本中的名女生中随机选取人,求这人中至少有人是近视的概率;
(2)小组成员甲通过计算发现女生的近视率为小于男生的近视率,所以甲认为男生更容易近视.请根据小概率值的独立性检验,分析甲的说法是否正确?
α

30.某个景点自从取消门票实行免费开放后,迅速成为网红打卡点,不仅带动了淡季的旅游,而且优化了旅游产业的结构.下表是该景点免费开放后前五个月的打卡人y数(万人)与第个月的数据:
x 1 2 3 4 5
y 23.1 37.0 62.1 111.6 150.8
(1)根据表中数据可用一元线性回归模型刻画变量y与变量x之间的线性相关关系,且回归方程中的,请计算相关系数r(精确到0.01),并判断是否可以认为y与x的线性相关性很强;
(2)为更好地改进服务,景点对每位游客进行了满意度调查,已知评分X近似服从正态分布,评分低于m的游客约占15.865%,求m的值;
(3)为进一步了解游客性别与满意度的关系,随机抽查200名游客,得到如下列联表,请填写下面的2×2列联表,根据小概率值的独立性检验,能否推断游客是否满意与性别有关?
喜欢 不喜欢 总计
男 100
女 60
总计 110
参考公式:
相关系数:若,则认为与有较强的线性相关性.
回归方程中斜率的最小二乘法估计公式为:
,其中.
临界值表:
0.010 0.005 0.001
6.635 7.879 10.828
参考数据:,
若,则,
31.某科技公司对三文鱼的传统淡水网箱养殖法和AI赋能的新型深远海智能网箱养殖法进行产量对比研究.科研人员在收获季节分别从传统养殖网箱和深远海智能养殖网箱中,各随机抽取了100个网箱,测量每箱三文鱼的产量(单位:kg),其频率分布直方图如图所示.
(1)根据频率分布直方图,补全下面列联表.
养殖法 箱产量 合计
箱产量 箱产量
传统养殖
智能养殖 30
合计 200
(2)根据小概率的独立性检验,分析箱产量与养殖方法是否有关.
(,,)
32.为了研究臭氧效应,先选取40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,将试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).试验结果如下:
对照组的小白鼠体重的增加量为
15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.1
32.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2
试验组的小白鼠体重的增加量为
7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.2
19.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5
(1)求40只小白鼠体重的增加量的中位数,并分别统计两样本中小于与不小于的数据的个数,完成如下列联表:
对照组
试验组
(2)根据(1)中的列联表,依据小概率值的独立性检验,能否认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异?
附:,其中.
0.1 0.05 0.01
2.706 3.841 6.635
1.(2025·云南丽江·三模)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了次试验,得到数据如下:
零件的个数x(个) 2 3 4 5
加工的时间y(小时) 2.5 3 4 4.5
参考公式:用最小二乘法求线性回归方程系数公式,
(1)求关于的线性回归方程;
(2)求各样本的残差;
(3)试预测加工个零件需要的时间.
2.(2025·浙江宁波·模拟预测)某环保机构研究城市绿化覆盖率(%)和年均浓度()的关系,随机抽取10个城市数据如下:
编号i 1 2 3 4 5 6 7 8 9 10 总和
绿化覆盖率 4 13 16 21 26 31 36 45 52 56 300
年均浓度 80 66 58 54 50 46 42 38 34 32 500
可得.
(1)求绿化覆盖率与浓度的样本相关系数(精确到);
(2)求y关于x的经验回归方程(精确到),并估计使得年均浓度不超过需要的最低绿化覆盖率(精确到整数).
参考数据与公式:.
3.(2023·河南洛阳·模拟预测)网购是现代年轻人重要的购物方式,截止到2021年12月,我国网络购物用户规模达8.42亿,较2020年12月增长5968万,占网民整体的81.6%,某电商对其旗下的一家专营店近五年来每年的利润额(单位:万元)与时间第年进行了统计得如下数据:
1 2 3 4 5
2.6 3.1 4.5 6.8 8.0
(1)依据表中给出的数据,是否可用线性回归模型拟合与的关系?请计算相关系数并加以说明(计算结果精确到0.01).(若,则线性相关程度很高,可用线性回归模型拟合)
(2)试用最小二乘法求出利润与时间的回归方程,并预测当时的利润额.
附:,,
参考数据:,,,.
4.(2025·河北秦皇岛·模拟预测)有一款网络答题竞赛游戏,答题类型有科普类与文学类两种,随机抽取了50名参赛人员进行答题偏好的问卷调查,调查所得数据如下表:
科普类 文学类 合计
男生 5
女生 10
合计 25 50
(1)完成以上列联表,依据小概率值的独立性检验,能否据此推断该游戏的答题偏好与性别有关联?
(2)随着参赛人员越多,题库提供的题量越多,某同学统计了当参赛人数分别为2~6人时,题库给出的题量的数据,用最小二乘法得到答题量关于参赛人数的回归直线方程为,已知该组数据的相关系数,题量的方差,求的值(结果精确到0.1).
附:参考公式:,其中.
回归系数,相关系数,.
参考数据:
0.10 0.05 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
5.(2025·安徽·模拟预测)某校有高一学生1800人,高二学生1200人,学校采取按比例分配的分层抽样的方式从中抽取100人进行体育测试.测试后,统计得到高一样本的一分钟跳绳次数的均值为165,方差为61,高二样本的一分钟跳绳次数的均值为145,方差为31.
(1)计算总样本的一分钟跳绳次数的均值和方差;
(2)将一分钟跳绳次数视为及格,整理出以下列联表:
及格 不及格 合计
高一 52 8 60
高二 38 2 40
合计 90 10 100
试根据小概率值的独立性检验,分析一分钟跳绳次数及格情况是否与年级有关;(结果保留小数点后三位)
(3)如果将(2)表格中的所有数据都扩大为原来的10倍,在相同的检验标准下,再用独立性检验推断一分钟跳绳次数及格情况与年级之间的关联性,结果还一样吗?请你试着解释其中的原因.
附:,.
独立性检验中几个常用的小概率值和相应的临界值.
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
1.(2024·上海·高考真题)已知气候温度和海水表层温度相关,且相关系数为正数,对此描述正确的是( )
A.气候温度高,海水表层温度就高
B.气候温度高,海水表层温度就低
C.随着气候温度由低到高,海水表层温度呈上升趋势
D.随着气候温度由低到高,海水表层温度呈下降趋势
2.(2023·上海·高考真题)根据身高和体重散点图,下列说法正确的是( )
A.身高越高,体重越重 B.身高越高,体重越轻 C.身高与体重成正相关 D.身高与体重成负相关
3.(2025·上海·高考真题)2024年巴黎奥运会,中国获得了男子米混合泳接力金牌.以下是历届奥运会男子米混合泳接力项目冠军成绩记录(单位:秒),数据按照升序排列.
206.78 207.46 207.95 209.34 209.35
210.68 213.73 214.84 216.93 216.93
(1)求这组数据的极差与中位数;
(2)从这10个数据中任选3个,求恰有2个数据在211以上的概率;
(3)若比赛成绩y关于年份x的回归方程为,年份x的平均数为2006,预测2028年冠军队的成绩(精确到0.01秒).
4.(2024·上海·高考真题)为了解某地初中学生体育锻炼时长与学业成绩的关系,从该地区29000名学生中抽取580人,得到日均体育锻炼时长与学业成绩的数据如下表所示:
时间范围学业成绩
优秀 5 44 42 3 1
不优秀 134 147 137 40 27
(1)该地区29000名学生中体育锻炼时长不少于1小时人数约为多少?
(2)估计该地区初中学生日均体育锻炼的时长(精确到0.1)
(3)是否有的把握认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关?
(附:其中,.)
5.(2023·全国甲卷·高考真题)一项试验旨在研究臭氧效应.实验方案如下:选40只小白鼠,随机地将其中20只分配到实验组,另外20只分配到对照组,实验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).
(1)设表示指定的两只小白鼠中分配到对照组的只数,求的分布列和数学期望;
(2)实验结果如下:
对照组的小白鼠体重的增加量从小到大排序为:
15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.1
32.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2
实验组的小白鼠体重的增加量从小到大排序为:
7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.2
19.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5
(i)求40只小鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于的数据的个数,完成如下列联表:
对照组
实验组
(ii)根据(i)中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与正常环境中体重的增加量有差异.
附:
0.100 0.050 0.010
2.706 3.841 6.635中小学教育资源及组卷应用平台
第02讲 成对数据的统计分析
目录
01 常考题型过关练
题型01 变量间的相关关系
题型02 一元线性回归模型
题型03 非线性回归模型
题型04相关系数
题型05 残差
题型06 列联表与独立性检验
02 核心突破提升练
03 真题溯源通关练
01 变量间的相关关系
1.以下散点图经过标准化后,相关系数最大的是( )
A. B.
C. D.
【答案】A
【分析】利用散点图变化趋势,判断相关系数的正负,由散点的集中程度确定大小,即可得到答案.
【详解】对于,散点呈上升趋势,线性相关系数为正数,这些点紧密的聚集在一条直线的附近,线性相关性强;
对于,散点分布呈曲线趋势,线性相关程度比弱;
对于,散点呈下降趋势,线性相关系数为负数;
对于,散点分布比较分散,线性相关程度比弱;
所以相关系数最大的是.
故选:.
2.对两组数据进行统计后得到如图所示的散点图,下列结论不正确的是( )
A.图1、图2两组数据都具有线性相关关系
B.图1数据正相关,图2数据负相关
C.图1相关系数小于图2相关系数
D.图1相关系数和图2相关系数之和小于0
【答案】C
【分析】根据散点图及相关性判断AB,由相关系数性质判断CD.
【详解】对A,因为散点图都呈直线型,所以图1、图2两组数据都具有线性相关关系,A正确;
对B,图1散点从左至右呈上升趋势,所以数据正相关,图2散点从左至右呈下降趋势,所以数据负相关,故B正确;
对C,图1正相关,图2负相关,所以C不正确;
对D,因为图2相关程度更强,所以D正确.
故选:C.
3.对某种动物的三项指标,,进行调查研究.现有这种动物若干只,设每只动物的这三项指标为.若与的散点图如图1和图2所示,那么关于的散点图最合理的为( )
A. B.
C. D.
【答案】A
【分析】利用排除法,分析可知指标,满足负相关,结合图象指标的范围分析判断即可.
【详解】因为指标,满足正相关,指标,满足负相关,
可知指标,满足负相关,故C错误;
且,可知BD错误;
故选:A.
4.对两组数据进行统计后得到如图所示的散点图,下列结论不正确的是( )

A.图1、图2两组数据都具有线性相关关系
B.图1数据正相关,图2数据负相关
C.图1相关系数小于图2相关系数
D.图1相关系数和图2相关系数之和小于0
【答案】C
【分析】根据散点图及正负相关性判断A,B,再根据相关系数性质判断C,D.
【详解】因为散点图都呈直线型,所以图1,图2两组数据都具有线性相关关系,故A正确;
图1散点从左至右呈上升趋势,所以数据正相关,图2散点从左至右呈下降趋势,所以数据负相关,故B正确;
图1正相关,图2负相关,所以,故C不正确;
因为图2相关程度更强,所以,故D正确.
故选:C.
5.(多选)某研究机构随机选取了100位高三女生及其父亲的身高数据进行研究,计算得到样本相关系数,女生身高(单位:)关于父亲身高(单位:)的经验回归方程为,下列判断正确的是( )
A.女生身高和父亲身高正相关
B.女生身高和父亲身高不存在相关关系
C.已知父亲身高为,估计女儿的身高为
D.若从样本中抽取一部分,则这部分的相关系数一定是0.8985
【答案】AC
【分析】利用经验回归方程求解判断AC;利用相关系数的意义判断BD.
【详解】对于A,由经验回归方程为,得,则女生身高和父亲身高正相关,A正确;
对于B,由知,女生身高和父亲身高有较强的相关关系,B错误;
对于C,当时,,估计女儿的身高为,C正确;
对于D,从样本中抽取一部分,相关性可能变强,也可能变弱,所以这部分的相关系数不一定是0.8985,D错误.
故选:AC
6.(多选)根据下表的样本数据:
x 3 5 7 9
y 6 a 3 2
得到回归方程,则( )
A.变量x与y是线性正相关关系 B.
C.变量x与y是线性负相关关系 D.
【答案】BC
【分析】由表达式判断应为负相关,由样本中心经过回归方程反推出值即可.
【详解】由题可知,变量x与y是线性负相关关系,故选项A错误,C正确;
因为,
由线性回归方程过样本中心点得,
由得,故选项B正确,D错误,
故选:BC.
02 一元线性回归模型
7.某饮品店统计了一天营业时间(单位:小时)与饮品销量(单位:杯)的数据如下表:
营业时间 1 2 3 4 5
饮品销量 17 36 56 77 99
已知与线性相关.
(1)根据以上数据求饮品销量关于营业时间的回归直线方程;
(2)若平均一杯饮品的纯利润为5元,某日该饮品店计划早上9点开始营业,晚上9点结束营业,中间不休息,试预测当日饮品的总利润能否超过1000元?
参考公式:回归直线方程中,,.
【答案】(1)
(2)能,理由见详解
【分析】(1)根据回归方程相关参数的计算公式计算即可;
(2)根据(1)中的回归方程,先估计销量即可判断总利润是否超过1000元.
【详解】(1)根据题意,,
,,


所以回归直线方程为.
(2)由(1)知,回归方程为,
早上9点开始营业,晚上9点结束营业,共营业12小时,
所以估计共销售杯,盈利元,
所以试预测当日饮品的总利润能超过1000元.
8.某超市为销售一种商品,派人统计了去年该商品的每日广告费用(百元)与当日销售量(百件)的关系,以便对今年广告方案的制定提供相关的数据参考,得到的数据如下:
日广告费用(百元) 2 3 4 5 6
日销售量(百件) 1.5 1.7 2.0 2.2 2.6
已知与线性相关.
(1)根据表中的数据,求关于的经验回归方程;
(2)利用(1)中的经验回归方程,估计当日广告费用为1000元时,日销售量为多少件?
附:参考公式:经验回归方程斜率和截距的最小二乘估计公式分别为:,
【答案】(1)
(2)件
【分析】(1)由统计表格中的数据,利用回归系数的公式,求得和,即可得到回归方程;
(2)由(1)知,当时,求得(百件),即可得到结论.
【详解】(1)解:由统计表格中的数据,可得,,
且,,
可得,则,
所以关于的经验回归方程是.
(2)解:由(1)知回归方程是,
当时,(百件),所以估计当日广告费用为元时,日销售量为件.
9.在某种实验中,对变量依次得到五组观测数据如下表所示.
数据编号 1 2 3 4 5
x 10 11 13 12 8
y 23 24 30 27 16
该实验小组确定的研究方案是:先从这5组数据中选取2组,用剩下的3组数据求线性回归方程,再用被选取的2组数据进行检验.
(1)求选取的2组数据恰好是编号相邻的2组数据的概率;
(2)若选取的是编号为1和5的两组数据,试根据剩余3组数据求出y关于x的线性回归方程;
(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2,则认为求得的线性回归方程是可靠的,试问:(2)中所得的线性回归方程是否可靠?
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为,.
【答案】(1)
(2)
(3)可靠
【分析】(1)应用列举法及古典概型公式计算求解;
(2)应用最小二乘法计算及,进而得出回归直线方程;
(3)根据回归直线代入计算,再计算误差即可.
【详解】(1)从5组数据中选取2组,样本点为{1,2},{1,3},{1,4},{1,5},{2,3},{2,4},{2,5},{3,4},{3,5},{4,5},共10个,记“所选取的2组数据恰好编号相邻”为事件A,则事件A包含4个样本点,所以.
(2)由剩余3组数据可求得,,


因此y关于x的线性回归方程为.
(3)当时,,;当时,,,
两个检验数据的误差均不超过2,可以认为(2)中所求出的线性回归方程是可靠的.
10.近年来,中国的新能源汽车产业展现出迅猛的发展势头,已然跃升为全球最大的新能源汽车市场.该产业涵盖了电动汽车、插电式混合动力汽车以及燃料电池汽车等多种类型.在电池技术、电机和电控系统等领域,中国的新能源汽车产业取得了引人瞩目的成就.现有一汽车测评栏目为了评估某品牌纯电动汽车的实际续航能力,进行了一系列试验,并收集了相应的数据,详见下表.
速度 6 7 8 9 10
续航里程 4.4 4.2 4 3.9 3.5
(1)根据最小二乘法,计算y关于x的回归方程;
(2)根据你得到的一元线性回归模型,预测速度为时,该电动汽车的续航里程;
(3)计算5组数据的残差,并计算残差之和.
参考公式:线性回归方程中,的最小二乘法估计分别为,.
参考数据:,.
【答案】(1)
(2)
(3)残差见解析,残差和为0
【分析】(1)根据最小二乘法即可求解,
(2)代入回归方程中即可求解,
(3)根据残差的计算公式即可求解.
【详解】(1)由题意,,


故y关于x的线性回归方程为;
(2)根据(1)所求的回归方程,当时,,
所以电动汽车的续航里程为;
(3)由(1)可列表
速度 6 7 8 9 10
续航里程 4.4 4.2 4 3.9 3.5
预测值 4.42 4.21 4 3.79 3.58
残差 0 0.11
残差之和为.
11.某高校数学系为了控制大一学生上课使用手机,针对上课使用手机情况,进行量化比,若发现上课使用手机则扣除其对应的积分,根据调查发现每次被扣分数x与本系大一学生每周上课使用手机人数y的关系如表所示.
x/分 0 2 5 8 10
y/人 50 25 20 15 10
(1)试根据以上数据,建立y关于x的经验回归方程;(参数结果保留一位小数)
(2)根据上述经验回归方程分析每次扣分为多少时,该系大一新生被扣分的总数最大.(精确到整数)
附:在经验回归方程中,,.
【答案】(1)
(2)6分
【分析】(1)由最小二乘法根据参考公式求出,即可求解;
(2)写出扣分总数,利用二次函数求最值即可.
【详解】(1)由表中数据可得,



所以,
所以,
所以y关于x的回归方程为
(2)设该系大一学生每周扣分总数为,
则由题意得,
因为函数对称轴方程为,
由题意,时,有最大值,
即每次扣分为6分时,该系大一新生被扣分的总数最大.
03 非线性回归模型
12.某芯片研究团队为制定下一年的研发投入计划,需要了解年研发资金投入量x(单位:亿元)对年销售额(单位:亿元)的影响,结合近12年的年研发资金投入量和年销售额的数据,该团队建立了两个模型:①;②,其中,,,均为常数,为自然对数的底数.经对历史数据的初步处理,得到右侧散点图,如图.令,,计算得如下数据:
20 66 770 200 14
460 4.20 3125000 0.308 21500
(1)设和的相关系数为,和的相关系数为,请从相关系数的角度,旋转一个拟合程度更好的模型:
(2)(i)根据(1)的选择及表中数据,建立y关于x的回归方程(系数精确到0.01);
(ii)若下一年销售额y需达到80亿元,预测下一年的研发资金投入量x是多少亿元 (结果精确到0.01)
附:对于一组数据,样本相关系数
回归直线的斜率和截距的最小二乘估计分别为:
,.
【答案】(1)模型②;
(2)(i)(ⅱ)27.1亿元
【分析】(1)计算相关系数,根据相关系数的绝对值大小得出结论;
(2)(i)两边取自然对数,转化为线性回归方程求解,再转化为指数式即可;
(ii)根据(i)的结论预测销售额y达到80亿元时研发投入即可得解.
【详解】(1)由题意表格数据得,
同理,
∵0.86<0.91,即,
则从相关系数的角度,选择模型②的拟合程度会更好.
(2)(i)由(1)得,模型②,可建立关于x的线性回归方程,
则,又,
∴,∴,
∴,即.
(ii)由(i)得,
要使下一年销售额达到80亿元,即,,
∴,解得,
故下一年销售额达到80亿元,预测下一年的研发资金投入量是27.1亿元.
13.自2020年以来,某地区人工智能核心产值规模呈快速增长态势,下表给出了近5年该地区的人工智能核心产值规模(单位:亿元).
年份 2020 2021 2022 2023 2024
年份编号 1 2 3 4 5
核心产值规模 1.5 2.5 3.4 4.9 7.8
(1)若用作为回归模型,并已求得,,,求此模型下的决定系数(精确到0.01).
(2)若用作为回归模型,
①求的值;
②已知该模型下的决定系数,请说明哪种回归模型拟合效果更好,并用拟合效果好的模型预测2025年该地区的人工智能核心产值规模.
参考数据:
3 4.02 16.16 104.91 1.24 22.54 1.1 1.5 11.4
附:(1)上表中;
(2)一组数据,其经验回归直线的斜率和截距的最小二乘估计公式分别为,,决定系数.
【答案】(1)
(2)①,,②预测2025年该地区的人工智能核心产值规模为(亿元).
【分析】(1)利用决定系数公式计算即可;
(2)①将指数模型两边取对数转化为线性模型,利用最小二乘法求解,即可求解;②通过比较判断模型优劣,并代入预测2025年产值即可.
【详解】(1)由题意可得,
所以决定系数
(2)将两边取对数,可得,
设,则模型为,其中,
因为,
所以

所以,
则,
所以,,
因为该模型下的决定系数,大于线性模型下的决定系数,
故指数模型拟合效果更好,
令,可得(亿元),
故预测2025年该地区的人工智能核心产值规模为(亿元).
14.近年来,新能源汽车因其动力充沛、提速快、用车成本低等特点得到民众的追捧.某机构为研究汽油价格x(单位:元/升)与新能源汽车的月销售量y(单位:万辆)之间的关系,收集整理得到如下数据:
x 6 6.5 7 7.5 8
y 1.5 2 3 4.5 6.8
(1)若用模型模拟x与y之间关系,求出回归方程;
(2)根据建立的回归方程,预测当汽油价格上涨至9元/升时,新能源汽车的销量;
(3)假设当汽油价格为9元/升时,实际销量超过预测值的概率为0.6.现进行5次独立观测,记这5次观测中销量超过预测值的次数为,求的数学期望.
参考数据和公式:.,.
令,,,.
对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:,.
【答案】(1)
(2)约为万辆
(3)3
【分析】(1)先根据数据计算,再根据计算即可求出;
(2)将代入回归方程中即可;
(3)由题意可知,利用二项分布的期望公式计算即可.
【详解】(1)因为,则,
又,,
由得,,解得,
所以回归方程为.
(2)当时,代入回归方程可得

价格上涨至9元/升时,新能源汽车的销量约为万辆.
(3)由题知,,所以,即的数学期望为3.
15.泉州少年郎团队从2024年10月份以来,通过深度整合AI算法、大数据分析和自动化技术,不断优化产品与服务,显著提升了运营效率和市场竞争力,推动团队收入持续攀升.该团队在近7个月的经济收入(单位:百万元)的数据如下表:
月份编号 1 2 3 4 5 6 7
收入(百万元) 6 11 21 34 66 101 196
(1)根据以上数据绘制散点图,并根据散点图判断,与(均为大于零的常数)哪一个适宜作为该团队经济收入y关于月份x的回归方程模型?(给出判断即可,不必说明理由)并根据你的判断结果及表中的数据,求出y关于x的回归方程;
(2)请你根据所求的回归方程,预测该团队下一个月的经济收入;
(3)试从统计学角度分析,如果用所求的回归方程预测该团队接下来1年的经济收入情况是否合理?
参考数据:
462 10.78 2711 50.12 2.82 3.47
其中设,
参考公式:,.
【答案】(1)适宜,
(2)347百万元
(3)不合理
【分析】(1)看到形式,通过取对数转化成的形式,把复杂形式变简单. 算出的均值、的均值和这些值. 用公式算出,再把样本中心点代入求出,进而得到回归方程.
(2)把代入回归方程,算出对应的值,得到预测收入.
(3)经验回归方程有时效性,所以判断预测不合理.
【详解】(1)散点图如图所示,
根据散点图判断,适宜作为5G经济收入y关于月代码x的回归方程类型,
,两边同时取常用对数得:,
设,,




把样本中心点代入,得:,
,,

y关于x的回归方程:.
(2)当时,,
所以预测该公司2025年5月份的经济收入估计为347百万元.
(3)不合理,经验回归方程一般具有时效性,解释变量越接近样本数据,预测值比较可信,否则会有显著误差.
16.某电动车公司为了抢占更多的市场份额,计划加大广告投入.该公司第i年的年广告费(单位:百万元)满足递推关系,且,年销售量(单位:百万辆)与年广告费相关.令,经过数据处理得到如下统计量的值:
44 4.8 10 40.3 1.612 19.5 8.06
现有模型作为年销售量y关于年广告费x的回归分析模型,其中均为常数.
(1)求;
(2)求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量影响,设随机变量服从正态分布,且满足,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量)
附:①回归直线
②参考数据:,.
【答案】(1)
(2),当年广告费为6(百万元)时,产品的销售量大概是13(百万辆)
(3)
【分析】(1)由递推公式得到,进而判断为等差数列,即可求解;
(2)利用最小二乘法求解;
(3)由净利润为,求解.
【详解】(1)由得:

即,
所以,
即,
所以为等差数列,又,
所以公差为1,
所以,
(2)令,则,
由公式,
又由,,
得,
所以,即回归方程为.
当时,,
因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆).
(3)净利润为,,
令,
所以.
可得在上为增函数,在上为减函数.
所以,
由题意得:,即,

即该公司年净利润大于1000(百万元)的概率为.
04 相关系数
17.已知某产品的一个零件在甲工厂生产,由于设备老化,甲工厂生产的零件次品率为0.1.
(1)为了解甲工厂生产情况,从生产的所有零件中随机抽取3件,记这3件产品中正品与次品的个数分别为X,Y,记随机变量,求的分布列及;
(2)为降低产品次品率,甲工厂进行了技术改进,从改进后第1个月开始连续收集5个月的观测数据,用表示改进后的第i个月,用(单位:%)表示改进后第i个月的次品率,其中,利用最小二乘法得到经验回归直线方程为,求相关系数r(精确到0.01),并判断该经验回归直线方程是否有价值.
附:①.
②,若,则认为该经验回归直线方程有价值.
③.
【答案】(1)分布列见解析,期望为2.4;
(2),该经验回归直线方程有价值.
【分析】(1)由,,求出各概率后得分布列,由期望公式计算出期望;
(2)根据已知数据求出,再比较可得结论.
【详解】(1)由已知,所以,,
的取值分别为3,1,,,

所以的分布列为
3 1
0.729 0.243
(2)由已知,
,则,
所以,
,则认为该经验回归直线方程有价值.
18.某人工智能公司从某年起连续年的利润情况如下表所示.
第x年 1 2 3 4 5 6 7
利润y/亿元 2.9 3.3 3.6 4.4 4.8 5.2 5.9
(1)计算出与之间的相关系数(精确到),并求出关于的回归直线方程;
(2)根据回归直线方程,分别预测该人工智能公司第年和第年的利润.
参考公式:样本的回归直线为,其中,,,,,.
【答案】(1)相关系数约为,回归方程为.
(2)第、年的利润约为亿元、亿元.
【分析】(1)求出、的值,将参考数据代入相关系数公式,可求出相关系数的值,利用最小二乘法可求出、的值,即可得出关于的回归直线方程;
(2)将、分别代入回归直线方程,可得结果.
【详解】(1)由题中数据可得,


因此,
,,
故回归直线方程为.
(2)在回归直线方程中令,得.
令,得,
因此预测第、年的利润约为亿元、亿元.
19.为促进消费,助力经济发展,某市持续开展了共8期政府消费券发放活动,记第期活动发放的消费券总额为百万元,带动的消费为百万元,根据这8期活动的数据,可得,,且和的样本方差分别为,,用最小二乘法得到关于的线性回归方程为.
(1)求;
(2)若下一期活动政府计划发放10.8百万元的消费券,预计可以带动多少消费;
(3)求相关系数.(结果保留2位小数)
参考公式:相关系数,线性回归方程中,,.参考数据:.
【答案】(1)
(2)
(3)
【分析】(1)根据题意,求得,,将样本中心代入回归方程,即可求得的值;
(2)由(1)得到回归直线方程为,令时,即可得到预测值;
(3)由,,得到,结合回归系数的公式,求得,代入相关系数的公式,即可求解.
【详解】(1)解:由,,可得,,
所以数据的样本中心为,代入回归方程,
可得,解得.
(2)解:由(1)知:,所以回归直线方程为,
当时,可得百万元,
故预计可以带动消费百万元.
(3)解:由,,
可得
又由,可得,
解得,
所以.
20.云计算是一种通过互联网按需提供可扩展计算资源的服务模式,其应用不限于企业ⅠT优化,更是渗透到教育、医疗、制造等垂直领域,推动智能化与高效化发展.某媒体进行“你是否了解云计算?”的问卷调查,统计了200名调查者,结果如下
男 女
不了解 35 50
了解 65 50
(1)根据调查结果回答:有的把握认为性别与是否了解云计算有关吗?
(2)下表为2020—2025年中国云计算市场规模(单位:千亿元,2025年为预测规模),其中2020—2025年的年份代码x依次为1,2,3,4,5,6
年份代码x 1 2 3 4 5 6
市场规模y 1.67 2.11 2.59 3.10 3.64 4.26
根据上表数据求得y关于x的回归方程为,用相关系数r判断该回归方程是否有价值.
(若,则认为回归方程有价值,反之则无)附:,其中.
0.1 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
【答案】(1)有
(2),该回归方程有价值.
【分析】(1)由列联表中的数据,求得,结合附表,即可得到结论;
(2)根据题意,得到的取值,求得回归方程为,求得,得到,求得,即可得到结论.
【详解】(1)解:由列联表中的数据,可得,
因为,所以有的把握认为性别与是否了解云计算有关.
(2)解:由的取值依次为1,2,3,4,5,6,可得,
因为回归方程为,
所以,
所以,
所以,故该回归方程有价值.
21.某企业调研后,得到研发投入(万元)与产品收益(万元)的数据如下:
1 2 3 4 5
9 12 17 21 26
(1)若与线性相关,请根据样本相关系数推断它们的相关程度;(若,则相关程度一般;若,则相关程度很强)
(2)求出关于的经验回归方程,并预测当研发投入6万元时的产品收益.
参考数据:
参考公式:,,.
【答案】(1)变量与的相关程度很强
(2),约为万元
【分析】(1)根据所给数据,求出相关系数,即可判断;
(2)由公式求出,得出线性回归方程,再由方程预测收益即可.
【详解】(1)由表格数据可得,,
所以,

所以,
可知变量与的相关程度很强.
(2)由(1)可知,,

所以,
则,
可得关于的经验回归方程为,
令,可得,
即预测研发投入6万元时,产品收益约为万元.
05 残差
22.已知变量线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若减少一个杂点数据后,得到修正后的回归直线的纵截距为,则数据的残差为( )
A. B. C. D.
【答案】C
【分析】由条件先求原数据的变量的平均值,再求除去杂点数据后的新数据组的,再由样本中心点在回归直线上求修正后的回归方程,再结合残差定义求解.
【详解】由题意可得回归方程为,所以,
因为,所以,所以,
若减少一个杂点数据后,剩余样本数量为10,
修正后的,,
又修正后的回归方程的纵截距为,
设修正后的回归方程为,
可得,
所以修正后回归方程为,
当时,,
所以数据的残差为.
故选:C
23.已知变量线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若增加一个数据后,得到修正后的回归直线的斜率为2.1,则数据的残差为( )
A.0.1 B.0.2 C.-0.2 D.-0.1
【答案】D
【分析】由回归直线结合,可得,据此可得新增数据后的回归直线中心点,由此可得新的回归直线方程,然后由残差定义可得答案.
【详解】因,则,则.
则新增数据后,,,
因新的回归直线过点,且修正后的回归直线的斜率为2.1,
则,则修正后的回归直线为:.
则的估计值为,则数据的残差为.
故选:D
24.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了次试验,收集数据如下表所示.
零件数个
加工时间
由上表数据求得关于的经验回归方程为,据此计算出样本点处的残差为( )
A. B. C. D.
【答案】D
【分析】利用回归方程过样本点,可求参数,然后再根残差概念即可求解.
【详解】由表格中数据可求得:,

根据关于的经验回归方程必过点得:
,故经验回归方程为,
当时,预报值,
所以在样本点处的残差为,
故选:D.
25.已知两个变量x和y之间具有较强的线性相关关系,且y关于x的经验回归方程为,由它计算出成对样本数据对应的残差为0.12(残差=观测值-预测值),则( )
A.0.28 B.0.56 C.0.34 D.0.48
【答案】B
【分析】先根据回归直线估计得出预测值,再残差计算求解计算求参.
【详解】因为y关于x的经验回归方程为,
所以预测值为,又因为残差=观测值-预测值,
所以,
所以.
故选:B.
26.色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批产品测得的数据列于表中.已知该产品的色度y和色差x之间满足线性相关关系,且,现有一对测量数据为,若该数据的残差为0.6,则 .
色差x 21 23 25 27
色度y 15 18 19 20
【答案】21.6
【分析】先根据题目数据求出样本中心点,代入回归直线方程得,然后求出的预报值,根据残差列式求解即可.
【详解】由题意可知,,,
将代入,即,解得,所以,
当时,,则.
故答案为:21.6.
06 列联表与独立性检验
27.某项比赛近五年的观众人数(单位:万人)与年份的统计数据如表所示:
年份 2021 2022 2023 2024 2025
年份编号 1 2 3 4 5
观众人数(万人) 1.7 1.8 2 2.2 2.3
(1)已知可用线性回归模型拟合与的关系,请建立关于的线性回归方程,并预测2026年的观众人数;
(2)若该比赛的门票有两个等次的票价,某机构随机调查了100位观众的购票情况,得到的部分数据如表所示,请将列联表补充完整,并判断能否有的把握认为观看比赛的观众是否购买A等票与性别有关.
购买A等票 购买B等票 总计
男性观众 40 55
女性观众 25
总计 100
参考公式及参考数据:回归方程中斜率与截距的最小二乘估计公式分别为.
,其中.
0.050 0.010 0.001
3.841 6.635 10.828
【答案】(1);2.48万人
(2)填表见解析;有的把握认为观看比赛的观众是否购买A等票与性别有关
【分析】(1)分别求出两变量的平均值,代入公式计算可得回归直线方程,即可对2026年观众人数进行估计;
(2)提出零假设并计算出卡方的值,推断出零假设不成立,即可得出结论.
【详解】(1)由表格知,
所以,

则,因此,
故关于的线性回归方程为
易知2026年的年份编号为6,当时,,
估计2026年观众人数将达到2.48万人.
(2)依题意,补充列联表如下:
A等票 B等票 总计
男性 40 15 55
女性 20 25 45
总计 60 40 100
零假设为:观看比赛的观众是否购买A等票与性别无关;
易知,
根据小概率值的独立性检验,可知零假设不成立;
故有的把握认为观看比赛的观众是否购买A等票与性别有关.
28.从某校高一年级全体学生中随机抽取120人,进行文理选科倾向调查,得到如下列联表:
性别 倾向 男生 女生 合计
偏理科 40 90
偏文科 10
合计 60 120
(1)请完成上述列联表;
(2)从女生中随机抽取一人,求该女生是偏文科生的概率;
(3)根据小概率值的独立性检验,分析性别与选科倾向是否有关.
参考数据:
0.1 0.05 0.01
2.70 3.841 6.635

【答案】(1)列联表见解析;
(2);
(3)有关.
【分析】(1)根据题意完善列联表.
(2)利用古典概率求解即得.
(3)求出的观测值,与临界值比对作答.
【详解】(1)列联表如下:
性别 倾向 男生 女生 合计
偏理科 50 40 90
偏文科 10 20 30
合计 60 60 120
(2)由表格中数据知,60名女生中偏文科的有20名,
所以从女生中随机抽取一人,该女生是偏文科生的概率为.
(3)零假设:性别与选科倾向无关,
由表格中数据经计算得,
根据小概率值的独立性检验,推断零假设不成立,
即认为性别与选科倾向有关,此推断犯错误的概率不超过0.05.
29.某学习小组为了研究性别与近视之间是否有关联,在年级随机选取了30人,得到如下列联表:
性别 近视 合计
不近视 近视
男 5 17 22
女 2 6 8
合计 7 23 30
(1)在样本中的名女生中随机选取人,求这人中至少有人是近视的概率;
(2)小组成员甲通过计算发现女生的近视率为小于男生的近视率,所以甲认为男生更容易近视.请根据小概率值的独立性检验,分析甲的说法是否正确?
α

【答案】(1)
(2)不正确
【分析】(1)利用组合计数原理结合古典概型的概率公式、对立事件的概率公式可求出所求事件的概率;
(2)零假设性别与是否近视无关,求出的观测值,结合临界值表可得出结论.
【详解】(1)名女生中,有名近视,名不近视,设为近视的人数,
则,
所以这人中至少一个是近视的概率为.
(2)零假设性别与是否近视无关,
根据列联表数据,计算得,
根据小概率值的独立性检验,没有充分证据推断不成立,
因此可以认为性别与是否近视无关,甲同学的说法不正确.
30.某个景点自从取消门票实行免费开放后,迅速成为网红打卡点,不仅带动了淡季的旅游,而且优化了旅游产业的结构.下表是该景点免费开放后前五个月的打卡人y数(万人)与第个月的数据:
x 1 2 3 4 5
y 23.1 37.0 62.1 111.6 150.8
(1)根据表中数据可用一元线性回归模型刻画变量y与变量x之间的线性相关关系,且回归方程中的,请计算相关系数r(精确到0.01),并判断是否可以认为y与x的线性相关性很强;
(2)为更好地改进服务,景点对每位游客进行了满意度调查,已知评分X近似服从正态分布,评分低于m的游客约占15.865%,求m的值;
(3)为进一步了解游客性别与满意度的关系,随机抽查200名游客,得到如下列联表,请填写下面的2×2列联表,根据小概率值的独立性检验,能否推断游客是否满意与性别有关?
喜欢 不喜欢 总计
男 100
女 60
总计 110
参考公式:
相关系数:若,则认为与有较强的线性相关性.
回归方程中斜率的最小二乘法估计公式为:
,其中.
临界值表:
0.010 0.005 0.001
6.635 7.879 10.828
参考数据:,
若,则,
【答案】(1),可以认为与有较强的线性相关性;
(2)
(3)答案见解析
【分析】(1)根据题给数据算出平均数,再根据参考数据及,再对和进行求值,即可得到的值,再根据相关系数公式求解即可;
(2)根据正态分布曲线的对称性求出,即可求出;
(3)根据题给数据完成列联表,再根据公式代值求解,再与比较大小,即可得解.
【详解】(1)由题可知,,

则,可得,
相关系数

可以认为与有较强的线性相关性.
(2)因,则,
因,
则.
(3)填写下面的列联表
喜欢 不喜欢 总计
男 70 30 100
女 40 60 100
总计 110 90 200
由表可知,,
零假设:游客是否满意与性别无关,

所以根据小概率值的独立性检验,能推断游客是否满意与性别有关.
31.某科技公司对三文鱼的传统淡水网箱养殖法和AI赋能的新型深远海智能网箱养殖法进行产量对比研究.科研人员在收获季节分别从传统养殖网箱和深远海智能养殖网箱中,各随机抽取了100个网箱,测量每箱三文鱼的产量(单位:kg),其频率分布直方图如图所示.
(1)根据频率分布直方图,补全下面列联表.
养殖法 箱产量 合计
箱产量 箱产量
传统养殖
智能养殖 30
合计 200
(2)根据小概率的独立性检验,分析箱产量与养殖方法是否有关.
(,,)
【答案】(1)填表见解析
(2)答案见解析
【分析】(1)利用频率分布直方图可计算得到新传统养殖法箱产量低于50kg和不低于50kg的数量,进而可得列联表;
(2)结合(1)中列联表计算可得,对比临界值即可得到结论.
【详解】(1)由频率分布直方图知:传统养殖法箱产量低于50kg的箱数为;
,不低于50kg的箱数为;
由此可得列联表如下:
养殖法 箱产量 合计
箱产量50kg 箱产量50kg
传统养殖 60 40 100
智能养殖 30 70 100
合计 90 110 200
(2)零假设:箱产量与养殖方法无关
因为,
所以根据小概率的独立性检验,我们推断不成立,即认为箱产量与养殖方法有关,此推断犯错误的概率不超过0.001.
32.为了研究臭氧效应,先选取40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,将试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).试验结果如下:
对照组的小白鼠体重的增加量为
15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.1
32.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2
试验组的小白鼠体重的增加量为
7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.2
19.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5
(1)求40只小白鼠体重的增加量的中位数,并分别统计两样本中小于与不小于的数据的个数,完成如下列联表:
对照组
试验组
(2)根据(1)中的列联表,依据小概率值的独立性检验,能否认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异?
附:,其中.
0.1 0.05 0.01
2.706 3.841 6.635
【答案】(1);列联表如下:
合计
对照组 6 14 20
试验组 14 6 20
合计 20 20 40
(2)依据小概率值的独立性检验,能认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异.
【分析】(1)根据中位数的定义求m,再根据题给数据,完成列联表;
(2)根据给定公式计算出,再与题给条件进行比较,即可得出结论.
【详解】(1)由题意知:这40只小鼠体重增量的中位数是将两组数据合在一起,从小到大排序后,第20位和第21位数据的平均值,第20位为23.2,第21位为23.6.
所以这组数据的中位数:.
填写列联表如下:
合计
对照组 6 14 20
试验组 14 6 20
合计 20 20 40
(2)根据(1)中的列联表数据,结合给定公式,
可得,
根据小概率值的独立性检验:,
则.
所以依据小概率值的独立性检验,即能认为小白鼠在高浓度臭氧环境中与正常体重的增加量有差异.
1.(2025·云南丽江·三模)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了次试验,得到数据如下:
零件的个数x(个) 2 3 4 5
加工的时间y(小时) 2.5 3 4 4.5
参考公式:用最小二乘法求线性回归方程系数公式,
(1)求关于的线性回归方程;
(2)求各样本的残差;
(3)试预测加工个零件需要的时间.
【答案】(1);
(2)各样本的残差依次为:0.05,-0.15,0.15,-0.05.
(3)小时.
【分析】(1)根据表中数据求出、、、,进而由参考公式求出线性回归方程;
(2)计算每个对应的预测值,计算残差 ;
(3)将代入回归方程
【详解】(1)
,,
∴所求线性回归方程为.
(2)计算每个对应的预测值:




计算残差:
所以,各样本的残差依次为:.
(3)当时,,
∴预测加工个零件需要小时.
2.(2025·浙江宁波·模拟预测)某环保机构研究城市绿化覆盖率(%)和年均浓度()的关系,随机抽取10个城市数据如下:
编号i 1 2 3 4 5 6 7 8 9 10 总和
绿化覆盖率 4 13 16 21 26 31 36 45 52 56 300
年均浓度 80 66 58 54 50 46 42 38 34 32 500
可得.
(1)求绿化覆盖率与浓度的样本相关系数(精确到);
(2)求y关于x的经验回归方程(精确到),并估计使得年均浓度不超过需要的最低绿化覆盖率(精确到整数).
参考数据与公式:.
【答案】(1)
(2),
【分析】(1)根据公式求出可得答案;
(2)根据已知求出线性回归方程,由解不等式可得答案
【详解】(1)因,

.
即绿化覆盖率与浓度的样本相关系数约为;
(2)因为,
所以,故,
依题意由,可得,
即使得年均浓度不超过需要的最低绿化覆盖率约为.
3.(2023·河南洛阳·模拟预测)网购是现代年轻人重要的购物方式,截止到2021年12月,我国网络购物用户规模达8.42亿,较2020年12月增长5968万,占网民整体的81.6%,某电商对其旗下的一家专营店近五年来每年的利润额(单位:万元)与时间第年进行了统计得如下数据:
1 2 3 4 5
2.6 3.1 4.5 6.8 8.0
(1)依据表中给出的数据,是否可用线性回归模型拟合与的关系?请计算相关系数并加以说明(计算结果精确到0.01).(若,则线性相关程度很高,可用线性回归模型拟合)
(2)试用最小二乘法求出利润与时间的回归方程,并预测当时的利润额.
附:,,
参考数据:,,,.
【答案】(1),y与t的线性相关程度很高,可以用线性回归模型拟合.
(2),万元.
【分析】(1)先利用公式计算出相关系数r,再按要求进行比较,进而得到结果;
(2)先利用公式求得,得到利润y与时间t的回归方程,进而预测当时的利润额.
【详解】(1)由题表,,
因为,,,
所以.
故y与t的线性相关程度很高,可以用线性回归模型拟合.
(2),,
所以.当时,.
预测该专营店在时的利润为万元.
4.(2025·河北秦皇岛·模拟预测)有一款网络答题竞赛游戏,答题类型有科普类与文学类两种,随机抽取了50名参赛人员进行答题偏好的问卷调查,调查所得数据如下表:
科普类 文学类 合计
男生 5
女生 10
合计 25 50
(1)完成以上列联表,依据小概率值的独立性检验,能否据此推断该游戏的答题偏好与性别有关联?
(2)随着参赛人员越多,题库提供的题量越多,某同学统计了当参赛人数分别为2~6人时,题库给出的题量的数据,用最小二乘法得到答题量关于参赛人数的回归直线方程为,已知该组数据的相关系数,题量的方差,求的值(结果精确到0.1).
附:参考公式:,其中.
回归系数,相关系数,.
参考数据:
0.10 0.05 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
【答案】(1)列联表见解析,能
(2)
【分析】(1)根据题设中的数据完善列联表,计算卡方后可得相应判断;
(2)根据相关系数可求,从而可求回归系数.
【详解】(1)完成列联表如下:
科普类 文学类 合计
男生 15 5 20
女生 10 20 30
合计 25 25 50
零假设为:该游戏的答题偏好与性别无关.

根据小概率值的独立性检验,我们推断不成立,即认为该游戏的答题偏好与性别有关联,此推断犯错误的概率不大于0.01.
(2)由题意可得:,,
因为,可得,
又因为
可得
所以
5.(2025·安徽·模拟预测)某校有高一学生1800人,高二学生1200人,学校采取按比例分配的分层抽样的方式从中抽取100人进行体育测试.测试后,统计得到高一样本的一分钟跳绳次数的均值为165,方差为61,高二样本的一分钟跳绳次数的均值为145,方差为31.
(1)计算总样本的一分钟跳绳次数的均值和方差;
(2)将一分钟跳绳次数视为及格,整理出以下列联表:
及格 不及格 合计
高一 52 8 60
高二 38 2 40
合计 90 10 100
试根据小概率值的独立性检验,分析一分钟跳绳次数及格情况是否与年级有关;(结果保留小数点后三位)
(3)如果将(2)表格中的所有数据都扩大为原来的10倍,在相同的检验标准下,再用独立性检验推断一分钟跳绳次数及格情况与年级之间的关联性,结果还一样吗?请你试着解释其中的原因.
附:,.
独立性检验中几个常用的小概率值和相应的临界值.
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
【答案】(1)均值157,方差145
(2)无关
(3)不一样,结论变为有关,理由见解析
【分析】(1)根据分层抽样计算均值和方差即可;
(2)根据卡方检验,即可判断;
(3)计算出新的卡方即可进行判断.
【详解】(1)高一人数占比,故样本量为,同理高二样本量为40,
所以总样本均值为,
总样本方差为.
(2)零假设为:一分钟跳绳次数及格情况与年级无关,
根据列联表,,
所以根据小概率值的独立性检验,推断成立,即一分钟跳绳次数及格情况与年级无关.
(3)将(2)表格中的所有数据都扩大为原来的10倍,
则,
所以根据小概率值的独立性检验,推断不成立,即一分钟跳绳次数及格情况与年级有关,
所以将(2)表格中的所有数据都扩大为原来的10倍,结果不一样,
因为样本量增大使得相对差异的绝对值增大,导致卡方统计量显著上升.
1.(2024·上海·高考真题)已知气候温度和海水表层温度相关,且相关系数为正数,对此描述正确的是( )
A.气候温度高,海水表层温度就高
B.气候温度高,海水表层温度就低
C.随着气候温度由低到高,海水表层温度呈上升趋势
D.随着气候温度由低到高,海水表层温度呈下降趋势
【答案】C
【分析】根据相关系数的性质可得正确的选项.
【详解】对于AB,当气候温度高,海水表层温度变高变低不确定,故AB错误.
对于CD,因为相关系数为正,故随着气候温度由低到高时,海水表层温度呈上升趋势,
故C正确,D错误.
故选:C.
2.(2023·上海·高考真题)根据身高和体重散点图,下列说法正确的是( )
A.身高越高,体重越重 B.身高越高,体重越轻 C.身高与体重成正相关 D.身高与体重成负相关
【答案】C
【分析】根据给定的散点图的特征,直接判断作答.
【详解】由于身高比较高的人,其体重可能大,也可能小,则选项AB不正确;
由散点图知,身高和体重有明显的相关性,且身高增加时,体重也呈现增加的趋势,
所以身高与体重呈正相关,C正确,D错误.
故选:C
3.(2025·上海·高考真题)2024年巴黎奥运会,中国获得了男子米混合泳接力金牌.以下是历届奥运会男子米混合泳接力项目冠军成绩记录(单位:秒),数据按照升序排列.
206.78 207.46 207.95 209.34 209.35
210.68 213.73 214.84 216.93 216.93
(1)求这组数据的极差与中位数;
(2)从这10个数据中任选3个,求恰有2个数据在211以上的概率;
(3)若比赛成绩y关于年份x的回归方程为,年份x的平均数为2006,预测2028年冠军队的成绩(精确到0.01秒).
【答案】(1);;
(2)
(3)
【分析】(1)由最长与最短用时可得极差,由中间两数平均数可得中位数;
(2)由古典概型概率公式可得;
(3)先求成绩平均数,再由在回归直线上,代入方程可得,再代入年份预测可得.
【详解】(1)由题意,数据的最大值为,最小值为,
则极差为;
数据中间两数为与,
则中位数为.
故极差为,中位数为;
(2)由题意,数据共个,以上数据共有个,
故设事件“恰有个数据在以上”,
则,
故恰有个数据在以上的概率为;
(3)由题意,成绩的平均数

由直线过,
则,
故回归直线方程为.
当时,.
故预测年冠军队的成绩为秒.
4.(2024·上海·高考真题)为了解某地初中学生体育锻炼时长与学业成绩的关系,从该地区29000名学生中抽取580人,得到日均体育锻炼时长与学业成绩的数据如下表所示:
时间范围学业成绩
优秀 5 44 42 3 1
不优秀 134 147 137 40 27
(1)该地区29000名学生中体育锻炼时长不少于1小时人数约为多少?
(2)估计该地区初中学生日均体育锻炼的时长(精确到0.1)
(3)是否有的把握认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关?
(附:其中,.)
【答案】(1)
(2)
(3)有
【分析】(1)求出相关占比,乘以总人数即可;
(2)根据平均数的计算公式即可得到答案;
(3)作出列联表,再提出零假设,计算卡方值和临界值比较大小即可得到结论.
【详解】(1)由表可知锻炼时长不少于1小时的人数为占比,
则估计该地区29000名学生中体育锻炼时长不少于1小时的人数为.
(2)估计该地区初中生的日均体育锻炼时长约为

则估计该地区初中学生日均体育锻炼的时长为0.9小时.
(3)由题列联表如下:
其他 合计
优秀 45 50 95
不优秀 177 308 485
合计 222 358 580
提出零假设:该地区成绩优秀与日均锻炼时长不少于1小时但少于2小时无关.
其中.

则零假设不成立,
即有的把握认为学业成绩优秀与日均锻炼时长不小于1小时且小于2小时有关.
5.(2023·全国甲卷·高考真题)一项试验旨在研究臭氧效应.实验方案如下:选40只小白鼠,随机地将其中20只分配到实验组,另外20只分配到对照组,实验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).
(1)设表示指定的两只小白鼠中分配到对照组的只数,求的分布列和数学期望;
(2)实验结果如下:
对照组的小白鼠体重的增加量从小到大排序为:
15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.1
32.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2
实验组的小白鼠体重的增加量从小到大排序为:
7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.2
19.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5
(i)求40只小鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于的数据的个数,完成如下列联表:
对照组
实验组
(ii)根据(i)中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与正常环境中体重的增加量有差异.
附:
0.100 0.050 0.010
2.706 3.841 6.635
【答案】(1)分布列见解析,
(2)(i);列联表见解析,(ii)能
【分析】(1)利用超几何分布的知识即可求得分布列及数学期望;
(2)(i)根据中位数的定义即可求得,从而求得列联表;
(ii)利用独立性检验的卡方计算进行检验,即可得解.
【详解】(1)依题意,的可能取值为,
则,,,
所以的分布列为:
故.
(2)(i)依题意,可知这40只小白鼠体重增量的中位数是将两组数据合在一起,从小到大排后第20位与第21位数据的平均数,观察数据可得第20位为,第21位数据为,
所以,
故列联表为:
合计
对照组 6 14 20
实验组 14 6 20
合计 20 20 40
(ii)由(i)可得,,
所以能有的把握认为小白鼠在高浓度臭氧环境中与正常环境中体重的增加量有差异.

展开更多......

收起↑

资源列表