【备考2027】03-第54讲 成对数据的统计分析 课件+备用习题 高三一轮总复习(基础版)

资源下载
  1. 二一教育资源

【备考2027】03-第54讲 成对数据的统计分析 课件+备用习题 高三一轮总复习(基础版)

资源简介

(共137张PPT)
第54讲 成对数据的统计分析
课前基础巩固
课堂考点探究
教师备用习题
作业手册
答案核查【听】
答案核查【作】
【课标要求】
1.了解样本相关系数的统计含义,了解样本相关系数与标准化数据向
量夹角的关系,会通过样本相关系数比较多组成对数据的相关性.
2.了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小
二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会用一元
线性回归模型进行预测.
3.理解列联表的统计意义,了解 列联表独立性检验及其应用.
◆ 知识聚焦 ◆
一、经验回归分析
1.两个变量相关性的判断
(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个
去精确地决定另一个的程度,这种关系称为相关关系.
(2)正相关与负相关
从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现
______的趋势,则称这两个变量正相关;当一个变量的值增加时,另一
个变量的相应值呈现______的趋势,则称这两个变量负相关.
增加
减小
(3)线性相关关系:两个变量的取值呈现正相关或负相关,而且散点
落在__________附近,则称这两个变量线性相关.
一条直线
(4)样本相关系数
计算:
.
样本相关系数 的性质
①当时,表明成对样本数据________;当 时,表明成对样本数
据________.
②当越接近1时,成对样本数据的线性相关程度越____;当 越接近
0时,成对样本数据的线性相关程度越____.
正相关
负相关


2.一元线性回归模型
(1)经验回归方程:利用最小二乘法求得 ,其中
(2)评价回归模型的优劣:
利用残差平方和: ,残差平方和越____,拟合效果越好.
利用残差图:残差点分布在以______为对称轴的带状区域内,该
区域越____,拟合效果越好.
利用决定系数: ,决定系数越____,拟合效
果越好.

横轴


二、独立性检验
1.分类变量,的 列联表
合计
合计
记,则随机变量 ,读作卡方.
2.独立性检验
(1)定义:利用随机变量____的取值推断两个分类变量和 是否
______的方法称为独立性检验.
(2)独立性检验的基本步骤
①提出零假设分类变量和 相互独立;
②列出分类变量和 的抽样数据列联表;
③利用公式计算随机变量 的值;
独立
④把计算得到的的值与小概率值 相应的临界值表中的临界值
比较.
当 时,就推断不成立,即认为与 不独立,此推断犯错
误的概率不超过 ;
当 时,没有充分证据推断不成立,可以认为 成立,即
认为与 独立.
常用结论
经验回归直线一定过点, .
◆ 课前演练 ◆
题组一 易错辨析
判断下列说法是否正确.(请在括号中打“√”或“×”)
(1)只有两个变量有相关关系,所得到的回归模型才有预测价值.
( )

[解析] 根据相关关系的概念知正确.
(2)独立性检验的本质是比较观测值与期望值之间的差异.( )

[解析] 根据独立性检验的概念知正确.
(3)独立性检验与简单比较两个频率得到的结果是一致的.( )
×
[解析] 相对于简单比较两个频率得到的推断,用 独立性检验得到
的结果更理性、更全面,理论依据更充分.故不正确.
(4)由变量,的样本数据点集合,2, , ,求得
的经验回归方程为,且 ,现发现两个数据点
和误差较大,去除后重新求得的经验回归直线 的斜
率为,则去除数据点后的经验回归方程为 .( )
×
[解析] 设去除数据点前变量的样本平均数为,去除数据点后变量 ,
的样本平均数分别为,,经验回归方程为.
将 代入经验回归方程,得.去掉两个数据
点 和后,, ,
又因为去除数据点后的经验回归方程为,
所以 ,解得,
所以去除数据点后的经验回归方程为 .故不正确.
题组二 教材改编
1.在研究吸烟是否对患肺癌有影响的案例中,通过对列联表的数据进
行处理,计算得到随机变量 ,则下面说法正确的是( )
0.01 0.005 0.001
6.635 7.879 10.828
A.因为随机变量,所以依据小概率值 的独立性检验,
认为“吸烟与患肺癌有关联”,并且这个结论犯错误的概率不超过0.001
B.因为随机变量,所以依据小概率值 的独立性检验,
认为“吸烟与患肺癌有关联”,并且这个结论犯错误的概率不低于0.001
C.因为随机变量,所以依据小概率值 的独立性检验,
认为“吸烟与患肺癌没有关联”,并且这个结论犯错误的概率不超过0.001
D.因为随机变量,所以依据小概率值 的独立性检验,
认为“吸烟与患肺癌没有关联”,并且这个结论犯错误的概率不低于0.001

[解析] 由题意知随机变量 ,
所以依据小概率值 的独立性检验,认为“吸烟与患肺癌有
关联”,这个结论犯错误的概率不超过 ,故选A.
2.根据变量和 的成对样本数据,由一元线
性回归模型 得到经验
回归模型 ,对应的残差如图所示,
则模型误差( )
A.满足一元线性回归模型的所有假设
B.只满足一元线性回归模型的 的假设
C.只满足一元线性回归模型的 的假设
D.不满足一元线性回归模型的, 的假设

[解析] 根据一元线性回归模型中对随机误差的
假定,残差应是均值为0,方差为 的随机变
量的观测值,
在残差图中显示应均匀分布在以取值为0的横轴为对称轴的水平
带状区域内.
而图中的残差与观测时间存在线性关系,说明均值不为0,残差
的方差不是一个常数,所以不满足一元线性回归模型的所有假设.
故选D.
3.以下是标号分别为①②③④的四幅散
点图,它们的样本相关系数分别为, ,
, ,那么样本相关系数的大小关系为
________________(按由小到大的顺序
排列).
[解析] 根据散点图可知,图①③中的样
本数据正相关,图②④中的样本数据负
相关,,,, .
又图①②中的散点近似在一条直线上,
图①②中的样本数据的线性相关程度
比较强.
图③④中的散点比较分散,故图③④中的样本数据的线性相关程度
比较弱,
则与比较大,与比较小, .
4.某食品研究部门为了解一种酒品的储藏年份与芳香度之间的相关关
系,在市场上收集到了一部分不同储藏年份的该酒品,并测定了其
芳香度(如下表).
储藏年份 0 1 4 5 6 8
芳香度 1.3 1.8 5.6 7.4 9.3
由最小二乘法得到经验回归方程 ,但不小心在检测
后滴到表格上一滴检测液,污损了一个数据,则推断该数据为____.
6.1
[解析] 由表格数据知,设被污损的数据为,则 ,
,解得 ,即被污损的数据为6.1.
储藏年份 0 1 4 5 6 8
芳香度 1.3 1.8 5.6 7.4 9.3
探究点一 成对数据的统计相关性
例1(1)[2026·四川崇州模拟]某市环保部门研究近十年空气质量数
据,得到以下结论:
结论一:浓度与机动车保有量的样本相关系数 ;
结论二:绿化覆盖率与呼吸道疾病发病率的样本相关系数

结论三:工业能耗与近地面臭氧浓度的样本相关系数 .
下列说法正确的是( )
A.由结论一可知,机动车保有量的增加是 浓度升高的直接原因
B.由结论二可知,绿化覆盖率与呼吸道疾病发病率无关联
C.结论三表明工业能耗与近地面臭氧浓度正相关,且线性相关性比
结论一更强
D.结论一中接近1,说明 浓度与机动车保有量存在极强的线
性相关关系

[解析] 由,可知 浓度与机动车保有量存在极强的线
性相关关系,不能说明机动车保有量的增加是 浓度升高的直接
原因,故A错误,D正确;
因为, ,所以工业能耗与近地面臭氧浓度正相关,
但线性相关性没有结论一的强,故C错误;
由 ,可知绿化覆盖率与呼吸道疾病发病率负相关,相关性
不是很强,但不能说绿化覆盖率与呼吸道疾病发病率无关联,故B错
误.故选D.
(2)在如图所示的散点图中,六组数据 去掉
点后重新进行回归分析,则下列说法正确的是( )
A.样本数据的两变量, 正相关
B.样本相关系数 的绝对值更接近于0
C.残差平方和变大
D.变量与变量 相关性变强

[解析] 由题图可知,样本数据的两变量, 负相关,
故A错误;
点 相对其他点,偏离直线较远,故去掉点后,
样本相关系数 的绝对值更接近于1,残差平方和
变小,变量与变量 相关性变强,
故B,C错误,D正确.故选D.
总结反思
对两个变量的相关关系的判断有两种常用方法:
1.根据散点图进行判断,这种方法具有很强的直观性,能够直接得出两
个变量是正相关还是负相关,拟合效果的好坏也可由散点图直接判断.
2.计算样本相关系数,样本相关系数能比较准确地反映两个变量的相
关程度,样本相关系数的绝对值越接近1,两个变量的相关程度就越强.
【对点演练1】(1)根据身高和体重的散点图
(如图所示),下列说法正确的是( )
A.身高越高,体重越重
B.身高越高,体重越轻
C.身高与体重正相关
D.身高与体重负相关

[解析] 由于身高比较高的人,其体重可能大,
也可能小,故A,B不正确;
由散点图知,身高和体重有明显的相关性,
且身高增加时,体重也呈现增加趋势,所以
身高与体重正相关,故C正确,D错误.故选C.
(2)已知表示变量与之间的样本相关系数,表示变量与 之
间的样本相关系数,且, ,则( )
A.变量与之间正相关,且与之间的线性相关程度强于与 之间
的线性相关程度
B.变量与之间负相关,且与之间的线性相关程度强于与 之间
的线性相关程度
C.变量与之间负相关,且与之间的线性相关程度弱于与 之间
的线性相关程度
D.变量与之间正相关,且与之间的线性相关程度弱于与 之间
的线性相关程度

[解析] 因为,,所以变量与 之间正相关,变
量与之间负相关.
因为 越接近1,两个变量的线性相关程度越强,
所以与之间的线性相关程度弱于与 之间的线性相关程度.故选C.
探究点二 一元回归模型
题型1 线性回归模型
例2(1)已知变量和满足经验回归方程 ,且
变量和 之间的一组相关数据如表所示,则下列说法错误的是
( )
5 6 9 12
8 7 2.4
A. B.当时,
C.变量和负相关 D.该经验回归直线必过点

[解析] 对于A,由表可得, ,
因为经验回归直线必过点 ,
所以,解得 ,故A中说法正确;
对于B,当时, ,故B中说法
正确;
5 6 9 12
8 7 2.4
对于C,因为经验回归方程 中,斜率
,所以变量和 负相关,故C中说法正确;
对于D,该经验回归直线必过点 ,故D中说法错误.故选D.
5 6 9 12
8 7 2.4
(2)将收集到的6组数据对
制作成如图所示的散点图(点旁数据为该点坐标),
由最小二乘法计算得经验回归直线的方程为
,样本相关系数为,决定系数为.
残差分析确定点 对应残差过大,把它去掉后,再用剩下的5组数据
计算得经验回归直线的方程为 ,样本
相关系数为,决定系数为 .则以下结论中不正确的是( )
A., B.,
C. D.

[解析] 从散点图可以看出,两个变量正相关,
故A中结论正确;
易知经验回归直线的斜率是正数,且的斜率
大于 的斜率,故B中结论正确,C中结论正确;
从散点图可以看出,去掉点后,两变量的线性相关程度更强,拟合
的效果更好, 值越大,所以 ,故D中结论错误.故选D.
(3)[2026·安徽蚌埠调研] 下表统计了某部纪录片上映前15天累计
票房到达(单位:亿元)与所用时间 (单位:天)的数据:
①利用表中的数据,计算样本相关系数结果精确到 ,并推断
两个变量的线性相关程度;
样本相关系数 .
参考数据:,, , .#1.1.6
累计票房 20 40 60 80 100
用时 4 7 9 10 15
解:由题意得 , ,
又,, ,
所以
,
所以两个变量的线性相关程度很强.
②求关于的经验回归方程系数精确到 ,并预测153天时的累
计票房,判断这种预测方法是否合理.
参考公式:经验回归方程,其中 ,

参考数据:,, ,
.#1.1.6
解:由题意得 ,
,
所以所求经验回归方程为 ,
令,得 ,
预测153天时的累计票房为1151.56亿元,远超过实际票房,故该预测
方法不合理.
题型2 非线性回归模型
例3(1)云计算是信息技术发展的集中体现,近年来,我国云计算市
场规模持续增长.已知某科技公司2018年至2022年的云计算市场规模数
据,且市场规模与年份代码的关系可以用模型 (其中为
自然对数的底数)拟合,设 ,得到数据统计表如下:
年份 2018年 2019年 2020年 2021年 2022年
年份代码 1 2 3 4 5
2 2.4 3 3.6 4
年份 2018年 2019年 2020年 2021年 2022年
年份代码 1 2 3 4 5
2 2.4 3 3.6 4
由上表可得经验回归方程 ,则2026年该科技公司云计算
市场规模的估计值为参考公式: ( )
A. B. C. D.

[解析] 由题可知, ,
所以 ,
即经验回归方程为,
当时, ,
所以,即2026年该科技公司云计算市场规模 的估计值为
.故选C.
年份 2018年 2019年 2020年 2021年 2022年
年份代码 1 2 3 4 5
2 2.4 3 3.6 4
(2)[2026·河南驻马店模拟] 已知相关变量 和
的散点图如图所示,拟用 ,
(其中 , , ,均为常数, 为自
然对数的底数)两个模型拟合,令 ,
,计算得如下数据:
20 66 770 200 14
460 4.20 3 125 000 0.308 21 500
(i)设和的样本相关系数为,和 的样本
相关系数为 ,请从样本相关系数的角度,选择一
个拟合效果更好的模型;
解:由题意得


因为 ,所以从样本相关系数的角度分析,
模型 的拟合效果更好.
(ii)根据的选择及表中数据,建立关于 的
经验回归方程.系数精确到
附:样本相关系数 ,
经验回归直线 中斜率和截距的最小二乘估计公式分别为
, .
解:先建立关于 的经验回归方程.
由,得,即 .
因为 ,

所以关于的经验回归方程为 ,
所以,则 .
总结反思
1.一元线性回归分析问题的解题步骤:
(1)求经验回归方程.
①根据散点图判断两变量是否线性相关(已知相关时不必再验证).
②利用公式,求出参数 .
③利用经验回归直线过点求参数 .
(2)利用经验回归方程进行预测,把经验回归方程看作一次函数,求
函数值作为预测值.
2.非线性回归分析问题的解题方法与常见变换:
(1)解题方法:借助散点图,确定合适的非线性回归模型,再通过
变换,转化为求经验回归方程,最后还原.
(2)常见非线性回归方程的变换:
令 ;
令 ;
令 ;
(令 );
,其中
【对点演练2】(1)[2026·福建莆田质检]下列说法正确的是( )
A.经验回归直线必过点
B.当样本相关系数 时,两个变量负相关
C.甲、乙两个模型的决定系数分别约为0.88和 ,则模型乙的拟
合效果更好
D.残差图中残差点所在的水平带状区域越宽,则经验回归方程的预
报精确度越高

[解析] 选项A,经验回归直线必过点 ,所以选项A正确;
选项B,当样本相关系数 时,说明两个变量正相关,所以选项
B错误;
选项C,模型的决定系数 越大,说明残差平方和越小,拟合效果
越好,因为 ,所以模型甲的拟合效果更好,所以选项C错误;
选项D,残差图中残差点所在的水平带状区域越宽,说明观测值与预
报值之间的差距越大,数据分布越分散,因此经验回归方程的预报
精确度就越差,所以选项D错误.故选A.
(2)(多选题)[2026·江苏南通质
检]为研究某种树的树高和胸径的
关系,某人随机测量了10棵该品种
的树,得到该品种树的胸径 单位:和树高单位: 的
数据,已知其中一组数据为 ,且
,求得经验回归方程
为 ,并绘制了如图所示的残差图,则下列说法正确的是
( )
A.由残差图可判定该品种树的树高
与胸径的关系符合上述经验回归模型
B.该品种树的平均树高约为
C.数据对应的残差为
D.删除一组数据 后,重新
求得的经验回归直线的斜率变小



[解析] 对于A,由残差图可知,残
差分布比较均匀,且集中在 轴附
近,所以由残差图可判定该品种树
的树高与胸径的关系符合上述经验回归模型,选项 A正确;
对于B,已知 ,则 ,将
代入经验回归方程 中,可得

所以该品种树的平均树高 约为 ,选项B正确;
对于C,当 时,

残差为 ,选项C正确;
对于D,删除数据后,因为38.4大于 ,且23.7小于38.4对应的预测值 ,
所以删除该点后,重新求得的经验回归直线的斜率变大,选项D错误.
故选 .
(3)[2026·河北邯郸模拟] 2016年至
2025年某果园每年的投资金额
(单位:万元)与年利润增量
(单位:万元)的散点图如图所示.由图中样本点的分布,可以认为样
本点集中在曲线的附近,令,则 ,且
, ,, .#5
①根据所给的统计量,求关于 的经
验回归方程;
解:由, ,
可得, ,

则 ,
所以,
因为 ,
所以关于 的经验回归方程为 .
②预测投资金额为20万元时的年利润增量.(结果保留两位小数)
附:在经验回归方程中,, .
参考数据:, .
解:当 时,

故预测投资金额为20万元时的年利润增量为42.75万元.
探究点三 独立性检验
例4(1)根据分类变量与的观测数据,计算得到 ,依
据小概率值 的独立性检验,则( )
A.变量与 不独立
B.变量与 独立
C.变量与 不独立,这个结论犯错误的概率不超过0.1
D.变量与 独立,这个结论犯错误的概率不超过0.01
[解析] 因为 ,所以没有充分证据拒绝原假
设,因此我们认为变量与 是独立的,故选B.

(2)某科技公司新开发了一款人工智能应用软件,为了测试青年人和中
年人对该软件的应用体验是否良好,某机构从中年、青年用户中随机调查
了300人,得到如下 列联表:
单位:人
组别 应用体验是否良好 合计
是 否 青年用户
中年用户 150
合计 300
①求, 的值;
解:由已知得青年用户的人数为 ,
则解得
②补全列联表,并依据小概率值的 独立性检验,分
析用户的年龄段与对该软件的应用体验是否良好是否有关联.
附:, .
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
组别 应用体验是否良好 合计
是 否 青年用户
中年用户 150
合计 300
解: 列联表如下:
单位:人
组别 应用体验是否良好 合计
是 否 青年用户 120 30 150
中年用户 60 90 150
合计 180 120 300
零假设为 这两组不同年龄段的用户对该软件的应用体验不存在
差异,
由题意可知
.
根据小概率值的独立性检验,推断 不成立,
所以认为用户的年龄段与对该软件的
应用体验是否良好有关联,此推断犯错误的概率不大于0.001.
总结反思
独立性检验的一般步骤:
第一步,提出零假设两个分类变量和 没有关联;
第二步,根据列联表和公式计算 的值;
第三步,查对临界值表,作出判断.
【对点演练3】(1)[2026·江苏镇江模拟]某医疗研究所为了检验某
项运动对预防感冒的作用,把500名每天进行该项运动的人与另外
500名未进行该项运动的人一年中的感冒记录作比较,利用 列
联表计算得 .
附表:
0.15 0.10 0.05 0.025 0.010
2.072 2.706 3.841 5.024 6.635
则推断“这种运动能起到预防感冒的作用”犯错误的概率不大于( )
A.0.025 B.0.05 C.0.95 D.0.975

[解析] 由题意知 ,所以对照题中的附表可推断
“这种运动能起到预防感冒的作用”犯错误的概率不大于0.05.故选B.
(2)为了解某地初中学生体育锻炼时长与学业成绩的关系,从该地
区29 000名学生中随机抽取580人,得到其日均体育锻炼时长
(单位:小时)与学业成绩的数据如表所示:
学业 成绩 日均体育锻炼时长/小时
优秀 5 44 42 3 1
不优秀 134 147 137 40 27
①该地区29 000名学生中日均体育锻炼时长不小于1小时的人数约为
多少?
解:抽取的样本中日均体育锻炼时长不小于1小时的人数为
.
设该地区29 000名学生中有 人的日均体育锻炼时长不小于1小时,
则 ,解得 .
故该地区29 000名学生中日均体育锻炼时长不小于1小时的人数约为
12 500.
②估计该地区初中学生的日均体育锻炼时长(同一组数据用该组区
间的中点值代表,精确到0.1小时).
学业 成绩 日均体育锻炼时长/小时
优秀 5 44 42 3 1
不优秀 134 147 137 40 27
解:依题意得,该地区初中学生日均体育锻炼时长为 .
所以该地区初中学生日均体育锻炼时长约为0.9小时.
③依据小概率值 的独立性检验,分析学业成绩是否优秀与
日均体育锻炼时长不小于1小时且小于2小时是否有关联?
附:, .
解:对数据重新组合,得到 列联表如下:
单位:人
学业成绩 日均体育锻炼时长/小时 合计
其他 优秀 45 50 95
不优秀 177 308 485
合计 222 358 580
零假设为 学业成绩优秀与日均体育锻炼时长不小于1小时且小于
2小时无关联.经计算可得

根据小概率值的独立性检验,我们推断 不成立,
即认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时
有关联,该推断犯错误的概率不超过0.05.
【备选理由】例题中 综合性强,让学生更加全面地掌握成对
数据的统计分析问题.
例 [配合探究点二、三使用](1)(多选题)下列说法中正确的
是( )
A.经验回归直线恒过点 ,且至少过一个样本点
B.用决定系数来刻画回归效果时, 越接近1,说明模型的拟合效果越好
C.将一组数据中的每一个数据都加上同一个正数后,标准差变大
D.基于小概率值 的检验规则是:当 时,我们就推断 不
成立,即认为和不独立,该推断犯错误的概率不超过


[解析] 对于A,经验回归直线恒过点 ,但不一定会
过样本点,故A错误;
对于B,用决定系数来刻画回归效果时, 越接近1,说明模型的
拟合效果越好,故B正确;
对于C,将一组数据中的每一个数据都加上或减去同一个常数后,数
据的波动性不变,故方差不变,则标准差不变,故C错误;
对于D,根据独立性检验可知D正确.故选BD.
(2)(多选题)[2025·山东泰安联考]某企业为了研究物流成本和企
业利润的数据关系,记录了1月到8月的物流成本 (单位:万元)和
企业利润(单位:万元)的数据 ,已知其中一
组数据为且 ,根据最小二乘法公式求得经验回
归方程为 ,则下列说法中正确的是( )
A.若企业9月份物流成本预计为85万元,则预测9月份企业利润约为
117.7万元
B.1月到8月企业的月平均利润约为115万元
C.数据 对应的残差为1.8
D.删除一组数据 后,重新求得的经验回归直线的斜率变小



[解析] 对于A,经验回归方程为,则当 时,
,故预测9月份企业利润约为117.7万元,
故A正确;
对于B,由,可得1月到8月的物流成本 的平均值
,设1月到8月企业的月平均利润为 ,且点在经
验回归直线上,
所以 ,即1月到8月企业的月平均利润约为
115万元,故B正确;
对于C,当时,,数据
对应的残差为,故C正确;
对于D,删除数据 后,因为,且 ,
所以删除该点后,重新求得的经验回归直线的斜率变大,故D不正确.
故选ABC.
作业手册
◆ 夯实基础 ◆
1.[2026·天津滨海新区质检]下列说法正确的是( )
A.点 不一定在经验回归直线上
B.残差平方和越小的模型拟合效果越好
C.经验回归直线就是散点图中经过样本数据点最多的那条直线
D.若两个变量的线性相关性越强,则样本相关系数 就越接近1

[解析] 对于选项A,点 一定在经验回归直线上,故A错误;
对于选项B,残差平方和越小的模型拟合效果越好,故B正确;
对于选项C,经验回归直线在散点图中可能不经过任意一个样本
数据点,故C错误;
对于选项D,如果两个变量的线性相关性越强,则样本相关系数
的绝对值就越接近1,故D错误.故选B.
2.已知某企业对新品按事先拟定的价格进行试销,得到以下数据:
单价 (元) 40 50 60 70 80 90
(件) 45 39 38 35 30 23
由表中数据,求得经验回归方程为 ,则下列说法错误
的是( )
A.产品的销售量和单价负相关
B.该经验回归直线过点
C.样本点的残差为
D.当单价定为100元时,销售量 估计为21件

[解析] 由 ,可知产品的销售量和单价负相关,故选项A中
说法正确;
由表中数据得 ,
,所以该经验回归直线过点 ,故选项B中说法正确;
由,得 ,解得,
所以,
当 时,,所以样本点的残差
为 ,故选项C中说法错误;
当时, ,
所以当单价定为100元时,销售量 估计为21件,故选项D中说法正确.
故选C.
3.有下列四组成对数据:,,, ,
;,,,,;, ,
,,;,,, ,
.其中样本相关系数最小的是
( )
A.① B.② C.③ D.④

[解析] 对于①,数据均在 上,故该组数据的样本相关系
数为1;
对于②,可看出其数据的两个变量正相关,故样本相关系数大于0;
对于③,数据均在 上,故该组数据的样本相关系数为 ;
对于④,显然所有数据无法落在某一个一次函数的图象上,故

事实上, ,其中
,,
故 ,
故样本相关系数 .
综上,样本相关系数最小的是③.故选C.
4.[2026·山东潍坊模拟]已知变量与 的一组数据如表所示,根据数
据得到关于的经验回归方程为 .
2 3 4 5
若,则 ( )
A.6.8 B.7.8 C.8.8 D.9.8

[解析] 由题意可得,设,则变量与 的一组
数据如下:
2 3 4 5
2 3 5 6
由表中数据可得,,故点在直线 上,
故,故,则.
当 ,即时,,解得 ,
故选D.
5.已知两个变量和之间具有较强的线性相关关系,且关于 的经
验回归方程为,由它计算出成对样本数据 对应
的残差为,则 ( )
A.0.28 B.0.56 C.0.34 D.0.48
[解析] 因为关于的经验回归方程为,所以当
时,,
又因为 ,所以 .故选B.

6.[2025·福建厦门质检]为考察药物对治疗疾病 的效果,在两个不
同规模的动物种群中分别进行了试验,根据种群一的试验结果得到
如下 列联表:
(单位:只)
药物 疾病 合计
未患病 患病 未服用 28 22 50
服用 34 16 50
合计 62 38 100
计算得到 .假设种群二试验结果对应的列联表中,每个单
元格的数据都为上表对应单元格数据的5倍,则根据小概率值 的独
立性检验,下列说法正确的是( )
附:, .
0.1 0.05 0.01 0.005
2.706 3.841 6.635 7.879
A.当时,种群一中药物对预防疾病 有效,该推断犯错误
的概率不超过
B.当时,种群一中药物对预防疾病 有效,该推断犯错误
的概率不超过
C.当时,种群二中药物对预防疾病 有效,该推断犯错误
的概率不超过
D.当时,种群二中药物对预防疾病 有效,该推断犯错误
的概率不超过

[解析] 对于A,B,因为,所以当 时,无
法推断种群一中药物对预防疾病 有效,故A,B错误;
对于C,由,将各项数据变为原来的5倍,


所以当时,种群二中药物对预防疾病 有效,该推断犯错
误的概率不超过,故C正确;
对于D,因为 ,
所以当时,无法推断种群二中药物对预防疾病 有效,
故D错误.故选C.
7.(多选题)[2025·四川绵阳模拟]某类商品在今年1至5月的销量
(单位:千辆)如下表所示(其中2月份销量未知)
月份 1 2 3 4 5
月销量 2.4 4 5 5.5
若变量与之间存在线性相关关系,且关于 的经验回归方程为
,则下列说法正确的是( )
A. B.残差绝对值最大为0.19
C.样本相关系数 D.当每增加1时, 增加0.81


[解析] 由题意知, ,代入方程得
,所以,解得 ,故
A正确;
1月份的残差为 ,2月份的残差为

月份的残差为 ,
4月份的残差为 ,
5月份的残差为,
所以残差绝对值最大为, 故B正确;
由表格可知变量与正相关,则,故C不正确;
当 每增加1时,不一定增加,故D不正确.故选 .
8.(多选题)随着科技的进步和人民生活水平的提高,电脑已经走进了千
家万户,成为人们生活、学习、娱乐的常见物品,便携式电脑(俗称“笔
记本”)也非常流行.某公司为了研究“台式机”与“笔记本”的受欢迎程度是
否与性别有关,随机抽取了50人调查研究,调查数据如下表所示.
单位:人
性别 喜好情况 合计
喜欢“台式机” 喜欢“笔记本” 男性 18 9 27
女性 8 15 23
合计 26 24 50
由上述数据给出下列结论,其中正确的是( )
A.没有充分证据证明“台式机”与“笔记本”的受欢迎程度与性别有关
B.依据小概率值 的独立性检验,认为“台式机”与“笔记本”的
受欢迎程度与性别有关
C.依据小概率值 的独立性检验,认为“台式机”与“笔记本”的
受欢迎程度与性别无关
D.依据小概率值 的独立性检验,认为“台式机”与“笔记本”的
受欢迎程度与性别无关


[解析] 由表中数据可得 ,
因为,
所以依据小概率值, 的独立性检验,认为“台式机”
与“笔记本”的受欢迎程度与性别有关,
依据小概率值 的独立性检验,认为“台式机”与“笔记本”的
受欢迎程度与性别无关.故选 .
9.[2026·江苏镇江期末] 已知, 的取值如下表:
0 1 3 4
4 4.5 5.5 6
从散点图分析,与线性相关,且经验回归方程为 ,则
___.
4
[解析] 由表中数据计算得 ,

又经验回归直线 过点,所以,
解得 .
10.[2026·重庆七校联盟联考] 某景区自从实行门票打折、推出特色美
食、不断提高服务质量等措施后,旅游人数明显增加.下表是该景区改
进措施后,前5个月的旅游人数(单位:十万)与第 个月的数据.
1 2 3 4 5
2 3 5 7 8
(1)已知可用经验回归模型拟合与的关系,请建立关于 的经
验回归方程 ,并预测第8个月的旅游人数.
解:由已知得, ,
,,
则 ,故 ,
所以,当时, ,故预测第8个月的旅游人
数为130万人.
(2)为了解景区游客性别与满意度的关系,随机抽查了200名游客,
得到如下的列联表:
单位:人
性别 是否满意 合计
是 否 男 100 ____ 150
女 ____ 30 ____
合计 _____ ____ _____
请填写上表,并依据小概率值 的独立性检验判断能否认为
游客是否满意与性别有关.
50
20
50
120
80
200
参考公式:,, ,
其中 .
0.050 0.010 0.001
3.841 6.635 10.828
解: 补全列联表如下:
单位:人
性别 是否满意 合计
是 否 男 100 50 150
女 20 30 50
合计 120 80 200
零假设为游客是否满意与性别无关,计算可得

所以依据小概率值的独立性检验,我们推断 不成立,
即认为游客是否满意与性别有关.
◆ 综合提升 ◆
11.(多选题)[2025·云南昆明质检]已知由样本数据
组成的一个样本,得到的经验回归方程为且,去除两
个异常数据和 后,得到的新的经验回归直线的斜率为3,
则( )
A.变量, 正相关
B.去除异常数据后,新的一组数据的平均数
C.去除异常数据后,新的一组数据的经验回归方程为
D.去除异常数据后,随着值的增加, 的值增加速度变小


[解析] A选项,因为,所以变量, 正相关,所以A正确;
B选项,因为,所以去除两个异常数据和 后,得到
新数据的平均数,所以B错误;
C选项,将 代入中,得,故去除两个异常
数据 和后, ,
因为得到的新的一组数据的经验回归直线的斜率为3,
所以 ,所以去除异常数据后的经验回归
方程为 ,所以C正确;
D选项,因为经验回归直线的斜率为正数,
所以变量, 正相关,且去除异常数据后,斜率由1.5增大到3,
故 的值增加的速度变大,所以D错误.故选 .
12.(多选题)[2026·陕西西安模拟]下列说法正确的是( )
A.在经验回归方程中,若样本相关系数 越大,则两个变量的线性相
关程度越强
B.数据1,3,4,5,7,9,11,16的第75百分位数为10
C.根据分类变量与的成对样本数据,计算得到 ,根据
小概率值的独立性检验,可判断与 有关联,
此推断犯错误的概率不超过0.05
D.样本甲中有件样品,其方差为,样本乙中有 件样品,其方差
为,则由甲、乙组成的总样本的方差为


[解析] 对于A,样本相关系数的绝对值越接近1,两个变量的线性相
关程度越强,反之两个变量的线性相关程度越弱,故A错误;
对于B,数据1,3,4,5,7,9,11,16是按从小到大的顺序排列的,由
,得这组数据的第75百分位数为第6项数据与第7项数据的平均数,
即为,故B正确;
对于C,因为 ,所以依据小概率值的独立
性检验判断分类变量与 有关联,此推 断犯错误的概率不大于 ,
故C正确;
对于D,设样本甲的平均数为,样本乙的平均数为,甲、乙组成
的总样本的平均数为 ,
所以甲、乙组成的总样本的方差为
,故D错误.故选 .
13.(多选题)某中学为更好地开展素质教育,现对选修外出研学课
程是否和性别有关联进行调查,其中被调查的男生和女生人数相同,
且男生中选修外出研学课程的人数占男生总人数的 ,女生中选修外
出研学课程的人数占女生总人数的.若依据小概率值 的独立
性检验认为选修外出研学课程与性别有关联,依据小概率值
的独立性检验认为选修外出研学课程与性别无关联,则调
查的男生可能有( )
附:
0.05 0.01
3.841 6.635
,其中 .
A.150人 B.220人 C.300人 D.350人


[解析] 设男生和女生人数均为,根据题意可得 列联
表如下:
单位:人
是否选修外出研 学课程 性别 合计
男生 女生 是

合计
零假设为选修外出研学课程与性别无关联,
则 ,
依据小概率值 的独立性检验认为选修外出研学课程与性
别有关联,依据小概率值 的独立性检验认为选修外出研学课
程与性别无关联,
,解得,
则 , .故选 .
14.某部门在一次培训学习后,对同一工作小组中的5名员工采取如下
考核制度:
①在本季度末,从部门中另抽120人,每人1票,对这5名员工进行投票;
②在本季度末,统计这5名员工本季度创造的营销收入.
记员工本季度创造的营销收入为(单位:千元),所得票数为 ,
现将5人的情况用数对表示:,,, ,
关于的样本相关系数为,部门规定:若 ,则认
为本次统计数据异常.
(1)证明:本次统计数据异常;
证明:由已知得

故该工作小组本次统计数据异常.
(2)经查验,本季度创造的营销收入最少的员工的数据存在异常,将其
剔除后,求关于 的经验回归方程.(系数精确到个位数)
附:对于一组数据,, , ,经验回归方程
的斜率和截距的最小二乘估计公式分别为:
,;样本相关系数 .
参考数据:,, ,,
,, .#2.4
解:将本季度创造的营销收入最少,即营销收入为75千元的员工数
据剔除,剔除数据后的, .
代入计算得 ,
, .
设剔除异常数据后,关于的经验回归方程为 ,
则 ,
所以 ,
故所求经验回归方程为 .
知识聚焦
1.(2)增加 减小 (3)一条直线 (4)①正相关 负相关 ②强 弱 2.小
横轴 窄 大 2. 独立
课前演练
(1)√ (2)√ (3)× (4)× 1.A 2.D 3. 4.6.1
课堂考点探究
例1(1)D (2)D 【对点演练1】(1)C (2)C 例2(1)D (2)D
(3)①, 两个变量的线性相关程度很强;
②所求经验回归方程为,预测153天时的累计票房为1151.56亿元,
远超过实际票房,故该预测方法不合理.
例3(1)C (2)(i)从样本相关系数的角度分析,模型的拟合效
果更好.(ii) .
【对点演练2】(1)A (2)ABC (3)①关于的经验回归方程为
.②预测投资金额为20万元时的年利润增量为42.75万元.
例4(1)B (2)① 列联表如下:
单位:人
组别 应用体验是否良好 合计
是 否 青年用户 120 30 150
中年用户 60 90 150
合计 180 120 300
认为用户的年龄段与对该软件的应用体验是否良好有关联,此推断犯错误的概
率不大于0.001.
【对点演练3】(1)B (2)①该地区29 000名学生中日均体育锻炼时长
不小于1小时的人数约为12 500. ②该地区初中学生日均体育锻炼时长约为0.9小时.
③认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关联,该推
断犯错误的概不超过0.05.
教师备用习题
例(1)BD (2)ABC
夯实基础
1.B 2.C 3.C 4.D 5.B 6.C 7.AB 8.BD 9.4
10.(1),预测第8个月的旅游人数为130万人.
(2)50 20 50 120 80 200 认为游客是否满意与性别有关.
综合提升
11.AC 12.BC 13.BC
14.(1)证明:略
(2)所求经验回归方程为.第54讲 成对数据的统计分析
【备选理由】 例题中(1)(2)综合性强,让学生更加全面地掌握成对数据的统计分析问题.
[配合探究点二、三使用] (1)(多选题)下列说法中正确的是 ( BD )
A.经验回归直线=x+恒过点(,),且至少过一个样本点
B.用决定系数R2来刻画回归效果时,R2越接近1,说明模型的拟合效果越好
C.将一组数据中的每一个数据都加上同一个正数后,标准差变大
D.基于小概率值α的检验规则是:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α
(2)(多选题)[2025·山东泰安联考] 某企业为了研究物流成本和企业利润的数据关系,记录了1月到8月的物流成本x(单位:万元)和企业利润y(单位:万元)的数据(xi,yi)(i=1,2,…,8),已知其中一组数据为(80,106)且xi=672,根据最小二乘法公式求得经验回归方程为=2.7x-111.8,则下列说法中正确的是 ( ABC )
A.若企业9月份物流成本预计为85万元,则预测9月份企业利润约为117.7万元
B.1月到8月企业的月平均利润约为115万元
C.数据(80,106)对应的残差为1.8
D.删除一组数据(80,106)后,重新求得的经验回归直线的斜率变小
[解析] (1)对于A,经验回归直线=x+恒过点(,),但不一定会过样本点,故A错误;对于B,用决定系数R2来刻画回归效果时,R2越接近1,说明模型的拟合效果越好,故B正确;对于C,将一组数据中的每一个数据都加上或减去同一个常数后,数据的波动性不变,故方差不变,则标准差不变,故C错误;对于D,根据独立性检验可知D正确.故选BD.
(2)对于A,经验回归方程为=2.7x-111.8,则当x=85时,=2.7×85-111.8=117.7,故预测9月份企业利润约为117.7万元,故A正确;

展开更多......

收起↑

资源列表