第九章 第3节 成对数据的统计分析(课件 学案)2026届高中数学大一轮复习

资源下载
  1. 二一教育资源

第九章 第3节 成对数据的统计分析(课件 学案)2026届高中数学大一轮复习

资源简介

第3节 成对数据的统计分析
[课程标准要求]
1.了解样本相关系数的统计含义.
2.了解最小二乘法原理,掌握求一元线性回归模型参数的最小二乘估计的方法.
3.针对实际问题,会用一元线性回归模型进行预测.
1.变量的相关关系
(1)相关关系的分类:正相关和负相关.
(2)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
2.样本相关系数
(1)样本相关系数r的计算.
变量x和变量y的样本相关系数r的计算公式如下:r=.
(2)样本相关系数r的性质.
①当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关;当r=0时,称成对样本数据间没有线性相关关系.
②样本相关系数r的取值范围为[-1,1].
当|r|越接近1时,成对样本数据的线性相关程度越强;
当|r|越接近0时,成对样本数据的线性相关程度越弱.
3.一元线性回归模型
(1)我们将=x+称为Y关于x的经验回归方程,其中
(2)残差.
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值所得的差称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等.
(3)决定系数.
R2=1-,R2越大,模型的拟合效果越好,R2越小,模型的拟合效果越差.
4.列联表与独立性检验
(1)关于分类变量X和Y的抽样数据的2×2列联表.
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
随机变量
χ2=.
(2)独立性检验.
基于小概率值α的检验规则是:
当χ2≥xα时,我们推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2下表给出了χ2独立性检验中5个常用的小概率值和相应的临界值.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
1.求解经验回归方程的关键是确定参数,,应充分利用经验回归直线过样本点的中心(,).
2.根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则两个分类变量有关的把握越大.
1.(2024·天津卷)下列图中,线性相关系数最大的是(  )
[A] [B]
[C] [D]
2.(人教A版选择性必修第三册P111示例改编)设某制造公司进行技术升级后的第x个月(x=1,2,3,4,5)的利润为y(单位:百万元),根据统计数据,求得y关于x的经验回归方程为=6x+3,若x=1时的观测值y=10,则x=1时的残差为(  )
[A] -1 [B] 1 [C] 3 [D] 6
3.某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到两种疗法治疗数据的列联表:
单位:人
疗法 疗效 合计
未治愈 治愈
甲 15 52 67
乙 6 63 69
合计 21 115 136
经计算得到χ2≈4.881,根据小概率值α=0.005的独立性检验(已知χ2独立性检验中x0.005=7.879),则可以认为两种疗法的效果     差异(选填“有”或“没有”).
4.(苏教版选择性必修第二册P187 T6改编)已知由样本数据(xi,yi)(i=1,2,3,…,10)组成一个样本,可得到经验回归方程为=2x+,且=3,=4.7,则x=4的预测值为    .
考点一 成对数据的相关性
1.(2025·山西太原模拟)观察下列散点图,关于两个变量x,y的相关关系推断正确的是(  )
[A] (1)正相关,(2)不相关,(3)负相关
[B] (1)正相关,(2)负相关,(3)不相关
[C] (1)负相关,(2)不相关,(3)正相关
[D] (1)负相关,(2)正相关,(3)不相关
2.(2025·江西南昌模拟)对两组数据x,y和v,u分别进行回归分析,得到散点图如图(1)(2),并求得经验回归方程分别是=x+和=v+,同时对变量x,y进行线性相关检验,得到样本相关系数r1,对变量v,u进行线性相关检验,得到样本相关系数r2,则下列判断正确的是(  )
[A] >0 [B] <0
[C] |r1|<|r2| [D] r1+r2<0
3.(2025·江苏扬州模拟)设变量X和变量Y的样本相关系数为r1,变量U和变量V的样本相关系数为r2,且r1=-0.734,r2=0.984,则(  )
[A] X和Y之间呈正线性相关关系,且X和Y的线性相关程度强于U和V的线性相关程度
[B] X和Y之间呈负线性相关关系,且X和Y的线性相关程度强于U和V的线性相关程度
[C] U和V之间呈负线性相关关系,且X和Y的线性相关程度弱于U和V的线性相关程度
[D] U和V之间呈正线性相关关系,且X和Y的线性相关程度弱于U和V的线性相关程度
判定两个变量相关性的方法
(1)画散点图:若点的分布从左下角到右上角,则两个变量正相关;若点的分布从左上角到右下角,则两个变量负相关.
(2)样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近1,相关性越强.
(3)经验回归方程:当>0时,正相关;当<0时,负相关.
考点二 回归模型及其应用
角度1 一元线性回归模型
[例1] (2025·福建龙岩模拟)随着电商事业的快速发展,网络购物交易额也快速提升,某网上交易平台工作人员对2020年至2024年每年的交易额(取近似值)进行统计分析,结果如
下表:
年份 2020 2021 2022 2023 2024
年份 代码t 1 2 3 4 5
交易额 y/百亿 1.5 2 3.5 8 15
(1)据上表数据,计算y与t的样本相关系数r,并说明y与t的线性相关性的强弱;(已知:0.75<|r|<1,则认为y与t线性相关性很强;0.3<|r|≤0.75,则认为y与t线性相关性一般;|r|≤0.3,则认为y与t线性相关性较弱)
(2)利用最小二乘法建立y关于t的经验回归方程,并预测2026年该平台的交易额.
参考数据:(ti-)(yi-)=33,(yi-)2=127.5,≈7.14.
求经验回归方程的步骤
角度2 非线性回归模型
[例2] (2025·福建福州模拟)中国茶文化博大精深,饮茶深受大众喜爱,茶水的口感与茶叶类型和水的温度有关,某数学建模小组为了获得茶水温度y(单位:℃)关于时间x(单位:min)的回归模型,通过实验收集在25 ℃室温,用85 ℃的水冲泡的条件下,茶水温度随时间变化的数据,并对数据进行初步处理得到如图所示散点图,他们分别用两种模型①y=a+bx与②y=d·cx+25进行拟合,得到相应的经验回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值.
(xi-)(yi-) (xi-)(ωi-)
72.33 3.84 -109.7 -2.324
表中:ωi=ln(yi-25),=ωi.
(1)根据残差图判断,①y=a+bx与②y=d·cx+25哪一个更适宜作为该茶水温度y关于时间x的经验回归方程类型 请说明理由;
(2)根据(1)的判断结果及表中数据,建立该茶水温度y关于时间x的经验回归方程;
(3)已知该茶水温度降至60 ℃口感最佳,根据(2)中的经验回归方程,求在相同条件下冲泡的茶水,大约需要放置多长时间才能达到最佳饮用口感.(结果精确到1分钟)
附:①对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归直线=+u的斜率和截距的最小二乘估计分别为=,=.
②参考数据:e-0.083≈0.92,e4.089≈60,ln ≈-0.54.
求非线性经验回归方程的步骤
(1)确定变量,作出散点图.
(2)根据散点图,选择恰当的拟合函数.
(3)变量置换,通过变量置换把非线性回归问题转化为一元线性回归问题,并求出经验回归方程.
(4)根据相应的变换,写出非线性经验回归方程.
[针对训练]
1.(角度1)(2025·河南南阳模拟)研究人员为了解某品种鳄鱼的生长发育情况,随机抽取了6只该品种鳄鱼,测量它们的头长x(单位:cm)与体长y(单位:cm),得到如下数据:
样本 编号i 1 2 3 4 5 6
头长xi 15 15.3 15.3 16.6 16.8 17
体长yi 125 128 130 138 142 153
并计算得(xi-)2≈4,(yi-)2=550,(xi-)·(yi-)≈44.
参考公式:r=.
(1)求这6只鳄鱼的平均头长与平均体长;
(2)求鳄鱼的头长与体长的样本相关系数;(精确到0.01)
(3)已知x与y可以用模型y=bx-40进行拟合,若某只鳄鱼的头长为20 cm,利用所给数据估计这只鳄鱼的体长.(附:≈2.35)
2.(角度2)(2025·山西太原模拟)山西某地打造旅游特色村,鼓励当地村民将自己闲置房改造成民宿出租,增加村民收入.为了解在旅游淡季民宿的出租情况,随机选取6间民宿进行调查,统计它们在淡季的100天里的出租情况,得到每间民宿租金x(单位:元/日)与其出租率y(出租天数/100)的对应关系表和散点图如下:
租金 88 128 188 288 388 488
出租率 0.9 0.7 0.5 0.3 0.2 0.15
(1)请根据散点图判断,y=bx+a与y=cln x+d哪个更适合此模型(不用证明),并根据下表数据(表中z=ln x),求其相应的经验回归方程(保留小数点后一位).
261.3
0.46
5.4
121 437.86
1.97
(xi-)(yi-) -221.19
(zi-)(yi-) -1.04
(2)已知该地一年旅游淡季按100天计算,在此期间,民宿无论是否出租,每天都要支出租金x的10%的费用.若民宿出租,则每天需要再支付租金x的10%的开支.请用(1)中结论的模型,计算租金x为多少元时,该民宿在这100天内的收益W最大.
附:e5.2≈181,e5.3≈200.
考点三 独立性检验
[例3] 某工厂进行生产线智能化升级改造.升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
项目 优级品 合格品 不合 格品 合计
甲车间 26 24 0 50
乙车间 70 28 2 100
合计 96 52 2 150
(1)填写如下列联表:
单位:件
车间 产品
优级品 非优级品
甲车间
乙车间
依据小概率值α=0.05和α=0.01的独立性检验,能否认为甲、乙两车间产品的优级品率存在差异
(2)已知升级改造前该工厂产品的优级品率p=0.5,设为升级改造后抽取的n件产品的优级品率.如果>p+1.65,则认为该工厂产品的优级品率提高了,根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了 (≈12.247)
附:χ2=,n=a+b+c+d.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式χ2=计算χ2的值.
(3)比较χ2与临界值的大小关系,进行统计推断.
[针对训练] 为调查某校学生每周平均体育运动时间的情况,从高一、高二基础年级与高三三个年级学生中按照4∶3∶3的比例分层随机抽样,收集300名学生每周平均体育运动时间的样本数据(单位:小时),得到如图所示的频率分布直方图.(已知高一年级共有1 200名学生)
(1)据图估计该校学生每周平均体育运动时间,并估计高一年级每周平均体育运动时间不足4小时的人数;
(2)在样本数据中,有30名高三学生的每周平均体育运动时间不少于6小时,请完成下列2×2列联表,并根据小概率值α=0.01的独立性检验,判断能否认为该校学生的每周平均体育运动时间是否不少于6小时与年级有关
单位:人
运动时间 年级 合计
基础年级 高三
不少于6小时
少于6小时
合计 300
附:χ2=,n=a+b+c+d.
α 0.1 0.05 0.01 0.005
xα 2.706 3.841 6.635 7.879
(分值:100分)
选题明细表
知识点、方法 题号
成对数据的相关性、 回归模型及其应用 1,2,3,5,8,10,12,13,15
独立性检验 4,6,7,9,11,14
单选每题5分,多选每题6分,填空每题5分.
1.(2025·河南商丘模拟)某科技公司随着技术的进步和管理的逐渐规范,生产成本逐年降低,该公司对2012年至2024年的生产成本y(单位:万元)进行统计,根据统计数据作出如下散点图:
由此散点图,判断下列四个经验回归方程类型中最适合作为2012年至2024年该公司的生产成本y与时间变量x(x的值依次为1,2,…,13)的经验回归方程类型的是(  )
[A] y=ax2+b(a>0)
[B] y=ax+b(a>0)
[C] y=aln x+b(a<0)
[D] y=+b(a<0)
2.(2025·云南昆明模拟)两个变量y与x的回归模型中,分别选择了4个不同模型,它们的决定系数R2如下,其中拟合效果最好的模型是(  )
[A] 模型1(决定系数R2为0.97)
[B] 模型2(决定系数R2为0.85)
[C] 模型3(决定系数R2为0.40)
[D] 模型4(决定系数R2为0.25)
3.(2025·安徽芜湖模拟)在一组样本数据为(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,x3,…,xn)不全相等的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-x+3上,则这组样本数据的样本相关系数为(  )
[A] - [B]
[C] -1 [D] 1
4.(多选题)(2025·福建南平模拟)为了考查一种新疫苗预防某种疾病的效果,研究人员对一地区某种动物进行试验,从该试验群中随机抽查了46只实验体,得到它们是否接种新疫苗和是否发病情况的相关数据,如表所示,则(  )
单位:只
接种情况 发病情况 合计
发病 未发病
接种新 疫苗 a=12 b a+b
未接种 新疫苗 c d=13 c+d
合计 a+c b+d=28 46
附:χ2=,n=a+b+c+d.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
[A] >
[B] χ2>2.706
[C] 依据α=0.1的独立性检验,认为是否接种新疫苗与是否发病有关联
[D] 依据α=0.1的独立性检验,没有充分的证据推断是否接种新疫苗与是否发病有关联
5.(多选题)(2025·江苏淮安模拟)为了探讨学生的物理成绩y与数学成绩x之间的关系,从某批学生中随机抽取10名学生的成绩(xi,yi)(i=1,2,…,10),并已计算出=80,物理成绩y关于数学成绩x的经验回归方程为=0.8x+12.5,则有(  )
[A] =76.5
[B] 样本相关系数r>0
[C] 样本数据(70,65)的残差为-3.5
[D] 当某学生数学成绩为100时,物理成绩一定为92.5
6.(5分)某驾驶员培训学校对比了解“科目二”的培训过程采用大密度集中培训与周末分散培训两种方式的效果,调查了105名学员,统计结果为:接受大密度集中培训的55名学员中有45名学员考试一次通过,接受周末分散培训的学员考试一次通过的有30名.根据小概率值α=0.05的独立性检验,认为:能否考试一次通过与是否集中培训    (选填“有关”或“无关”).
7.(14分)甲、乙两城之间的长途客车均由A和B两家公司运营.为了解这两家公司长途客车的运营情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
单位:班次
公司 是否准点
准点 未准点
A 240 20
B 210 30
(1)根据上表,分别估计这两家公司在甲、乙两城之间的长途客车准点的概率;
(2)根据小概率值α=0.1的独立性检验,分析能否认为甲、乙两城之间的长途客车是否准点与客车所属公司有关
附:χ2=,n=a+b+c+d.
α 0.1 0.05 0.01
xα 2.706 3.841 6.635
8.(2025·河南郑州模拟)已知变量y关于x的经验回归方程为=,其一组数据如表所示.若x=8,则预测的值为(  )
x 2 3 4 5 6
y e2.5 e3.5 e5 e6.5 e7.5
[A] e10.2 [B] e10
[C] e9.8 [D] e9.5
9.(多选题)(2025·江西南昌模拟)为了解中学生喜爱足球运动与性别是否有关,甲、乙两校的课题组分别随机抽取了本校部分学生进行调查,得到如下两个表格:
单位:人
性别 足球运动 合计
喜爱 不喜爱
男性 15 5 20
女性 8 12 20
合计 23 17 40
甲校样本
单位:人
性别 足球运动 合计
喜爱 不喜爱
男性 70 30 100
女性 45 55 100
合计 115 85 200
乙校样本
参考公式及数据:
χ2=,n=a+b+c+d.
α 0.1 0.01 0.001
xα 2.706 6.635 10.828
则下列判断正确的是(  )
[A] 样本中,甲校男学生喜爱足球运动的比例高于乙校男学生喜爱足球运动的比例
[B] 样本中,甲校女学生喜爱足球运动的比例高于乙校女学生喜爱足球运动的比例
[C] 根据甲校样本,依据小概率值α=0.01的独立性检验,认为中学生喜爱足球运动与性别有关
[D] 根据乙校样本,依据小概率值α=0.01的独立性检验,认为中学生喜爱足球运动与性别有关
10.(多选题)(2025·广西百色模拟)为了研究y关于x的线性相关关系,收集了5对样本数据(见表格),若已求得经验回归方程为=x+0.34,则下列选项中正确的是(  )
x 1 2 3 4 5
y 0.5 0.9 1 1.1 1.5
[A] =0.21
[B] 当x=5时的残差为0.06
[C] 样本数据y的第40百分位数为1
[D] 去掉样本点(3,1)后,y与x的样本相关系数不会改变
11.(2025·黑龙江哈尔滨模拟)针对2025年第9届亚冬会,某校团委对“是否喜欢冰雪运动与学生性别的关系”进行了一次调查,其中被调查的男、女生人数相同,男生中喜欢冰雪运动的人数占男生人数的,女生中喜欢冰雪运动的人数占女生人数的,若依据α=0.05的独立性检验,认为是否喜欢冰雪运动与学生性别有关,则被调查的学生中男生的人数不可能是(  )
附:χ2=,n=a+b+c+d.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
[A] 48 [B] 54 [C] 60 [D] 66
12.(5分)(2025·湖南长沙模拟)对于数据组(xi,yi)(i=1,2,…,n),如果由经验回归方程得到的yi的估计值是,那么将yi-称为样本点(xi,yi)处的残差.某商场为了给一种新商品进行合理定价,将该商品按事先拟定的价格进行试销,得到如表所示数据.
单价x/元 8.2 8.4 8.6 8.8
销量y/件 84 83 78 m
若销量y(单位:件)与单价x(单位:元)之间的经验回归方程为=-20x+,且样本点(8.4,83)处的残差为3,则m=    .
13.(16分)(2025·重庆模拟)某公司为了解年研发资金x(单位:亿元)对年产值y(单位:亿元)的影响,对公司近8年的年研发资金xi和年产值yi(i∈N,1≤i≤8)的数据对比分析中,选用了两个回归模型,并利用最小二乘法求得相应的y关于x的经验回归方程:①=13.05x-48.4;②=0.76x2+.
(1)求的值;
(2)已知①中的残差平方和S1≈3 610,②中的残差平方和S2≈658,请根据决定系数选择拟合效果更好的经验回归方程,并利用该经验回归方程预测年研发资金为20亿元时的年产值.
参考数据:xi=64,yi=448,=684,(yi-)2=32 900.
14.(2025·山西临汾模拟)某机构对某校高中学生的读书情况进行了调查,结果如下:
单位:人
性别 读书情况 合计
喜欢读书 不喜欢读书
男生 260 60 320
女生 200 m m+200
合计 460 m+60 m+520
附:χ2=,其中n=a+b+c+d.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
根据小概率值α=0.001的独立性检验,推断是否喜欢阅读与性别有关,则m的值可以为(  )
[A] 10 [B] 20 [C] 30 [D] 40
15.(多选题)已知由样本数据(xi,yi)(i=1,2,3,…,10)组成的一个样本,得到经验回归方程为=2x-0.4,且=2,去除两个歧义点(-2,1)和(2,-1)后,得到新的经验回归直线的斜率为3,则下列说法正确的是(  )
[A] 相关变量x,y具有正相关关系
[B] 去除两个歧义点后的经验回归方程为=3x-3
[C] 去除两个歧义点后,样本数据(4,8.9)的残差为-0.1
[D] 去除两个歧义点后,随x值增加y值增加速度变小
第3节 成对数据的统计分析(解析版)
[课程标准要求]
1.了解样本相关系数的统计含义.
2.了解最小二乘法原理,掌握求一元线性回归模型参数的最小二乘估计的方法.
3.针对实际问题,会用一元线性回归模型进行预测.
1.变量的相关关系
(1)相关关系的分类:正相关和负相关.
(2)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
2.样本相关系数
(1)样本相关系数r的计算.
变量x和变量y的样本相关系数r的计算公式如下:r=.
(2)样本相关系数r的性质.
①当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关;当r=0时,称成对样本数据间没有线性相关关系.
②样本相关系数r的取值范围为[-1,1].
当|r|越接近1时,成对样本数据的线性相关程度越强;
当|r|越接近0时,成对样本数据的线性相关程度越弱.
3.一元线性回归模型
(1)我们将=x+称为Y关于x的经验回归方程,其中
(2)残差.
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值所得的差称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等.
(3)决定系数.
R2=1-,R2越大,模型的拟合效果越好,R2越小,模型的拟合效果越差.
4.列联表与独立性检验
(1)关于分类变量X和Y的抽样数据的2×2列联表.
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
随机变量
χ2=.
(2)独立性检验.
基于小概率值α的检验规则是:
当χ2≥xα时,我们推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2下表给出了χ2独立性检验中5个常用的小概率值和相应的临界值.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
1.求解经验回归方程的关键是确定参数,,应充分利用经验回归直线过样本点的中心(,).
2.根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则两个分类变量有关的把握越大.
1.(2024·天津卷)下列图中,线性相关系数最大的是(  )
[A] [B]
[C] [D]
【答案】 A
【解析】 观察四幅图可知,A图散点分布比较集中,且大体接近某一条直线,线性回归模型拟合效果比较好,呈现明显的正相关,|r|值相比于其他三图更接近1.故选A.
2.(人教A版选择性必修第三册P111示例改编)设某制造公司进行技术升级后的第x个月(x=1,2,3,4,5)的利润为y(单位:百万元),根据统计数据,求得y关于x的经验回归方程为=6x+3,若x=1时的观测值y=10,则x=1时的残差为(  )
[A] -1 [B] 1 [C] 3 [D] 6
【答案】 B
【解析】 因为x=1时的预测值为=6×1+3=9,所以残差为10-9=1.故选B.
3.某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到两种疗法治疗数据的列联表:
单位:人
疗法 疗效 合计
未治愈 治愈
甲 15 52 67
乙 6 63 69
合计 21 115 136
经计算得到χ2≈4.881,根据小概率值α=0.005的独立性检验(已知χ2独立性检验中x0.005=7.879),则可以认为两种疗法的效果     差异(选填“有”或“没有”).
【答案】 没有
【解析】 零假设为H0:疗法与疗效独立,即两种疗法效果没有差异.χ2≈4.881<7.879=x0.005,根据小概率值α=0.005的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两种疗法效果没有差异.
4.(苏教版选择性必修第二册P187 T6改编)已知由样本数据(xi,yi)(i=1,2,3,…,10)组成一个样本,可得到经验回归方程为=2x+,且=3,=4.7,则x=4的预测值为    .
【答案】 6.7
【解析】 由题意知,将点(3,4.7)代入=2x+,得=-1.3,所以=2x-1.3,将x=4代入=2x-1.3,解得=6.7,所以x=4的预测值为6.7.
考点一 成对数据的相关性
1.(2025·山西太原模拟)观察下列散点图,关于两个变量x,y的相关关系推断正确的是(  )
[A] (1)正相关,(2)不相关,(3)负相关
[B] (1)正相关,(2)负相关,(3)不相关
[C] (1)负相关,(2)不相关,(3)正相关
[D] (1)负相关,(2)正相关,(3)不相关
【答案】 A
【解析】 第一个图点的分布比较集中,且y随x的增加而增加,是正相关;第二个图点的分布比较分散,不相关;第三个图点的分布比较集中,且y随x的增加而减少,是负相关.
故选A.
2.(2025·江西南昌模拟)对两组数据x,y和v,u分别进行回归分析,得到散点图如图(1)(2),并求得经验回归方程分别是=x+和=v+,同时对变量x,y进行线性相关检验,得到样本相关系数r1,对变量v,u进行线性相关检验,得到样本相关系数r2,则下列判断正确的是(  )
[A] >0 [B] <0
[C] |r1|<|r2| [D] r1+r2<0
【答案】 D
【解析】 由散点图可知,x与y负相关,v与u正相关,则<0,>0,故A,B错误;且题图(1)中的点比题图(2)中的点更加集中在一条直线附近,则|r1|>|r2|,又r1<0,r2>0,得r1+r2<0,故C错误,D正确.故选D.
3.(2025·江苏扬州模拟)设变量X和变量Y的样本相关系数为r1,变量U和变量V的样本相关系数为r2,且r1=-0.734,r2=0.984,则(  )
[A] X和Y之间呈正线性相关关系,且X和Y的线性相关程度强于U和V的线性相关程度
[B] X和Y之间呈负线性相关关系,且X和Y的线性相关程度强于U和V的线性相关程度
[C] U和V之间呈负线性相关关系,且X和Y的线性相关程度弱于U和V的线性相关程度
[D] U和V之间呈正线性相关关系,且X和Y的线性相关程度弱于U和V的线性相关程度
【答案】 D
【解析】 由样本相关系数r1=-0.734<0,可知变量X与Y之间呈负线性相关关系,由样本相关系数r2=0.984>0,可知变量U与V之间呈正线性相关关系,又|r1|<|r2|,所以X与Y的线性相关程度弱于U与V的线性相关程度.故选D.
判定两个变量相关性的方法
(1)画散点图:若点的分布从左下角到右上角,则两个变量正相关;若点的分布从左上角到右下角,则两个变量负相关.
(2)样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近1,相关性越强.
(3)经验回归方程:当>0时,正相关;当<0时,负相关.
考点二 回归模型及其应用
角度1 一元线性回归模型
[例1] (2025·福建龙岩模拟)随着电商事业的快速发展,网络购物交易额也快速提升,某网上交易平台工作人员对2020年至2024年每年的交易额(取近似值)进行统计分析,结果如
下表:
年份 2020 2021 2022 2023 2024
年份 代码t 1 2 3 4 5
交易额 y/百亿 1.5 2 3.5 8 15
(1)据上表数据,计算y与t的样本相关系数r,并说明y与t的线性相关性的强弱;(已知:0.75<|r|<1,则认为y与t线性相关性很强;0.3<|r|≤0.75,则认为y与t线性相关性一般;|r|≤0.3,则认为y与t线性相关性较弱)
(2)利用最小二乘法建立y关于t的经验回归方程,并预测2026年该平台的交易额.
参考数据:(ti-)(yi-)=33,(yi-)2=127.5,≈7.14.
【解】 (1)依题意,==3,(ti-)(yi-)=33,(yi-)2=127.5,
(ti-)2=(-2)2+(-1)2+02+12+22=10,
故r===≈≈0.92>0.75,
所以线性相关性很强.
(2)==6,
==3.3,则==6-3.3×3=-3.9,
所以y关于t的经验回归方程为=3.3t-3.9,当t=7时,=3.3×7-3.9=19.2,
所以预测2026年该平台的交易额为19.2百亿.
求经验回归方程的步骤
角度2 非线性回归模型
[例2] (2025·福建福州模拟)中国茶文化博大精深,饮茶深受大众喜爱,茶水的口感与茶叶类型和水的温度有关,某数学建模小组为了获得茶水温度y(单位:℃)关于时间x(单位:min)的回归模型,通过实验收集在25 ℃室温,用85 ℃的水冲泡的条件下,茶水温度随时间变化的数据,并对数据进行初步处理得到如图所示散点图,他们分别用两种模型①y=a+bx与②y=d·cx+25进行拟合,得到相应的经验回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值.
(xi-)(yi-) (xi-)(ωi-)
72.33 3.84 -109.7 -2.324
表中:ωi=ln(yi-25),=ωi.
(1)根据残差图判断,①y=a+bx与②y=d·cx+25哪一个更适宜作为该茶水温度y关于时间x的经验回归方程类型 请说明理由;
(2)根据(1)的判断结果及表中数据,建立该茶水温度y关于时间x的经验回归方程;
(3)已知该茶水温度降至60 ℃口感最佳,根据(2)中的经验回归方程,求在相同条件下冲泡的茶水,大约需要放置多长时间才能达到最佳饮用口感.(结果精确到1分钟)
附:①对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归直线=+u的斜率和截距的最小二乘估计分别为=,=.
②参考数据:e-0.083≈0.92,e4.089≈60,ln ≈-0.54.
【解】 (1)应该选择模型②,因为模型②的残差点比较均匀地落在水平的带状区域中,且模型②的带状区域比模型①的带状区域窄.
所以模型②的拟合精度高,经验回归方程的预测精度高.
(2)由y=d·cx+25得y-25=d·cx,两边取自然对数得ln(y-25)=ln(d·cx)=ln d+xln c,
设ω=ln(y-25),α=ln d, β=ln c,则=x+,又==3,
(xi-)2=28,所以===-0.083,
故==3.84+0.083×3=4.089,
结合参考数据,由=-0.083=ln 得=e-0.083≈0.92,
由=4.089=ln 得=e4.089≈60.
所以该茶水温度y关于时间x的经验回归方程为=·+25=60×0.92x+25.
(3)在25 ℃室温下,茶水温度降至60 ℃口感最佳,
由60=60×0.92x+25得,0.92x==,
对等式两边取自然对数,
得x·ln 0.92=ln ≈-0.54,
则x≈≈=≈6.506≈7,
所以大约需要放置7分钟才能达到最佳饮用口感.
求非线性经验回归方程的步骤
(1)确定变量,作出散点图.
(2)根据散点图,选择恰当的拟合函数.
(3)变量置换,通过变量置换把非线性回归问题转化为一元线性回归问题,并求出经验回归方程.
(4)根据相应的变换,写出非线性经验回归方程.
[针对训练]
1.(角度1)(2025·河南南阳模拟)研究人员为了解某品种鳄鱼的生长发育情况,随机抽取了6只该品种鳄鱼,测量它们的头长x(单位:cm)与体长y(单位:cm),得到如下数据:
样本 编号i 1 2 3 4 5 6
头长xi 15 15.3 15.3 16.6 16.8 17
体长yi 125 128 130 138 142 153
并计算得(xi-)2≈4,(yi-)2=550,(xi-)·(yi-)≈44.
参考公式:r=.
(1)求这6只鳄鱼的平均头长与平均体长;
(2)求鳄鱼的头长与体长的样本相关系数;(精确到0.01)
(3)已知x与y可以用模型y=bx-40进行拟合,若某只鳄鱼的头长为20 cm,利用所给数据估计这只鳄鱼的体长.(附:≈2.35)
【解】 (1)平均头长为=15+×(0+0.3+0.3+1.6+1.8+2)=16(cm),平均体长为=130+×(-5-2+0+8+12+23)=136(cm).
(2)由题可知r=≈=≈≈0.94.
(3)由题意知=-40,所以==11,所以=11x-40,令x=20,得=180,
因此估计这只鳄鱼的体长为180 cm.
2.(角度2)(2025·山西太原模拟)山西某地打造旅游特色村,鼓励当地村民将自己闲置房改造成民宿出租,增加村民收入.为了解在旅游淡季民宿的出租情况,随机选取6间民宿进行调查,统计它们在淡季的100天里的出租情况,得到每间民宿租金x(单位:元/日)与其出租率y(出租天数/100)的对应关系表和散点图如下:
租金 88 128 188 288 388 488
出租率 0.9 0.7 0.5 0.3 0.2 0.15
(1)请根据散点图判断,y=bx+a与y=cln x+d哪个更适合此模型(不用证明),并根据下表数据(表中z=ln x),求其相应的经验回归方程(保留小数点后一位).
261.3
0.46
5.4
121 437.86
1.97
(xi-)(yi-) -221.19
(zi-)(yi-) -1.04
(2)已知该地一年旅游淡季按100天计算,在此期间,民宿无论是否出租,每天都要支出租金x的10%的费用.若民宿出租,则每天需要再支付租金x的10%的开支.请用(1)中结论的模型,计算租金x为多少元时,该民宿在这100天内的收益W最大.
附:e5.2≈181,e5.3≈200.
【解】 (1)由散点图知,选y=cln x+d更合适.
由z=ln x,得=z+,
则==≈-0.5,
=≈0.46-(-0.5)×5.4≈3.2,
所以=-0.5z+3.2=-0.5ln x+3.2.
(2)依题意,W=100(xy-0.1xy-0.1x)=10x(9y-1)=10x[9(-0.5ln x+3.2)-1]
=10x(-4.5ln x+27.8),求导得W′=10(-4.5·ln x+23.3),
令W′=0,得ln x=≈5.2,解得x≈e5.2≈181,
当x∈(0,181)时,W′>0,W随着x的增大而增大,
当x∈(181,+∞)时,W′<0,W随着x的增大而减小,
所以当x=181时,民宿在这100天内的收益W最大.
考点三 独立性检验
[例3] 某工厂进行生产线智能化升级改造.升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
项目 优级品 合格品 不合 格品 合计
甲车间 26 24 0 50
乙车间 70 28 2 100
合计 96 52 2 150
(1)填写如下列联表:
单位:件
车间 产品
优级品 非优级品
甲车间
乙车间
依据小概率值α=0.05和α=0.01的独立性检验,能否认为甲、乙两车间产品的优级品率存在差异
(2)已知升级改造前该工厂产品的优级品率p=0.5,设为升级改造后抽取的n件产品的优级品率.如果>p+1.65,则认为该工厂产品的优级品率提高了,根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了 (≈12.247)
附:χ2=,n=a+b+c+d.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
[溯源探本] 本例题源于人教A版选择性必修第三册P132例3.
【解】 (1)根据题意可得列联表:
单位:件
车间 产品
优级品 非优级品
甲车间 26 24
乙车间 70 30
可得χ2===4.687 5,因为3.841<4.687 5<6.635,所以依据小概率值α=0.05的独立性检验,可以认为甲、乙两车间产品的优级品率存在差异,依据α=0.01的独立性检验,不能认为甲、乙两车间产品的优级品率存在差异.
(2)由题意可知,生产线智能化升级改造后,该工厂产品的优级品的频率为=0.64,
用频率估计概率可得=0.64,又因为升级改造前该工厂产品的优级品率p=0.5,则p+1.65=0.5+1.65≈0.5+1.65×≈0.567,可知>p+1.65,所以可以认为生产线智能化升级改造后,该工厂产品的优级品率提高了.
独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式χ2=计算χ2的值.
(3)比较χ2与临界值的大小关系,进行统计推断.
[针对训练] 为调查某校学生每周平均体育运动时间的情况,从高一、高二基础年级与高三三个年级学生中按照4∶3∶3的比例分层随机抽样,收集300名学生每周平均体育运动时间的样本数据(单位:小时),得到如图所示的频率分布直方图.(已知高一年级共有1 200名学生)
(1)据图估计该校学生每周平均体育运动时间,并估计高一年级每周平均体育运动时间不足4小时的人数;
(2)在样本数据中,有30名高三学生的每周平均体育运动时间不少于6小时,请完成下列2×2列联表,并根据小概率值α=0.01的独立性检验,判断能否认为该校学生的每周平均体育运动时间是否不少于6小时与年级有关
单位:人
运动时间 年级 合计
基础年级 高三
不少于6小时
少于6小时
合计 300
附:χ2=,n=a+b+c+d.
α 0.1 0.05 0.01 0.005
xα 2.706 3.841 6.635 7.879
【解】 (1)该校学生每周平均体育运动时间约为=1×0.05+3×0.2+5×0.3+7×0.25+9×0.15+11×0.05=5.8.
样本中高一年级每周平均体育运动时间不足4小时的人数为300××(0.025×2+0.100×2)=30.
又样本中高一年级有120人,所以估计高一年级每周平均体育运动时间不足4小时的人数为1 200×=300.
(2)列联表如下:
单位:人
运动时间 年级 合计
基础年级 高三
不少于6小时 105 30 135
少于6小时 105 60 165
合计 210 90 300
零假设为H0:该校学生的每周平均体育运动时间是否不少于6小时与年级无关.
则χ2==≈7.071>6.635=x0.01.
依据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为该校学生的每周平均体育运动时间是否不少于6小时与年级有关,此推断犯错误的概率不大于0.01.
(分值:100分)
选题明细表
知识点、方法 题号
成对数据的相关性、 回归模型及其应用 1,2,3,5,8,10,12,13,15
独立性检验 4,6,7,9,11,14
单选每题5分,多选每题6分,填空每题5分.
1.(2025·河南商丘模拟)某科技公司随着技术的进步和管理的逐渐规范,生产成本逐年降低,该公司对2012年至2024年的生产成本y(单位:万元)进行统计,根据统计数据作出如下散点图:
由此散点图,判断下列四个经验回归方程类型中最适合作为2012年至2024年该公司的生产成本y与时间变量x(x的值依次为1,2,…,13)的经验回归方程类型的是(  )
[A] y=ax2+b(a>0)
[B] y=ax+b(a>0)
[C] y=aln x+b(a<0)
[D] y=+b(a<0)
【答案】 C
【解析】 根据题中散点图可知,散点大致分布在一条“对数型”函数曲线的周围,且是减少的,而A选项是“抛物线型”的拟合函数,且是增加的;B选项是“直线型”的拟合函数,且是增加的;D选项是“幂函数型”的拟合函数,且是增加的,只有C选项的拟合函数符合题意.
故选C.
2.(2025·云南昆明模拟)两个变量y与x的回归模型中,分别选择了4个不同模型,它们的决定系数R2如下,其中拟合效果最好的模型是(  )
[A] 模型1(决定系数R2为0.97)
[B] 模型2(决定系数R2为0.85)
[C] 模型3(决定系数R2为0.40)
[D] 模型4(决定系数R2为0.25)
【答案】 A
【解析】 在两个变量y与x的回归模型中,它们的决定系数R2越接近1,模型拟合效果越好,在四个选项中A的决定系数最大,所以拟合效果最好的是模型1.故选A.
3.(2025·安徽芜湖模拟)在一组样本数据为(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,x3,…,xn)不全相等的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-x+3上,则这组样本数据的样本相关系数为(  )
[A] - [B]
[C] -1 [D] 1
【答案】 C
【解析】 由题意可得这两个变量是负相关,故这组样本数据的样本相关系数为负值,且所有样本点(xi,yi)(i=1,2,…,n)都在直线上,则有|r|=1,所以样本相关系数r=-1.故选C.
4.(多选题)(2025·福建南平模拟)为了考查一种新疫苗预防某种疾病的效果,研究人员对一地区某种动物进行试验,从该试验群中随机抽查了46只实验体,得到它们是否接种新疫苗和是否发病情况的相关数据,如表所示,则(  )
单位:只
接种情况 发病情况 合计
发病 未发病
接种新 疫苗 a=12 b a+b
未接种 新疫苗 c d=13 c+d
合计 a+c b+d=28 46
附:χ2=,n=a+b+c+d.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
[A] >
[B] χ2>2.706
[C] 依据α=0.1的独立性检验,认为是否接种新疫苗与是否发病有关联
[D] 依据α=0.1的独立性检验,没有充分的证据推断是否接种新疫苗与是否发病有关联
【答案】 AD
【解析】 由表中数据易得a=12,b=15,c=6,d=13,a+b=27,c+d=19,a+c=18,b+d=28.对于A,=>=,故A正确;对于B,χ2=≈0.775<2.706=x0.1,故B错误;对于C,D,依据α=0.1的独立性检验,没有充分的证据推断是否接种新疫苗与是否发病有关联,故C错误,D正确.故选AD.
5.(多选题)(2025·江苏淮安模拟)为了探讨学生的物理成绩y与数学成绩x之间的关系,从某批学生中随机抽取10名学生的成绩(xi,yi)(i=1,2,…,10),并已计算出=80,物理成绩y关于数学成绩x的经验回归方程为=0.8x+12.5,则有(  )
[A] =76.5
[B] 样本相关系数r>0
[C] 样本数据(70,65)的残差为-3.5
[D] 当某学生数学成绩为100时,物理成绩一定为92.5
【答案】 ABC
【解析】 因为经验回归直线必过样本中心点(,),由题意可得=0.8×80+12.5=76.5,故A正确;因为0.8>0,即经验回归方程=0.8x+12.5的图象是上升的,可知y与x满足正相关,所以样本相关系数r>0,故B正确;令x=70,可得=0.8×70+12.5=68.5,所以样本数据(70,65)的残差为65-68.5=-3.5,故C正确;令x=100,可得=0.8×100+12.5=92.5,但经验回归方程只能用于预测结果,并不一定与实际结果完全相等,所以预测物理成绩为92.5,故D错误.故选ABC.
6.(5分)某驾驶员培训学校对比了解“科目二”的培训过程采用大密度集中培训与周末分散培训两种方式的效果,调查了105名学员,统计结果为:接受大密度集中培训的55名学员中有45名学员考试一次通过,接受周末分散培训的学员考试一次通过的有30名.根据小概率值α=0.05的独立性检验,认为:能否考试一次通过与是否集中培训    (选填“有关”或“无关”).
【答案】 有关
【解析】 依题意,2×2列联表如下:
单位:人
考试结果 培训 合计
集中培训 分散培训
考试一次 通过 45 30 75
考试一次 未通过 10 20 30
合计 55 50 105
则χ2=≈6.109>3.841,因此根据小概率值α=0.05的独立性检验,可以认为能否考试一次通过与是否集中培训有关.
7.(14分)甲、乙两城之间的长途客车均由A和B两家公司运营.为了解这两家公司长途客车的运营情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
单位:班次
公司 是否准点
准点 未准点
A 240 20
B 210 30
(1)根据上表,分别估计这两家公司在甲、乙两城之间的长途客车准点的概率;
(2)根据小概率值α=0.1的独立性检验,分析能否认为甲、乙两城之间的长途客车是否准点与客车所属公司有关
附:χ2=,n=a+b+c+d.
α 0.1 0.05 0.01
xα 2.706 3.841 6.635
【解】 (1)根据表中数据,A公司共有班次260个,准点班次有240个,
设“A公司长途客车准点”为事件M,
则P(M)==.
B公司共有班次240个,准点班次有210个,
设“B公司长途客车准点”为事件N,
则P(N)==.
所以估计A公司长途客车准点的概率为,
B公司长途客车准点的概率为.
(2)列联表如下:
单位:班次
公司 是否准点 合计
准点 未准点
A 240 20 260
B 210 30 240
合计 450 50 500
零假设为H0:甲、乙两城之间的长途客车是否准点与客车所属公司无关.
χ2=≈3.205>2.706=x0.1,
根据小概率值α=0.1的独立性检验,推断H0不成立,即认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.
8.(2025·河南郑州模拟)已知变量y关于x的经验回归方程为=,其一组数据如表所示.若x=8,则预测的值为(  )
x 2 3 4 5 6
y e2.5 e3.5 e5 e6.5 e7.5
[A] e10.2 [B] e10
[C] e9.8 [D] e9.5
【答案】 A
【解析】 由=得,ln =x-0.2,令z=ln y,即=x-0.2,因为==4,
===5,将点(4,5)代入经验回归方程=x-0.2中,即5=4-0.2,可得=1.3,所以经验回归方程为=e1.3x-0.2,若x=8,则=e1.3×8-0.2=e10.2.故选A.
9.(多选题)(2025·江西南昌模拟)为了解中学生喜爱足球运动与性别是否有关,甲、乙两校的课题组分别随机抽取了本校部分学生进行调查,得到如下两个表格:
单位:人
性别 足球运动 合计
喜爱 不喜爱
男性 15 5 20
女性 8 12 20
合计 23 17 40
甲校样本
单位:人
性别 足球运动 合计
喜爱 不喜爱
男性 70 30 100
女性 45 55 100
合计 115 85 200
乙校样本
参考公式及数据:
χ2=,n=a+b+c+d.
α 0.1 0.01 0.001
xα 2.706 6.635 10.828
则下列判断正确的是(  )
[A] 样本中,甲校男学生喜爱足球运动的比例高于乙校男学生喜爱足球运动的比例
[B] 样本中,甲校女学生喜爱足球运动的比例高于乙校女学生喜爱足球运动的比例
[C] 根据甲校样本,依据小概率值α=0.01的独立性检验,认为中学生喜爱足球运动与性别有关
[D] 根据乙校样本,依据小概率值α=0.01的独立性检验,认为中学生喜爱足球运动与性别有关
【答案】 AD
【解析】 甲校男学生喜爱足球运动的比例为=,乙校男学生喜爱足球运动的比例为=<,即样本中,甲校男学生喜爱足球运动的比例高于乙校男学生喜爱足球运动的比例,故A正确;甲校女学生喜爱足球运动的比例为=,乙校女学生喜爱足球运动的比例为=>,即样本中,甲校女学生喜爱足球运动的比例低于乙校女学生喜爱足球运动的比例,故B错误;甲校中χ2=≈5.013<6.635,所以对于甲校样本,依据小概率值α=0.01的独立性检验,不能认为中学生喜爱足球运动与性别有关,故C错误;乙校中χ2=≈12.788>6.635,所以对于乙校样本,依据小概率值α=0.01的独立性检验,可以认为中学生喜爱足球运动与性别有关,故D正确.故选AD.
10.(多选题)(2025·广西百色模拟)为了研究y关于x的线性相关关系,收集了5对样本数据(见表格),若已求得经验回归方程为=x+0.34,则下列选项中正确的是(  )
x 1 2 3 4 5
y 0.5 0.9 1 1.1 1.5
[A] =0.21
[B] 当x=5时的残差为0.06
[C] 样本数据y的第40百分位数为1
[D] 去掉样本点(3,1)后,y与x的样本相关系数不会改变
【答案】 BD
【解析】 由==3,==1,所以样本中心点为(3,1),对于A,将它代入=x+0.34,得3+0.34=1,解得=0.22,故A错误;对于B,当x=5时,=1.44,所以残差为y-=1.5-1.44=0.06,故B正确;对于C,样本数据y的第40百分位数为=0.95,故C错误;对于D,由样本相关系数公式可知,r=,所以5组样本数据的样本相关系数为r==,去掉样本中心点(3,1)后样本相关系数为r=,
所以去掉样本点(3,1)后,y与x的样本相关系数r不会改变,故D正确.故选BD.
11.(2025·黑龙江哈尔滨模拟)针对2025年第9届亚冬会,某校团委对“是否喜欢冰雪运动与学生性别的关系”进行了一次调查,其中被调查的男、女生人数相同,男生中喜欢冰雪运动的人数占男生人数的,女生中喜欢冰雪运动的人数占女生人数的,若依据α=0.05的独立性检验,认为是否喜欢冰雪运动与学生性别有关,则被调查的学生中男生的人数不可能是(  )
附:χ2=,n=a+b+c+d.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
[A] 48 [B] 54 [C] 60 [D] 66
【答案】 A
【解析】 设男生人数为6k(k∈N*),因为被调查的男、女生人数相同,所以女生人数也为6k(k∈N*),根据题意列出列联表:
单位:人
冰雪运动 性别 合计
男生 女生
喜欢冰雪运动 5k 4k 9k
不喜欢冰雪运动 k 2k 3k
合计 6k 6k 12k
则χ2===,
因为依据α=0.05的独立性检验,认为是否喜欢冰雪运动与学生性别有关,
所以χ2≥3.841,即≥3.841,解得6k≥51.853 5,又k∈N*,所以A项不可能.故选A.
12.(5分)(2025·湖南长沙模拟)对于数据组(xi,yi)(i=1,2,…,n),如果由经验回归方程得到的yi的估计值是,那么将yi-称为样本点(xi,yi)处的残差.某商场为了给一种新商品进行合理定价,将该商品按事先拟定的价格进行试销,得到如表所示数据.
单价x/元 8.2 8.4 8.6 8.8
销量y/件 84 83 78 m
若销量y(单位:件)与单价x(单位:元)之间的经验回归方程为=-20x+,且样本点(8.4,83)处的残差为3,则m=    .
【答案】 67
【解析】 由条件知当x2=8.4时,=83-3=80,代入=-20x+,解得=80+20×8.4=248,于是=-20x+248,
又==8.5,所以=-20×8.5+248=78,即=78,解得m=67.
13.(16分)(2025·重庆模拟)某公司为了解年研发资金x(单位:亿元)对年产值y(单位:亿元)的影响,对公司近8年的年研发资金xi和年产值yi(i∈N,1≤i≤8)的数据对比分析中,选用了两个回归模型,并利用最小二乘法求得相应的y关于x的经验回归方程:①=13.05x-48.4;②=0.76x2+.
(1)求的值;
(2)已知①中的残差平方和S1≈3 610,②中的残差平方和S2≈658,请根据决定系数选择拟合效果更好的经验回归方程,并利用该经验回归方程预测年研发资金为20亿元时的年产值.
参考数据:xi=64,yi=448,=684,(yi-)2=32 900.
【解】 (1)根据题意,令t=x2,则==85.5,=yi=×448=56,
所以样本中心点为(85.5,56),代入经验回归方程=0.76t+,得56=0.76×85.5+,
解得=-8.98.所以的值为-8.98.
(2)设经验回归方程①的决定系数为,由S1≈3 610,则≈1-≈0.89,
设经验回归方程②的决定系数为,由S2≈658,则≈1-=0.98,因为<,所以经验回归方程②的拟合效果更好.
当x=20时,=0.76×202-8.98=295.02,
所以年研发资金为20亿元时的年产值约为295.02亿元.
14.(2025·山西临汾模拟)某机构对某校高中学生的读书情况进行了调查,结果如下:
单位:人
性别 读书情况 合计
喜欢读书 不喜欢读书
男生 260 60 320
女生 200 m m+200
合计 460 m+60 m+520
附:χ2=,其中n=a+b+c+d.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
根据小概率值α=0.001的独立性检验,推断是否喜欢阅读与性别有关,则m的值可以为(  )
[A] 10 [B] 20 [C] 30 [D] 40
【答案】 A
【解析】 根据列联表可知,a=260,b=60,c=200,d=m,n=a+b+c+d=520+m,由公式χ2===,因为根据小概率值α=0.001 的独立性检验,推断是否喜欢阅读与性别有关,则根据α=0.001可知只需χ2≥10.828即可,即≥10.828.
当取m=10时,则≈21.642>10.828,满足题意,故m可取10;
当取m=20时,则≈9.638<10.828,不满足题意;
当取m=30时,则≈3.184<10.828,不满足题意;
当取m=40时,则≈0.406<10.828,不满足题意.故选A.
15.(多选题)已知由样本数据(xi,yi)(i=1,2,3,…,10)组成的一个样本,得到经验回归方程为=2x-0.4,且=2,去除两个歧义点(-2,1)和(2,-1)后,得到新的经验回归直线的斜率为3,则下列说法正确的是(  )
[A] 相关变量x,y具有正相关关系
[B] 去除两个歧义点后的经验回归方程为=3x-3
[C] 去除两个歧义点后,样本数据(4,8.9)的残差为-0.1
[D] 去除两个歧义点后,随x值增加y值增加速度变小
【答案】 ABC
【解析】 对于A,因为经验回归直线的斜率大于0,即相关变量x,y具有正相关关系,故A正确;
对于B,将=2代入=2x-0.4,得=3.6,则去掉两个歧义点后,得到新的相关变量的平均值分别为==,==,=-3×=-3,此时的经验回归方程为=3x-3,故B正确;
对于C,x=4时,=3×4-3=9,残差为8.9-9=-0.1,故C正确;
对于D,斜率3>2,此时随x值增加y值增加速度变大,D错误.故选ABC.
(

6

)(共114张PPT)
第3节 成对数据的统计分析
1.了解样本相关系数的统计含义.
2.了解最小二乘法原理,掌握求一元线性回归模型参数的最小二乘估计的方法.
3.针对实际问题,会用一元线性回归模型进行预测.
[课程标准要求]
必备知识
课前回顾
知识梳理
1.变量的相关关系
(1)相关关系的分类:正相关和负相关.
(2)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在 附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
一条直线
(2)样本相关系数r的性质.
①当r>0时,称成对样本数据 相关;当r<0时,称成对样本数据 相关;当r=0时,称成对样本数据间没有线性相关关系.
②样本相关系数r的取值范围为 .
当|r|越接近1时,成对样本数据的线性相关程度越 ;
当|r|越接近0时,成对样本数据的线性相关程度越 .
知识梳理
2.样本相关系数
(1)样本相关系数r的计算.


[-1,1]


知识梳理
3.一元线性回归模型
知识梳理
知识梳理


知识梳理
4.列联表与独立性检验
(1)关于分类变量X和Y的抽样数据的2×2列联表.
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
知识梳理
(2)独立性检验.
基于小概率值α的检验规则是:
当χ2≥xα时,我们推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2下表给出了χ2独立性检验中5个常用的小概率值和相应的临界值.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
重要结论
对点自测
1.(2024·天津卷)下列图中,线性相关系数最大的是(  )
A
[A] [B]
[C] [D]
对点自测
【解析】 观察四幅图可知,A图散点分布比较集中,且大体接近某一条直线,线性回归模型拟合效果比较好,呈现明显的正相关,|r|值相比于其他三图更接近1.故选A.
[A] [B]
[C] [D]
对点自测
B
对点自测
对点自测
3.某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到两种疗法治疗数据的列联表:
单位:人
疗法 疗效 合计
未治愈 治愈
甲 15 52 67
乙 6 63 69
合计 21 115 136
经计算得到χ2≈4.881,根据小概率值α=0.005的独立性检验(已知χ2独立性检验中x0.005=7.879),则可以认为两种疗法的效果     差异(选填“有”或“没有”).
没有
对点自测
【解析】 零假设为H0:疗法与疗效独立,即两种疗法效果没有差异.χ2≈4.881<7.879=x0.005,根据小概率值α=0.005的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两种疗法效果没有差异.
对点自测
6.7
对点自测
关键能力
课堂突破
1.(2025·山西太原模拟)观察下列散点图,关于两个变量x,y的相关关系推断正确的是(  )
[A] (1)正相关,(2)不相关,(3)负相关
[B] (1)正相关,(2)负相关,(3)不相关
[C] (1)负相关,(2)不相关,(3)正相关
[D] (1)负相关,(2)正相关,(3)不相关
考点一 成对数据的相关性
A
【解析】 第一个图点的分布比较集中,且y随x的增加而增加,是正相关;第二个图点的分布比较分散,不相关;第三个图点的分布比较集中,且y随x的增加而减少,是负相关.故选A.
D
3.(2025·江苏扬州模拟)设变量X和变量Y的样本相关系数为r1,变量U和变量V的样本相关系数为r2,且r1=-0.734,r2=0.984,则(  )
[A] X和Y之间呈正线性相关关系,且X和Y的线性相关程度强于U和V的线性相关程度
[B] X和Y之间呈负线性相关关系,且X和Y的线性相关程度强于U和V的线性相关程度
[C] U和V之间呈负线性相关关系,且X和Y的线性相关程度弱于U和V的线性相关程度
[D] U和V之间呈正线性相关关系,且X和Y的线性相关程度弱于U和V的线性相关程度
D
【解析】 由样本相关系数r1=-0.734<0,可知变量X与Y之间呈负线性相关关系,由样本相关系数r2=0.984>0,可知变量U与V之间呈正线性相关关系,又|r1|<|r2|,所以X与Y的线性相关程度弱于U与V的线性相关程度.故选D.
题后悟通
判定两个变量相关性的方法
(1)画散点图:若点的分布从左下角到右上角,则两个变量正相关;若点的分布从左上角到右下角,则两个变量负相关.
(2)样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近1,相关性越强.
考点二 回归模型及其应用
角度1 一元线性回归模型
[例1] (2025·福建龙岩模拟)随着电商事业的快速发展,网络购物交易额也快速提升,某网上交易平台工作人员对2020年至2024年每年的交易额(取近似值)进行统计分析,结果如下表:
年份 2020 2021 2022 2023 2024
年份 代码t 1 2 3 4 5
交易额 y/百亿 1.5 2 3.5 8 15
(1)据上表数据,计算y与t的样本相关系数r,并说明y与t的线性相关性的强弱;
(已知:0.75<|r|<1,则认为y与t线性相关性很强;0.3<|r|≤0.75,则认为y与t线性相关性一般;|r|≤0.3,则认为y与t线性相关性较弱)
(2)利用最小二乘法建立y关于t的经验回归方程,并预测2026年该平台的交易额.
求经验回归方程的步骤
解题策略
角度2 非线性回归模型
[例2] (2025·福建福州模拟)中国茶文化博大精深,饮茶深受大众喜爱,茶水的口感与茶叶类型和水的温度有关,某数学建模小组为了获得茶水温度y
(单位:℃)关于时间x(单位:min)的回归模型,通过实验收集在25 ℃室温,用85 ℃的水冲泡的条件下,茶水温度随时间变化的数据,并对数据进行初步处理得到如图所示散点图,他们分别用两种模型①y=a+bx与②y=d·cx+25进行拟合,得到相应的经验回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值.
(1)根据残差图判断,①y=a+bx与②y=d·cx+25哪一个更适宜作为该茶水温度y关于时间x的经验回归方程类型 请说明理由;
【解】 (1)应该选择模型②,因为模型②的残差点比较均匀地落在水平的带状区域中,且模型②的带状区域比模型①的带状区域窄.
所以模型②的拟合精度高,经验回归方程的预测精度高.
(2)根据(1)的判断结果及表中数据,建立该茶水温度y关于时间x的经验回归
方程;
(3)已知该茶水温度降至60 ℃口感最佳,根据(2)中的经验回归方程,求在相同条件下冲泡的茶水,大约需要放置多长时间才能达到最佳饮用口感.(结果精确到1分钟)
求非线性经验回归方程的步骤
(1)确定变量,作出散点图.
(2)根据散点图,选择恰当的拟合函数.
(3)变量置换,通过变量置换把非线性回归问题转化为一元线性回归问题,并求出经验回归方程.
(4)根据相应的变换,写出非线性经验回归方程.
解题策略
[针对训练]
1.(角度1)(2025·河南南阳模拟)研究人员为了解某品种鳄鱼的生长发育情况,随机抽取了6只该品种鳄鱼,测量它们的头长x(单位:cm)与体长y(单位:cm),得到如下数据:
样本 编号i 1 2 3 4 5 6
头长xi 15 15.3 15.3 16.6 16.8 17
体长yi 125 128 130 138 142 153
(1)求这6只鳄鱼的平均头长与平均体长;
(2)求鳄鱼的头长与体长的样本相关系数;(精确到0.01)
2.(角度2)(2025·山西太原模拟)山西某地打造旅游特色村,鼓励当地村民将自己闲置房改造成民宿出租,增加村民收入.为了解在旅游淡季民宿的出租情况,随机选取6间民宿进行调查,统计它们在淡季的100天里的出租情况,得到每间民宿租金x(单位:元/日)与其出租率y(出租天数/100)的对应关系表和散点图如下:
租金 88 128 188 288 388 488
出租率 0.9 0.7 0.5 0.3 0.2 0.15
(1)请根据散点图判断,y=bx+a与y=cln x+d哪个更适合此模型(不用证明),并根据下表数据
(表中z=ln x),求其相应的经验回归方程(保留小数点后一位).
(2)已知该地一年旅游淡季按100天计算,在此期间,民宿无论是否出租,每天都要支出租金x的10%的费用.若民宿出租,则每天需要再支付租金x的10%的开支.请用(1)中结论的模型,计算租金x为多少元时,该民宿在这100天内的收益W最大.
附:e5.2≈181,e5.3≈200.
考点三 独立性检验
[例3] 某工厂进行生产线智能化升级改造.升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
项目 优级品 合格品 不合 格品 合计
甲车间 26 24 0 50
乙车间 70 28 2 100
合计 96 52 2 150
(1)填写如下列联表:
单位:件
车间 产品
优级品 非优级品
甲车间
乙车间
依据小概率值α=0.05和α=0.01的独立性检验,能否认为甲、乙两车间产品的优级品率存在差异
【解】 (1)根据题意可得列联表:
单位:件
车间 产品
优级品 非优级品
甲车间 26 24
乙车间 70 30
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
[溯源探本] 本例题源于人教A版选择性必修第三册P132例3.
解题策略
独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
[针对训练] 为调查某校学生每周平均体育运动时间的情况,从高一、高二基础年级与高三三个年级学生中按照4∶3∶3的比例分层随机抽样,收集300名学生每周平均体育运动时间的样本数据(单位:小时),得到如图所示的频率分布直方图.(已知高一年级共有1 200名学生)
(1)据图估计该校学生每周平均体育运动时间,并估计高一年级每周平均体育运动时间不足4小时的人数;
(2)在样本数据中,有30名高三学生的每周平均体育运动时间不少于6小时,请完成下列2×2列联表,并根据小概率值α=0.01的独立性检验,判断能否认为该校学生的每周平均体育运动时间是否不少于6小时与年级有关
单位:人
运动时间 年级 合计
基础年级 高三
不少于6小时
少于6小时
合计 300
α 0.1 0.05 0.01 0.005
xα 2.706 3.841 6.635 7.879
【解】 (2)列联表如下:
单位:人
运动时间 年级 合计
基础年级 高三
不少于6小时 105 30 135
少于6小时 105 60 165
合计 210 90 300
课时作业
(分值:100分)
选题明细表
单选每题5分,多选每题6分,填空每题5分.
知识点、方法 题号
成对数据的相关性、 回归模型及其应用 1,2,3,5,8,10,12,13,15
独立性检验 4,6,7,9,11,14
1.(2025·河南商丘模拟)某科技公司随着技术的进步和管理的逐渐规范,生产成本逐年降低,该公司对2012年至2024年的生产成本y(单位:万元)进行统计,根据统计数据作出如下散点图:
基础巩固练
由此散点图,判断下列四个经验回归方程类型中最适合作为2012年至2024年该公司的生产成本y与时间变量x(x的值依次为1,2,…,13)的经验回归方程类型的是(   )
[A] y=ax2+b(a>0)
[B] y=ax+b(a>0)
[C] y=aln x+b(a<0)
基础巩固练
C
基础巩固练
【解析】 根据题中散点图可知,散点大致分布在一条“对数型”函数曲线的周围,且是减少的,而A选项是“抛物线型”的拟合函数,且是增加的;B选项是
“直线型”的拟合函数,且是增加的;D选项是“幂函数型”的拟合函数,且是增加的,只有C选项的拟合函数符合题意.故选C.
2.(2025·云南昆明模拟)两个变量y与x的回归模型中,分别选择了4个不同模型,它们的决定系数R2如下,其中拟合效果最好的模型是(  )
[A] 模型1(决定系数R2为0.97)
[B] 模型2(决定系数R2为0.85)
[C] 模型3(决定系数R2为0.40)
[D] 模型4(决定系数R2为0.25)
A
【解析】 在两个变量y与x的回归模型中,它们的决定系数R2越接近1,模型拟合效果越好,在四个选项中A的决定系数最大,所以拟合效果最好的是模型1.故选A.
C
【解析】 由题意可得这两个变量是负相关,故这组样本数据的样本相关系数为负值,且所有样本点(xi,yi)(i=1,2,…,n)都在直线上,则有|r|=1,所以样本相关系数r=-1.故选C.
4.(多选题)(2025·福建南平模拟)为了考查一种新疫苗预防某种疾病的效果,研究人员对一地区某种动物进行试验,从该试验群中随机抽查了46只实验体,得到它们是否接种新疫苗和是否发病情况的相关数据,如表所示,则(   )
单位:只
接种情况 发病情况 合计
发病 未发病
接种新 疫苗 a=12 b a+b
未接种 新疫苗 c d=13 c+d
合计 a+c b+d=28 46
AD
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
ABC
6.(5分)某驾驶员培训学校对比了解“科目二”的培训过程采用大密度集中培训与周末分散培训两种方式的效果,调查了105名学员,统计结果为:接受大密度集中培训的55名学员中有45名学员考试一次通过,接受周末分散培训的学员考试一次通过的有30名.根据小概率值α=0.05的独立性检验,认为:能否考试一次通过与是否集中培训    (选填“有关”或“无关”).
有关
【解析】 依题意,2×2列联表如下:
单位:人
考试结果 培训 合计
集中培训 分散培训
考试一次 通过 45 30 75
考试一次 未通过 10 20 30
合计 55 50 105
7.(14分)甲、乙两城之间的长途客车均由A和B两家公司运营.为了解这两家公司长途客车的运营情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
单位:班次
公司 是否准点
准点 未准点
A 240 20
B 210 30
(1)根据上表,分别估计这两家公司在甲、乙两城之间的长途客车准点的概率;
α 0.1 0.05 0.01
xα 2.706 3.841 6.635
【解】(2)列联表如下:
单位:班次
公司 是否准点 合计
准点 未准点
A 240 20 260
B 210 30 240
合计 450 50 500
综合运用练
x 2 3 4 5 6
y e2.5 e3.5 e5 e6.5 e7.5
[A] e10.2 [B] e10
[C] e9.8 [D] e9.5
A
9.(多选题)(2025·江西南昌模拟)为了解中学生喜爱足球运动与性别是否有关,甲、乙两校的课题组分别随机抽取了本校部分学生进行调查,得到如下两个表格:
单位:人
性别 足球运动 合计
喜爱 不喜爱
男性 15 5 20
女性 8 12 20
合计 23 17 40
甲校样本
单位:人
性别 足球运动 合计
喜爱 不喜爱
男性 70 30 100
女性 45 55 100
合计 115 85 200
乙校样本
α 0.1 0.01 0.001
xα 2.706 6.635 10.828
则下列判断正确的是(   )
[A] 样本中,甲校男学生喜爱足球运动的比例高于乙校男学生喜爱足球运动的比例
[B] 样本中,甲校女学生喜爱足球运动的比例高于乙校女学生喜爱足球运动的比例
[C] 根据甲校样本,依据小概率值α=0.01的独立性检验,认为中学生喜爱足球运动与性别有关
[D] 根据乙校样本,依据小概率值α=0.01的独立性检验,认为中学生喜爱足球运动与性别有关
AD
BD
A
则被调查的学生中男生的人数不可能是(  )
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
[A] 48 [B] 54
[C] 60 [D] 66
【解析】 设男生人数为6k(k∈N*),因为被调查的男、女生人数相同,所以女生人数也为6k(k∈N*),根据题意列出列联表:
单位:人
冰雪运动 性别 合计
男生 女生
喜欢冰雪运动 5k 4k 9k
不喜欢冰雪运动 k 2k 3k
合计 6k 6k 12k
单价x/元 8.2 8.4 8.6 8.8
销量y/件 84 83 78 m
67
(2)已知①中的残差平方和S1≈3 610,②中的残差平方和S2≈658,请根据决定系数选择拟合效果更好的经验回归方程,并利用该经验回归方程预测年研发资金为20亿元时的年产值.
14.(2025·山西临汾模拟)某机构对某校高中学生的读书情况进行了调查,结果如下:
单位:人
性别 读书情况 合计
喜欢读书 不喜欢读书
男生 260 60 320
女生 200 m m+200
合计 460 m+60 m+520
应用创新练
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
根据小概率值α=0.001的独立性检验,推断是否喜欢阅读与性别有关,则m的值可以为(  )
[A] 10 [B] 20
[C] 30 [D] 40
A
ABC

展开更多......

收起↑

资源列表