第九章 9.3 成对数据的统计分析 课件(共107张PPT)2027高考数学一轮总复习

资源下载
  1. 二一教育资源

第九章 9.3 成对数据的统计分析 课件(共107张PPT)2027高考数学一轮总复习

资源简介

(共107张PPT)
第九章 统计与成对数据的统计分析
9.3 成对数据的统计分析
2027高考数学一轮总复习
内容索引
必备知识 回顾
课时作业
关键能力 提升
考试要求 三年考情 1.结合实例,了解样本相关系数的统计含义. 2.了解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题. 2023 2024 2025
全国一卷T15

必备知识 回顾
1.变量的相关关系
(1)相关关系:两个变量______,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
(2)正相关、负相关:从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们称这两个变量______;当一个变量的值增加时,另一个变量的相应值呈现减小的趋势,则称这两个变量______.
(3)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在________附近,我们称这两个变量线性相关.
1
知识梳理
有关系
正相关
负相关
一条直线
2.样本相关系数
(1)r=.
(2)当r>0时,称成对样本数据______;当r<0时,称成对样本数据______.
(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越__;当|r|越接近0时,成对样本数据的线性相关程度越__.
正相关
负相关


3.一元线性回归模型
(1)我们将称为Y关于x的经验回归方程,其中
(2)残差:观测值减去______所得的差称为残差.
预测值
(3)利用R2刻画回归效果
R2的计算公式为R2=1-,其意义是R2越大,残差平方和(yi-)2越小,即模型的拟合效果越好;R2越小,残差平方和越大,即模型的拟合效果越差.
4.列联表与独立性检验
(1)关于分类变量X和Y的抽样数据的2×2列联表如下:
X Y 合计
Y=0 Y=1 X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
(2)计算随机变量χ2=,利用χ2的取值推断分类变量X和Y________的方法称为χ2独立性检验.下表是χ2独立性检验中5个常用的小概率值和相应的临界值.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
是否独立
1.经验回归直线一定经过点(,).
2.求时,常用公式.
3.独立性检验是对两个分类变量有关系的可信程度的判断,而不是对其是否有关系的判断,χ2越大,认为两个分类变量有关系且犯错误的概率越小.
4.回归分析和独立性检验都是基于成对样本观测数据进行的估计或推断,得出的结论都可能不准确.
知识拓展
1.判断(正确的画“√”,错误的画“×”)
(1)散点图是判断两个变量相关关系的一种重要方法和手段.(   )
(2)残差平方和越接近0,模型的拟合效果越好. (   )
(3)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.(   )
(4)若事件X,Y关系越密切,则由观测数据计算得到的χ2的观测值越小.(   )
基础检测



×
2.某公司为了解用电量y(单位:kW·h)与气温x(单位:℃)之间的关系,随机统计了4天的用电量与当天气温,并制作了如下对照表:
已知表中数据的经验回归方程≈-2,则当气温为-4 ℃时,用电量约为____ kW·h.
气温x/℃ 18 13 10 -1
用电量y/(kW·h) 24 34 38 64
68
解析:=10,==40,将(10,40)代入,得≈40-(-2)×10=60,则经验回归方程为=-2x+60,取x=-4,得=68.
3.为了比较甲、乙、丙三组数据的线性相关程度强弱,某同学分别计算了甲、乙、丙三组数据的样本相关系数,求得数值依次为0.57,-0.93,0.89,则这三组数据中,线性相关程度最强的是__组数据.
解析:样本相关系数的绝对值越大,线性相关程度越强,由甲、乙、丙三组数据的样本相关系数分别为0.57,-0.93,0.89,得|0.57|<|0.89|<|-0.93|,故乙组数据的线性相关程度最强.

4.(人教A版选择性必修第三册P135习题8.3T8改编)下面是一个2×2列联表:
则b-d=__,χ2=____________(保留小数点后三位).
X Y 合计
Y=0 Y=1 X=0 a 21 70
X=1 5 c 30
合计 b d 100
8
24.047
解析:补全2×2列联表如下:
所以b-d=54-46=8,
且χ2=≈24.047.
X Y 合计
Y=0 Y=1 X=0 49 21 70
X=1 5 25 30
合计 54 46 100
关键能力 提升
考点1 成对数据的相关性
【例1】 (1)(2024·天津卷)下列图中,相关系数最大的是(   )
A
【解析】 观察题中4幅图可知,A图散点分布比较集中,且大体接近某一条直线,线性回归模型拟合效果比较好,呈现明显的正相关,样本相关系数r的绝对值相比于其他3幅图的更接近1.故选A.
(2)(多选)调研某工厂的生产投入x(单位:生产工时/天)对产量y(单位:件/天)和每件产品的平均能源消耗z(单位:千瓦时/件)的影响,得到如下数据:
x/(生产工 时/天) 10 20 30 40 50 60
y/(件/天) 50 101 149 202 248 301
z/(千瓦 时/件) 19.8 19.1 15.2 14.5 13.0 9.2
现在对y与x,z与x分别进行相关性分析,得到样本相关系数分别为r1,r2,则下列判断正确的是(   )
A.0C.r1+r2>0 D.r1+r2<0
AC
【解析】 对于A,由题表数据可知,x增大y也增大,即y与x正相关,所以0|r2|,即r1>-r2,所以r1+r2>0,故C正确,D错误.故选AC.
判定两个变量相关性的方法
(1)画散点图:若点的分布从左下角到右上角,则两个变量正相关;若点的分布从左上角到右下角,则两个变量负相关.
(2)样本相关系数r:当r>0时,正相关;当r<0时,负相关;|r|越接近1,相关程度越强.
(3)经验回归方程:当>0时,正相关;当<0时,负相关.
规律总结
【对点训练1】 (1)(2026·辽宁鞍山一模)下列选项中,样本相关系数最小的是(   )
B
解析:对于A,该散点图中,散点呈现出一定的上升趋势,这些点紧密地聚集在一条直线附近,其样本相关系数接近1;对于B,该散点图中,散点呈现出一定的下降趋势,这些点紧密地聚集在一条直线附近,其样本相关系数接近-1;对于C,该散点图中,散点呈现出一定的上升趋势,两变量之间具有较强的线性相关关系,其样本相关系数为正数;对于D,该散点图中,散点比较分散,线性相关程度较弱,样本相关系数接近0.故选B.
(2)(人教B版选择性必修第二册P121习题4-3AT1改编)下列说法正确的是(   )
A.两个具有线性相关关系的变量的相关程度越强,其样本相关系数r的值越接近1
B.经验回归方程为=0.3-0.7x时,变量x和y负相关
C.在经验回归方程=0.4+0.5x中,当x每增加1个单位时,相应观测值y增加0.5个单位
D.由样本数据得到的经验回归直线至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个
B
解析:对于A,两个具有线性相关关系的变量的相关程度越强,其样本相关系数r的绝对值越接近1,故A错误;对于B,因为-0.7<0,所以变量x和y负相关,故B正确;对于C,在经验回归方程=0.4+0.5x中,当x每增加1个单位时,相应预测值y增加0.5个单位,故C错误;对于D,由样本数据得到的经验回归直线必过点(,),不一定经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个,故D错误.故选B.
考点2 回归模型
命题角度1 一元线性回归模型
【例2】 某材料实验室研究了某种金属材料在不同冷却速率下的凝固点温度,以及冷却环境对材料热物性的影响.下表为某金属材料凝固点温度y(单位:℃)随冷却速率x(单位:℃/min)变化的统计数据.
x/(℃/min) 10 20 30 40 50
y/℃ 650 640 600 590 580
(1)求该金属材料凝固点温度与冷却速率的样本相关系数r,并判断这两个变量的相关程度强弱(若|r|≥0.75,则线性相关程度较强,若0.3≤|r|<0.75,则线性相关程度一般,r精确到0.01);
【解】易知=30,=400+100+0+100+400=1 000,
因为=3 880,(xi-)(yi-)=-1 900,
所以r==≈-0.96,
因为|-0.96|>0.75,所以两个变量线性相关程度较强.
(2)请利用所给数据求该金属凝固点温度y与冷却速率x之间的经验回归方程,并预测冷却速率为80 ℃/min时,该金属的凝固点温度.
参考公式:经验回归直线的斜率和截距的最小二乘估计分别为
,;
样本相关系数r==.
参考数据:(xi-)(yi-)=-1 900,=3 880.
【解】由(1)可设y与x之间的经验回归方程为,=30,
=-1.9,
因为=612,所以=612+1.9×30=669,故所求的经验回归方程为=-1.9x+669.
当x=80时,=-1.9×80+669=517,所以冷却速率为80 ℃/min时,该金属的凝固点温度约为517 ℃.
求一元线性回归模型经验回归方程的步骤
规律总结
命题角度2 非线性回归模型
【例3】 某人新房刚装修完,为了监测房屋内空气质量的情况,每天在固定的时间测一次甲醛浓度(单位:mg/m3),连续测量了10天,所得数据绘制成散点图如图.用yi表示第i(i=1,2,…,10)天测得的甲醛浓度,令zi=ln yi,经计算得zi=12.8,i2=385,izi=60.
(1)由散点图可知,y与i可用指数型回归模型y=ebi+a进行拟合,请利用所给条件求出经验回归方程(系数精确到0.01);
【解】 因为y=ebi+a,所以ln y=bi+a,即z=bi+a.因为i=5.5,zi=1.28, 所以=
≈-0.13,所以=1.28+0.13×5.5≈2.00,
因此=2.00-0.13i,即=e2.00-0.13i,所以所求经验回归方程为=e2.00-0.13i.
(2)已知房屋内空气中的甲醛浓度的安全范围是低于0.08 mg/m3,则根据(1)中所得经验回归方程,判断该新房装修完第几天开始达到此标准(参考数据:ln 0.08≈-2.53).
附:经验回归直线的斜率和截距的最小二乘估计分别为
,.
【解】令=e2.00-0.13i<0.08,即2.00-0.13i≈34.85,所以在新房装修完第35天开始达到此标准.
对于非线性回归分析问题,我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)的图象进行比较,挑选一种跟这些散点拟合效果最好的函数,用适当的变量进行变换,把问题化为线性回归问题,使之得到解决.
规律总结
其一般步骤:
【对点训练2】 某田径协会组织开展竞走的步长和步频之间的关系的课题研究,得到相应的试验数据(如表所示):
步频x/s 0.28 0.29 0.30 0.31 0.32
步长y/cm 90 95 99 103 117
(1)根据表中数据,得到步频和步长近似为线性相关关系,求出y关于x的经验回归方程,并利用该方程预测,当步长为80 cm时,步频是多少;
解:依题意可得,×(0.28+0.29+0.30+0.31+0.32)=0.3,×(90+95+99+103+117)=100.8,
==620,
=100.8-620×0.3=-85.2,
所以经验回归方程为=620x-85.2,
将y=80代入,得80=620x-85.2,解得x≈0.27,所以当步长为80 cm时,步频约是0.27 s.
(2)记,其中yi为观测值,为预测值,为对应(xi,yi)的残差,求(1)中步频为0.30 s时的残差.
参考数据:=0.451,xiyi=151.82.
参考公式:经验回归直线的斜率和截距的最小二乘估计分别为
,.
解:根据(1)得到,=620×0.30-85.2=100.8,=99-100.8=-1.8,
所以步频为0.30 s时的残差为-1.8 cm.
考点3 独立性检验
【例4】 (2025·全国一卷)为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了1 000人,得到如下列联表:
单位:人
组别 超声波检查结果 合计
正常 不正常 患该疾病 20 180 200
未患该疾病 780 20 800
合计 800 200 1 000
(1)记超声波检查结果不正常者患该疾病的概率为p,求p的估计值;
【解】根据题表数据可知,超声波检查结果不正常的有200人,其中患该疾病的有180人,因此估计超声波检查结果不正常者患该疾病的概率p=(易错:注意该问所求概率中用到的数据,数据找错,计算也就出错).
(2)根据小概率值α=0.001的独立性检验,分析超声波检查结果是否与患该疾病有关.
附:χ2=,n=a+b+c+d.
α 0.050 0.010 0.001
xα 3.841 6.635 10.828
【解】零假设为H0:超声波检查结果与患该疾病无关.
χ2==765.625>10.828.
根据小概率值α=0.001的独立性检验,我们推断H0不成立,即认为超声波检查结果与患该疾病有关,此推断犯错误的概率不大于0.001.
独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式χ2=计算.
(3)比较χ2与临界值的大小关系,作统计推断.
规律总结
【对点训练3】 (2025·广东湛江二模)为了研究观众对某档节目的喜爱情况与性别的关联性,分别调查了该档节目男、女观众各100名,发现共有70名观众喜爱该档节目,且不喜爱该档节目的女性观众数是喜爱该档节目的男性观众数的2倍.
(1)根据题中信息,完成下面列联表;
单位:名
性别 喜爱情况 合计
喜爱 不喜爱 男

合计
解:设喜爱该档节目的男性观众数为x,则喜爱该档节目的女性观众数为70-x,不喜爱该档节目的女性观众数为2x,则70-x+2x=100,得x=30.
故列联表如下.
单位:名
性别 喜爱情况 合计
喜爱 不喜爱 男 30 70 100
女 40 60 100
合计 70 130 200
(2)根据(1)中的列联表及小概率值α=0.1的独立性检验,能否认为观众对该档节目的喜爱情况与性别有关
附:χ2=,n=a+b+c+d.
α 0.1 0.05 0.01
xα 2.706 3.841 6.635
解:零假设为H0:观众对该档节目的喜爱情况与性别无关.
根据(1)中列联表的数据,得
χ2=≈2.198<2.706=x0.1.
根据小概率值α=0.1的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为观众对该档节目的喜爱情况与性别无关.
高考真题 教材典题
(2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量 (单位:m3),得到如下数据: (人教A版选择性必修第三册P101例1)在对人体的脂肪含量和年龄之间关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据,如表所示.表中每个编号下的年龄和脂肪含量数据都是对同一个体的观测结果,它们构成了成对数据.

考教衔接
样本号i 根部横截面积xi 材积量yi
1 0.04 0.25
2 0.06 0.40
3 0.04 0.22
4 0.08 0.54
5 0.08 0.51
6 0.05 0.34
7 0.05 0.36
8 0.07 0.46
9 0.07 0.42
10 0.06 0.40
总和 0.6 3.9
编号 年龄/岁 脂肪含量/%
1 23 9.5
2 27 17.8
3 39 21.2
4 41 25.9
5 45 27.5
6 49 26.3
7 50 28.2
8 53 29.6
9 54 30.2
10 56 31.4
11 57 30.8
12 58 33.5
13 60 35.2
14 61 34.6
高考真题 教材典题
并计算得=0.038,=1.615 8,xiyi=0.247 4. (1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量. (2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01). (3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值. 附:相关系数r=,≈1.377. 根据上表中脂肪含量和年龄的样本数据,推断两个变量是否线性相关,计算样本相关系数,并推断它们的相关程度.
高考真题 教材典题
根据上表中脂肪含量和年龄的样本数据,推断两个变量是否线性相关,计算样本相关系数,并推断它们的相关程度.
解:估计该林区这种树木平均一棵的根部横截面积为=0.06(m2),
估计该林区这种树木平均一棵的材积量为=0.39(m3).
(2)由(1)知=0.06,=0.39,又(xi-)(yi-)==0.013 4,
(xi-)2==0.002,(yi-)2==0.094 8,
所以≈0.01×1.377=0.013 77,
所以样本相关系数r=≈0.97.
高考真题 教材典题
根据上表中脂肪含量和年龄的样本数据,推断两个变量是否线性相关,计算样本相关系数,并推断它们的相关程度.
(3)设该林区这种树木的总材积量的估计值为Y m3,由题意可知,该种树木的材积量与其根部横截面积近似成正比,所以,
所以Y==1 209,即该林区这种树木的总材积量的估计值为1 209 m3.
课时作业69
1.(5分)(2025·安徽蚌埠三模)医疗研究者会创建散点图来显示患者的体重指数(BMI)和身体脂肪百分比之间的相关关系,如图,下列说法正确的是 (   )
A.BMI越大,脂肪百分比越大
B.BMI越大,脂肪百分比越小
C.BMI与脂肪百分比正相关
D.BMI与脂肪百分比负相关
基础巩固
C
解析:对于A,B,由散点图可得,BMI增大时,脂肪百分比变大或变小,故A,B错误;对于C,D,根据散点图的分布可得,BMI与脂肪百分比正相关,故C正确,D错误.故选C.
2.(5分)如图是某学校高二(1)(2)班期中考试数学成绩优秀频率的等高堆积条形图,如果再从两个班中各随机抽取6名学生的期中考试数学成绩进行统计,那么 (   )
A.两个班6名学生的数学成绩优秀率可能相等
B.(1)班6名学生的数学成绩优秀率一定高于(2)班
C.(2)班6名学生中数学成绩不优秀的一定多于优秀的
D.(2)班学生的数学成绩优秀率高于50%
A
解析:由题图知,从两个班随机抽取的6名学生的期中考试数学成绩优秀率无法确定哪个班的比较高,(2)班6名学生数学成绩不优秀的和优秀的人数也不能确定,(2)班学生的数学成绩优秀率低于50%.故选A.
3.(5分)(2025·山东泰安三模)对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.将某公司新产品自上市起的月份x与该月的对应销量y(单位:万件)整理成如下表格:
建立y与x的经验回归方程为=0.21x+0.37,则第2个月和第4个月的残差和为(   )
A.-0.919万件 B.-0.1万件
C.0.1万件 D.0.919万件
月份x 1 2 3 4 5
销量y/万件 0.5 s 1 t 1.4
C
解析:由题意可得,=3,,将=3代入经验回归方程,得=1,故s+t=2.1,将x=2,x=4分别代入经验回归方程,可得第2,4个月的预测值分别为=0.21×2+0.37=0.79,
=0.21×4+0.37=1.21,s-0.79+t-1.21=0.1,故第2个月和第4个月的残差和为0.1万件.故选C.
4.(5分)某种产品的广告支出费用x(单位:万元)与销售额y(单位:万元)的数据如下表:
已知y关于x的经验回归方程为,则当广告支出费用为5万元时,残差为(   )
A.10万元 B.14万元
C.23万元 D.24万元
A
x/万元 2 4 5 6 8
y/万元 30 40 60 50 70
解析:=5,=50,代入经验回归方程,得=17.5,将x=5代入经验回归方程,得=6.5×5+17.5=50,残差为60-50=10(万元).故选A.
5.(5分)某实验中学为调查本校高三学生的学习成绩是否与坚持体育锻炼有关,随机选取了高三300名学生的某次联考成绩进行统计,得到如下表格:
单位:名
分数 锻炼情况 合计
坚持锻炼 不坚持锻炼 分数≥600 100 80 180
分数<600 50 70 120
合计 150 150 300
依据小概率值α=m的独立性检验,可以认为高三学生的学习成绩与坚持进行体育锻炼有关,则m的值可能是 (   )
附:χ2=,n=a+b+c+d.
A.0.001 B.0.005
C.0.01 D.0.05
D
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
解析:由题意得,χ2=≈5.6,结合题中附表中的数据及选项,若可以认为高三学生的学习成绩与坚持进行体育锻炼有关,则m的值可能是0.05.故选D.
6.(5分)经济学专业的学生们为研究流通费率y和销售额x(单位:千万元)的关系,对同类型10家企业的相关数据(xi,yi)(i=1,2,…,10)进行整理,并得到如下散点图:
由此散点图,销售额在2千万元至1亿元之间,下面四个回归方程类型中最适宜作为流通费率y和销售额x的回归方程类型的是 (   )
A.y=ax+b B.y=ax2+b
C.y=aex+b D.y=aln x+b
D
解析:根据散点图,可以知道各点基本上是沿着一条具有递减趋势的曲线分布,并且变化趋势较平缓,A中y=ax+b表示直线,变化趋势是确定的,不合题意;B中y=ax2+b表示的曲线既有上升又有下降部分,不合题意;C中y=aex+b表示的曲线不论是上升还是下降,都将比较快,曲线较“陡峭”,不合题意;D中y=aln x+b表示的曲线不论是上升还是下降,都将比较平缓,合乎题意.故选D.
7.(6分,多选)(苏教版选择性必修第二册P187本章测试T6改编)为研究某种材料的抗震强度y与抗压强度x的关系,某研究部门得到下表中的样本数据.若y与x具有线性相关关系,且经验回归方程为,则下列说法正确的是 (   )
A.=9.1
B.当x增加1个单位时,y增加约0.1个单位
C.y与x正相关
D.若抗压强度为220,则抗震强度一定是31.1
ABC
x 140 150 170 180 195
y 23 24 26 28 28
解析:对于A,因为==167,==25.8,所以25.8=0.1×167+,解得=9.1,故A正确;对于B,经验回归方程为=0.1x+9.1,则当x增加1个单位时,y增加约0.1个单位,故B正确;对于C,因为0.1>0,所以y与x正相关,故C正确;对于D,当x=220时,=0.1×220+9.1=31.1,因此抗震强度的预测值为31.1,不是确定值,故D错误.故选ABC.
8.(6分,多选)(2026·山东济南一模)为了验证牛的毛色(黑色、红色)和角(有角、无角)这两对相对性状是否相关,某学院进行了一次数据统计,并根据形成的2×2列联表,计算得到χ2≈2.727,根据小概率值为α的独立性检验,则 (   )
附:
BC
α 0.100 0.050 0.010
xα 2.706 3.841 6.635
A.若α=0.100,则认为“毛色”和“角”无关
B.若α=0.100,则认为“毛色”和“角”有关,此推断犯错误的概率不超过10%
C.若α=0.010,则认为“毛色”和“角”无关
D.若α=0.010,则认为“毛色”和“角”有关,此推断犯错误的概率不超过1%
解析:对于A,B,若α=0.100,因为2.706<2.727,所以认为“毛色”和“角”有关,此推断犯错误的概率不超过10%,故A错误,B正确;对于C,D,若α=0.010,因为6.635>2.727,所以认为“毛色”和“角”无关,故C正确,D错误.故选BC.
9.(5分)(2026·广东汕头一模)在政府发布的光伏发电补贴政策的引导下,西北某地光伏发电装机量急剧上升,现对2018年至2025年的新增光伏装机量进行调查,根据散点图选择了模型①和模型②进行拟合,并得到相应的经验回归方程.为判断两个模型的拟合效果,甲、乙、丙三位同学进行了如下分析:
(1)甲同学通过计算残差作出了两个模型的残差图,如图所示;
(2)乙同学求出模型①的残差平方和为0.417 5,模型②的残差平方和为1.562 5;
(3)丙同学分别求出模型①的决定系数=0.952 0,模型②的决定系数=0.978 1.
经检验,模型①的拟合效果最佳,则甲、乙、丙三位同学中,运算结果肯定出错的同学是__.(填“甲”“乙”或“丙”)

解析:甲的残差图中,模型①的残差点更均匀地分布在以横轴为对称轴的水平带状区域内,且水平带状区域更窄,说明模型①的拟合效果更好;残差平方和越大,即决定系数越小,说明数据点越离散,所以乙的计算结果显示模型①的拟合效果更好,而丙的计算结果显示模型②的拟合效果更好.故运算结果肯定出错的同学是丙.
10.(5分)为了调查A,B两个地区的观众是否喜欢娱乐节目M,某电视台随机调查了A,B两个地区的2x名观众,已知从A,B两个地区随机调查的人数相同,A地区喜欢娱乐节目M的人数占A地区参与调查的总人数的,B地区喜欢娱乐节目M的人数占B地区参与调查的总人数的,若根据独立性检验认为喜欢娱乐节目M和地区有关,且此推断犯错误的概率超过0.01但不超过0.05,则所有x构成的集合为____________________.
附:
α 0.050 0.010
xα 3.841 6.635
{45,50,55,60,65}
解析:2×2列联表为
单位:名
地区 是否喜欢娱乐节目M 合计
喜欢 不喜欢 A地区 x x x
B地区 x x x
合计 x x 2x
χ2=,由认为喜欢娱乐节目M和地区有关,且此推断犯错误的概率超过0.01但不超过0.05,得3.841≤χ2<6.635,则3.841≤x<6.635,解得40.311.(10分)(2025·河北邯郸二模)为考察国产14纳米光刻机和进口14纳米光刻机的光刻效果,随机抽取了500台14纳米光刻机,对两种光刻机的良品、次品进行对比,得到如下列联表:
单位:台
种类 光刻效果 合计
良品 次品 国产14纳米光刻机 170 80 n
进口14纳米光刻机 150 100 250
合计 m 180 500
(1)求m,n的值;
解:由题意得,m=170+150=320,n=170+80=250.
(2)以频率估计概率,估计国产14纳米光刻机的次品率;
解:样本中,国产14纳米光刻机次品的频率为,
∴估计国产14纳米光刻机的次品率为.
(3)根据小概率值α=0.01的独立性检验,能否判断国产14纳米光刻机与进口14纳米光刻机质量有差异
附:χ2=,其中n=a+b+c+d.
α 0.05 0.01 0.001
xα 3.841 6.635 10.828
解:零假设H0:国产14纳米光刻机与进口14纳米光刻机质量无差异,
χ2=≈3.472<6.635,
根据小概率值α=0.01的独立性检验,H0成立,∴不能判断国产14纳米光刻机与进口14纳米光刻机有差异.
12.(12分)(2025·福建泉州模拟)某团队从2024年10月份以来,通过深度整合AI算法、大数据分析和自动化技术,不断优化产品与服务,显著提升了运营效率和市场竞争力,推动团队收入持续攀升.该团队在近7个月的经济收入(单位:百万元)的数据如下表:
月份编号x 1 2 3 4 5 6 7
经济收入 y/百万元 6 11 21 34 66 101 196
(1)根据以上数据绘制散点图,并根据散点图判断,y=ax+b与y=c·dx(a,b,c,d均为大于零的常数)哪一个适宜作为该团队经济收入y关于月份编号x的回归方程模型(给出判断即可,不必说明理由),并根据你的判断结果及表中的数据,求出y关于x的经验回归方程;
解:散点图如图所示,
根据散点图判断,y=c·dx适宜作为该团队经济收入y关于月份编号x的回归方程模型,由题意得,v=lg y=lg(c·dx)=lg c+lg d·x,
∵×(1+2+3+4+5+6+7)=4,
×10.79≈1.54,
=12+22+32+42+52+62+72=140,
∴lg ==0.25,
把(4,1.54)代入·x,得1.54=lg +0.25×4,
∴lg =0.54,∴=0.54+0.25x,
∴lg =0.54+0.25x,
∴y关于x的经验回归方程为=100.54+0.25x=3.47×100.25x.
(2)请你根据所求的经验回归方程,预测该团队下一个月的经济收入;
解:当x=8时,=3.47×100.25×8=347,∴该团队下一个月的经济收入约为347百万元.
(3)试从统计学角度分析,如果用所求的经验回归方程预测该团队接下来1年的经济收入情况是否合理
参考数据:
yi vi xiyi xivi 100.45 100.54
435 10.79 2 535 50.12 2.82 3.47
其中v=lg y,vi=lg yi.
参考公式:经验回归直线
,.
解:不合理,经验回归方程一般具有时效性,解释变量接近样本数据时,预测值比较可信,否则会有显著误差.
13.(6分,多选)(2025·广东广州三模)为了研究y关于x的线性相关关系,收集了5组样本数据(如下表):
素养提升
x 1 2 3 4 5
y 0.5 0.8 1 1.2 1.5
假设经验回归方程为x+0.28,则 (   )
参考公式:样本相关系数r=.
A.=0.24
B.当x=4时,对应的残差为0.04
C.样本数据y的第40百分位数为0.8
D.去掉样本点(3,1)后,x与y的样本相关系数r不变
AD
解析:对于A,=3,=1,将(3,1)代入x+0.28,得3+0.28=1,解得=0.24,故A正确;对于B,当x=4时,=0.24×4+0.28=1.24,对应的残差为1.2-1.24=-0.04,故B错误;对于C,5×40%=2,为整数,则样本数据y的第40百分位数为=0.9,故C错误;对于D,去掉样本点(3,1)后,新样本数据的平均值没有变化,即=3,=1仍然成立,(3,1)为第3组数据,即x3=3,y3=1,则x3-=0,y3-=0,其余数据没有变化,则由
可知,新样本数据x与y的样本相关系数与原数据样本相关系数相等,即x与y的样本相关系数r不会改变,故D正确.故选AD.
14.(6分,多选)(2025·山东泰安二模)某企业为了研究物流成本和企业利润的数据关系,记录了1月到8月的物流成本x(单位:万元)和企业利润y(单位:万元)的数据(xi,yi)(i=1,2,…,8),已知其中一组数据为(80,106),且xi=672,根据最小二乘法公式求得经验回归方程为=2.7x-111.8,则(   )
A.若企业9月的物流成本预计为85万元,则9月企业利润约为117.7万元
B.1月到8月企业的月平均利润约为115万元
C.数据(80,106)对应的残差为1.8
D.删除一组数据(80,106)后,重新求得的经验回归直线的斜率变小
ABC
解析:对于A,根据经验回归方程=2.7x-111.8可得,当x=85时,=2.7×85-111.8=117.7,所以9月企业利润约为117.7万元,故A正确;对于B,由xi=672,可得1月到8月的物流成本x的平均值×672=84,设1月到8月企业的利润y的平均值为,且(,)满足经验回归方程,所以=2.7×84-111.8=115,即1月到8月企业的月平均利润约为115万元,故B正确;对于C,当x=80时,=2.7×80-111.8=104.2,数据(80,106)对应的残差为106-104.2=1.8,故C正确;对于D,删除一组数据(80,106)后,因为80<=84,且106大于通过经验回归方程计算出的80对应的预测值104.2,所以删除该点后,重新求得的经验回归直线的斜率变大,故D不正确.故选ABC.
15.(14分)某高科技公司对其产品的研发年投资额x(单位:百万元)与年销售量y(单位:千件)的数据进行统计,整理后得到如下统计表和散点图.
x 1 2 3 4 5 6
y 0.5 1 1.5 3 6 12
z=ln y -0.7 0 0.4 1.1 1.8 2.5
(1)该公司科研团队通过分析散点图的特征后,计划分别用①y=bx+a和
②y=两种方案作为年销售量y关于研发年投资额x的回归分析模型,请根据统计表的数据,确定方案①和②的经验回归方程;(注:系数b,a,d,c按四舍五入保留一位小数)
解:由题可得,×(1+2+3+4+5+6)=3.5,
×(0.5+1+1.5+3+6+12)=4,
xiyi=1×0.5+2×1+3×1.5+4×3+5×6+6×12=121,
=1+4+9+16+25+36=91,
所以=≈2.1,=4-2.1×3.5≈-3.4,
故方案①的经验回归方程为=2.1x-3.4;
对y=edx+c两边取对数得,ln y=dx+c,
因为z=ln y,所以×(-0.7+0+0.4+1.1+1.8+2.5)=0.85,
所以=≈0.6,
=0.85-0.6×3.5≈-1.3,
故方案②的经验回归方程为=e0.6x-1.3.
(2)根据下表中的数据,用决定系数R2(不必计算,只比较大小)比较两种模型的拟合效果哪个更好,并选择拟合精度更高、更可靠的模型,预测当研发年投资额为8百万元时,产品的年销售量是多少.
经验回归方程
(yi-)2 18.29 4.41
参考公式及数据:经验回归直线
,,
R2=1-,
xizi=28.9,e3.5≈33.
解:方案①的决定系数=1-,
方案②的决定系数,
则,故方案②的拟合效果更好,精度更高.
预测当研发年投资额为8百万元时,产品的年销售量y=e4.8-1.3=e3.5≈33(千件).
本课结束

展开更多......

收起↑

资源预览