2023届高考一轮复习导与练(必修第二册+选择性必修第三册)第九章第3节成对数据的统计分析讲义（Word版含答案）

资源简介

第3节　成对数据的统计分析
1.会作两个相关变量的数据的散点图,能根据最小二乘原理建立经验回归方程并进行预测,了解样本相关系数的统计含义和残差分析.
2.了解独立性检验的基本思想,2×2列联表的统计意义,能对两个分类变量进行独立性检验.
1.成对数据的统计相关性
(1)变量的相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
(2)散点图
每一个序号下的成对样本数据都可用直角坐标系中的点表示出来,由这些点组成了统计图.我们把这样的统计图叫做散点图.
(3)正相关与负相关
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
(4)线性相关与曲线相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
(5)样本相关系数
r==
,
我们称r为变量x和变量y的样本相关系数.样本相关系数r的取值范围为[-1,1].
当r>0时,称成对样本数据正相关,这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.
当r<0时,称成对样本数据负相关,这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.
样本相关系数r的绝对值大小可以反映成对样本数据之间线性相关的程度:当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.
2.一元线性回归模型及其应用
(1)一元线性回归模型
我们称式子为Y关于x的一元线性回归模型,其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
(2)一元线性回归模型参数的最小二乘估计
当a,b的取值为时,Q=达到最小.此时,我们将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计.
(3)残差分析
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面的工作称为残差分析.
如果在残差的散点图中,残差比较均匀地分布在横轴两边,说明残差比较符合一元线性回归模型的假定,是均值为0、方差为σ2的随机变量的观测值.
(4)决定系数R2及其意义
我们也用决定系数R2=1-来比较两个模型的拟合效果.在R2表达式中,与经验回归方程无关,残差平方和与经验回归方程有关,因此R2越大,表示残差平方和越小,即模型的拟合效果越好;R2越小,表示残差平方和越大,即模型的拟合效果越差.
3.分类变量与列联表
(1)我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.
(2)按研究问题的需要,将数据分类统计,并做成表格加以保存.这种形式的数据统计表称为2×2列联表,关于分类变量X和Y的抽样数据的2×2列联表如下:
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
4.独立性检验
(1)独立性检验的概念
利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
(2)独立性检验的计算公式
χ2=(其中n=a+b+c+d).　
(3)独立性检验基于小概率值α的检验规则
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2(4)χ2独立性检验中常用的小概率值和相应的临界值.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
(1)独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.
(2)根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则两分类变量有关的把握越大.
1.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
2.经验回归直线一定过样本中心点(,).
3.可以通过比较残差的平方和(yi-)2来比较两个模型的效果,残差平方和越小,拟合效果越好,也可以用R2比较,R2=1-,R2越大,效果越好.
4.应用独立性检验应首先提出零假设:X和Y相互独立.
1.为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力(　C　)
A.回归分析 B.均值与方差
C.独立性检验 D.概率
解析:“近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.故选C.
2.(2020·全国Ⅰ卷)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到如图的散点图:
由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是(　D　)
A.y=a+bx B.y=a+bx2
C.y=a+bex D.y=a+bln x
解析:由散点图可以看出,点大致分布在对数型函数的图象附近.故
选D.
3.(多选题)(2021·山东济宁一中期末)给出以下四个说法,其中正确的是(　BD　)
A.由样本数据得到经验回归方程= x+至少经过点(x1,y1),(x2,y2),
…,(xn,yn)中的一个
B.在回归分析中,用决定系数R2来比较两个模型拟合效果,R2越大,表示残差平方和越小,即模型的拟合效果越好
C.在经验回归方程=-0.5x+0.7中,当解释变量x每增加一个单位时,响应变量y平均增加0.5个单位
D.若变量y和x之间的样本相关系数为r=-0.987 2,则变量y和x之间的负线性相关很强
解析:经验回归直线= x+经过点(,), 不一定经过样本点,故A不正确;用决定系数R2来比较两个模型的拟合效果,R2越大,表示残差平方和越小,即模型的拟合效果越好,故B正确;在经验回归方程=
-0.5x+0.7中,当解释变量x每增加1个单位时,响应变量y平均减少0.5个单位,故C不正确;若变量y和x之间的样本相关系数为r=
-0.987 2,则变量y和x之间的负线性相关很强,故D正确.故选BD.
4.为了判断高中三年级学生是否选修文科与性别的关系.现随机抽取50名学生,得到如表所示的2×2列联表.
性别选修合计
理科文科
男 13 10 23
女 7 20 27
合计 20 30 50
已知P(χ2≥3.841)≈0.05,P(χ2≥5.024)≈0.025.
根据表中数据,经计算得到
χ2=≈4.844.则认为选修文科与性别有关系出错的可能性为　　　　.
解析:χ2≈4.844>3.841,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.
答案:5%
5.已知变量x和y的统计数据如表所示.
x 3 4 5 6 7
y 2.5 3 4 4.5 6
根据上表可得经验回归方程为=x-0.25,据此可以预测当x=8时,
=　　　　.
解析:由题中图表可知,=5,=4,因为经验回归方程经过样本的中心(,),则4=5-0.25,得=0.85,则经验回归方程为=0.85x-0.25,再将x=8代入方程,得=6.55.
答案:6.55
成对数据的统计相关性判断
1.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图如图①,对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图如图②.由这两个散点图可以判断(　C　)
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
解析:由散点图可得两组数据均线性相关,且图①的经验回归方程斜率为负,图②的经验回归方程斜率为正,则由散点图可判断变量x与y负相关,u与v正相关.故选C.
2.某商家今年上半年各月的人均销售额(单位:千元)与利润率统计数据如表所示.
月份 1 2 3 4 5 6
人均销售额 6 5 8 3 4 7
利润率/% 12.6 10.4 18.5 3.0 8.1 16.3
根据表中数据,下列说法正确的是(　A　)
A.利润率与人均销售额成正相关关系
B.利润率与人均销售额成负相关关系
C.利润率与人均销售额成正比例函数关系
D.利润率与人均销售额成反比例函数关系
解析:画出利润率与人均销售额的散点图,如图.由图可知利润率与人均销售额成正相关关系.故选A.
3.(多选题)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得经验回归方程,分别得到以下四个结论,其中一定不正确的结论是(　AD　)
A.y与x负相关且=2.347x-6.423
B.y与x负相关且=-3.476x+5.648
C.y与x正相关且=5.437x+8.493
D.y与x正相关且=-4.326x-4.578
解析:y与x负相关且=2.347x-6.423,A结论错误,由经验回归方程知,此两变量的关系是正相关;
y与x负相关且=-3.476x+5.648,B结论正确,经验回归方程符合负相关的特征;
y与x正相关且=5.437x+8.493,C结论正确,经验回归方程符合正相关的特征;
y与x正相关且=-4.326x-4.578,D结论错误,经验回归方程符合负相关的特征.故选AD.
4.变量X与Y相应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则(　C　)
A.r2C.r2<0解析:对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r1>0;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r2<0.故选C.
判断线性相关关系中正相关与负相关的三种方法
(1)散点图法:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数法:当|r|越趋近于1相关性越强.当残差平方和越小,相关指数R2越大,相关性越强.若r>0,则正相关;若r<0,则负相关.
(3)经验回归方程法:当>0时,正相关;当<0时,负相关.
独立性检验
　独立性检验的简单应用
(2020·全国Ⅲ卷)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
　　　　　锻炼人次空气质量等级　　　 [0,200] (200,400] (400,600]
1(优) 2 16 25
2(良) 5 10 12
3(轻度污染) 6 7 8
4(中度污染) 7 2 0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关
人次≤400 人次>400
空气质量好
空气质量不好
附:K2=,
P(K2≥k) 0.050　0.010　0.001
k 3.841　6.635　10.828
.
解:(1)由所给数据,得该市一天的空气质量等级为1,2,3,4的概率的估计值如表:
空气质量等级 1 2 3 4
概率的估计值 0.43 0.27 0.21 0.09
(2)一天中到该公园锻炼的平均人次的估计值为
×(100×20+300×35+500×45)=350.
(3)根据所给数据,可得2×2列联表:
人次≤400 人次>400
空气质量好 33 37
空气质量不好 22 8
根据列联表得
K2=≈5.820.
由于5.820>3.841,故有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
1.在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.
2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表.
(2)根据公式χ2=计算χ2的值.
(3)比较χ2与临界值的大小关系,作统计推断.
　独立性检验的综合应用
(2021·河南洛阳统考)某共享单车经营企业欲向甲市投放单车,为制定适宜的经营策略,该企业首先在已投放单车的乙市进行单车使用情况调查.调查过程分随机问卷、整理分析及开座谈会三个阶段.在随机问卷阶段,A,B两个调查小组分赴全市不同区域发放问卷并及时收回;在整理分析阶段,两个调查小组从所获取的有效问卷中,针对15至45岁的人群,按比例随机抽取了300份,进行数据统计,具体情况如表所示.
　　组别年龄　　 A组统计结果 B组统计结果
经常使用单车偶尔使用单车经常使用单车偶尔使用单车
[15,25) 27人 13人 40人 20人
[25,35) 23人 17人 35人 25人
[35,45] 20人 20人 35人 25人
(1)先用分层随机抽样的方法从上述300人中按“年龄是否达到35岁”抽出一个容量为60人的样本,再用分层随机抽样的方法将“年龄达到35岁”的被抽个体分配到“经常使用单车”和“偶尔使用单车”中去,
①求这60人中“年龄达到35岁且偶尔使用单车”的人数;
②为听取对发展共享单车的建议,调查小组专门组织所抽取的“年龄达到35岁且偶尔使用单车”的人员召开座谈会.会后共有3份礼品赠送给其中3人,每人1份(其余人员仅赠送骑行优惠券).已知参加座谈会的人员中有且只有4人来自A组,求A组这4人中得到礼品的人数X的分布列和数学期望.
(2)从统计数据可直观得出“经常使用共享单车与年龄达到m岁有关”的结论.在用独立性检验的方法说明该结论成立时,为使犯错误的概率尽可能小,年龄m应取25还是35 请通过比较χ2的大小加以说明.
参考公式:χ2=,其中n=a+b+c+d.
解:(1)①从300人中抽取60人,其中“年龄达到35岁”的人数为100×=20,再将这20人用分层随机抽样法按“是否经常使用单车”进行名额划分,其中“年龄达到35岁且偶尔使用单车”的人数为20×=9.
②A组这4人中得到礼品的人数X的所有可能取值为0,1,2,3,相应概率为P(X=0)==,P(X=1)==,P(X=2)==,P(X=3)==.
故其分布列为
X 0 1 2 3
P
所以E(X)=0×+1×+2×+3×=.
(2)按“年龄是否达到35岁”对数据进行整理,得到如表所示的列
联表.
是否达到35岁使用单车合计
经常偶尔
未达到 125 75 200
达到 55 45 100
合计 180 120 300
当m=35时,可求得
=
==.
按“年龄是否达到25岁”对数据进行整理,得到如表所示的列联表.
是否达到25岁使用单车合计
经常偶尔
未达到 67 33 100
达到 113 87 200
合计 180 120 300
当m=25时,可求得
=
==.
所以>.
欲使犯错误的概率尽可能小,需取m=25.
[针对训练]
(2021·山东青岛高三二模)现对某市工薪阶层对于“楼市限购令”的态度进行调查,随机抽调了50人,他们月收入(单位:百元)的频数分布及对“楼市限购令”赞成人数如表所示.
月收入 [25,35) [35,45) [45,55) [55,65) [65,75) [75,85]
频数 5 10 15 10 5 5
赞成人数 4 8 12 5 2 1
(1)根据以上统计数据完成2×2列联表,并问能否有97.5%的把握认为“某市工薪阶层对于‘楼市限购令’的态度与月收入以6 500元为分界点有关”
态度月收入合计
不低于 65百元低于 65百元
赞成
不赞成
合计
(2)若对月收入在[55,65)和[65,75)的被调查人中各随机选取两人进行追踪调查,求在选中的4人中有人不赞成的条件下,赞成“楼市限购令”的人数ξ的分布列及数学期望.
附:χ2=,n=a+b+c+d.　
α 0.050 0.025 0.010 0.005 0.001
χα 3.841 5.024 6.635 7.879 10.828
解:(1)由题意列联表如表:
态度月收入合计
不低于 65百元低于 65百元
赞成 3 29 32
不赞成 7 11 18
合计 10 40 50
χ2=≈6.27>5.024,
所以有97.5%的把握认为“某市工薪阶层对于‘楼市限购令’的态度与月收入以6 500元为分界点有关”.
(2)ξ的所有可能取值为0,1,2,3,
P(ξ=0)===,
P(ξ=1)===,
P(ξ=2)===,
P(ξ=3)===,
所以ξ的分布列为
ξ 0 1 2 3
P
E(ξ)=0×+1×+2×+3×=.
一元线性回归模型及残差分析
　线性回归分析
(2021·云南昆明高三三模)我国脱贫攻坚战取得全面胜利,现行标准下农村贫困人口全部脱贫,消除了绝对贫困.某村40户贫困家庭在扶贫工作组的帮助下于2017年全面脱贫,该工作组为了了解脱贫家庭的收入、消费支出、食品支出的关系,在这些脱贫家庭中利用简单随机抽样方法抽取了8户,调查统计这8户家庭每户2019年的年收入x,消费支出y,食品支出z(单位:千元),整理数据(xi,yi)(i=1,2,…,8)得到下面的折线图,由数据(yi,zi)(i=1,2,…,8)得到下表.
家庭(i) 1 2 3 4 5 6 7 8
消费支出(y) 27 30 33 35 37 40 42 44
食品支出(z) 9 10 11 13 12 11 12 12
(1)由折线图看出,可用线性回归模型拟合y与x的关系,求y关于x的经验回归方程=x+(精确到0.01),并解释的现实生活意义;
(2)恩格尔系数,是食品支出额占家庭消费支出总额的比重.通常一个家庭收入越少,家庭收入中(或总支出中)用来购买食物的比重越大;一个家庭收入越多,家庭收入中(或总支出中)用来购买食物的比重越小,所以该系数是衡量居民生活水平的有效指标.根据联合国粮农组织提出的标准,恩格尔系数在59%以上为贫困,50%～59%为温饱,40%～50%为小康,30%～40%为富裕,低于30%为最富裕.根据上述样本数据,请估计该村脱贫家庭中达到最富裕的家庭户数.
参考数据:xi=360,yi=288,xiyi=13 310,=16 714.附:回归方程=x+中斜率和截距的最小二乘估计公式分别为=,=-.
解:(1)由题,可知===45,===36,
所以===≈0.681≈0.68,
故=-≈36-0.681×45≈5.36.
所以y关于x的经验回归方程为=0.68x+5.36.
的现实意义为年收入每增加1千元,估计消费支出增加0.68千元.
(2)由题意可知,8户脱贫家庭的恩格尔系数如表所示.
家庭(i) 1 2 3 4 5 6 7 8
恩格尔系数 33.3% 33.3% 33.3% 37.1% 32.4% 27.5% 28.6% 27.3%
所以样本中达到最富裕的家庭有3个,
估计该村脱贫家庭中达到最富裕的家庭户数为
×40=15(户).
1.经验回归方程中系数的两种求法
(1)公式法:利用公式,求出回归系数,.
(2)待定系数法:利用回归直线过样本点中心(,)求系数.
2.回归分析的两种策略
(1)利用经验回归方程进行预测:把经验回归方程看作一次函数,求函数值.
(2)利用经验回归直线判断正、负相关:决定正相关还是负相关的是回归系数.
　非线性回归分析
(2021·安徽宿州高三三模)某电影院统计了某部电影上映高峰后连续10场的观众人数,其中每场观众人数y(单位:百人)与场次x的统计数据如表:
x 1 2 3 4 5 6 7 8 9 10
y 2.77 2 1.92 1.36 1.12 1.09 0.74 0.68 0.62 0.55
通过散点图可以发现y与x之间具有相关性,且满足关系式y=aebx,设ω=ln y.
(1)利用表格中的前8组数据求样本相关系数r,并判断是否有99%的把握认为x与ω之间具有线性相关关系(当样本相关系数满足|r|>
0.789时,则有99%的把握认为两个变量具有线性相关关系);
(2)利用x与ω的相关性及表格中的前8组数据求出y与x之间的经验回归方程(结果保留两位小数);
(3)如果每场观众人数不足0.7(百人),称为“非满场”.从表格中的10组数据中随机选出8组,设ξ表示“非满场”的数据组数,求ξ的分布列及数学期望.
附:≈6.48,≈2.45,≈1.30,e1.17≈3.22.前8组数据的相关量及公式:xi=36,yi=11.68,ωi≈2.18,(xi-)2=42,
(yi-)2≈3.61,(ωi-)2≈1.70,(xi-)(yi-)=-11.83,
(xi-)(ωi-)≈-8.35,对于样本(vi,ui)(i=1,2,…,n),其经验回归直线的斜率和截距的最小二乘估计公式分别为==
,=-,样本相关系数r=.　
解:(1)因为r=≈≈-0.99,
所以|r|≈0.99>0.789,
所以有99%的把握认为x与ω之间具有线性相关关系.
(2)因为y=aebx,所以ln y=ln a+bx,
==≈-0.20,
=-≈1.17,
所以=-0.20x+1.17=ln y,
所以=e-0.20x+1.17=3.22e-0.20x.
(3)ξ=1,2,3,
P(ξ=1)==,
P(ξ=2)==,
P(ξ=3)==,
ξ的分布列为
ξ 1 2 3
P
所以E(ξ)=1×+2×+3×=2.4.
求非线性经验回归方程的步骤
(1)确定变量,作出散点图.
(2)根据散点图,选择恰当的拟合函数.
(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出经验回归方程.
(4)分析拟合效果,通过计算决定系数或画残差图来判断拟合效果.
(5)根据相应的变换,写出非线性经验回归方程.
　残差分析
BMI指数是用体重公斤数除以身高米数的平方得出的数值,是国际上常用的衡量人体胖瘦程度以及是否健康的一个标准.某中小学生成长与发展机构从某市的320名高中男体育特长生中随机选取8名,其身高和体重的数据如表所示:
编号 1 2 3 4 5 6 7 8
身高xi/cm 166 167 160 173 178 169 158 173
体重yi/kg 57 58 53 61 66 57 50 66
(1)根据最小二乘法的思想与公式可求得经验回归方程为=0.8x-
75.9,请利用已经求得的经验回归方程,完善残差表,并求解释变量(身高)对于响应变量(体重)变化的贡献值R2(保留两位有效数字);
编号 1 2 3 4 5 6 7 8
身高xi/cm 166 167 160 173 178 169 158 173
体重yi/kg 57 58 53 61 66 57 50 66
残差/kg 0.1 0.3 0.9 -1.5 -0.5
(2)通过残差分析,对于残差的最大(绝对值)的那组数据,需要确认在样本点的采集中是否有人为的错误.已知通过重新采集发现,该组数据的体重应该为58(kg).请重新根据最小二乘法的思想与公式,求出男体育特长生的身高与体重的经验回归方程.
参考公式:R2=1-.
==,
=-,ei=yi-xi-.
参考数据:xiyi=78 880,=226 112,=168,=58.5,=226.
解:(1)由题意知经验回归方程为=0.8x-75.9,
计算=57-0.8×169+75.9=-2.3,
=50-0.8×158+75.9=-0.5,
=66-0.8×173+75.9=3.5.
完善残差表如下,
编号 1 2 3 4 5 6 7 8
身高xi/cm 166 167 160 173 178 169 158 173
体重yi/kg 57 58 53 61 66 57 50 66
残差/kg 0.1 0.3 0.9 -1.5 -0.5 -2.3 -0.5 3.5
计算R2=1-=1-(0.01+0.09+0.81+2.25+0.25+5.29+0.25+
12.25)≈1-0.09=0.91,所以解释变量(身高)对于响应变量(体重)变化的贡献值R2≈0.91.
(2)通过残差分析知,残差的最大(绝对值)的那组数据为第8组,且y8=
58,由xiyi=78 880,计算修订后xiyi′=78 880-173×66+173×58=
77 496,又=226 112,=168,修订后′=×(8×58.5-66+58)=
57.5,所以===0.675,=′-=57.5-
0.675×168=-55.9,所以x关于y的经验回归方程是=0.675x-55.9.
决定系数R2对回归模型的检验
(1)我们可以用决定系数R2=1-来刻画回归的效果.
(2)在线性回归模型中,R2表示解释变量对于响应变量变化的贡献率,R2越接近于1,表示回归的效果越好.
[针对训练]
某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出x(万元)和销售量y(万台)的数据如表所示.
年份 2011 2012 2013 2014 2015 2016 2017
广告费支出x 1 2 4 6 11 13 19
销售量y 1.9 3.2 4.0 4.4 5.2 5.3 5.4
(1)若用线性回归模型拟合y与x的关系,求出y关于x的经验回归
方程;
(2)若用y=c+d模型拟合y与x的关系,可得回归方程=1.63+
0.99,经计算线性回归模型和该模型的R2分别约为0.75和0.88,请用R2说明选择哪个回归模型更好;
(3)已知利润z与x,y的关系为z=200y-x.根据(2)的结果回答下列
问题:
①广告费x=20时,销售量及利润的预报值是多少
②广告费x为何值时,利润的预报值最大 (精确到0.01)
参考公式:经验回归直线=+x的斜率和截距的最小二乘估计分别为==,=-.参考数据:≈2.24.
解:(1)因为 =8,=4.2,
xiyi=279.4,xi2=708,
所以===0.17,
=-=4.2-0.17×8=2.84,
所以y关于x的经验回归方程为=0.17x+2.84.
(2)因为0.75<0.88且R2越大,反映残差平方和越小,模型的拟合效果越好,所以选用=1.63+0.99更好.
(3)由(2)知,
①当x=20时,
销售量的预报值=1.63+0.99≈6.07(万台),
利润的预报值z=200×(1.63+0.99)-20≈1 193.04(万元).
②z=200(1.63+0.99)-x=-x+198+326=-()2+198+326=
-(-99)2+10 127,
所以当=99,即x=9 801时,利润的预报值最大,故广告费为
9 801万元时,利润的预报值最大.
成对数据分析中的探究创新题
(2021·福建南平高三二模)近年来,我国加大5G基站的建设力度,基站已覆盖所有地级市,并逐步延伸到乡村.
(1)现抽样调查某市所辖的A地和B地5G基站的覆盖情况,各取100个村,调查情况如表.
已覆盖未覆盖
A地 20 80
B地 25 75
视样本的频率为总体的概率,假设从A地和B地所有村中各随机抽取2个村,求这4个村中A地5G已覆盖的村比B地多的概率;
(2)该市2020年已建成的5G基站数y与月份x的数据如表,
x 1 2 3 4 5 6 7 8 9 10 11 12
y 283 340 428 547 701 905 1 151 1 423 1 721 2 109 2 601 3 381
探究表中的数据发现,因年初受新冠肺炎疫情影响,5G基站建设进度比较慢,随着疫情得到有效控制,5G基站建设进度越来越快,根据散点图分析,已建成的5G基站数呈现先慢后快的非线性变化趋势,采用非线性回归模型y=aebx拟合比较合理,请结合参考数据,求5G基站数y关于月份x的经验回归方程(的值精确到0.01).
附:设u=ln y,则ui=ln yi(y=1,2,…,12),≈1 299.17,≈6.88,
(xi-)2=143,(xi-)·(yi-)≈37 238,(xi-)(ui-)≈32.43,对于样本(xi,yi)(i=1,2,…,n)的线性回归方程=x+有=
,=-.
[思路导引] (1)利用二项分布、彼此互斥和相互独立事件的含义及概率计算公式,即可解得;
(2)利用换元,设u=ln y,则u=ln a+bx,可得u与x是线性相关关系,再根据最小二乘法求经验回归方程.
解:(1)用样本估计总体,抽到A地5G覆盖的村的概率为,抽到B地5G覆盖的村的概率为,设A地抽到的2个村中5G基站覆盖的村的个数为X,则X服从二项分布B(2,),
P(X=i)=()i()2-i,i=0,1,2.
设B地抽到的2个村中5G基站覆盖的村的个数为Y,则Y服从二项分布B(2,),
P(Y=i)=()i()2-i,i=0,1,2.
从A地和B地各随机抽取2个村,这4个村中A地5G覆盖的村比B地5G覆盖的村多的概率为
P=P(X=1)P(Y=0)+P(X=2)P(Y=0)+P(X=2)P(Y=1)=()()()2+()2·()2+()2()·()=.
(2)由指数模型y=aebx,设u=ln y,则u=ln a+bx,则u与x是线性相关关系.
因为==6.5,≈6.88,
(xi-)(ui-)≈32.43,(xi-)2=143,
所以=≈≈0.23,
ln ≈-≈6.88-0.23×6.5≈5.39,
即=5.39+0.23x,即=e5.39+0.23x.
[反思提升] 本题考查二项分布、互斥事件、相互独立事件及回归分析等基础知识,求解时应注意概率模型、回归分析模型的建立与应用,本例可以对数学建模、数据分析、逻辑推理与数学运算的数学学科素养的提升有极大的帮助.
[应用演练] (2021·四川攀枝花高三二模)2020年3月,工业和信息化部发布《工业和信息化部关于推动5G加快发展的通知》鼓励基础电信企业通过套餐升级优惠、信用购机等举措,促进5G终端消费,加快用户向5G迁移.为了落实通知要求,掌握用户升级迁移情况及电信企业服务措施,某市调研部门随机选取了甲、乙两个电信企业的用户共165户作为样本进行满意度调查,并针对企业服务措施设置了达标分数线,按照不低于80分的为满意,低于80分的为不满意,调研人员制作了如表所示的2×2列联表.已知从样本的165户中随机抽取1户为满意的概率是.
用户满意度合计
满意不满意
甲企业用户 75
乙企业用户 20
合计
(1)将2×2列联表补充完整,并判断能否有95%的把握认为“满意度与电信企业服务措施有关系”
(2)视样本的频率为概率,在该市乙企业的所有用户中任取3户,记取出的3户中不满意的户数为ξ,求ξ的分布列和数学期望.
临界值表仅供参考:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
(参考公式:χ2=,其中n=a+b+c+d)
解:(1)设样本中乙企业用户中满意的有x户,结合列联表知P==,解得x=60,所以2×2列联表为
用户满意度合计
满意不满意
甲企业用户 75 10 85
乙企业用户 60 20 80
合计 135 30 165
χ2=
==
≈4.853>3.841,
故可以判断有95%的把握认为“满意度与电信企业服务措施有关系”.
(2)设“从样本中的乙企业用户中任取一户为不满意”为事件A,则P(A)==,
由题意可知,ξ的可能值为0,1,2,3,ξ～B(3,),
则P(ξ=0)=(1-)3=,
P(ξ=1)=··(1-)2=,
P(ξ=2)=·()2·(1-)=,
P(ξ=3)=()3=,
所以ξ的分布列为
ξ 0 1 2 3
P
从而ξ的数学期望为E(ξ)=3×=.
(1)对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是(　　)
A.r2C.r4(2)为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x轴、y轴的单位长度相同),用经验回归方程=x+近似地刻画其相关关系,根据图形,以下结论最有可能成立的是(　　)
A.线性相关关系较强,的值为1.25
B.线性相关关系较强,的值为0.83
C.线性相关关系较强,的值为-0.87
D.线性相关关系较弱,无研究价值
解析:(1)由散点图知图①与图③是正相关,故r1>0,r3>0,图②与图④是负相关,故r2<0,r4<0,且图①与图②的样本点集中在一条直线附近,因此r2(2)由散点图可以看出两个变量所构成的点在一条直线附近,所以线性相关关系较强,且应为正相关,所以经验回归方程的斜率应为正数,且从散点图观察,经验回归方程的斜率应该比y=x的斜率要小一些.故选B.
(2021·四川达州高三二模)我国大力发展新能源汽车的生产和销售.某市近6年的新能源汽车保有量数据如表,
年份代号x 1 2 3 4 5 6
保有量y/ 万辆 1 1.8 2.7 4 5.9 9.2
(1)从这6年中任意选取两年,求这两年中仅有1年的新能源汽车保有量大于4万辆的概率;
(2)用函数模型y=cedx(c>0)对两个变量x,y的关系进行拟合,根据表中数据求出y关于x的经验回归方程(精确到0.01).
参考数据:=3.5,=4.1,=91;设ti=ln yi,≈1.16,xiti≈31.89.
参考公式:回归直线=+u的斜率和截距的最小二乘估计公式分别为=,=-,e-0.35≈0.704 7.
解:(1)设6年中任意选取两年,仅有1年的新能源汽车保有量大于
4万辆为事件A,
所以P(A)==.
所以,仅有1年的新能源汽车保有量大于4万辆的概率为.
(2)对y=cedx(c>0)两边取自然对数得
ln y=ln c+dx,设t=ln y,
所以t=ln c+dx,
所以=≈≈0.43,所以=ln +0.43,
ln =-0.43≈1.16-0.43×3.5≈-0.35.
因为e-0.35≈0.704 7,所以≈0.70,
所以=0.70e0.43x.
为了研究一种昆虫的产卵数y(单位:个)和温度x(单位:℃)是否有关,现收集了7组观测数据列于表中,并作出了如图所示的散点图,发现样本点没有分布在某个带状区域内,两个变量不呈线性相关关系,现分别用模型①y=C1x2+C2与模型②y=作为产卵数y和温度x的经验回归方程来建立两个变量之间的关系.
温度x/ ℃ 20 22 24 26 28 30 32
产卵数y/个 6 10 21 24 64 113 322
t=x2 400 484 576 676 784 900 1 024
z=ln y 1.79 2.30 3.04 3.18 4.16 4.73 5.77
26 692 80 3.57 21.375 0.43 0.32 0.006 2
其中ti=,=ti,zi=ln yi,=zi.
(1)分别在图A,图B中画出y关于t的散点图和z关于x的散点图,根据散点图判断哪一个模型更适宜作为昆虫的产卵数y关于温度x的经验回归方程 (给出判断即可,不必说明理由)
A
B
(2)根据表中数据,分别在两个模型下建立y关于x的经验回归方程,并在两个模型下分别估计温度为30 ℃时的产卵数;(参考数据:e4.65≈104.58,e4.85≈127.74,e5.05≈156.02)
(3)若模型①②的决定系数分别为=0.82,=0.96,请根据决定系数判断哪个模型的拟合效果更好.
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线=u+的斜率和截距的最小二乘估计分别为=,=- .
解:(1)画出y关于t的散点图,如图所示.
画出z关于x的散点图,如图所示.
根据散点图可以判断模型②更适宜作为昆虫的产卵数y关于温度x的经验回归方程.
(2)对于模型①,因为t=x2,所以y=C1x2+C2=C1t+C2,
所以=≈0.43,=-≈80-0.43×692=-217.56,
故所求经验回归方程为=0.43x2-217.56,
当x=30时,=0.43×302-217.56=169.44,
故估计温度为30 ℃时的产卵数为169个;
对于模型②,因为y=,
所以z=ln y=C3x+C4,
所以=≈0.32,
=-≈3.57-0.32×26=-4.75,
故所求经验回归方程为=e0.32x-4.75,
当x=30时,=e0.32×30-4.75≈127.74,
故估计温度为30 ℃时的产卵数为128个.
(3)因为=0.82,=0.96,<,所以模型②的拟合效果更好.
知识点、方法基础巩固练综合运用练应用创新练
散点图、回归分析 2,4,5,7 11,12,13
2×2列联表、独立性检验 1,3,6,8,9 10,14 15
1.疫苗是为预防、控制传染病的发生、流行,用于人体预防接种的预防性生物制品,其前期研发过程中,一般都会进行动物保护测试,为了考察某种疫苗预防效果,在进行动物试验时,得到统计数据如表,
疫苗传染病合计
未发病发病
未注射 20
注射 30
合计 50 50 100
附表及公式:
α 0.05 0.01 0.005 0.001
xα 3.841 6.635 7.879 10.828
χ2=,n=a+b+c+d.
现从试验动物中任取一只,取得“注射疫苗”的概率为(视频率为概率),则下列判断错误的是(　D　)
A.注射疫苗发病的动物数为10
B.从该试验未注射疫苗的动物中任取一只,发病的概率为
C.能在犯错概率不超过0.001的前提下,认为疫苗有效
D.该疫苗的有效率为75%
解析:由题意知,注射疫苗动物共40只,未注射为60只,补充2×2列联表,
疫苗传染病合计
未发病发病
未注射 20 40 60
注射 30 10 40
合计 50 50 100
由此可得A,B正确.
计算得χ2=≈16.67>10.828,
故能在犯错概率不超过0.001的前提下认为疫苗有效.C正确,D错误.故选D.
2.已知某产品的销售额y(单位:万元)与广告费用x(单位:万元)之间的关系如下表:
x/万元 0 1 2 3 4
y/万元 10 15 m 30 35
若根据表中的数据用最小二乘法求得y与x的经验回归方程为=
6.5x+9,则下列说法中错误的是(　C　)
A.产品的销售额与广告费用成正相关
B.该经验回归直线过点(2,22)
C.当广告费用为10万元时,销售额一定为74万元
D.m的值是20
解析:由经验回归方程=6.5x+9中的回归系数6.5>0,可知产品的销售额与广告费用成正相关,故A中的说法正确;
==2,==,代入=6.5x+9,得=6.5×
2+9,解得m=20,故D中的说法正确;
===22,则该经验回归直线过点(2,22),故B中的说法正确;
当x=10时,=6.5×10+9=74,说明当广告费用为10万元时,销售额预计为74万元,故C中的说法错误.故选C.
3.(多选题)(2021·福建福州一模)“一粥一饭,当思来之不易”,道理虽简单,但每年我国还是有2 000多亿元的餐桌浪费,被倒掉的食物相当于2亿多人一年的口粮.为营造“节约光荣,浪费可耻”的氛围,某市发起了“光盘行动”.某机构为调研民众对“光盘行动”的认可情况,在某大型餐厅中随机调查了90位来店就餐的客人,制成如表所示的列联表:
年龄是否认可合计
认可不认可
40岁以下 20 20 40
40岁以上(含40岁) 40 10 50
合计 60 30 90
已知P(χ2≥6.635)=0.010,P(χ2≥10.828)=0.001,则下列判断正确的是(　AC　)
A.在该餐厅用餐的客人中大约有66.7%的客人认可“光盘行动”
B.在该餐厅用餐的客人中大约有99%的客人认可“光盘行动”
C.有99%的把握认为“光盘行动”的认可情况与年龄有关
D.在犯错误的概率不超过0.001的前提下,认为“光盘行动”的认可情况与年龄有关
解析:通过计算得χ2的观测值为9,且P(χ2≥6.635)=0.010,P(χ2≥10.828)=0.001,又因为9>6.635,但9<10.828,所以有99%的把握认为“光盘行动”的认可情况与年龄有关,或者说,在犯错误的概率不超过0.010的前提下,认为“光盘行动”的认可情况与年龄有关,所以选项C正确,选项D错误;由表可知认可“光盘行动”的人数为60,所以在该餐厅用餐的客人中认可“光盘行动”的比例为×100%≈66.7%,故选项A正确,选项B错误.故选AC.
4.(多选题)(2021·湖北武汉高三二模)在对具有相关关系的两个变量进行回归分析时,若两个变量不呈线性相关关系,可以建立含两个待定参数的非线性模型,并引入中间变量将其转化为线性关系,再利用最小二乘法进行线性回归分析.下列选项为四个同学根据自己所得数据的散点图建立的非线性模型,且散点图的样本点均位于第一象限,则其中可以根据上述方法进行回归分析的模型有(　ABC　)
A.y=c1x2+c2x B.y=
C.y=c1+ln(x+c2) D.y=c1
解析:对于选项A,y=c1x2+c2x =c1x+c2,
令u=则u=c1x+c2;
对于选项B,y==1+ y-1= ==·x+,
令u= u=·x+;
对于选项C,y=c1+ln(x+c2) y-c1=ln(x+c2) =x+c2,
即ey=·(x+c2),令u=ey,
则u=·(x+c2)=·x+c2·;
对于选项D,y=c1 ln y=ln c1+x+c2,
令u=ln y,则u=x+ln c1+c2,
此时斜率为1,与最小二乘法不符.故选ABC.
5.(多选题)(2021·湖南衡阳高三一模)5G技术的运用不仅提高了网络传输速度,更拓宽了网络资源的服务范围.目前,我国加速了5G技术的融合与创新,前景美好.某手机商城统计了2020年中5个月的5G手机销量,如表所示,
月份 6月 7月 8月 9月 10月
月份编号x 1 2 3 4 5
销量y/部 52 95 a 185 227
若y与x线性相关,由表中数据求得经验回归方程为=44x+10,则下列说法正确的是(　BC　)
A.5G手机的销量逐月增加,平均每个月增加约10台
B.a=151
C.y与x正相关
D.预计12月份该手机商城的5G手机销量约为328部
解析:由表中数据可知 =×(1+2+3+4+5)=3,
又因为经验回归方程为=44x+10,
代入回经验归方程,解得=142,
所以=×(52+95+a+185+227)=142,
解得a=151,
由此知5G手机的销量逐月增加,平均每个月增加约44台,
将x=7代入经验回归方程得=318,
因为44>0,所以y与x正相关.故选BC.
6.(2021·河北衡水中学期末)有两个分类变量x和y,其中一组观测值为如表的2×2列联表:
x y 合计
y1 y2
x1 a 15-a 15
x2 20-a 30+a 50
合计 20 45 65
其中a,15-a均为大于5的整数,则a=　　　　时,在犯错误的概率不超过0.01的前提下认为“x和y之间有关系”.
附:χ2=.
α 0.10 0.05 0.025 0.010 0.005
xα 2.706 3.841 5.024 6.635 7.879
解析:由题意知χ2≥6.635,则
=≥6.635,解得a≥8.65或a≤0.58,因为a>5且15-a>5,a∈Z,综上得,8.65≤a<10,a∈Z,所以a=9.
答案:9
7.如图是一组数据(x,y)的散点图,经最小二乘估计公式计算,y与x之间的经验回归方程为=x+1,则=　　　　.
解析:由题图知==2,
==2.6,
将(2,2.6)代入=x+1中,解得=0.8.
答案:0.8
8.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体情况如表:
　　专业性别　　非统计专业统计专业
男 13 10
女 7 20
为了检验主修统计专业是否与性别有关,根据表中的数据得到χ2≈
　　　　(精确到0.001).若断定主修统计专业与性别有关系,这种判断出错的可能性为　　　　.
附表及公式:
α 0.05 0.01 0.001
xα 3.841 6.635 10.828
χ2=,n=a+b+c+d.
解析:由题意,
χ2=≈4.844.
因为4.844>3.841,所以断定主修统计专业与性别有关系,这种判断出错的可能性为0.05.
答案:4.844　0.05
9.(2021·全国甲卷)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如表:
一级品二级品合计
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异
附:K2=,
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
解:(1)甲机床生产的产品中的一级品的频率为=0.75,乙机床生产的产品中的一级品的频率为=0.6.
(2)K2==>10>6.635,
故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.
10.(多选题)有甲、乙两个班级进行数学考试,按照大于等于120分为优秀,120分以下为非优秀统计成绩,得到如下2×2列联表:
班级成绩合计
优秀非优秀
甲班 10 b
乙班 c 30
合计 105
已知在这105人中随机抽取1人,成绩优秀的概率为(视频率为概率),则下列说法正确的是(　BC　)
附表及公式:
α 0.05 0.01 0.001
xα 3.841 6.635 10.828
χ2=,n=a+b+c+d.
A.列联表中c的值为30,b的值为35
B.列联表中c的值为20,b的值为45
C.根据列联表中的数据,若依据小概率值α=0.05的独立性检验,则能认为成绩与班级有关系
D.根据列联表中的数据,若依据小概率值α=0.05的独立性检验,则不能认为成绩与班级有关系
解析:因为在这105人中随机抽取1人,成绩优秀的概率为,
所以成绩优秀的人数为105×=30,非优秀的人数为105-30=75,
所以c=30-10=20,b=75-30=45,
所以χ2=≈6.109>3.841=x0.05,
所以依据小概率值α=0.05的独立性检验,能认为成绩与班级有关系.故选BC.
11.(多选题)某同学将收集到的六组数据(xi,yi)(i=1,2,3,4,5,6)制成如图所示的散点图,并通过计算得到其经验回归直线l1的方程为=0.68x+,其样本相关系数为r1,决定系数为.经过残差分析确定点F为“离群点”(对应残差过大的点),把它去掉后,再利用剩下的五组数据计算得到其经验回归直线l2的方程为=x+0.68,其样本相关系数为r2,决定系数为.则以下结论中正确的是(　ACD　)
A.r1>0,r2>0 B.>
C.=0.12 D.0<<0.68
解析:由题图可知两变量正线性相关,故r1>0,r2>0,且r1=2.5,去除点F后,=3,=2.又经验回归直线l1:=0.68x+必经过点(3.5,2.5),所以=2.5-0.68×3.5=0.12.故C中结论正确;经验回归直线l2:=x+0.68必经过点(3,2),所以2=×3+0.68,所以=
0.44,故D中结论正确.故选ACD.
12.(2021·黑龙江哈尔滨高三三模)在一次考试中,5名学生的数学和物理成绩如表(已知学生的数学成绩和物理成绩具有线性相关关系):
学生的编号i 1 2 3 4 5
数学成绩x 80 75 70 65 60
物理成绩y 70 66 68 64 62
现已知其经验回归方程为=0.36x+,则=　　　　,根据此线性回归方程估计数学得90分的同学的物理成绩为　　　　(四舍五入到整数).
解析:==70,
==66,
所以66=0.36×70+,即=40.8,
即经验回归方程为=0.36x+40.8.
当x=90时,=0.36×90+40.8=73.2≈73.
答案:40.8　73
13.(2020·新高考Ⅰ卷)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),统计数据如表:
　　SO2 PM2.5　　 [0,50] (50,150] (150,475]
[0,35] 32 18 4
(35,75] 6 8 12
(75,115] 3 7 10
(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;
(2)根据所给数据,完成下面的2×2列联表:
　　　SO2 PM2.5　　　 [0,150] (150,475]
[0,75]
(75,115]
(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关
附:K2=,
解:(1)根据抽查数据,该市100天空气中的PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为=
0.64.
(2)根据抽查数据,可得2×2列联表:
　　SO2 PM2.5　　　 [0,150] (150,475]
[0,75] 64 16
(75,115] 10 10
(3)根据(2)的列联表得
K2=≈7.484.
由于7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.
14.(2021·广东汕头模拟)某二手车经销商对其所经营的A型号二手汽车的使用年数x与销售价格y(单位:万元/辆)进行整理,得到数据如表所示,
使用年数x 2 3 4 5 6 7
售价y 20 12 8 6.4 4.4 3
z=ln y 3.00 2.48 2.08 1.86 1.48 1.10
如图所示,z关于x的折线图:
(1)由折线图可以看出,可以用线性回归模型拟合z与x的关系,请用样本相关系数加以说明;
(2)求y关于x的经验回归方程,并预测某辆A型号二手车使用年数为9年时售价约为多少(,小数点后保留两位有效数字);
(3)基于成本的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的经验回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年.
参考公式:==,
=-,r=.
参考数据:xiyi=187.4,xizi=47.64,=139,≈4.18,≈13.96,
≈1.53,ln 1.46≈0.38,ln 0.711 8≈-0.34.
解:(1)由题意知=×(2+3+4+5+6+7)=4.5,
=×(3+2.48+2.08+1.86+1.48+1.10)=2,
又xizi=47.64,≈4.18,
≈1.53,
所以r≈=-≈-0.99,
所以z与x的样本相关系数大约为-0.99,说明z与x的线性相关程度很高.
(2)==-≈-0.36,
所以=-=2+0.36×4.5=3.62,
所以z与x的经验回归方程是=-0.36x+3.62,又z=ln y,
所以y关于x的经验回归方程是=e-0.36x+3.62.
令x=9,得=e-0.36×9+3.62=e0.38.
因为ln 1.46≈0.38,所以≈1.46,
即预测某辆A型号二手车使用年数为9年时售价约为1.46万元.
(3)当≥0.711 8,
即e-0.36x+3.62≥0.711 8=eln 0.711 8≈e-0.34时,
则有-0.36x+3.62≥-0.34,解得x≤11,
因此,预测在收购该型号二手车时车辆的使用年数不得超过11年.
15.(2021·广东广州调研)某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.过去50周的资料显示,该地周光照量X(单位:h)都在30 h以上,其中不足50 h 的有5周,不低于50 h且不超过70 h的有35周,超过70 h的有10周.根据统计,该基地的西红柿增加量y(单位:kg)与使用某种液体肥料的质量x(单位:kg)之间的对应数据如折线图
所示.
(1)依据折线图计算样本相关系数r(精确到0.01),并据此判断是否可用线性回归模型拟合y与x的关系;(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合)
(2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X限制,并有如表所示的关系:
周光照量X/ h 3070
光照控制仪运行台数 3 2 1
对商家来说,若某台光照控制仪运行,则该台光照控制仪产生的周利润为3 000元;若某台光照控制仪未运行,则该台光照控制仪周亏损
1 000元.若商家提供了3台光照控制仪,求商家在过去50周的周总利润的平均值.
参考公式:r=,
参考数据:≈0.55,≈0.95.
解:(1)由已知数据可得==5,
==4.
因为(xi-)(yi-)=(-3)×(-1)+0+0+0+3×1=6,
==2,　
==,
所以样本相关系数
r===≈0.95.
因为|r|>0.75,所以可用线性回归模型拟合y与x的关系.
(2)由条件可得在过去50周里,
当X>70时,共有10周,此时只有1台光照控制仪运行,
每周的总利润为1×3 000-2×1 000=1 000(元).
当50≤X≤70时,共有35周,此时有2台光照控制仪运行,
每周的总利润为2×3 000-1×1 000=5 000(元).
当30每周的总利润为3×3 000=9 000(元).
所以过去50周的周总利润的平均值为
=4 600(元),
所以商家在过去50周的周总利润的平均值为 4 600元.

展开更多......

收起↑

请用微信扫码

2023届高考一轮复习导与练(必修第二册+选择性必修第三册)第九章 第3节 成对数据的统计分析讲义（Word版含答案）

2023届高考一轮复习导与练(必修第二册+选择性必修第三册)第九章 第3节 成对数据的统计分析讲义（Word版含答案）

2023届高考一轮复习导与练(必修第二册+选择性必修第三册)第九章第3节成对数据的统计分析讲义（Word版含答案）

2023届高考一轮复习导与练(必修第二册+选择性必修第三册)第九章第3节成对数据的统计分析讲义（Word版含答案）