高三一轮总复习高效讲义第九章第3节 成对数据的统计分析 学案(Word版含答案)

资源下载
  1. 二一教育资源

高三一轮总复习高效讲义第九章第3节 成对数据的统计分析 学案(Word版含答案)

资源简介

第3节 成对数据的统计分析 
[课标要求] 1.了解样本相关系数的统计含义,会通过相关系数比较多组成对数据的相关性;
2.了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法;
3.针对实际问题,会用一元线性回归模型进行预测;
4.理解2×2列联表的统计意义,了解2×2列联表独立性检验及其应用.
 备考第1步——梳理教材基础,落实必备知识
1.变量的相关关系
(1)定义
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
(2)分类
正相关:如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关.
负相关:如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
(3)线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
2.样本相关系数
样本相关系数r=,用它来衡量两个变量间的线性相关关系.
(1)当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
(2)r的绝对值越接近于1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关性.
3.经验回归方程
(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
(2)经验回归方程:两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn),其经验回归方程为,则=,,其中,是经验回归方程的斜率,是在y轴上的截距,,=yi,称为样本点的中心.
说明:经验回归直线必过样本点的中心,这个结论既是检验所求经验回归方程是否准确的依据,也是求参数的一个依据.
4.分类变量与列联表
(1)分类变量
为区别不同的现象或性质而使用的一种特殊的随机变量,分类变量的取值可以用实数表示,但这些数值只作为编号使用,并没有通常的大小和运算意义.
(2)2×2列联表
如表,给出了成对分类变量数据的交叉分类频数的列表,称为2×2列联表.
YX y1 y2 总计
x1 a b a+b
x2 c d c+d
总计 a+c b+d a+b+c+d
(3)等高条形图
计算出列联表中间四个数各自的频率,可以用等高堆积条形图直观展示上述计算结果.
①等高堆积条形图中,列联表的行对应的是高度,两行的数据不相等,但对应的等高条形图的高度是相同的;同一行中两列的数据对应不同颜色.
②等高条形图中有两个高度相同的矩形,每一个矩形中都有两种颜色,如果两个高度相差比较明显(即和相差很大),就判断两个分类变量之间有关系.
5.独立性检验
(1)α的临界值
对于任何小概率值α,可以找到相应的正实数xα,使得下面关系成立:P(χ2≥xα)=α.
我们称xα为α的临界值.
(2)独立性检验
对于零假设H0:分类变量X和Y独立.
基于小概率值α的检验规则是:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
(一)必背常用结论
1.求解回归方程的关键是确定回归系数,,应充分利用回归直线过样本中心点(,).
2.根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则两分类变量有关的把握越大.
3.根据回归方程计算的y︿值,仅是一个预报值,不是真实发生的值.
(二)盘点易错易混
1.混淆相关关系与函数关系致误.
2.忽视回归直线必过样本点的中心致误.
3.要注意利用回归直线预测的是一个近似值,不是确定值.
4.对独立性检验χ2值的意义不清楚致误.
【小题热身】
1.已知变量x,y之间具有线性相关关系,其散点图如图所示,回归直线l的方程为,则下列说法正确的是(  )
解析:由题图可知,回归直线的斜率是正数,即>0;回归直线在y轴上的截距是负数,即<0,故选D.
答案:D
2.下面是2×2列联表:
y1 y2 总计
x1 a 21 73
x2 22 25 47
总计 b 46 120
则表中a,b的值分别为(  )
A.94,72 B.52,50
C.52,74 D.74,52
解析:∵a+21=73,∴a=52.又a+22=b,∴b=74.
答案:C
3.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y︿=0.67x+54.9.
零件数x(个) 10 20 30 40 50
加工时间y(min) 62 75 81 89
现发现表中有一个数据看不清,请你推断出该数据的值为________.
解析:由=30,得=0.67×30+54.9=75.
设表中的“模糊数字”为a,则62+a+75+81+89=75×5,∴a=68.
答案:68
4.在一次考试中,5名学生的数学和物理成绩如下表:(已知学生的数学和物理成绩具有线性相关关系)
学生的编号i 1 2 3 4 5
数学成绩x 80 75 70 65 60
物理成绩y 70 66 68 64 62
现已知其线性回归方程为,则根据此线性回归方程估计数学得90分的同学的物理成绩为______.(四舍五入到整数)
解析:==70,
==66,所以66=0.36×70+,
=40.8,即线性回归方程为=0.36x+40.8.当x=90时,=0.36×90+40.8=73.2≈73.
答案:73
5.[易错题]设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是________.(填序号).
①y与x具有正的线性相关关系;
②回归直线过样本点的中心(,);
③若该大学某女生身高增加1 cm,则其体重约增加0.85 kg;
④若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg.
解析:①正确;②正确;③正确.对于④,当x=170 cm时,=0.85×170-85.71=58.79,但这是预测值,不可断定其体重为58.79 kg.故不正确.
答案:④
 备考第2步——突破核心考点,提升关键能力
                
考点1__相关关系的判断[典例引领 ]
【例1】 (1)两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是(  )
A.①②③ B.②③①
C.②①③ D.①③②
解析:(1)第一个散点图中的点是从左下角分布到右上角区域,正相关;第三个散点图中的点是从左上角分布到右下角区域,负相关;第二个散点图中的点的分布没有什么规律,不相关.故选D.
答案:D
(2)(2021·内蒙古包头一模节选)某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关系如下表:
土地使用面积x(单位:亩) 1 2 3 4 5
管理时间y(单位:月) 9 11 14 26 20
求相关系数r的大小(精确到0.01),并判断管理时间y与土地使用面积x的线性相关程度.
参考公式:
参考数据:≈22.02.
解析:==3,==16,
=(1-3)×(9-16)+(2-3)×(11-16)+(3-3)×(14-16)+(4-3)×(26-16)+(5-3)×(20-16)=37,
=(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2=10,
=(9-16)2+(11-16)2+(14-16)2+(26-16)2+(20-16)2=194,
=2≈44.04,
=≈0.84>0.75,
所以管理时间y与土地使用面积x的线性相关程度为强相关.
[思维升华] 判断相关关系的两种方法
(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系;如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.
(2)相关系数法:相关系数|r|越趋近于1,相关性越强.
[对点练] 1.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为(  )
A.-1  B.0  C.  D.1
解析:所有样本点均在同一条斜率为正数的直线上,则样本相关系数最大,为1,故选D.
答案:D
2.变量X与Y相应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则(  )
A.r2<r1<0 B.0<r2<r1
C.r2<0<r1 D.r2=r1
解析:对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r1>0;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r2<0.故选C.
答案:C
考点2__回归分析[多维讲练]
回归分析是高考对统计案例部分常见的考点之一,主要涉及线性回归分析,有时也考查能转化为线性的非线性回归分析,题型多为解答题,难度中等.有时也在选择题中考查回归直线过样本中心点及其预测功能,难度较小.对数学运算和数学建模的核心素养有一定的要求.
角度1 线性回归分析
【例2】 (2021·河北廊坊模拟)为促进新能源汽车的推广,某市逐渐加大充电基础设施的建设,该市统计了近五年新能源汽车充电站的数量(单位:个),得到如下表格:
年份编号 1 2 3 4 5
年份 2016 2017 2018 2019 2020
新能源汽车充电站数量y/个 37 104 147 196 226
(1)已知可用线性回归模型拟合y与x的关系,请用相关系数加以说明;
(2)求y关于x的线性回归方程,并预测2024年该市新能源汽车充电站的数量.
参考数据:i=710,=2 600, ≈149.8,≈3.16.
参考公式:相关系数r
回归方程中斜率和截距的最小二乘估计公式分别为:

[思维点拨] (1)利用相关系数的计算公式即可得解;
(2)先利用已知数据和公式得到y关于x的线性回归方程,再将2024年所对应的年份编号代入线性回归方程即可得解.
解:(1)由已知数据得=×(1+2+3+4+5)=3,
=×710=142,
=(-2)2+(-1)2+0+1+22=10,
=2 600-5×3×142=470,所以r≈≈0.99.
因为y与x的相关系数近似为0.9,接近1,说明y与x的线性相关程度相当高,从而可以用线性回归模型拟合y与x的关系.
(2)由(1)得==47,
=142-47×3=1,故所求线性回归方程为=47x+1.将2024年对应的年份编号x=9代入回归方程得=47×9+1=424,故预测2024年该市新能源汽车充电站的数量为424个.
[思维升华] 线性回归分析问题的类型及解题方法
1.求线性回归方程
(1)利用公式,求出回归系数.
(2)待定系数法:利用回归直线过样本点的中心求系数.
2.利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.
3.利用回归直线判断正、负相关,决定正相关还是负相关的是系数.
[对点练] 1.(2021·湖北黄冈模拟)某公司研发了一种帮助家长解决孩子早教问题的萌宠机器人.萌宠机器人的语音功能让它像孩子的小伙伴一样和孩子交流,记忆功能还可以记住宝宝的使用习惯,很快找到宝宝想听的内容,它同时提供快乐儿歌、国学经典、启蒙英语等早期教育内容,且云端内容可以持续更新,萌宠机器人一投放市场就受到了很多家长欢迎.为了更好的服务广大家长,该公司对萌宠机器人的某个性能指数x(0x 3 4 5 6 7
y 0.45 0.50 0.60 0.65 0.70
(1)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程:
(2)计算变更x,y的相关系数r(计算结果精确到0.01),并回答是否可以认为该性能指数与孩子的喜爱程度相关性很强,(|r|∈[0.75,1],x,y相关性很强;|r|∈[0.3,0.75),x,y相关性一般;|r|∈[0,0.25],x,y相关性很弱.)
参考数据:≈0.656,≈0.207,(yi-)2=
0.043.参考公式:=,
,相关系数r
解:(1)由表知,==5.
==0.58,
=0.58-0.065×5=0.255,
所以y关于x的线性回归方程为y=0.065x+0.255.
(2)由(1)知=0.65,=10,因为=0.043,
所以=0.43,所以r=≈≈0.99.
由此可以认为该性能指数与孩子的喜爱程度相关性很强.
角度2 非线性回归分析
【例3】 (2021·重庆三模)近几年,快递业的迅速发展导致行业内竞争日趋激烈.某快递网点需了解一天中收发一件快递的平均成本y(单位:元)与当天揽收的快递件数x(单位:千件)之间的关系,对该网点近5天的每日揽件量xi(单位:千件)与当日收发一件快递的平均成本yi(单位:元)(i=1,2,3,4,5)数据进行了初步处理,得到下面的散点图及一些统计量的值.
4 5.16 0.415 -13.2
2.028 30 0.507
表中.
(1)根据散点图判断,y=a+bx与y=c+哪一个适宜作为y关于x的回归方程类型?并根据判断结果及表中数据求出y关于x的回归方程;
(2)各快递业为提高快递揽收量并实现总利润的增长,除了提升服务质量、提高时效保障外,价格优惠也是重要策略之一.已知该网点每天揽收快递的件数x(单位:千件)与单件快递的平均价格t(单位:元)之间的关系是x=25-2t(5≤t≤12),收发一件快递的利润等于单件的平均价格减去平均成本,根据(1)中建立的回归方程解决以下问题:
①预测该网点某天揽收2 000件快递可获得的总利润;
②单件快递的平均价格t为何值时,该网点一天内收发快递所获利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线=α+βu的斜率和截距的最小二乘估计分别为.
[思维点拨] (1)点不在一条直线的近旁,但与双曲线类似,可得回归曲线类型.令w=,根据已知数据求得回归方程y=c+dw,即可得结论.
(2)①利用(1)的结论求出利润函数,令x=2可得估计利润值;②由二次函数性质可得.
解:(1)y=c+适宜作为y关于x的回归方程类型.
令=w,则y=dw+c,==4,
=5.16-4×0.415=3.5,
∴=4w+3.5,即所求回归方程为=+3.5;
(2)设收发x千件快递获利z千元,则z=(t-y)x=x=9x-x2-4,x∈[1,15].
①当x=2时,z=12,故该网点某天揽收2 000件快递可获得的总利润约为12 000元;
②z=-(x-9)2+,∴当x=9即t=8时,z取最大值,故单件快递的平均价格t为8元时,该网点一天内收发快递所获利润的预报值最大.
[思维升华] 非线性回归问题的求解步骤
(1)作出散点图或利用已知散点图;
(2)根据散点图选择恰当的拟合函数;
(3)作恰当变换,将其化成线性函数,求经验回归方程;
(4)在(3)的基础上通过变换,可得非线性回归方程.
[对点练] 2.(2021·山东菏泽二模)“十四五”是我国全面建成小康社会、实现第一个百年奋斗目标之后,乘势而上开启全面建设社会主义现代化国家的新征程、向第二个百年奋斗目标进军的第一个五年,实施时间为2021年到2025年.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备加大研发资金投入,为了解年研发资金投入额x(单位:亿元)对年盈利额y(单位:亿元)的影响,通过对“十二五”和“十三五”规划发展10年期间年研发资金投入额xi和年盈利额yi(i=1,2,…,10)数据进行分析,建立了两个函数模型:
y=α+βx2;y=eλx+t,其中α,β,λ,t 均为常数,e为自然对数的底数.
令ui=x,vi=ln yi(i=1,2,…,10),经计算得如下数据:,,(xi-)2=100,=22 500,=260,=4,
,问:
(1)请从相关系数的角度,分析哪一个模型拟合度更好?
(2)根据(1)的选择及表中数据,建立y关于x的回归方程(系数精确到0.01)
(3)若希望2021年盈利额y为500亿元,请预测2021年的研发资金投入额x为多少亿元?(结果精确到0.01)
附:①相关系数r

回归直线中:,=.
参考数据:ln 2=0.693,ln 5=1.609.
解:(1)为了判断两个函数模型:y=α+βx2;y=eλx+t,拟合程度,只需要判断两个函数模型y=α+βu,v=λx+t拟合程度即可.
设{ui}和{yi}的相关系数为r1,{xi}和{vi}的相关系数为r2,
由题意:r1=≈0.87,
r2==0.9,
显然r2>r1>0,因此从相关系数的角度,模型y=eλx+t的拟合程度更好.
(2)先建立v关于x的线性回归方程,由y=eλx+t得,ln y=λx+t,即v=λx+t,
λ===0.18,
t=-λ=5.36-0.18×26=0.68,
所以v关于x的线性回归方程为v=0.18x+0.68,
即ln y=0.18x+0.68,
所求回归方程为:y=e0.18x+0.68.
(3)若2021年盈利额为500亿元,即为500=e0.18x+0.68,
ln 500=0.18x+0.68,6.213=0.18x+0.68,解得x≈30.74,
所以2021年的研发资金投入量约为30.74亿元.
考点3__独立性检验[多维讲练]
【例4】 (2021·湖北武汉模拟)某公司为了解服务质量,随机调查了100位男性顾客和100位女性顾客,每位顾客对该公司的服务质量进行打分.已知这200位顾客所打分数均在[25,100]之间,根据这些数据得到如下的频数分布表:
顾客所打分数 [25,40) [40,55) [55,70) [70,85) [85,100]
男性顾客人数 4 6 10 30 50
女性顾客人数 6 10 24 40 20
(1)求这200位顾客所打分数的平均值(同一组数据用该组区间的中点值为代表);
(2)若顾客所打分数不低于70分,则该顾客对公司服务质量的态度为满意;若顾客所打分数低于70分,则该顾客对公司服务质量的态度为不满意.根据所给数据,完成下列2×2列联表,并根据列联表,判断是否有99%的把握认为顾客对公司服务质量的态度与性别有关?
满意 不满意
男性顾客
女性顾客
附:χ2=
α 0.050 0.010 0.001
xα 3.841 6.635 10.828
[思维点拨] (1)由频数分布表,先求出各组的频率,再求它们与对应组的区间中点值的积的和即为所求;
(2)按条件填写2×2列联表,再计算χ2观测值并与给定相关值比对回答而得.
解:(1)由题可知,落在区间[25,40),[40,55),[55,70),[70,85),[85,100]的频率分别为:
,,,,,这200位顾客所打分数的平均值为:
×32.5+×47.5+×62.5+×77.5+×92.5=75.55,
故这200位顾客所打分数的平均值为75.55.
(2)根据所给数据,可得2×2列联表:
满意 不满意
男性顾客 80 20
女性顾客 60 40
根据列联表得χ2=≈9.524.
因为9.524>6.635,所以有99%的把握认为顾客对公司服务质量的态度与性别有关.
[思维升华] 应用独立性检验解决实际问题的主要环节
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.
(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.
(3)根据检验规则得出推断结论.
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
注意: 上述几个环节的内容可以根据不同情况进行调整.例如,在有些时候,分类变量的抽样数据列联表是问题中给定的.
[对点练] (2022·广东高州一模)2021年10月1日是中华人民共和国第72个国庆日,很多人通过短视频APP或微信、微博表达了对祖国的祝福.某调查机构为了解通过短视频APP或微信、微博表达对祖国祝福的人们是否存在年龄差异,通过不同途径调查了数千个通过短视频APP或微信、微博表达对祖国祝福的人,并从参与者中随机选出200人,经统计这200人中通过微信或微博表达对祖国祝福的有160人.将这160人按年龄分组:第1组[15,25),第2组[25,35),第3组[35,45),第4组[45,55),第5组[55,65],得到的频率分布直方图如图所示:
(1)求a的值并估计这160人的平均年龄;
(2)把年龄在第1,2,3组的居民称为青少年组,年龄在第4,5组的居民称为中老年组,选出的200人中通过短视频APP表达对祖国祝福的中老年人有26人,问是否有99%的把握认为是否通过微信或微博表达对祖国的祝福与年龄有关?
附:
α 0.15 0.10 0.05 0.025 0.010 0.005 0.001
xα 2.072 2.706 3.841 5.024 6.635 7.879 10.828
χ2=
解:(1)由10×(0.01+0.015+a+0.03+0.01)=1得,a=0.035.
这160人的平均年龄为:
20×10×0.01+30×10×0.015+40×10×0.035+50×10×0.03+60×10×0.01=41.5.
(2)前3组人数为10×(0.010+0.015+0.035)×160=96,
由题意得2×2列联表:
通过短视频APP表达祝福 通过微信或微博表达祝福 合计
青少年 14 96 110
中老年 26 64 90
合计 40 160 200
χ2=≈8.081>6.635,
所以是有99%的把握认为通过微信或微博表达对祖国的祝福与年龄有关.
考点4__等高条形图[典例引领]
【例5】 (多选)某校计划在课外活动中新增攀岩项目,为了解学生喜欢攀岩和性别是否有关,面向学生开展了一次随机调查,其中参加调查的男女生人数相同,并绘制如下等高条形图,则(  )
A.参与调查的学生中喜欢攀岩的男生人数比喜欢攀岩的女生人数多
B.参与调查的女生中喜欢攀岩的人数比不喜欢攀岩的人数多
C.若参与调查的男女生人数均为100人,则有99%的把握认为喜欢攀岩和性别有关
D.无论参与调查的男女生人数为多少,都有99%的把握认为喜欢攀岩和性别有关
解析:对于A:参加调查的男女生人数相同,男生中喜欢攀岩的占80%,女生中喜欢攀岩的占30%,所以参与调查的学生中喜欢攀岩的男生人数比喜欢攀岩的女生人数多,故A正确;
对于B:参与调查的女生中喜欢攀岩的人数占30%,所以不喜欢攀岩的人数占70%,所以不喜欢攀岩的人数比喜欢攀岩的人数多,故B不正确;
对于C:若参加调查的男女生人数都为100人,则可得2×2列联表如下:
喜欢攀岩 不喜欢攀岩 合计
男 80 20 100
女 30 70 100
合计 110 90 200
所以χ2==≈50.505>6.635,
所以有99%的把握认为喜欢攀岩和性别有关,故C正确;
对于D:如果不确定参与调查的男女生人数,无法计算是否有99%的把握认为喜欢攀岩和性别有关,故D不正确.
答案:AC
[思维升华]根据数形结合思想,利用等高条形图可以判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度.若要精确推断犯错误的概率,需要进行独立性检验.
[对点练] 网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1 000人调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格.利用等高条形图可以判断学生经常上网影响学习成绩吗?
解:根据题目所给的数据得到如下2×2列联表.
不及格 及格 总计
经常上网 80 120 200
不经常上网 120 680 800
总计 200 800 1 000
根据列联表所给的数据,可得出经常上网不及格的频率为=0.4,不经常上网不及格的频率为=0.15,故得出等高条形图如图所示.
比较图中阴影部分的高可以发现经常上网不及格的频率明显高于不经常上网不及格的频率,因此可以认为经常上网影响学习成绩.
 备考第3步——拓展创新应用,培优学科素养
回归分析与独立性检验的综合应用
线性回归分析和独立性检验是高考对统计知识的主要考点,多为解答题,以生活中的实际情境为背景,有一定的阅读量,难度中等.很多时候会通过一道题目巧妙的把回归分析和独立性检验综合考查,一举两得.
【典例】 我国探月工程嫦娥五号探测器于2020年12月1日23时11分降落在月球表面预选着陆区,在顺利完成月面自动采样之后,成功将携带样品的上升器送入到预定环月轨道,这是我国首次实现月球无人采样和地外天体起飞,对我国航天事业具有重大而深远的影响,为进一步培养中学生对航空航天的兴趣爱好,某学校航空航天社团在本校高一年级进行了纳新工作,前五天的报名情况为:第1天3人,第2天6人,第3天10人,第4天13人,第5天18人,通过数据分析已知,报名人数与报名时间具有线性相关关系.
(1)已知第x天的报名人数为y,求y关于x的线性回归方程,并预测第7天的报名人数(结果四舍五入取整数).
(2)该社团为了解中学生对航空航天的兴趣爱好和性别是否有关系,随机调查了100名学生,并得到如下2×2列联表:
有兴趣 无兴趣 合计
男生 45 5 50
女生 30 20 50
合计 75 25 100
请根据上面的列联表判断能否在犯错误的概率不超过0.001的条件下认为“中学生对航空航天的兴趣爱好和性别有关系”.
参考公式及数据:回归方程中斜率的最小二乘估计公式为:
=,
χ2=,其中n=a+b+c+d.
α 0.10 0.05 0.010 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
[思维点拨] (1)利用最小二乘法直接求解回归方程,进而预测第7天的报名人数;
(2)根据2×2列联表直接求得χ2,进而判断.
解:(1)时间的平均数为x==3,
报名人数的平均数为y==10,
所以===3.7,
=10-3.7×3=-1.1,
所以线性回归方程为=3.7x-1.1,
把x=7代入得y︿=24.8≈25,所以第7天的报名人数约为25.
(2)由列联表数据可得χ2==12,因为12>10.828,
所以,在犯错误的概率不超过0.001的条件下认为“中学生对航空航天的兴趣爱好和性别有关系”.
[思维升华] (1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.
(2)根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.
[对点练] 机动车行经人行横道时,应当减速慢行;遇行人正在通过人行横道,应当停车让行,俗称“礼让行人”.下表是某市一主干道路口监控设备所抓拍的5个月内驾驶员不“礼让行人”行为统计数据:
月份 1 2 3 4 5
违章驾驶人次 120 105 100 95 80
(1)由表中看出,可用线性回归模型拟合违章人次y与月份x之间的关系,求y关于x的回归直线方程,并预测该路口9月份不“礼让行人”的违章驾驶人次;
(2)交警从这5个月内通过该路口的驾驶员中随机抽查70人,调查驾驶员不“礼让行人”行为与驾龄的关系,得到下表:
不礼让行人 礼让行人
驾龄不超过1年 24 16
驾龄1年以上 16 14
能否据此判断有90%的把握认为“礼让行人”行为与驾龄有关?
附:,
χ2=(其中n=a+b+c+d).
α 0.15 0.10 0.05 0.025 0.010
xα 2.072 2.706 3.841 5.024 6.635
解析:(1)由表中的数据可知,==3,
==100,
所以==-9,故==100-(-9)×3=127,
所以所求的回归直线方程为=-9x+127;
令x=9,则=-9×9+127=46人.
(2)提出假设H0:“礼让行人”行为与驾龄无关,由表中的数据可得χ2==≈0.311<2.706,根据临界值可得,没有90%的把握认为“礼让行人”行为与驾龄有关.
课下巩固培优卷(四十八)
1.(多选)(2021·山东潍坊二模)2020年的“金九银十”变成“铜九铁十”,全国各地房价“跳水”严重,但某地二手房交易却“逆市”而行.下图是该地某小区2019年12月至2020年12月间,当月在售二手房均价(单位:万元/平方米)的散点图.(图中月份代码1~13分别对应2019年12月~2020年12月)
根据散点图选择y=a+b和y=c+dln x两个模型进行拟合,经过数据处理得到的两个回归方程分别为=
0.936 9+0.028 5和=0.955 4+0.030 6ln x,并得到以下一些统计量的值:
=0.936 9+0.028 5 =0.955 4+0.030 6ln x
R2 0.923 0.973
注:是样本数据中x的平均数,是样本数据中y的平均数,R是相关系数,则下列说法正确的是(  )
A.当月在售二手房均价与月份代码呈负相关关系
B.由=0.936 9+0.028 5预测2021年3月在售二手房均价约为1.050 9万元/平方米
C.曲线=0.936 9+0.028 5与=0.955 4+
0.030 6ln x都经过点(x,y)
D.模型=0.955 4+0.030 6ln x回归曲线的拟合效果比模型=0.936 9+0.028 5的好
解:对于A,散点从左下到右上分布,所以当月在售二手房均价y与月份代码x呈正相关关系,故A不正确;
对于B,令x=16,由=0.936 9+0.028 5=1.050 9,
所以可以预测2021年2月在售二手房均价约为1.050 9万元/平方米,故B正确;
对于C,非线性回归曲线不一定经过(x,y),故C错误;
对于D,R2越大,拟合效果越好,由0.923<0.973,故D正确.
答案:BD
2.(多选)某校对“学生性别和喜欢锻炼是否有关”做了一次调查,其中被调查的男女生人数相同,男生喜欢锻炼的人数占男生总人数的,女生喜欢锻炼的人数占女生总人数的.若至少有95%的把握认为“学生性别和喜欢锻炼有关”,则被调查学生中男生的人数可能为(  )
附:χ2=(n=a+b+c+d)
α 0.050 0.010
xα 3.841 6.635
A.35  B.40  C.45  D.50
解析:由题意被调查的男女生人数相同,设男生的人数为5n,n∈N*,由题意可列出2×2列联表:
男生 女生 合计
喜欢锻炼 4n 3n 7n
不喜欢锻炼 n 2n 3n
合计 5n 5n 10n
χ2==
=.
由于有95%的把握认为“学生性别和喜欢锻炼有关”,所以3.841≤<6.635.
解得8.066 1≤n<13.933 5,则n的可能取值为9、10、11、12、13.
则选项中被调查学生中男生的人数可能为45或50.
答案:CD
3.(2022·湖北武汉质检)有关研究表明,正确佩戴安全头盔,规范使用安全带能够将交通事故死亡风险大幅降低,对保护群众生命安全具有重要作用.2020年4月,“一盔一带”安全守护行动在全国各地开展.行动期间,公安交管部门将加强执法管理,依法查纠摩托车和电动自行车骑乘人员不佩戴安全头盔,汽车驾乘人员不使用安全带的行为,助推养成安全习惯.该行动开展一段时间后,某市针对电动自行车骑乘人员是否佩戴安全头盔问题进行调查,在随机调查的1 000名骑行人员中,记录其年龄和是否佩戴头盔情况,得到如下的统计图表:
(1)估算该市电动自行车骑乘人员的平均年龄;
(2)根据所给的数据,完成下面的列联表:
      是否佩戴头盔年龄        是 否
[20,40)
[40,70]
(3)根据(2)中的列联表,判断是否有99%把握认为遵守佩戴安全头盔与年龄有关?
附:χ2=,
α 0.050 0.010 0.001
xα 3.841 6.635 10.828
解:(1)该市电动自行车骑行人员平均年龄为
25×0.25+35×0.35+45×0.2+55×0.15+65×0.05=39.
(2)
     是否佩戴头盔年龄        是 否
[20,40) 540 60
[40,70] 340 60
(3)χ2==≈5.682<6.635.
故而没有99%的把握认为遵守佩戴安全头盔与年龄有关.
4.(2022·广东佛山模拟)每年的4月23日是联合国教科文组织确定的“世界读书日”,又称“世界图书和版权日”.从进入大数据时代以来,人们阅读方式发生了改变,数字媒体阅读方式因为便携、容量大等优点越来越被大众接受,下表是国际数据公司(IDC)研究的全球近6年每年数字媒体阅读产生的数据量(单位:ZB)及相关统计量的值:
表中zi=ln yi,.
(1)根据上表数据信息判断,方程y=c1·ec2x(e是自然对数的底数)更适宜作为该公司统计的年数据量y关于年份序号x的回归方程类型,试求此回归方程;
(2)根据(1)中的回归方程,预计2024年全世界数字媒体阅读产生的数据量是2021年的多少倍?并说明理由.(参考数据:e≈2.718,≈1.648,结果精确到0.1)
参考数据:回归方程中,斜率最小二乘法公式为


解:(1)由y=c1·ec2x,两边同时取得自然对数得ln y=ln (c1·ec2x)=ln c1+c2x,
设z=ln y,则z=ln c1+c2x.
因为,=9,
所以==,
=2-0.5×3.5=0.25.
所以z=0.25+0.5x=ln y,所以y=e0.25+0.5x;
(2)令x=7,得=e0.25+0.5×7=e3.75.
令x=10,得=e5.25.
=e1.5=e≈4.5,预计2024年全世界产生的数据规模是2021年的4.5倍.
6.“足球进校园”一直是热议话题.2014年11月26日国务院召开全国青少年校园足球工作电视电话会议,强调教育部将主导校园足球,坚持体教结合,锐意改革创新,并推出一系列措施推动校园足球普及,促进青少年强身健体、全面发展,夯实国家足球事业人才基础.为了解某区域足球特色学校的发展状况,社会调查小组得到如下统计数据:
年份x 2016 2017 2018 2019 2020
足球特色学校y(百个) 1.00 1.40 1.70 1.90 2.00
(1)根据上表数据,计算y与x的相关系数r,并说明y与x的线性相关性强弱;
(2)求y关于x的线性回归方程,并预测该区域2022年足球特色学校的个数(精确到个).
(注:当|r|≤0.25,则认为y与x的线性相关性较弱;
当0.25<|r|<0.75,则认为y与x的线性相关性一般;
当0.75≤|r|≤1,则认为y与x的线性相关性很强)
附:回归方程:,其中==;相关系数
;参考数据:≈2.569 1,≈3.162 3.
解:由表格知:=2 018,y=1.6,∴=4+1+0+1+4=10,
=0.36+0.04+0.01+0.09+0.16=0.66,
=2×0.6+1×0.2+0+1×0.3+2×0.4=2.5,
(1)由上,有=≈≈0.963>0.75,则y与x的线性相关性很强.
(2)由上,有b===0.25,
∴=1.6-0.25×2 018=-502.9,则y关于x的线性回归方程为y=0.25x-502.9,
∴当x=2 022时,y=0.25×2 022-502.9=2.6(百个),即该区域2022年足球特色学校的个数为260个.

展开更多......

收起↑

资源预览