【备战2023】高考一轮学案第十章专题3：成对数据的统计分析（学生版+教师版）

资源简介

中小学教育资源及组卷应用平台
第十章统计与成对数据的统计分析
专题3：成对数据的统计分析
1.了解样本相关系数的统计含义，会通过相关系数比较多组成对数据的相关性.
2.了解一元线性回归模型和2×2列联表，会运用这些方法解决简单的实际问题.
1．变量的相关关系
两个变量，但又没有确切到可由其中的一个去精确地决定另一个的程度，这种关系称为相关关系．
2．相关关系的分类
(1)按变量间的增减性分为相关和相关．
①正相关：当一个变量的值增加时，另一个变量的相应值也呈现的趋势；
②负相关：当一个变量的值增加时，另一个变量的相应值呈现的趋势．
(2)按变量间是否有线性特征分为相关和相关(曲线相关)．
①线性相关：如果两个变量的取值呈现正相关或负相关，而且散点落在一条直线附近，我们称这两个变量线性相关；
②非线性相关或曲线相关：如果两个变量具有相关性，但不是相关，我们称这两个变量非线性相关或曲线相关．
3．相关关系的刻画
(1)散点图：把每对成对样本数据都可用直角坐标系中的点表示出来，由这些点组成的统计图，叫做散点图．
(2)样本相关系数r的计算式
r＝＝ .
(3)样本相关系数r的性质
①样本相关系数r的取值范围为；
②若r>0时，成对样本数据相关；
③若r<0时，成对样本数据相关；
④样本相关系数与相关程度
当|r|越接近时，成对样本数据的线性相关程度越强；
当|r|越接近时，成对样本数据的线性相关程度越弱．
提醒：当两个变量的相关系数|r|＝1时，两个变量呈函数关系．
4．一元线性回归模型与最小二乘法
(1)一元线性回归模型
称为Y关于x的一元线性回归模型．其中Y称为因变量或，x称为或，称为截距参数，称为斜率参数；e是与之间的随机误差，如果e＝，那么Y与x之间的关系就可以用一元线性函数模型来描述．
(2)最小二乘法
将＝x＋称为Y关于x的经验回归方程，也称经验回归函数或经验回归公式，其图形称为经验回归直线，这种求经验回归方程的方法叫做最小二乘法，求得的，叫做b，a的最小二乘估计，其中
＝，＝
提醒：经验回归方程一定过点(，)．
5．刻画回归效果的方式
(1)残差图法
作图时纵坐标为残差，横坐标可以选为样本编号，或身高数据，或体重估计值等，这样作出的图形称为残差图．在残差图中，残差点地落在以横轴为对称轴的水平的带状区域中，说明选用的模型比较合适，这样的带状区域的宽度越，说明模型拟合精度越高．
(2)残差平方和法
残差平方和为(yi－i)2，残差平方和越，模型拟合效果越好．
(3)利用R2刻画拟合效果
R2＝1－，R2越大，模型的拟合效果越，R2越小，模型的拟合效果越．
6．列联表与独立性检验
(1)假定通过简单随机抽样得到了X和Y的抽样数据列联表，如表所示．
X Y 合计
Y＝0 Y＝1
X＝0 a b a＋b
X＝1 c d c＋d
合计 a＋c b＋d n＝a＋b＋c＋d
则χ2＝.
(2)利用χ2的取值推断分类变量X和Y是否的方法称为χ2独立性检验，读作“卡方独立性检验”，简称独立性检验．
(3)χ2独立性检验中几个常用的小概率值和相应的临界值．
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
两个分类变量之间关联关系的定性分析的方法
(1)频率分析法：通过列联表中与值的大小粗略地判断分类变量X和Y之间有无关系．一般其值相差越大，分类变量有关系的可能性越大．
(2)图形分析法：将列联表中的数据用高度相同的两个条形图表示出来，其中两列的数据分别对应不同的颜色，这就是等高堆积条形图．
等高堆积条形图可以展示列联表数据的频率特征，能够直观地反映出两个分类变量间是否相互影响．
考点一成对数据的相关性
1．（2022·北京·高二期末）对变量、由观测数据得散点图，对变量、由观测数据得散点图.由这两个散点图可以判断（）
A．变量与负相关，与正相关
B．变量与负相关，与负相关
C．变量与正相关，与正相关
D．变量与正相关，与负相关
【答案】B
【分析】根据散点图直接判断可得出结论.
【详解】由散点图可知，变量与负相关，变量与正相关，所以，与负相关.
故选：B.
2．（2022·陕西西安·高二期末（文））在一次试验中，测得的五组数据分别为，，，，，去掉一组数据后，下列说法正确的是（）
A．样本数据由正相关变成负相关 B．样本的相关系数不变
C．样本的相关性变弱 D．样本的相关系数变大
【答案】D
【分析】由正负相关、相关系数的含义及相关性强弱依次判断即可.
【详解】由题意，去掉离群点后，仍然为正相关，相关性变强，相关系数变大，故A、B、C错误，D正确.
故选：D.
3．（2022·全国·高二课时练习）设某大学的女生体重（单位：kg）与身高（单位：cm）具有线性相关关系，根据一组样本数据，用最小二乘法建立的回归直线方程为，则下列结论中正确的是（）
A．与具有正的线性相关关系
B．若该大学女生的平均身高为168cm，则平均体重约为57.09kg
C．若该大学某女生身高增加1cm，则其体重约增加0.85kg
D．若该大学某女生身高为170cm，则可断定其体重必为58.79kg
【答案】ABC
【分析】根据回归方程分析，一次项系数为正，则正相关；回归直线必过样本中心点；回归方程对数据分析是粗略估计，不是一定.
【详解】根据与的线性回归方程为，其中说明与具有正的线性相关关系，A正确；
回归直线过样本点的中心，由，B正确；
由回归方程知，若该大学某女生身高增加，则其体重约增加，故C正确；
若该大学某女生身高为，则可预测其体重约为，不可断定其体重必为，D错误.
故选：ABC.
4．（2022·福建三明·高二期末）已知5个成对数据（x，y）的散点图如下，若去掉点D（4，3），则下列说法正确的是（）
A．变量x与变量y呈负相关 B．变量x与变量y的相关性变强
C．残差平方和变小 D．样本相关系数r变大
【答案】ABC
【分析】根据已知条件，结合变量间的相关关系，结合图象分析判断即可
【详解】由散点图可知，去掉点D后，与的线性相关加强，且为负相关，所以AB正确，
由于与的线性相关加强，所以残差平方和变小，所以C正确，
由于与的线性相关加强，且为负相关，所以相关系数的绝对值变大，而相关系数为负的，所以样本相关系数r变小，所以D错误，
故选：ABC
5．（2022·吉林·长春吉大附中实验学校高二期中）在以下4幅散点图中，图______中的y和x之间存在相关关系（将正确答案的序号填在横线上）
【答案】（2）（3）（4）
【分析】根据散点图直接分析可知.
【详解】图（2）（3）中的点成带状区域分布在某一直线附近，（4）中点分布在某一曲线附近，故（2）（3）（4）存在相关关系.
故答案为：（2）（3）（4）
判定两个变量正、负相关的方法
(1)画散点图：点的分布从左下角到右上角，两个变量正相关；点的分布从左上角到右下角，两个变量负相关．
(2)相关系数：r＞0时，正相关；r＜0时，负相关．
(3)线性经验回归方程中：>0时，正相关；<0时，负相关．
考点二　一元线性回归模型
线性回归模型
1．（2022·四川雅安·高二期末（理））下列说法错误的是（）
A．线性回归直线一定过样本点中心
B．在回归分析中，为0.91的模型比为0.88的模型拟合的效果好
C．在残差图中，残差点分布的带状区域的宽度越狭窄，其模型拟合的精度越高
D．在线性回归分析中，相关系数r的值越大，变量间的相关性越强
【答案】D
【分析】根据回归方程相关知识逐项判断即可.
【详解】回归直线必过样本点中心，故A正确；
拟合系数越大拟合效果越好，故B正确；
残差点分布区域越窄，拟合精度越高，故C正确；
相关系数越接近于1，相关性越强，故当时，r的值越大，变量间的相关性越弱，故D错误.
故选：D
2．（2022·黑龙江齐齐哈尔·高二期末）下列说法中，正确的命题有（）
A．在做回归分析时，残差图中残差点分布的带状区域的宽度越窄，表示拟合效果越好
B．线性经验回归直线至少经过样本点，，…，中的一个
C．若表示变量与之间的线性相关系数，表示变量与之间的线性相关系数，且，，则与之间的相关性强于与之间的相关性
D．用模型去拟合一组数据时，为了求出非线性经验回归方程，设，求得线性经验回归方程为，则，
【答案】AD
【分析】根据回归分析中的相关概念进行逐一分析，判断即可.
【详解】对于A，由残差图的特征可知，残差点分布的带状区域的宽度越窄，说明模型拟合的精度越高，所以A正确.
对于B，线性回归方程必过样本点的中心，不一定过样本中的一个点，所以B错误.
对于C，相关系数越大，说明线性相关性越强，反之，则越弱，，所以与之间的相关性更强，所以C错误.
对于D，对模型两边同时取对数，则，与线性方程比较，可知，，故D正确
故选:AD.
3．（2022·陕西西安·高二期末（文））新冠肺炎疫情发生以来，中医药全面参与疫情防控救治，做出了重要贡献．某中医药企业根据市场调研与模拟，得到研发投入x（亿元）与产品收益y（亿元）的数据统计如下：
研发投入x（亿元） 1 2 3 4 5
产品收益y（亿元） 3 7 9 10 11
(1)计算x，y的相关系数r，并判断是否可以认为研发投入与产品收益具有较高的线性相关程度？（若，则线性相关程度一般，若，则线性相关程度较高）
(2)求出y关于x的线性回归方程，并预测研发投入20（亿元）时产品的收益．
参考数据：，，．
附：相关系数公式：，回归直线方程的斜率，截距．
【答案】(1)，具有较高的线性相关程度
(2)，40.3亿元
【分析】(1)将已知数据代入相关系数公式计算即可得结论.
(2)求出回归直线方程，将代入线性回归方程计算即可.
（1）∵，，，∴，∴该中医药企业的研发投入x与产品收益y具有较高的线性相关程度．
（2）∵，，∴．∴y关于x的线性回归方程为，将代入线性回归方程可得，，∴预测研发投入20（亿元）时产品的收益为40.3（亿元）．
　
非线性回归模型
1．（2023·全国·高三专题练习）受北京冬奥会的影响，更多人开始关注滑雪运动，但由于室外滑雪场需要特殊的气候环境，为了满足日益增长的消费需求，国内出现了越来越多的室内滑雪场.某投资商抓住商机，在某大学城附近开了一家室内滑雪场.经过6个季度的经营，统计该室内滑雪场的季利润数据如下：
第个季度 1 2 3 4 5 6
季利润（万元） 2.2 3.6 4.3 4.9 5.3 5.5
根据上面的数据得到的一些统计量如下：
4.3 0.5 101.4 14.1 1.8
表中，.
(1)若用方程拟合该室内滑雪场的季利润与季度的关系，试根据所给数据求出该方程；
(2)利用（1）中得到的方程预测该室内滑雪场从第几个季度开始季利润超过6.5万元；
附：线性回归方程中，，.参考数据：
【答案】(1)；
(2)第12个.
【分析】（1）根据最小二乘法可得，进而即得；
（2）由，解不等式进而即得.
（1）由，先求y关于u的线性回归方程，
由已知数据得，
故，
所以y关于u的回归方程为，
故y关于x的回归方程为；
（2）令，得，
所以，
故预测从第12个季度开始季利润超过6.5万元；
2．（2023·全国·高三专题练习）发展扶贫产业，找准路子是关键，重庆市石柱土家族自治县中益乡华溪村不仅找准了路，还将当地打造成了种植中药材黄精的产业示范基地．通过种植黄精，华溪村村民的收入逐年递增．以下是2014年至2020年华溪村村民每户平均可支配收入的统计数据：
年份 2014 2015 2016 2017 2018 2019 2020
年份代码 1 2 3 4 5 6 7
每户平均可支配收入（千元） 4 15 22 26 29 31 32
根据以上数据，绘制如图所示的散点图：
(1)根据散点图判断，与哪一个更适宜作为每户平均可支配收入（千元）关于年份代码的回归方程模型（给出判断即可，不必说明理由），并建立关于的回归方程（结果保留1位小数）；
(2)根据（1）建立的回归方程，试预测要到哪一年华溪村的每户平均可支配收入才能超过35（千元）；
参考数据：
22.7 1.2 759 235.1 13.2 8.2
其中，．
参考公式：线性回归方程中，，．
【答案】(1)更适宜作为每户平均可支配收入（千元）关于年份代码的回归方程模型，；
(2)到2022年每户平均可支配收入才能超过35（千元）；
【分析】（1）根据图象，随着年份增加，每户平均可支配收入增加趋于缓慢，对数模型更适合.
（2）根据回归直线的计算方法，可得关于的回归方程为.令，最小的整数即为所求年份代码.
（1）根据题中散点图，得更适宜作为每户平均
可支配收入（千元）关于年份代码的回归方程模型．
由已知数据，得
，
故，故关于的回归方程为.
（2）由题知，令，整理，得，即．
故当时，即到2022年每户平均可支配收入才能超过35（千元）．
回归分析问题的类型及解题方法
(1)求经验回归方程
①根据散点图判断两变量是否线性相关，如不是，应通过换元构造线性相关．
②利用公式，求出回归系数.
③待定系数法：利用经验回归方程过样本点的中心求系数.
(2)利用经验回归方程进行预测，把经验回归方程看作一次函数，求函数值．
(3)利用经验回归方程判断正、负相关，决定正相关还是负相关的是系数.
(4) 经验回归方程的拟合效果，可以利用相关系数判断，当|r|越趋近于1时，两变量的线性相关性越强．
考点三独立性检验
1．（2023·全国·高三专题练习）第24届冬季奥林匹克运动会（），即2022年北京冬季奥运会，是由中国举办的国际性奥林匹克赛事，于2022年2月4日开幕，2月20日闭幕.2022年北京冬季奥运会共设7个大项，15个分项，109个小项.北京赛区承办所有的冰上项目，延庆赛区承办雪车雪橇及高山滑雪项目，张家口赛区承办除雪车雪橇高山滑雪之外的所有雪上项目.为调查学生对冬季奥运会项目的了解情况，某中学进行了一次抽样调查，统计得到以下列联表.
了解不了解合计
男生 60 200
女生 110 200
合计
(1)先完成列联表，并依据的独立性检验，分析该校学生对冬季奥运会项目了解情况与性别是否有关；
(2)①为弄清学生不了解冬季奥运会项目的原因，按照性别采用分层抽样的方法，从样本中不了解冬季奥运会项目的学生中随机抽取5人，再从这5人中抽取3人进行面对面交流，求“男女生至少各抽到一名”的概率；
②用样本估计总体，若再从该校全体学生中随机抽取40人，记其中对冬季奥运会项目了解的人数为，求的数学期望.
附表：
附：
【答案】(1)列联表答案见解析，该校学生对冬季奥运会项目了解情况与性别有关
(2)①；②
【分析】（1）根据公式可求计算的值，根据临界值表可得相应结论.
（2）①根据古典概型的概率公式结合组合计数方法可求“男女生至少各抽到一名”的概率；②根据二项分布的期望公式可求的数学期望.
（1）零假设：该校学生对冬季奥运会项目了解情况与性别无关（独立），
了解不了解合计
男生 140 60 200
女生 110 90 200
合计 250 150 400
根据所给数据得，
并依据的独立性检验，零假设不成立，
即该校学生对冬季奥运会项目了解情况与性别有关，该推断犯错误的概率不超过.
（2）①采用分层抽样的方法，从样本中不了解冬季奥运会项目的学生中随机抽取5人，由题可得不了解冬季奥运会项目的学生中男女比例为，
故这5人中包含3名女生，2名男生，再从这5人中抽取3人进行面对面交流，
则“男女生至少各抽到一名”的概率为；
②由题意得学生了解冬季奥运会项目的概率为，
可知，故.
2．（2022·云南省下关第一中学高三开学考试）今年两会期间国家对学生学业与未来发展以及身体素质的重要性的阐述引起了全社会的共鸣．某中学体育组对高三的400名男生做了单次引体向上的测试，得到了如图所示的频率分布直方图（引体向上个数只记整数），体育组为进一步了解情况，组织了两个研究小组进行研究．
(1)第一小组决定从单次完成1-15个的引体向上的男生中，按照分层抽样抽取11人进行全面的体能测试，该小组又从这11人中抽取3人进行个别访谈，记3人中抽到“单次完成引体向上1-5个”的人数为随机变量X，求X的分布列和数学期望；
(2)第二小组从学生的成绩与体育锻炼相关性角度进行研究，得到了这400人的学业成绩与体育成绩之间的列联表．
学业优秀学业不优秀总计
体育成绩不优秀 100 200 300
体育成绩优秀 50 50 100
总计 150 250 400
根据小概率值的独立性检验，分析是否有99.5%的把握认为体育锻炼与学业成绩有关．
参考公式：独立性检验统计量，其中．
下面的临界值表供参考：
a 0.15 0.10 0.05 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.828
【答案】(1)分布列见解析；期望为
(2)有99.5%的把握认为体育锻炼与学业成绩有关
【分析】（1）先利用分层抽样的定义求出单次完成1-5个中，6-10个中，11-15个中选的人数，再由题意可得X的所有可能取值有0、1、2，求出相应的概率，从而可求得X的分布列和数学期望；
（2）根据表中的数据和公式求出，再根据临界值表中的数据判断即可
（1）如图，，
即从1-5个中选2个，6-10个中选3个，11-15个中选6个，
所以X的所有可能取值有0、1、2，
且，，
所以X的分布列为
X 0 1 2
P
．
（2）零假设为：体育锻炼与学业成绩独立，根据列联表中的数据得
可推断零假设不成立，且该推断犯错误的概率不超过0.005．
所以有99.5%的把握认为体育锻炼与学业成绩有关．
独立性检验的一般步骤
(1)根据样本数据制成2×2列联表．
(2)根据公式χ2＝计算．
(3)比较χ2与临界值的大小关系，作统计推断．
1．（2022·全国·高考真题（文））某地经过多年的环境治理，已将荒山改造成了绿水青山．为估计一林区某种树木的总材积量，随机选取了10棵这种树木，测量每棵树的根部横截面积（单位：）和材积量（单位：），得到如下数据：
样本号ｉ 1 2 3 4 5 6 7 8 9 10 总和
根部横截面积 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
并计算得．
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量；
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数（精确到0.01）；
(3)现测量了该林区所有这种树木的根部横截面积，并得到所有这种树木的根部横截面积总和为．已知树木的材积量与其根部横截面积近似成正比．利用以上数据给出该林区这种树木的总材积量的估计值．
附：相关系数．
【答案】(1)；
(2)
(3)
【分析】（1）计算出样本的一棵根部横截面积的平均值及一棵材积量平均值，即可估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量；
（2）代入题给相关系数公式去计算即可求得样本的相关系数值；
（3）依据树木的材积量与其根部横截面积近似成正比，列方程即可求得该林区这种树木的总材积量的估计值．
（1）样本中10棵这种树木的根部横截面积的平均值
样本中10棵这种树木的材积量的平均值
据此可估计该林区这种树木平均一棵的根部横截面积为，
平均一棵的材积量为
（2）
则
（3）
设该林区这种树木的总材积量的估计值为，
又已知树木的材积量与其根部横截面积近似成正比，
可得，解之得．
则该林区这种树木的总材积量估计为
2．（2021·全国·高考真题（文））甲、乙两台机床生产同种产品，产品按质量分为一级品和二级品，为了比较两台机床产品的质量，分别用两台机床各生产了200件产品，产品的质量情况统计如下表：
一级品二级品合计
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
（1）甲机床、乙机床生产的产品中一级品的频率分别是多少
（2）能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异
附：
0.050 0.010 0.001
k 3.841 6.635 10.828
【答案】（1）75%；60%；
（2）能.
【分析】根据给出公式计算即可
【详解】（1）甲机床生产的产品中的一级品的频率为,
乙机床生产的产品中的一级品的频率为.
（2）,
故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.
一、单选题
1．甲乙丙丁四位同学各自对两变量的线性相关性做试验，分别求得样本相关系数，如下表：
甲乙丙丁
则试验结果中两变量有更强线性相关性的是（）
A．甲 B．乙 C．丙 D．丁
【答案】B
【分析】由相关系数的绝对值的大小判断．
【详解】由已知，乙的相关系数的绝对值为，是四人中最大的，因此乙同学有更强的相关性．
故选：B．
2．在研究线性回归模型时，样本数据所对应的点均在直线上，用表示解释变量对于预报变量变化的贡献率，则（）
A． B． C．1 D．2
【答案】C
【分析】结合决定系数的知识确定正确答案.
【详解】因为样本数据所对应的点都在直线上，所以.
故选：C
3．对四组数据进行统计，获得以下散点图，关于其相关系数的比较，正确的是（）
A． B．
C． D．
【答案】A
【分析】利用正负相关与线性相关的强弱进行求解即可
【详解】都是正线性相关，
所以，
并且相关性最强，
所以；
都是负线性相关并，
所以，
且相关性强，
所以，
所以；
所以；
故选：A
4．某高中调查学生对2022年冬奥会的关注是否与性别有关，随机抽样调查150人，进行独立性检验，经计算得，临界值表如下：
0.15 0.10 0.05 0.025 0.010
2.072 2.076 3.841 5.024 6.635
则下列说法中正确的是：（）A．有97.5%的把握认为“学生对2022年冬奥会的关注与性别无关”
B．有99%的把握认为“学生对2022 年冬奥会的关注与性别有关”
C．在犯错误的概率不超过2.5%的前提下可认为“学生对2022年冬奥会的关注与性别有关”
D．在犯错误的概率不超过2.5%的前提下可认为“学生对2022年冬奥会的关注与性别无关”
【答案】C
【分析】根据独立性检验的方法即可求解.
【详解】由题意可知，，
所以在犯错误的概率不超过的前提下可认为“学生对2022 年冬奥会的关注与性别有关”.
故选：C.
5．为考察一种新药预防疾病的效果，某科研小组进行动物实验，收集整理数据后将所得结果填入相应的列联表中.由列联表中的数据计算得.参照附表，下列结论正确的是（）
0.025 0.010 0.005 0.001
5.02 6.635 7.879 10.828
A．在犯错误的概率不超过0.1%的前提下，认为“药物有效”
B．在犯错误的概率不超过0.1%的前提下，认为“药物无效”
C．有99.99%以上的把握认为“药物有效”
D．有99.99%以上的把握认为“药物无效”
【答案】A
【分析】根据与参考值比较，结合独立性检验的定义，即可判断；
【详解】因为，即，
所以在犯错误的概率不超过0.1%的前提下，认为“药物有效”或有99.9%以上的把握认为“药物有效”．
故选：A．
6．通过随机询问相同数量的不同性别大学生在购买食物时是否看营养说明，得知有的男大学生“不看”，有的女大学生“不看”，若有99%的把握认为性别与是否看营养说明之间有关，则调查的总人数可能为（）
A．150 B．170 C．240 D．175
【答案】C
【分析】由题意列出2×2列联表，并计算出，根据有99%的把握认为性别与是否看营养说明之间有关，列出不等式，解出，可得答案．
【详解】设男女大学生各有m人，根据题意画出2×2列联表，如下图：
看不看合计
男 m
女 m
合计 2m
所以，因为有99%的把握认为性别与对产品是否满意有关，所以，解得，所以总人数2m可能为240．
故选：C．
7．对两个变量与进行回归分析，有个不同模型可供选择，其中拟合效果最好的是（）
A．模型的相关系数为 B．模型的相关系数为
C．模型的相关系数为 D．模型的相关系数为
【答案】A
【分析】利用相关系数与模型拟合效果之间的关系判断可得出结论.
【详解】对于模型而言，当越接近于，则模型的拟合效果越好，故拟合效果最好的模型.
故选：A.
8．针对时下的“短视频热”，某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查，其中被调查的男生女生人数均为人，男生中喜欢短视频的人数占男生人数的，女生中喜欢短视频的人数占女生人数的.零假设为：喜欢短视频和性别相互独立.若依据的独立性检验认为喜欢短视频和性别不独立，则的最小值为（）
附：，附表：
0.05 0.01
3.841 6.635
A．7 B．8 C．9 D．10
【答案】C
【分析】依题意，写出列联表中的，算出的数值，和表格中的参照数据比较后选出答案.
【详解】根据题意，不妨设，于是，由于依据的独立性检验认为喜欢短视频和性别不独立，根据表格可知，解得，于是最小值为.
故选：C
二、多选题
9．某校有在校学生9000人，其中男生4000人，女生5000人，为了解学生对学校食堂饭菜的满意度，随机调查了40名男生和50名女生，每名被调查的学生都对学校食堂饭菜给出了满意或不满意的评价，经统计得到如下列联表，则（）
满意不满意
男 20 20
女 40 10
A．满意度的调查过程中采用了分层随机抽样的方法
B．该学校学生对学校食堂饭菜满意的概率约为0.5
C．有99%的把握认为学生对学校食堂饭菜满意与否与性别有关
D．没有99%的把握认为学生对学校食堂饭菜满意与否与性别有关
【答案】AC
【分析】根据题意计算男女比例，即可判断A选项；计算满意的频率，用频率估计概率即可判断B选项；由2×2列联表中数据计算的值即可判断C、D选项.
【详解】因为该校在校学生和随机调查的学生中，男、女学生的比例均为4：5，所以A正确；
被调查的学生对学校食堂饭菜满意的频率为，所以该学校学生对学校食堂饭菜满意的概率约为0.667，所以B错误；
由列联表，得，故有99%的把握认为学生对学校食堂饭菜满意与否与性别有关，所以C正确，D错误．
故选：AC．
10．为了增强学生的身体素质，某校将冬天长跑作为一项制度固定下来，每天大课间例行跑操．为了调查学生喜欢跑步是否与性别有关，研究人员随机调查了相同人数的男、女学生，发现男生中有80%喜欢跑步，女生中有40%不喜欢跑步，且有95%的把握判断喜欢跑步与性别有关，但没有99%的把握判断喜欢跑步与性别有关，则被调查的男、女学生的总人数可能为（）
A．120 B．130 C．240 D．250
【答案】AB
【分析】由题可得列联表，计算进而即得.
【详解】依题意，设男、女学生的人数均为，则被调查的男、女学生的总人数为．建立如下列联表：
喜欢跑步不喜欢跑步总计
男
女
总计
则，又，
所以．
故选：AB．
11．下列命题正确的是（）
A．已知由一组样本数据（xi，yi）（i=12...，n）得到的回归直线方程为y=4x+20，且，则这组样本数据中一定有
B．已知，若根据2×2列联表得到2的观测值为4.153，则有95%的把握认为两个分类变量有关
C．在残差图中，残差分布的水平带状区域的宽度越窄，其模型的拟合效果越好
D．两个变量线性相关性越强，则相关系数r就越接近1
【答案】BC
【分析】根据回归方程的性质、相关系数的性质可分别判断AB的正误，根据独立性检验的性质、残差的性质可分别判断CD的正误.
【详解】对于A，因为，故，故样本中心为，
回归直线一定过样本中心，但样本数据中不一定有，故A错误.
对于B，因为，故有95%的把握认为两个分类变量有关，故B正确.
对于C，在残差图中，残差分布的水平带状区域的宽度越窄，说明拟合精度越高，即拟合效果越好，故C正确.
对于D，两个变量线性相关性越强，则相关系数的绝对值就越接近1，故D错误.
故选：BC.
12．变量与的成对数据的散点图如下图所示，并由最小二乘法计算得到回归直线的方程为，相关系数为，决定系数为；经过残差分析确定第二个点为离群点（对应残差过大），把点去掉后，再用剩下的7组数据计算得到回归直线的方程为，相关系数为，决定系数为.则以下结论中正确的是（）
A． B． C． D．
【答案】BD
【分析】根据点的特点判断选项AB，由于去掉，其它点的线性关系更强，从而可判断CD选项
【详解】因为共8个点且离群点的横坐标较小而纵坐标相对过大，去掉离群点后回归方程的斜率更大，而截距变小，所以正确，而错误；
去掉离群点后相关性更强，拟合效果也更好，且还是正相关，所以，故错误，D正确.
故选：BD
三、填空题
13．为了判断某高中学生是否选修文科与性别的关系，现随机抽取50名学生，得到列联表：
理科文科
男 13 10
女 7 20
根据表中数据，得到，则认为选修文科与性别有关系出错的概率约为___________.（参考数据：，）
【答案】
【分析】根据独立性检验的方法即可求解.
【详解】因为，，
所以认为选修文科与性别有关系出错的概率约为.
故答案为：.
14．下列说法正确的是___________.
①方程(，其中为复数集)无解；
②若彼此相互独立，则；
③如果两个变量的相关性越强，则相关性系数r就越接近于1；
④通过最小二乘法以模型去拟合一组数据时，可知过点；
⑤通过最小二乘法以模型去拟合一组数据时，为了求出回归方程，设，将其变换后得到线性方程，则的值分别是和0.3.
【答案】②⑤
【分析】利用复数的概念可判断①，利用独立事件的乘法公式可判断②，利用相关性系数的概念可判断③，利用最小二乘法求回归直线方程可判断④⑤.
【详解】解：对于①，因为(，其中为复数集)，所以或，故①错误；
对于②，根据独立事件的乘法公式可得：彼此相互独立，则，故②正确；
对于③，如果两个变量的相关性越强，则相关性系数r的绝对值就越接近于1，故③错误；
对于④，通过最小二乘法以模型去拟合一组数据时，设，则，
所以回归直线方程过，而，
所以不过点，故④错误；
对于⑤，通过最小二乘法以模型去拟合一组数据时，设，则，
因为其变换后得到线性方程为，所以，故，故⑤正确.
故答案为：②⑤.
15．若一组观测值，，…，（）对应的点位于同一直线上，则x，y的相关系数为______．
【答案】
【分析】根据相关系数的定义可得答案.
【详解】由已知条件和相关系数的定义得，x，y的相关系数为．
故答案为：
16．已知变量x，y线性相关，样本相关系数，且，，则在坐标系下的散点图中，大多数的点都不落在第_________象限.
【答案】二
【分析】根据相关系数的含义及条件即得.
【详解】因为变量x，y线性相关，样本相关系数，
所以变量x，y线性正相关，又，，
所以在坐标系下的散点图中，大多数的点落在第一、三、四象限，即大多数的点都不落在第二象限.
故答案为：二.
四、解答题
17．2022年春节前，受疫情影响，各地鼓励市民接种新冠疫苗第三针.某市统计了该市个地区的疫苗接种人数与第三针接种人数（单位：万），得到如下表格：
区区区区
疫苗接种人数万
第三针接种人数万
请用相关系数说明与之间的关系可用线性回归模型拟合，并求关于的线性回归方程（若，则线性相关程度很高，可用直线拟合）.
参考公式和数据：相关系数，回归方程中斜率和截距的最小二乘估计公式分别为，，.
【答案】说明见解析，.
【分析】由表中数据，分别计算，，，，，结合相关系数公式和最小二乘法法公式求解即可.
【详解】由表中数据得：，，
，，，
所以相关系数，
说明y与x之间的性相关程度很高，所以可用线性回归模型拟合y与x之间的关系.
，
故y关于x的线性回归方程为.
18．某校高三年级为了提高学校的升学率，制订了两套学习方案，甲班采用方案一，乙班采用方案二，两个班均有50人，学期期末对两班进行测试，测试成绩的分组区间为，，，，，，由此得到两个班测试成绩的频率分布直方图如图：
(1)完成下面列联表，画出等高堆积图．你能有97.5%的把握认为“这两个班在这次测试中成绩的差异与学习方案有关”吗？并说明理由；
成绩不小于130分成绩小于130分合计
甲班
乙班
合计
(2)现从甲班中任意抽取3人，记表示抽到测试成绩在的人数，求的分布列和数学期望．
附：，其中．
0.15 0.10 0.05 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.204 6.635 7.879 10.828
【答案】(1)列联表见解析，有97.5%的把握认为“这两个班在这次测试中成绩的差异与学习方案有关”，理由见解析；
(2)分布列见解析，.
【分析】（1）根据题设完善列联表，并画出等高堆积图，再应用卡方计算公式求卡方值，与参考值比较大小，结合独立检验的基本思想得到结论；
（2）由题设可以取0，1，2，3，求出各可能值对应的概率，进而写出分布列，求出期望值.
（1）
甲班成绩不小于130分的人数为，
甲班成绩小于130分的人数为，
乙班成绩不小于130分的人数为，
乙班成绩小于130分的人数为，
列联表：
成绩不小于130分成绩小于130分合计
甲班 15 35 50
乙班 5 45 50
合计 20 80 100
等高堆积图如图2：
，
所以有97.5%的把握认为“这两个班在这次测试中成绩的差异与学习方案有关”．
（2）
甲班成绩在有（人），可以取0，1，2，3，
则，，
，，
的分布列为
0 1 2 3
．
19．年月日—月日北京冬奥会如期举行，各国媒体争相报道运动会盛况，因此每天有很多民众通过手机、电视等方式观看冬奥新闻．某机构将每天关注冬奥时间在小时以上的人称为“冬奥迷”，否则称为“非冬奥迷”，通过调查并从参与调查的人群中随机抽取了人进行抽样分析，得到下表（单位：人）：
非冬奥迷冬奥迷合计
岁及以下
岁以上
合计
(1)根据以上数据，能否在犯错误的概率不超过的前提下认为“非冬奥迷”还是“冬奥迷”与年龄有关？
(2)现从抽取的岁及以下的人中，按“非冬奥迷”与“冬奥迷”这两种类型进行分层抽样抽取人，然后，再从这人中随机选出人，其中“冬奥迷”的人数为，求的分布列及数学期望．
参考公式：，其中．
参考数据：
【答案】(1)能在犯错误的概率不超过的前提下认为“非冬奥迷”还是“冬奥迷”与年龄有关
(2)分布列见解析，数学期望
【分析】（1）由列联表计算可得，由此可得结论；
（2）根据分层抽样原则可确定“非冬奥迷”与“冬奥迷”应抽取的人数，由此可确定所有可能的取值，利用超几何概型概率公式可求得每个取值对应的概率，由此可得的分布列；根据数学期望公式计算可得期望.
（1）由列联表可得：，
能在犯错误的概率不超过的前提下认为“非冬奥迷”还是“冬奥迷”与年龄有关.
（2）由题意知：“非冬奥迷”应抽取人；“冬奥迷”应抽取人；
则所有可能的取值为，
；；；
的分布列为：
则数学期望.中小学教育资源及组卷应用平台
第十章统计与成对数据的统计分析
专题3：成对数据的统计分析
1.了解样本相关系数的统计含义，会通过相关系数比较多组成对数据的相关性.
2.了解一元线性回归模型和2×2列联表，会运用这些方法解决简单的实际问题.
1．变量的相关关系
两个变量有关系，但又没有确切到可由其中的一个去精确地决定另一个的程度，这种关系称为相关关系．
2．相关关系的分类
(1)按变量间的增减性分为正相关和负相关．
①正相关：当一个变量的值增加时，另一个变量的相应值也呈现增加的趋势；
②负相关：当一个变量的值增加时，另一个变量的相应值呈现减少的趋势．
(2)按变量间是否有线性特征分为线性相关和非线性相关(曲线相关)．
①线性相关：如果两个变量的取值呈现正相关或负相关，而且散点落在一条直线附近，我们称这两个变量线性相关；
②非线性相关或曲线相关：如果两个变量具有相关性，但不是线性相关，我们称这两个变量非线性相关或曲线相关．
3．相关关系的刻画
(1)散点图：把每对成对样本数据都可用直角坐标系中的点表示出来，由这些点组成的统计图，叫做散点图．
(2)样本相关系数r的计算式
r＝＝.
(3)样本相关系数r的性质
①样本相关系数r的取值范围为[－1,1]；
②若r>0时，成对样本数据正相关；
③若r<0时，成对样本数据负相关；
④样本相关系数与相关程度
当|r|越接近1时，成对样本数据的线性相关程度越强；
当|r|越接近0时，成对样本数据的线性相关程度越弱．
提醒：当两个变量的相关系数|r|＝1时，两个变量呈函数关系．
4．一元线性回归模型与最小二乘法
(1)一元线性回归模型
称为Y关于x的一元线性回归模型．其中Y称为因变量或响应变量，x称为自变量或解释变量，a称为截距参数，b称为斜率参数；e是Y与bx＋a之间的随机误差，如果e＝0，那么Y与x之间的关系就可以用一元线性函数模型来描述．
(2)最小二乘法
将＝x＋称为Y关于x的经验回归方程，也称经验回归函数或经验回归公式，其图形称为经验回归直线，这种求经验回归方程的方法叫做最小二乘法，求得的，叫做b，a的最小二乘估计，其中
＝，＝－ .
提醒：经验回归方程一定过点(，)．
5．刻画回归效果的方式
(1)残差图法
作图时纵坐标为残差，横坐标可以选为样本编号，或身高数据，或体重估计值等，这样作出的图形称为残差图．在残差图中，残差点比较均匀地落在以横轴为对称轴的水平的带状区域中，说明选用的模型比较合适，这样的带状区域的宽度越窄，说明模型拟合精度越高．
(2)残差平方和法
残差平方和为(yi－i)2，残差平方和越小，模型拟合效果越好．
(3)利用R2刻画拟合效果
R2＝1－，R2越大，模型的拟合效果越好，R2越小，模型的拟合效果越差．
6．列联表与独立性检验
(1)假定通过简单随机抽样得到了X和Y的抽样数据列联表，如表所示．
X Y 合计
Y＝0 Y＝1
X＝0 a b a＋b
X＝1 c d c＋d
合计 a＋c b＋d n＝a＋b＋c＋d
则χ2＝.
(2)利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验，读作“卡方独立性检验”，简称独立性检验．
(3)χ2独立性检验中几个常用的小概率值和相应的临界值．
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
两个分类变量之间关联关系的定性分析的方法
(1)频率分析法：通过列联表中与值的大小粗略地判断分类变量X和Y之间有无关系．一般其值相差越大，分类变量有关系的可能性越大．
(2)图形分析法：将列联表中的数据用高度相同的两个条形图表示出来，其中两列的数据分别对应不同的颜色，这就是等高堆积条形图．
等高堆积条形图可以展示列联表数据的频率特征，能够直观地反映出两个分类变量间是否相互影响．
考点一成对数据的相关性
1．（2022·北京·高二期末）对变量、由观测数据得散点图，对变量、由观测数据得散点图.由这两个散点图可以判断（）
A．变量与负相关，与正相关
B．变量与负相关，与负相关
C．变量与正相关，与正相关
D．变量与正相关，与负相关
【答案】B
【分析】根据散点图直接判断可得出结论.
【详解】由散点图可知，变量与负相关，变量与正相关，所以，与负相关.
故选：B.
2．（2022·陕西西安·高二期末（文））在一次试验中，测得的五组数据分别为，，，，，去掉一组数据后，下列说法正确的是（）
A．样本数据由正相关变成负相关 B．样本的相关系数不变
C．样本的相关性变弱 D．样本的相关系数变大
【答案】D
【分析】由正负相关、相关系数的含义及相关性强弱依次判断即可.
【详解】由题意，去掉离群点后，仍然为正相关，相关性变强，相关系数变大，故A、B、C错误，D正确.
故选：D.
3．（2022·全国·高二课时练习）设某大学的女生体重（单位：kg）与身高（单位：cm）具有线性相关关系，根据一组样本数据，用最小二乘法建立的回归直线方程为，则下列结论中正确的是（）
A．与具有正的线性相关关系
B．若该大学女生的平均身高为168cm，则平均体重约为57.09kg
C．若该大学某女生身高增加1cm，则其体重约增加0.85kg
D．若该大学某女生身高为170cm，则可断定其体重必为58.79kg
【答案】ABC
【分析】根据回归方程分析，一次项系数为正，则正相关；回归直线必过样本中心点；回归方程对数据分析是粗略估计，不是一定.
【详解】根据与的线性回归方程为，其中说明与具有正的线性相关关系，A正确；
回归直线过样本点的中心，由，B正确；
由回归方程知，若该大学某女生身高增加，则其体重约增加，故C正确；
若该大学某女生身高为，则可预测其体重约为，不可断定其体重必为，D错误.
故选：ABC.
4．（2022·福建三明·高二期末）已知5个成对数据（x，y）的散点图如下，若去掉点D（4，3），则下列说法正确的是（）
A．变量x与变量y呈负相关 B．变量x与变量y的相关性变强
C．残差平方和变小 D．样本相关系数r变大
【答案】ABC
【分析】根据已知条件，结合变量间的相关关系，结合图象分析判断即可
【详解】由散点图可知，去掉点D后，与的线性相关加强，且为负相关，所以AB正确，
由于与的线性相关加强，所以残差平方和变小，所以C正确，
由于与的线性相关加强，且为负相关，所以相关系数的绝对值变大，而相关系数为负的，所以样本相关系数r变小，所以D错误，
故选：ABC
5．（2022·吉林·长春吉大附中实验学校高二期中）在以下4幅散点图中，图______中的y和x之间存在相关关系（将正确答案的序号填在横线上）
【答案】（2）（3）（4）
【分析】根据散点图直接分析可知.
【详解】图（2）（3）中的点成带状区域分布在某一直线附近，（4）中点分布在某一曲线附近，故（2）（3）（4）存在相关关系.
故答案为：（2）（3）（4）
判定两个变量正、负相关的方法
(1)画散点图：点的分布从左下角到右上角，两个变量正相关；点的分布从左上角到右下角，两个变量负相关．
(2)相关系数：r＞0时，正相关；r＜0时，负相关．
(3)线性经验回归方程中：>0时，正相关；<0时，负相关．
考点二　一元线性回归模型
线性回归模型
1．（2022·四川雅安·高二期末（理））下列说法错误的是（）
A．线性回归直线一定过样本点中心
B．在回归分析中，为0.91的模型比为0.88的模型拟合的效果好
C．在残差图中，残差点分布的带状区域的宽度越狭窄，其模型拟合的精度越高
D．在线性回归分析中，相关系数r的值越大，变量间的相关性越强
【答案】D
【分析】根据回归方程相关知识逐项判断即可.
【详解】回归直线必过样本点中心，故A正确；
拟合系数越大拟合效果越好，故B正确；
残差点分布区域越窄，拟合精度越高，故C正确；
相关系数越接近于1，相关性越强，故当时，r的值越大，变量间的相关性越弱，故D错误.
故选：D
2．（2022·黑龙江齐齐哈尔·高二期末）下列说法中，正确的命题有（）
A．在做回归分析时，残差图中残差点分布的带状区域的宽度越窄，表示拟合效果越好
B．线性经验回归直线至少经过样本点，，…，中的一个
C．若表示变量与之间的线性相关系数，表示变量与之间的线性相关系数，且，，则与之间的相关性强于与之间的相关性
D．用模型去拟合一组数据时，为了求出非线性经验回归方程，设，求得线性经验回归方程为，则，
【答案】AD
【分析】根据回归分析中的相关概念进行逐一分析，判断即可.
【详解】对于A，由残差图的特征可知，残差点分布的带状区域的宽度越窄，说明模型拟合的精度越高，所以A正确.
对于B，线性回归方程必过样本点的中心，不一定过样本中的一个点，所以B错误.
对于C，相关系数越大，说明线性相关性越强，反之，则越弱，，所以与之间的相关性更强，所以C错误.
对于D，对模型两边同时取对数，则，与线性方程比较，可知，，故D正确
故选:AD.
3．（2022·陕西西安·高二期末（文））新冠肺炎疫情发生以来，中医药全面参与疫情防控救治，做出了重要贡献．某中医药企业根据市场调研与模拟，得到研发投入x（亿元）与产品收益y（亿元）的数据统计如下：
研发投入x（亿元） 1 2 3 4 5
产品收益y（亿元） 3 7 9 10 11
(1)计算x，y的相关系数r，并判断是否可以认为研发投入与产品收益具有较高的线性相关程度？（若，则线性相关程度一般，若，则线性相关程度较高）
(2)求出y关于x的线性回归方程，并预测研发投入20（亿元）时产品的收益．
参考数据：，，．
附：相关系数公式：，回归直线方程的斜率，截距．
【答案】(1)，具有较高的线性相关程度
(2)，40.3亿元
【分析】(1)将已知数据代入相关系数公式计算即可得结论.
(2)求出回归直线方程，将代入线性回归方程计算即可.
（1）∵，，，∴，∴该中医药企业的研发投入x与产品收益y具有较高的线性相关程度．
（2）∵，，∴．∴y关于x的线性回归方程为，将代入线性回归方程可得，，∴预测研发投入20（亿元）时产品的收益为40.3（亿元）．
　
非线性回归模型
1．（2023·全国·高三专题练习）受北京冬奥会的影响，更多人开始关注滑雪运动，但由于室外滑雪场需要特殊的气候环境，为了满足日益增长的消费需求，国内出现了越来越多的室内滑雪场.某投资商抓住商机，在某大学城附近开了一家室内滑雪场.经过6个季度的经营，统计该室内滑雪场的季利润数据如下：
第个季度 1 2 3 4 5 6
季利润（万元） 2.2 3.6 4.3 4.9 5.3 5.5
根据上面的数据得到的一些统计量如下：
4.3 0.5 101.4 14.1 1.8
表中，.
(1)若用方程拟合该室内滑雪场的季利润与季度的关系，试根据所给数据求出该方程；
(2)利用（1）中得到的方程预测该室内滑雪场从第几个季度开始季利润超过6.5万元；
附：线性回归方程中，，.参考数据：
【答案】(1)；
(2)第12个.
【分析】（1）根据最小二乘法可得，进而即得；
（2）由，解不等式进而即得.
（1）由，先求y关于u的线性回归方程，
由已知数据得，
故，
所以y关于u的回归方程为，
故y关于x的回归方程为；
（2）令，得，
所以，
故预测从第12个季度开始季利润超过6.5万元；
2．（2023·全国·高三专题练习）发展扶贫产业，找准路子是关键，重庆市石柱土家族自治县中益乡华溪村不仅找准了路，还将当地打造成了种植中药材黄精的产业示范基地．通过种植黄精，华溪村村民的收入逐年递增．以下是2014年至2020年华溪村村民每户平均可支配收入的统计数据：
年份 2014 2015 2016 2017 2018 2019 2020
年份代码 1 2 3 4 5 6 7
每户平均可支配收入（千元） 4 15 22 26 29 31 32
根据以上数据，绘制如图所示的散点图：
(1)根据散点图判断，与哪一个更适宜作为每户平均可支配收入（千元）关于年份代码的回归方程模型（给出判断即可，不必说明理由），并建立关于的回归方程（结果保留1位小数）；
(2)根据（1）建立的回归方程，试预测要到哪一年华溪村的每户平均可支配收入才能超过35（千元）；
参考数据：
22.7 1.2 759 235.1 13.2 8.2
其中，．
参考公式：线性回归方程中，，．
【答案】(1)更适宜作为每户平均可支配收入（千元）关于年份代码的回归方程模型，；
(2)到2022年每户平均可支配收入才能超过35（千元）；
【分析】（1）根据图象，随着年份增加，每户平均可支配收入增加趋于缓慢，对数模型更适合.
（2）根据回归直线的计算方法，可得关于的回归方程为.令，最小的整数即为所求年份代码.
（1）根据题中散点图，得更适宜作为每户平均
可支配收入（千元）关于年份代码的回归方程模型．
由已知数据，得
，
故，故关于的回归方程为.
（2）由题知，令，整理，得，即．
故当时，即到2022年每户平均可支配收入才能超过35（千元）．
回归分析问题的类型及解题方法
(1)求经验回归方程
①根据散点图判断两变量是否线性相关，如不是，应通过换元构造线性相关．
②利用公式，求出回归系数.
③待定系数法：利用经验回归方程过样本点的中心求系数.
(2)利用经验回归方程进行预测，把经验回归方程看作一次函数，求函数值．
(3)利用经验回归方程判断正、负相关，决定正相关还是负相关的是系数.
(4) 经验回归方程的拟合效果，可以利用相关系数判断，当|r|越趋近于1时，两变量的线性相关性越强．
考点三独立性检验
1．（2023·全国·高三专题练习）第24届冬季奥林匹克运动会（），即2022年北京冬季奥运会，是由中国举办的国际性奥林匹克赛事，于2022年2月4日开幕，2月20日闭幕.2022年北京冬季奥运会共设7个大项，15个分项，109个小项.北京赛区承办所有的冰上项目，延庆赛区承办雪车雪橇及高山滑雪项目，张家口赛区承办除雪车雪橇高山滑雪之外的所有雪上项目.为调查学生对冬季奥运会项目的了解情况，某中学进行了一次抽样调查，统计得到以下列联表.
了解不了解合计
男生 60 200
女生 110 200
合计
(1)先完成列联表，并依据的独立性检验，分析该校学生对冬季奥运会项目了解情况与性别是否有关；
(2)①为弄清学生不了解冬季奥运会项目的原因，按照性别采用分层抽样的方法，从样本中不了解冬季奥运会项目的学生中随机抽取5人，再从这5人中抽取3人进行面对面交流，求“男女生至少各抽到一名”的概率；
②用样本估计总体，若再从该校全体学生中随机抽取40人，记其中对冬季奥运会项目了解的人数为，求的数学期望.
附表：
附：
【答案】(1)列联表答案见解析，该校学生对冬季奥运会项目了解情况与性别有关
(2)①；②
【分析】（1）根据公式可求计算的值，根据临界值表可得相应结论.
（2）①根据古典概型的概率公式结合组合计数方法可求“男女生至少各抽到一名”的概率；②根据二项分布的期望公式可求的数学期望.
（1）零假设：该校学生对冬季奥运会项目了解情况与性别无关（独立），
了解不了解合计
男生 140 60 200
女生 110 90 200
合计 250 150 400
根据所给数据得，
并依据的独立性检验，零假设不成立，
即该校学生对冬季奥运会项目了解情况与性别有关，该推断犯错误的概率不超过.
（2）①采用分层抽样的方法，从样本中不了解冬季奥运会项目的学生中随机抽取5人，由题可得不了解冬季奥运会项目的学生中男女比例为，
故这5人中包含3名女生，2名男生，再从这5人中抽取3人进行面对面交流，
则“男女生至少各抽到一名”的概率为；
②由题意得学生了解冬季奥运会项目的概率为，
可知，故.
2．（2022·云南省下关第一中学高三开学考试）今年两会期间国家对学生学业与未来发展以及身体素质的重要性的阐述引起了全社会的共鸣．某中学体育组对高三的400名男生做了单次引体向上的测试，得到了如图所示的频率分布直方图（引体向上个数只记整数），体育组为进一步了解情况，组织了两个研究小组进行研究．
(1)第一小组决定从单次完成1-15个的引体向上的男生中，按照分层抽样抽取11人进行全面的体能测试，该小组又从这11人中抽取3人进行个别访谈，记3人中抽到“单次完成引体向上1-5个”的人数为随机变量X，求X的分布列和数学期望；
(2)第二小组从学生的成绩与体育锻炼相关性角度进行研究，得到了这400人的学业成绩与体育成绩之间的列联表．
学业优秀学业不优秀总计
体育成绩不优秀 100 200 300
体育成绩优秀 50 50 100
总计 150 250 400
根据小概率值的独立性检验，分析是否有99.5%的把握认为体育锻炼与学业成绩有关．
参考公式：独立性检验统计量，其中．
下面的临界值表供参考：
a 0.15 0.10 0.05 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.828
【答案】(1)分布列见解析；期望为
(2)有99.5%的把握认为体育锻炼与学业成绩有关
【分析】（1）先利用分层抽样的定义求出单次完成1-5个中，6-10个中，11-15个中选的人数，再由题意可得X的所有可能取值有0、1、2，求出相应的概率，从而可求得X的分布列和数学期望；
（2）根据表中的数据和公式求出，再根据临界值表中的数据判断即可
（1）如图，，
即从1-5个中选2个，6-10个中选3个，11-15个中选6个，
所以X的所有可能取值有0、1、2，
且，，
所以X的分布列为
X 0 1 2
P
．
（2）零假设为：体育锻炼与学业成绩独立，根据列联表中的数据得
可推断零假设不成立，且该推断犯错误的概率不超过0.005．
所以有99.5%的把握认为体育锻炼与学业成绩有关．
独立性检验的一般步骤
(1)根据样本数据制成2×2列联表．
(2)根据公式χ2＝计算．
(3)比较χ2与临界值的大小关系，作统计推断．
1．（2022·全国·高考真题（文））某地经过多年的环境治理，已将荒山改造成了绿水青山．为估计一林区某种树木的总材积量，随机选取了10棵这种树木，测量每棵树的根部横截面积（单位：）和材积量（单位：），得到如下数据：
样本号ｉ 1 2 3 4 5 6 7 8 9 10 总和
根部横截面积 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
并计算得．
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量；
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数（精确到0.01）；
(3)现测量了该林区所有这种树木的根部横截面积，并得到所有这种树木的根部横截面积总和为．已知树木的材积量与其根部横截面积近似成正比．利用以上数据给出该林区这种树木的总材积量的估计值．
附：相关系数．
【答案】(1)；
(2)
(3)
【分析】（1）计算出样本的一棵根部横截面积的平均值及一棵材积量平均值，即可估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量；
（2）代入题给相关系数公式去计算即可求得样本的相关系数值；
（3）依据树木的材积量与其根部横截面积近似成正比，列方程即可求得该林区这种树木的总材积量的估计值．
（1）样本中10棵这种树木的根部横截面积的平均值
样本中10棵这种树木的材积量的平均值
据此可估计该林区这种树木平均一棵的根部横截面积为，
平均一棵的材积量为
（2）
则
（3）
设该林区这种树木的总材积量的估计值为，
又已知树木的材积量与其根部横截面积近似成正比，
可得，解之得．
则该林区这种树木的总材积量估计为
2．（2021·全国·高考真题（文））甲、乙两台机床生产同种产品，产品按质量分为一级品和二级品，为了比较两台机床产品的质量，分别用两台机床各生产了200件产品，产品的质量情况统计如下表：
一级品二级品合计
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
（1）甲机床、乙机床生产的产品中一级品的频率分别是多少
（2）能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异
附：
0.050 0.010 0.001
k 3.841 6.635 10.828
【答案】（1）75%；60%；
（2）能.
【分析】根据给出公式计算即可
【详解】（1）甲机床生产的产品中的一级品的频率为,
乙机床生产的产品中的一级品的频率为.
（2）,
故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.
一、单选题
1．甲乙丙丁四位同学各自对两变量的线性相关性做试验，分别求得样本相关系数，如下表：
甲乙丙丁
则试验结果中两变量有更强线性相关性的是（）
A．甲 B．乙 C．丙 D．丁
【答案】B
【分析】由相关系数的绝对值的大小判断．
【详解】由已知，乙的相关系数的绝对值为，是四人中最大的，因此乙同学有更强的相关性．
故选：B．
2．在研究线性回归模型时，样本数据所对应的点均在直线上，用表示解释变量对于预报变量变化的贡献率，则（）
A． B． C．1 D．2
【答案】C
【分析】结合决定系数的知识确定正确答案.
【详解】因为样本数据所对应的点都在直线上，所以.
故选：C
3．对四组数据进行统计，获得以下散点图，关于其相关系数的比较，正确的是（）
A． B．
C． D．
【答案】A
【分析】利用正负相关与线性相关的强弱进行求解即可
【详解】都是正线性相关，
所以，
并且相关性最强，
所以；
都是负线性相关并，
所以，
且相关性强，
所以，
所以；
所以；
故选：A
4．某高中调查学生对2022年冬奥会的关注是否与性别有关，随机抽样调查150人，进行独立性检验，经计算得，临界值表如下：
0.15 0.10 0.05 0.025 0.010
2.072 2.076 3.841 5.024 6.635
则下列说法中正确的是：（）A．有97.5%的把握认为“学生对2022年冬奥会的关注与性别无关”
B．有99%的把握认为“学生对2022 年冬奥会的关注与性别有关”
C．在犯错误的概率不超过2.5%的前提下可认为“学生对2022年冬奥会的关注与性别有关”
D．在犯错误的概率不超过2.5%的前提下可认为“学生对2022年冬奥会的关注与性别无关”
【答案】C
【分析】根据独立性检验的方法即可求解.
【详解】由题意可知，，
所以在犯错误的概率不超过的前提下可认为“学生对2022 年冬奥会的关注与性别有关”.
故选：C.
5．为考察一种新药预防疾病的效果，某科研小组进行动物实验，收集整理数据后将所得结果填入相应的列联表中.由列联表中的数据计算得.参照附表，下列结论正确的是（）
0.025 0.010 0.005 0.001
5.02 6.635 7.879 10.828
A．在犯错误的概率不超过0.1%的前提下，认为“药物有效”
B．在犯错误的概率不超过0.1%的前提下，认为“药物无效”
C．有99.99%以上的把握认为“药物有效”
D．有99.99%以上的把握认为“药物无效”
【答案】A
【分析】根据与参考值比较，结合独立性检验的定义，即可判断；
【详解】因为，即，
所以在犯错误的概率不超过0.1%的前提下，认为“药物有效”或有99.9%以上的把握认为“药物有效”．
故选：A．
6．通过随机询问相同数量的不同性别大学生在购买食物时是否看营养说明，得知有的男大学生“不看”，有的女大学生“不看”，若有99%的把握认为性别与是否看营养说明之间有关，则调查的总人数可能为（）
A．150 B．170 C．240 D．175
【答案】C
【分析】由题意列出2×2列联表，并计算出，根据有99%的把握认为性别与是否看营养说明之间有关，列出不等式，解出，可得答案．
【详解】设男女大学生各有m人，根据题意画出2×2列联表，如下图：
看不看合计
男 m
女 m
合计 2m
所以，因为有99%的把握认为性别与对产品是否满意有关，所以，解得，所以总人数2m可能为240．
故选：C．
7．对两个变量与进行回归分析，有个不同模型可供选择，其中拟合效果最好的是（）
A．模型的相关系数为 B．模型的相关系数为
C．模型的相关系数为 D．模型的相关系数为
【答案】A
【分析】利用相关系数与模型拟合效果之间的关系判断可得出结论.
【详解】对于模型而言，当越接近于，则模型的拟合效果越好，故拟合效果最好的模型.
故选：A.
8．针对时下的“短视频热”，某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查，其中被调查的男生女生人数均为人，男生中喜欢短视频的人数占男生人数的，女生中喜欢短视频的人数占女生人数的.零假设为：喜欢短视频和性别相互独立.若依据的独立性检验认为喜欢短视频和性别不独立，则的最小值为（）
附：，附表：
0.05 0.01
3.841 6.635
A．7 B．8 C．9 D．10
【答案】C
【分析】依题意，写出列联表中的，算出的数值，和表格中的参照数据比较后选出答案.
【详解】根据题意，不妨设，于是，由于依据的独立性检验认为喜欢短视频和性别不独立，根据表格可知，解得，于是最小值为.
故选：C
二、多选题
9．某校有在校学生9000人，其中男生4000人，女生5000人，为了解学生对学校食堂饭菜的满意度，随机调查了40名男生和50名女生，每名被调查的学生都对学校食堂饭菜给出了满意或不满意的评价，经统计得到如下列联表，则（）
满意不满意
男 20 20
女 40 10
A．满意度的调查过程中采用了分层随机抽样的方法
B．该学校学生对学校食堂饭菜满意的概率约为0.5
C．有99%的把握认为学生对学校食堂饭菜满意与否与性别有关
D．没有99%的把握认为学生对学校食堂饭菜满意与否与性别有关
【答案】AC
【分析】根据题意计算男女比例，即可判断A选项；计算满意的频率，用频率估计概率即可判断B选项；由2×2列联表中数据计算的值即可判断C、D选项.
【详解】因为该校在校学生和随机调查的学生中，男、女学生的比例均为4：5，所以A正确；
被调查的学生对学校食堂饭菜满意的频率为，所以该学校学生对学校食堂饭菜满意的概率约为0.667，所以B错误；
由列联表，得，故有99%的把握认为学生对学校食堂饭菜满意与否与性别有关，所以C正确，D错误．
故选：AC．
10．为了增强学生的身体素质，某校将冬天长跑作为一项制度固定下来，每天大课间例行跑操．为了调查学生喜欢跑步是否与性别有关，研究人员随机调查了相同人数的男、女学生，发现男生中有80%喜欢跑步，女生中有40%不喜欢跑步，且有95%的把握判断喜欢跑步与性别有关，但没有99%的把握判断喜欢跑步与性别有关，则被调查的男、女学生的总人数可能为（）
A．120 B．130 C．240 D．250
【答案】AB
【分析】由题可得列联表，计算进而即得.
【详解】依题意，设男、女学生的人数均为，则被调查的男、女学生的总人数为．建立如下列联表：
喜欢跑步不喜欢跑步总计
男
女
总计
则，又，
所以．
故选：AB．
11．下列命题正确的是（）
A．已知由一组样本数据（xi，yi）（i=12...，n）得到的回归直线方程为y=4x+20，且，则这组样本数据中一定有
B．已知，若根据2×2列联表得到2的观测值为4.153，则有95%的把握认为两个分类变量有关
C．在残差图中，残差分布的水平带状区域的宽度越窄，其模型的拟合效果越好
D．两个变量线性相关性越强，则相关系数r就越接近1
【答案】BC
【分析】根据回归方程的性质、相关系数的性质可分别判断AB的正误，根据独立性检验的性质、残差的性质可分别判断CD的正误.
【详解】对于A，因为，故，故样本中心为，
回归直线一定过样本中心，但样本数据中不一定有，故A错误.
对于B，因为，故有95%的把握认为两个分类变量有关，故B正确.
对于C，在残差图中，残差分布的水平带状区域的宽度越窄，说明拟合精度越高，即拟合效果越好，故C正确.
对于D，两个变量线性相关性越强，则相关系数的绝对值就越接近1，故D错误.
故选：BC.
12．变量与的成对数据的散点图如下图所示，并由最小二乘法计算得到回归直线的方程为，相关系数为，决定系数为；经过残差分析确定第二个点为离群点（对应残差过大），把点去掉后，再用剩下的7组数据计算得到回归直线的方程为，相关系数为，决定系数为.则以下结论中正确的是（）
A． B． C． D．
【答案】BD
【分析】根据点的特点判断选项AB，由于去掉，其它点的线性关系更强，从而可判断CD选项
【详解】因为共8个点且离群点的横坐标较小而纵坐标相对过大，去掉离群点后回归方程的斜率更大，而截距变小，所以正确，而错误；
去掉离群点后相关性更强，拟合效果也更好，且还是正相关，所以，故错误，D正确.
故选：BD
三、填空题
13．为了判断某高中学生是否选修文科与性别的关系，现随机抽取50名学生，得到列联表：
理科文科
男 13 10
女 7 20
根据表中数据，得到，则认为选修文科与性别有关系出错的概率约为___________.（参考数据：，）
【答案】
【分析】根据独立性检验的方法即可求解.
【详解】因为，，
所以认为选修文科与性别有关系出错的概率约为.
故答案为：.
14．下列说法正确的是___________.
①方程(，其中为复数集)无解；
②若彼此相互独立，则；
③如果两个变量的相关性越强，则相关性系数r就越接近于1；
④通过最小二乘法以模型去拟合一组数据时，可知过点；
⑤通过最小二乘法以模型去拟合一组数据时，为了求出回归方程，设，将其变换后得到线性方程，则的值分别是和0.3.
【答案】②⑤
【分析】利用复数的概念可判断①，利用独立事件的乘法公式可判断②，利用相关性系数的概念可判断③，利用最小二乘法求回归直线方程可判断④⑤.
【详解】解：对于①，因为(，其中为复数集)，所以或，故①错误；
对于②，根据独立事件的乘法公式可得：彼此相互独立，则，故②正确；
对于③，如果两个变量的相关性越强，则相关性系数r的绝对值就越接近于1，故③错误；
对于④，通过最小二乘法以模型去拟合一组数据时，设，则，
所以回归直线方程过，而，
所以不过点，故④错误；
对于⑤，通过最小二乘法以模型去拟合一组数据时，设，则，
因为其变换后得到线性方程为，所以，故，故⑤正确.
故答案为：②⑤.
15．若一组观测值，，…，（）对应的点位于同一直线上，则x，y的相关系数为______．
【答案】
【分析】根据相关系数的定义可得答案.
【详解】由已知条件和相关系数的定义得，x，y的相关系数为．
故答案为：
16．已知变量x，y线性相关，样本相关系数，且，，则在坐标系下的散点图中，大多数的点都不落在第_________象限.
【答案】二
【分析】根据相关系数的含义及条件即得.
【详解】因为变量x，y线性相关，样本相关系数，
所以变量x，y线性正相关，又，，
所以在坐标系下的散点图中，大多数的点落在第一、三、四象限，即大多数的点都不落在第二象限.
故答案为：二.
四、解答题
17．2022年春节前，受疫情影响，各地鼓励市民接种新冠疫苗第三针.某市统计了该市个地区的疫苗接种人数与第三针接种人数（单位：万），得到如下表格：
区区区区
疫苗接种人数万
第三针接种人数万
请用相关系数说明与之间的关系可用线性回归模型拟合，并求关于的线性回归方程（若，则线性相关程度很高，可用直线拟合）.
参考公式和数据：相关系数，回归方程中斜率和截距的最小二乘估计公式分别为，，.
【答案】说明见解析，.
【分析】由表中数据，分别计算，，，，，结合相关系数公式和最小二乘法法公式求解即可.
【详解】由表中数据得：，，
，，，
所以相关系数，
说明y与x之间的性相关程度很高，所以可用线性回归模型拟合y与x之间的关系.
，
故y关于x的线性回归方程为.
18．某校高三年级为了提高学校的升学率，制订了两套学习方案，甲班采用方案一，乙班采用方案二，两个班均有50人，学期期末对两班进行测试，测试成绩的分组区间为，，，，，，由此得到两个班测试成绩的频率分布直方图如图：
(1)完成下面列联表，画出等高堆积图．你能有97.5%的把握认为“这两个班在这次测试中成绩的差异与学习方案有关”吗？并说明理由；
成绩不小于130分成绩小于130分合计
甲班
乙班
合计
(2)现从甲班中任意抽取3人，记表示抽到测试成绩在的人数，求的分布列和数学期望．
附：，其中．
0.15 0.10 0.05 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.204 6.635 7.879 10.828
【答案】(1)列联表见解析，有97.5%的把握认为“这两个班在这次测试中成绩的差异与学习方案有关”，理由见解析；
(2)分布列见解析，.
【分析】（1）根据题设完善列联表，并画出等高堆积图，再应用卡方计算公式求卡方值，与参考值比较大小，结合独立检验的基本思想得到结论；
（2）由题设可以取0，1，2，3，求出各可能值对应的概率，进而写出分布列，求出期望值.
（1）
甲班成绩不小于130分的人数为，
甲班成绩小于130分的人数为，
乙班成绩不小于130分的人数为，
乙班成绩小于130分的人数为，
列联表：
成绩不小于130分成绩小于130分合计
甲班 15 35 50
乙班 5 45 50
合计 20 80 100
等高堆积图如图2：
，
所以有97.5%的把握认为“这两个班在这次测试中成绩的差异与学习方案有关”．
（2）
甲班成绩在有（人），可以取0，1，2，3，
则，，
，，
的分布列为
0 1 2 3
．
19．年月日—月日北京冬奥会如期举行，各国媒体争相报道运动会盛况，因此每天有很多民众通过手机、电视等方式观看冬奥新闻．某机构将每天关注冬奥时间在小时以上的人称为“冬奥迷”，否则称为“非冬奥迷”，通过调查并从参与调查的人群中随机抽取了人进行抽样分析，得到下表（单位：人）：
非冬奥迷冬奥迷合计
岁及以下
岁以上
合计
(1)根据以上数据，能否在犯错误的概率不超过的前提下认为“非冬奥迷”还是“冬奥迷”与年龄有关？
(2)现从抽取的岁及以下的人中，按“非冬奥迷”与“冬奥迷”这两种类型进行分层抽样抽取人，然后，再从这人中随机选出人，其中“冬奥迷”的人数为，求的分布列及数学期望．
参考公式：，其中．
参考数据：
【答案】(1)能在犯错误的概率不超过的前提下认为“非冬奥迷”还是“冬奥迷”与年龄有关
(2)分布列见解析，数学期望
【分析】（1）由列联表计算可得，由此可得结论；
（2）根据分层抽样原则可确定“非冬奥迷”与“冬奥迷”应抽取的人数，由此可确定所有可能的取值，利用超几何概型概率公式可求得每个取值对应的概率，由此可得的分布列；根据数学期望公式计算可得期望.
（1）由列联表可得：，
能在犯错误的概率不超过的前提下认为“非冬奥迷”还是“冬奥迷”与年龄有关.
（2）由题意知：“非冬奥迷”应抽取人；“冬奥迷”应抽取人；
则所有可能的取值为，
；；；
的分布列为：
则数学期望.

展开更多......

收起↑

请用微信扫码

【备战2023】高考一轮学案 第十章专题3：成对数据的统计分析（学生版+教师版）

【备战2023】高考一轮学案 第十章专题3：成对数据的统计分析（学生版+教师版）

【备战2023】高考一轮学案第十章专题3：成对数据的统计分析（学生版+教师版）

【备战2023】高考一轮学案第十章专题3：成对数据的统计分析（学生版+教师版）