资源简介
第八章 成对数据的统计分析
——高二数学人教A版(2019)选择性必修第三册
期末复习知识大盘点
学习目标整合
1.成对数据的相关关系 (1)会画出成对样本数据的散点图. (2)会通过散点图判断成对样本数据的相关性. (3)结合实例,了解样本相关系数的统计含义,会通过相关系数比较多组成对数据的相关性.
2.一元线性回归模型及其应用 (1)了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件. (2)会用一元线性回归模型进行预测实际问题.
3.分类变量与列联表 (1)通过实例,理解列联表的统计意义. (2)通过实例,了解列联表与独立性检验及其应用.
教材习题变式
【课后习题】
1.变量x与y的成对样本数据的散点图如下图所示,据此可以推断变量x与y之间( ).
A.很可能存在负相关 B.一定存在正相关
C.很可能存在正相关 D.一定不存在负相关
2.对于变量Y和x的成对样本数据,由一元线性回归模型得到经验回归模型,对应的残差如图所示.模型误差( ).
A.满足一元线性回归模型的所有假设
B.不满足一元线性回归模型的的假设
C.不满足一元线性回归模型的的假设
D.不满足一元线性回归模型的和的假设
3.根据分类变量x与y的成对样本数据,计算得到.依据的独立性检验,结论为( ).
A.变量x与y不独立
B.变量x与y不独立,这个结论犯错误的概率不超过0.05
C.变量x与y独立
D.变量x与y独立,这个结论犯错误的概率不超过0.05
4.8.3节例4中推断吸烟与患肺癌是有关联的,能用一元线性回归模型建立它们之间的关系吗?为什么?
5.根据8.1.2节例3中的数据,建立臂展关于身高的经验回归模型,画出残差图,描述残差图的特点.
6.下表是1896-2016年男子三级跳远奥运会冠军的成绩,请分析这组数据,能用一元线性回归模型刻画这组数据吗?
年份 成绩/m 年份 成绩/m 年份 成绩/m 年份 成绩/m
1896 13.71 1928 15.21 1964 16.85 1992 18.17
1900 14.47 1932 15.72 1968 17.39 1996 18.09
1904 14.35 1936 16.00 1972 17.35 2000 17.71
1908 14.92 1948 15.40 1976 17.29 2004 17.79
1912 14.64 1952 16.22 1980 17.35 2008 17.67
1920 14.50 1956 16.35 1984 17.25 2012 17.81
1924 15.53 1960 16.81 1988 17.61 2016 17.86
7.汽车轮胎凹槽深度是影响汽车刹车的因素,汽车行驶会导致轮胎胎面磨损.某实验室通过试验测得行驶里程与某品牌轮胎凹槽深度的数据,请根据数据建立轮胎凹槽深度和汽车行驶里程的关系,并解释模型的含义.
行驶里程/万km 0.00 0.64 1.29 1.93 2.57 3.22 3.86 4.51 5.15
轮胎凹槽深度/ 10.02 8.37 7.39 6.48 5.82 5.20 4.55 4.16 3.82
8.为考察某种药物预防疾病的效果,进行动物试验,得到如下列联表:
单位:只
药物 疾病 合计
未患病 患病
未服用 75 66 141
服用 112 47 159
合计 187 113 300
依据的独立性检验,能否认为药物有效呢?如何解释得到的结论?
9.气象部门由每天的最高气温的数据,得到每月最高气温的平均数,简称平均高温.下表是2017年31个城市1月和7月的平均高温数据.
城市 1月平均高温/℃ 7月平均高温/℃ 城市 1月平均高温/℃ 7月平均高温/℃
北京 3 32 南京 9 35
成都 12 32 南宁 20 33
重庆 12 36 上海 10 36
福州 17 36 沈阳 -3 31
广州 21 33 石家庄 3 33
贵阳 9 28 太原 3 32
哈尔滨 -11 30 天津 3 33
海口 22 32 乌鲁木齐 -3 32
杭州 11 36 武汉 10 34
合肥 9 35 西安 8 36
呼和浩特 -3 30 西宁 4 27
济南 6 33 银川 2 32
昆明 17 24 长春 -8 29
拉萨 8 23 长沙 11 35
兰州 5 33 郑州 7 34
南昌 13 35
(1)画出并观察各城市1月与7月的平均高温的散点图,你认为1月与7月的平均高温有线性趋势吗?描述散点图的特点.
(2)结合地理知识并用统计方法分析表中的数据,解释这两个月平均高温的关系.
【变式训练】
10.随着“一带一路”经贸合作持续深化,西安某地对外贸易近几年持续繁荣,2023年6月18日,该地很多商场都在搞“618”促销活动.市物价局派人对某商品同一天的销售量及其价格进行调查,得到该商品的售价x(单位:元)和销售量y(单位:百件)之间的一组数据(如表所示),用最小二乘法求得y关于x的线性回归方程是,预测当售价为45元时,销售量件数大约为(单位:百件)( )
x 20 25 30 35 40
y 5 7 8 9 11
A.12 B.12.5 C.13 D.11.75
11.若由列联表中的数据计算得,则有_________的把握认为两个变量有关系( )
0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
A. B. C. D.
12.色差和色度是衡量毛线玩具质量优劣的两个重要指标,现抽检一批毛线玩具并将测得数据列于表中.已知该产品的色度y和色差x之间满足线性相关关系,且,现有一对测量数据为,则该数据的残差为( )
色差x 21 23 25 27
色度y 15 18 19 20
A.-0.96 B.-0.8 C.0.8 D.0.96
13.某医疗机构通过抽样调查(样本容量),利用列联表和统计量研究患肺病是否与吸烟有关.计算得,经查对临界值表知,现给出四个结论,其中正确的是( )
A.在100个吸烟的人中约有95个人患肺病
B.若某人吸烟,那么他有95%的可能性患肺病
C.有95%的把握认为“患肺病与吸烟有关”
D.只有5%的把握认为“患肺病与吸烟有关”
14.2020年以来,5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升,某手机店统计了2022年1~5月5G手机的实际销量如下表所示:
月份 1月 2月 3月 4月 5月
月份编号x 1 2 3 4 5
销量y/部 50 96 a 185 227
若y与x线性相关,且求得线性回归方程为,则下列结论错误的是( )
A.
B.y与x正相关
C.y与x的相关系数为负数
D.估计2022年7月该手机店的5G手机销量为320部
15.有两个分类变量X,Y,其列联表如表所示:
a
其中a,均为大于5的整数,若在犯错误的概率不超过0.05的前提下认为X,Y有关,则a的值为( )
A.8 B.9 C.8或9 D.6或8
16.某班班主任对全班50名学生学习积极性与对待班级工作的态度进行了调查,统计数据如下表所示:
主动参加班级工作 不太主动参加班级工作 合计
学习积极性高 18 7 25
学习积极性一般 6 19 25
合计 24 26 50
根据表中数据分析,以下说法正确的是( )
临界值表:
0.05 0.025 0.010 0.005 0.001
3.841 5.024 6.635 7.879 10.828
A.有的把握认为学生的学习积极性与对待班级工作的态度有关系
B.有的把握认为学生的学习积极性与对待班级工作的态度没有关系
C.有的把握认为学生的学习积极性与对待班级工作的态度没有关系
D.没有充分的证据显示学生的学习积极性与对待班级工作的态度有关系
17.某工厂为了对研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元) 9 9.2 9.4 9.6 9.8 10
销量y(件) 100 94 93 90 85 78
预计在今后的销售中,销量与单价仍然服从这种线性相关关系,且该产品的成本是5元/件,为使工厂获得最大利润,该产品的单价应定为( )
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,.参考数据:,.
A.9.4元 B.9.5元 C.9.6元 D.9.7元
18.(多选)疫苗是为预防、控制传染病的发生、流行,用于人体预防接种的预防性生物制品,其前期研发过程中,一般都会进行动物保护测试,为了考察某种疫苗预防效果,在进行动物试验时,得到如下统计数据:
未发病 发病 总计
未注射疫苗 30
注射疫苗 40
总计 70 30 100
附表及公式:
0.05 0.025 0.010 0.005 0.001
3.841 5.024 6.635 7.879 10.828
,其中.
现从试验动物中任取一只,取得“注射疫苗”的概率为0.5,则下列判断正确的是( )
A.注射疫苗发病的动物数为10
B.某个发病的小动物为未注射疫苗动物的概率为
C.能在犯错概率不超过0.005的前提下,认为疫苗有效
D.该疫苗的有效率约为80%
19.(多选)某小区2019年12月至2020年12月期间,当月在售二手房均价(单位:万元/平方米)的散点图如图所示.(图中月份代码1~13分别对应2019年12月2020年12月)
根据散点图选择和两个模型进行拟合,经过数据处理得到的两个回归方程分别为和,并得到一些统计量的值如下表:
相关系数r 0.9023 0.9723
若是样本数据中x的平均数,是样本数据中y的平均数,则下列说法正确的是( )
A.当月在售二手房均价y与月份代码x呈负相关关系
B.由估计2021年3月在售二手房均价为1.0509万元/平方米
C.曲线与都经过点
D.模型的拟合效果比模型好
20.用模型去拟合一组数据时,为了求出回归方程,设,求得线性回归方程为,则k的值为________.
21.为了判断高二年级学生是否选修文科与性别的关系,现随机抽取50名高二年级学生,得到如下列联表.
理科 文科
男 13 10
女 7 20
已知,.根据表中数据,得到,则认为学生选修文科与性别有关系出错的可能性为___________.
22.2023年春节到来之前,某市物价部门对本市5家商场的某种商品一天的销售量及其价格进行调查,5家商场的这种商品的价格x(单位:元/件)与销售量y(单位:件)之间的一组数据如下表所示:
价格x 8 9.5 m 10.5 12
销售量y 16 n 8 6 5
经分析知,销售量y(件)与价格x(元/件)之间有较强的线性关系,其线性回归方程为,且,则__________.
23.今年以来,人们的出行需求持续释放,各种旅游项目态势火爆,旅游预订人数也开始增多.某调查组对400名不同年龄段的游客进行了问卷调查,其中有200名游客进行了预订,这200名游客中各年龄段所占百分比如图所示:
年龄在19~35岁的人群称为青年人群,已知在所调查的游客中随机抽取1人,抽到无预订的青年游客的概率为.
(1)请将下面的列联表补充完整,并判断能否在犯错误的概率不超过0.001的前提下,认为旅游预订与是不是青年有关;
有预订游客 无预订游客 合计
青年
非青年
合计
(2)按照分层抽样的方法,从有预订游客中选取5人,再从这5人中任意选取3人,求3人中至少有2人是青年游客的概率.
附:,其中.
0.05 0.010 0.001
3.841 6.635 10.828
24.网购是人们重要的购物方式,截至2021年12月,我国网络购物用户规模达8.42亿,较2020年12月增长5968万,占网民整体的.某电商对其旗下的一家专营店近五年来每年的利润额y(单位:万元)与年份序号t(按时间先后顺序排)进行了统计,并得到如下数据:
t 1 2 3 4 5
y 2.6 3.1 4.5 6.8 8.0
(1)依据表中给出的数据,是否可用线性回归模型拟合y与t的关系?请计算相关系数r并加以说明;(计算结果精确到0.01,若,则线性相关程度很高,可用线性回归模型拟合)
(2)试用最小二乘法求出利润额y与时间t的回归方程,并估计当时的利润额.
参考公式:,
,.
参考数据:,,,.
答案以及解析
1.答案:C
2.答案:C
3.答案:C
4.答案:不能,理由见解析
解析:不能,因为一元线性回归模型是刻画数值变量之间关系的模型.
5.答案:图见解析,除个别点外,残差图中的点比较均匀地集中在以横轴为对称轴的水平带状区域内
解析:由例3知,臂展y与身高x正线性相关.
由数据知,,,,
,
,
经验回归方程为.
残差图如图.
特点:除个别点外,残差图中的点比较均匀地集中在以横轴为对称轴的水平带状区域内.
6.答案:图见解析
解析:画出散点图,如图所示.
由散点图可以看出,年份与成绩正线性相关,所以能用一元线性回归模型刻画.
7.答案:见解析
解析:作出散点图,如图.
通过散点图可知,发现散点落在某条曲线附近.
设曲线方程为,则,
令,则.
故可得到新数据
x 0.00 0.64 1.29 1.93 2.57 3.22 3.86 4.51 5.15
2.30 2.12 2.00 1.87 1.76 1.65 1.51 1.43 1.34
由新数据作出散点图,如图.
发现散点图呈现很强的线性相关关系.
用一元线性回归模型刻画新成对数据,得到经验回归方程为,将代入,
,.
又,
模型的拟合效果较好,通过它可以很好的预测轮 凹槽深度或汽车行驶里程.
8.答案:认为服用药物有效,这个推断有可能犯错,但犯错的概率不超过0.05;理由见解析
解析:零假设:药物无效.
由列联表数据可得,我们推断不成立,即认为药物有效,该推断犯错误的概率不超过0.05.
又未服用者未患病和患病的频率分别为,,
服用者未患病和患病的频率分别为,,
所以未服用者患病的频率约为服用者患病频率的1.58倍,即未服用者患病的概率大.
因此我们认为服用药物有效,这个推断有可能犯错,但犯错的概率不超过0.05.
9.答案:(1)有线性趋势,散点图中的散点呈正相关关系
(2)见解析
解析:(1)散点图如下:
由散点图知,1月与7月的平均高温有线性趋势,散点图中的散点呈正相关关系.
(2)根据最小二乘法可得经验回归方程为.
由方程可知,一段1月平均高温越高,7月平均高温越高,并且北方城市的1月平均高温与7月平均高温低于南方城市的1月平均高温和7月平均高温.
10.答案:D
解析:因为,,所以回归直线过点,故,即,所以.将代入中,得.故选D.
11.答案:C
解析:因为,所以有的把握认为两个变量有关系.故选C.
12.答案:C
解析:由题意可知,,,将代入,即,解得,所以,当时,,所以该数据的残差为.故选C.
13.答案:C
解析:计算得,经查对临界值表知,
有的把握说患肺病与吸烟有关,故选C.
14.答案:C
解析:根据题表中的数据,可得,易知,,解得,故A中结论正确;
由线性回归方程中x的系数大于0,可知y与x正相关,且相关系数,故B中结论正确,C中结论错误;
当时,,故D中结论正确.故选C.
15.答案:C
解析:根据公式,得,
又且,,求得当或9时满足题意.故选C.
16.答案:A
解析:因为,所以有的把握认为学生的学习积极性与对待班级工作的态度有关系,故选A.
17.答案:B
解析:由题意,得,
,
,
,则.
设工厂获得利润L元,则,
当时,L取得最大值.
所以当单价定为9.5元时,工厂获得最大利润,故选B.
18.答案:ABD
解析:完善列联表如下:
未发病 发病 总计
未注射疫苗 30 20 50
注射疫苗 40 10 50
总计 70 30 100
由列联表知,A正确,,B正确,,
不能在犯错的概率不超过0.005的前提下,认为疫苗有效,C错误;
疫苗的有效率约为,D正确.故选ABD.
19.答案:BD
解析:对于A,由题图可知,散点呈从左下到右上方向发展的趋势,所以当月在售二手房均价y与月份代码x具有正相关关系,故A不正确;对于B,2021年3月对应的月份代码为16,当时,,所以可以估计2021年3月在售二手房均价为1.0509万元/平方米,故B正确;对于C,非线性回归曲线不一定经过点,故C不正确;对于D,越大,拟合效果越好,由,知D正确.故选BD.
20.答案:0.3
解析:由题意知,,故,设,求得线性回归方程为,两式相比较,得,故答案为0.3.
21.答案:
解析:,且,
认为学生选修文科与性别有关系出错的可能性为.
22.答案:10
解析:由题表中的数据,得,,
将代入,得,即,
所以,
又因为,
所以,.
23.答案:(1)能在犯错误的概率不超过0.001的前提下,认为旅游预订与是不是青年有关
(2)
解析:(1)在200名有预订游客中,青年游客的人数为;
在200名无预订游客中,青年游客的人数为.
可知列联表如下:
有预订游客 无预订游客 合计
青年 120 75 195
非青年 80 125 205
合计 200 200 400
所以,
所以能在犯错误的概率不超过0.001的前提下,认为旅游预订与是不是青年有关.
(2)按分层抽样,从有预订游客中选取5人,
其中青年游客的人数为,非青年游客的人数为2,
所以从这5人中任意选取3人,其中至少有2人是青年游客的概率.
24.答案:(1),故y与t的线性相关程度很高,可以用线性回归模型拟合
(2)回归方程,利润额为10.8万元
解析:(1)由题表,得,.
因为,,,
所以.
故y与t的线性相关程度很高,可以用线性回归模型拟合.
(2)由(1)知,,,所以,
,
所以.
当时,.
所以估计当时的利润额为10.8万元.
重难知识易混易错
【重难知识】
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系.与函数关系不同,相关关系是一种非确定性关系.
(2)在散点图中,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在从左上角到右下角的区域内,两个变量的相关关系称为负相关.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归直线方程
①最小二乘法:通过求的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
②回归方程:方程是两个具有线性相关关系的变量的一组数据
的回归方程,其中是待定参数.
,其中称为样本点的中心.
(3)相关系数r
①;
②当时,表明两个变量正相关;当时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.当r的绝对值大于或等于0.75时,认为两个变量有很强的线性相关关系.
(4)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.在线性回归模型中,因变量y的值由自变量x和随机误差e共同确定,即自变量x只能解释部分y的变化,在统计中,我们把自变量x称为解释变量,因变量y称为预报变量.
3.分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
4.列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为和,其样本频数列联表(称为2×2列联表)为:
总计
a b
c d
总计
可构造一个随机变量,其中为样本容量.
5.独立性检验
利用独立性假设、随机变量来确定是否有一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.
两个分类变量X和Y是否有关系的判断标准:
统计学研究表明:当时,认为X与Y无关;
当时,有95%的把握说X与Y有关;
当时,有99%的把握说X与Y有关;
当时,有99.9%的把握说X与Y有关.
【典型例题】
1.已知某产品的营销费用x(单位:万元)与销售额y(单位:万元)的统计数据如表所示:
营销费用x/万元 2 3 4 5
销售额y/万元 15 20 30 35
根据上表可得y关于x的回归直线方程为,则当该产品的营销费用为6万元时,销售额为( )
A.40.5万元 B.41.5万元 C.42.5万元 D.45万元
2.(多选)已知某中学的高中女生体重y(单位:kg)与身高x(单位;cm)具有线性相关关系,根据一组样本数据,由最小二乘法近似得到y关于x的回归直线方程为,则下列结论中正确的是()
A.y与x是正相关的
B.该回归直线必过点
C.若该中学某高中女生身高增加1cm,则其体重约增加0.85kg
D.若该中学某高中女生身高为160cm,则其体重必为50.29kg
3.某班班主任对全班50名学生进行了喜欢玩电脑游戏与认为作业多少是否有关系的调查,所得数据如下表:
认为作业多 认为作业不多 总计
喜欢玩电脑游戏 18 9 27
不喜欢玩电脑游戏 8 15 23
总计 26 24 50
根据以上数据得__________(结果保留到小数点后三位).由此得出结论:喜欢玩电脑游戏与认为作业多少有关系的把握为_________%.
4.销售费用预算是以销售收入预算为基础,通过分析销售收入、销售利润和销售费用的关系,力求实现销售费用的最有效使用.根据往年的相关数据显示,某高新技术企业的年销售费用占年销售收入的为合理区间,当年销售费用超出年销售收入的,说明企业的销售环节出现一定的问题,需要加强销售管理.下表为该企业的年销售费用x(单位:千万元)和年销售收入y(单位:千万元)的相关数据:
2017 2018 2019 2020 2021 2022
x 3 5 6 8 9 11
y 31 50 54 86 85 114
(1)求年销售费用x的方差.
(2)通过数据分析,该企业的年销售用x与年销售收入y之间符合线性相关关系,求出线性回归方程.
(3)若该企业2023年预算年销售费用为12千万元,试预测2023年的年销售收入,并判断2023年的年销售费用预测值是否在合理区间内.(精确到0.01千万元)
参考数据:374.
参考公式:,,,.
5.为响应国家在《“十四五”工业绿色发展规划》中提出的“推动绿色发展,促进人与自然和谐共生”理念,某企业计划生产一批太阳能电池板,现有甲、乙两种生产工艺可供选择.为了解两种生产工艺所生产的电池板的质量情况,从中各随机抽取100件进行质量检测,得到如下所示的频率分布直方图.
并规定:
综合得分
质量等级 二等品 一等品
(1)从这100个甲工艺所生产的电池板中按质量等级分层抽样抽取4个,再从这4个中随机抽取2个做进一步研究,求恰有1个质量等级为一等品电池板的概率;
(2)根据频率分布直方图完成下面的列联表,并判断是否有的把握认为电池板的质量等级与生产工艺有关
一等品 二等品
甲生产工艺
乙生产工艺
附:
0.050 0.010 0.001
k 3.841 6.635 10.828
答案以及解析
1.答案:C
解析:由题中表格数据可知,,因为回归直线一定经过点,所以,解得,
所以回归直线方程为,将代入,得.
所以当该产品的营销费用为6万元时,销售额为42.5万元.
故选:C.
2.答案:ABC
解析:根据y关于x的回归直线方程,易知y与x是正相关的,所以A正确;回归直线过点,所以B正确;根据回归直线方程的斜率为0.85,可知该中学某高中女生身高增加1cm,其体重约增加0.85kg,所以C正确;回归直线方程确定之后只能用于预测,所以D错误.故选ABC.
3.答案:5.059;95
解析:由的计算公式可得.,有95%的把握认为二者有关系.
4.答案:(1)
(2)
(3)2023年的年销隺费用预测值在合理区间内
解析:(1)由已知,得,
所以.
(2)因为,
所以.
由题表中的数据,得.
又因为,所以,
所以,
所以该企业的年销售费用x与年销售收入y之间的线性回归方程为.
(3)由(2)可得2023年的年销售收入的预测值(千万元).
所以2023年的年销售费用预测值在合理区间内.
5.答案:(1)
(2)有的把握认为电池板的质量等级与生产工艺有关
解析:(1)根据综合得分与质量等级的关系,结合频率分布直方图可知,
甲生产工艺所生产的100件产品中,一等品有件,
二等品有件,
从这100个甲工艺所生产的电池板中按质量等级分层抽样抽取4个,则一等品抽取3个,记为A,B,C;二等品抽取1个,记为a.
再从这4个中随机抽取2个,所有可能的结果为AB,AC,Aa,BC,Ba,Ca,共6种,
其中恰有1个质量等级为一等品的电池板对应的结果有Aa,Ba,Ca,共3种,
故所求概率为.
(2)由(1)可知,甲生产工艺所生产的100件产品中,一等品有75件,二等品有25件;
乙生产工艺所生产的100件产品中,一等品有件,
二等品有件.
得到列联表如下:
一等品 二等品
甲生产工艺 75 25
乙生产工艺 45 55
故有的把握认为电池板的质量等级与生产工艺有关.
核心素养对接高考
【核心素养】
回归分析在高考中考查较多,主要考查求回归方程、利用回归方程进行预测,一般以解答题的形式出现,难度中等,有时也以小题形式出现,考查变量的相关性;对于独立性检验,一般以解答题中的一问进行考查,多与概率知识结合命题,特别是以社会现实问题为背景的统计、统计案例与概率相结合的综合题是今后命题的重点与难点,这与新课标对数据分析核心素养的要求密切相关.
【真题对接】
1.【2022年新高考Ⅰ卷】一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:
不够良好 良好
病例组 40 60
对照组 10 90
(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患有该疾病”,与的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R.
(ⅰ)证明:;
(ⅱ)利用该调查数据,给出,的估计值,并利用(ⅰ)的结果给出R的估计值.
附:,
0.050 0.010 0.001
k 3.841 6.635 10.828
2.【2020年新高考Ⅰ卷】为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的和浓度(单位:),得下表:
32 18 4
6 8 12
3 7 10
(1)估计事件“该市一天空气中浓度不超过75,且浓度不超过150”的概率;
(2)根据所给数据,完成下面的列联表:
(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中浓度与浓度有关.
附:,
0.050 0.010 0.001
3.841 6.635 10.828
答案以及解析
1.解析:(1).
因为,
所以有的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.
(2)(ⅰ)
.
(ⅱ)由调查数据得,病例组中卫生习惯不够良好的频率为,
对照组中卫生习惯不够良好的频率为,
所以的估计值为0.4,的估计值为0.1.
的估计值为0.6,的估计值为0.9,
利用(ⅰ)的结果可得R的估计值为.
2.解析:(1)根据抽查数据,该市100天的空气中浓度不超过75,且浓度不超过150的天数为,
因此,该市一天空气中浓度不超过75,且浓度不超过150的概率的估计值为.
(2)根据抽查数据,可得列联表:
64 16
10 10
(3)根据(2)的列联表得.
由于,故有99%的把握认为该市一天空气中浓度与浓度有关.
展开更多......
收起↑