北师大版高中数学选择性必修第一册第七章统计案例课时学案(教师用)

资源下载
  1. 二一教育资源

北师大版高中数学选择性必修第一册第七章统计案例课时学案(教师用)

资源简介

第七章 统计案例
§1 一元线性回归
新课导入
在现实中,我们经常需要了解两个或两个以上变量之间的关系.例如:
(1)教育部门为掌握学生身体健康状况,需要了解身高变量和体重变量之间的关系;(2)商家要根据顾客的意见改进服务水平,希望了解哪些因素影响服务水平,以及这些因素是如何起作用的;等等.为此,我们需要进一步学习通过样本推断变量之间关系的知识和方法.
学习目标
1.能结合实例,根据散点图,判断两个变量是否具有相关关系. 2.了解最小二乘法的原理,会求线性回归方程,并能根据线性回归方程进行预测.
新知学习 探究
一 直线拟合
思考1.如何判断两个变量和之间是否具有线性关系?
提示:常用的简便方法就是绘制散点图.
思考2.如何判断拟合效果?
提示:散点图中包含的数据越多,拟合效果就越好.
[知识梳理]
1.散点图
每个点对应的一对数据,称为成对数据.这些点构成的图称为散点图.
2.曲线拟合
从散点图上可以看出,如果变量之间存在着某种关系,这些点会有一个大致趋势,这种趋势通常可以用一条光滑的曲线来近似地描述.这样近似描述的过程称为①_ _ _ _ _ _ _ _ .
【答案】曲线拟合
3.直线拟合
若在两个变量和的散点图中,所有点看上去都在一条直线附近波动,此时就可以用一条直线来近似地描述这两个量之间的关系,称之为②_ _ _ _ _ _ _ _ .
【答案】直线拟合
[例1] 某种木材的体积与树龄之间有如下对应关系:
树龄/年 2 3 4 5 6 7 8
体积/ 30 34 40 60 55 62 70
(1) 请根据这些数据作出散点图;
(2) 你能由散点图发现木材的体积与树龄近似地呈现什么关系吗?
【答案】
(1) 【解】 以 轴表示木材的树龄,轴表示木材的体积,可得相应的散点图如图所示.
(2) 由散点图可以发现木材的体积随着树龄的增加呈增加的趋势,且所有点大致分布在一条直线附近,所以木材的体积与树龄近似地呈现线性关系.
判断成对数据和间是否具有线性相关关系,常用的简便方法就是绘制散点图,如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是近似地呈线性关系,注意不要受个别点的位置的影响.
[跟踪训练1].
(1) (多选)下列变量之间的关系是相关关系的是( )
A. 圆的面积和半径 B. 成长期内,人的年龄与身高
C. 降雪量和交通事故发生率 D. 每亩田施肥量和粮食亩产量
(2) 在如图所示的四个图中,两个变量具有线性关系的是
A. B.
C. D.
【答案】(1) BCD
(2) B
【解析】
(1) 选.对于,两者之间是确定性的函数关系;对于,一般来说,成长期内,人的年龄越大,身高越高,故两者是相关关系;对于,一般来说降雪量越大,交通事故发生率越高,故两者是相关关系;对于,一般来说在一定范围内,施肥量越多,粮食亩产量越高,故两者是相关关系.故选.
(2) 选.因为 选项中的点大致分布在一条直线附近.故选.
二 一元线性回归方程
思考1.是否能像建立函数模型刻画两个变量之间的确定性关系那样,通过建立适当的统计模型来刻画两个变量之间的相关关系,并通过模型进行预测?
提示:能,当两个变量之间有较强的线性相关关系时,可以用一元线性回归模型刻画两个变量之间的关系.
思考2.任何一组数据都可以由最小二乘法得出线性回归方程吗?
提示:用最小二乘法求线性回归方程的前提是先判断所给数据具有线性关系(可利用散点图来判断),否则求出的线性回归方程是无意义的.
[知识梳理]
1.最小二乘法
对于给定的两个变量和(如身高和体重),可以把其成对的观测值,, ,表示为平面直角坐标系中的个点.现在希望找到一条直线,使得对每一个,由这个直线方程计算出来的值与实际观测值的差异尽可能小.为此,希望达到最小.换句话说,我们希望,的取值能使上式达到最小.这个方法称为最小二乘法.
2.线性回归方程
直线方程①_ _ _ _ _ _ _ _ 称作关于的线性回归方程,相应的直线称作关于的②_ _ _ _ _ _ _ _ ,,是这个③_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ .
其中
【答案】; 回归直线; 线性回归方程的系数
【解析】点拨(1)线性回归方程中的一次项系数为,常数项为,这与一次函数的表示习惯不同.
(2)回归直线 必经过点.
角度1 求线性回归方程
[例2] (对接教材例1)某种产品的广告费用支出(单位:百万元)与销售额(单位:百万元)之间有如下的对应数据:
百万元 2 4 5 6 8
百万元 30 40 60 50 70
(1) 画出散点图;
(2) 求线性回归方程;
(3) 当广告费用支出为10百万元时,试预测这种产品的销售额.
(参考数据:,)
【答案】
(1) 【解】 散点图如图所示.
(2) 由(1)散点图可看出,点分布在一条直线附近,所以 与 具有近似的线性关系.
由题表得,.
所以,,所以所求的线性回归方程为.
(3) 根据(2)中求得的线性回归方程,当 时,,即当广告费用支出为10百万元时,销售额预计为82.5百万元.
求线性回归方程的步骤
(1)列:列表表示,,,;
(2)算:计算,,,;
(3)代:代入公式计算,的值;
(4)写:写出线性回归方程.
[跟踪训练2].某车间为了确定合理的工时定额,需要确定加工零件所花费的时间,为此进行了五次试验,得到数据如下:
零件的个数个 1 2 3 4 5
加工的时间 1.5 2.4 3.2 3.9 4.5
(1) 求出关于的线性回归方程;
(2) 试预测加工 9 个零件需要多少时间?
参考公式:,.
【答案】
(1) 解:由题表中数据得,


,,
根据公式知,,

所以线性回归方程为.
(2) 将 代入线性回归方程得,,
所以预测加工9个零件需要.
角度2 线性回归分析
[例3] 《中华人民共和国道路交通安全法》第47条的相关规定:机动车行经人行横道时,应当减速行驶;遇行人正在通过人行横道,应当停车让行,俗称“礼让斑马线”.下表是某市一主干路口监控设备所抓拍的月份内驾驶员不“礼让斑马线”行为的统计数据:
月份 1 2 3 4 5
违法驾驶员人数 120 105 100 90 85
参考公式:,.
(1) 请利用所给数据求违法驾驶员人数与月份之间的线性回归方程;
(2) 预测该路口9月份的不“礼让斑马线”违法驾驶员人数.
【答案】
(1) 【解】 由题表中的数据可得,

所以,

所以,,
所以违法驾驶员人数 与月份 之间的线性回归方程为.
(2) 当 时,,因此,预测该路口9月份的不“礼让斑马线”违法驾驶员人数为49.
线性回归分析的注意事项
(1)解决问题时应首先对,进行相关性检验,如果两个变量之间本身不具有相关性或者它们之间的相关性不显著,即使求出线性回归方程进行估计和预测的量也是不可信的.
(2)利用线性回归方程预测时要注意所得的值为估计值,不是精确值.
[跟踪训练3].某公司为提高市场销售业绩,促进某产品的销售,随机调查了该产品的月销售单价(单位:元/件)及相应月销售量(单位:万件),对近5个月的月销售单价和月销售量的数据进行了统计,得到如下表数据:
月销售单价(元/件) 10 15 20 25 30
月销售量万件 11 10 8 6 5
(1) 求关于的线性回归方程;
(2) 当该产品月销售单价为40元/件时,月销售量的预测值为多少?
附:参考公式:,.
【答案】
(1) 解:由题中数据可画散点图(图略),知 和 之间有近似的线性关系.


,,所以 关于 的线性回归方程为.
(2) 当 时,,所以当该产品月销售单价为40元/件时,月销售量的预测值为 万件.
课堂巩固 自测
1.根据一组数据判断两个变量是否具有线性关系时,应画出下列哪个图( )
A. 茎叶图 B. 频率分布直方图
C. 散点图 D. 频率折线图
【答案】C
【解析】选.判断两个变量是否具有线性关系时,应先画出散点图.若这些点大体分布在一条直线附近,则具有线性关系.
2.某服装厂引进新技术,其生产服装的产量(单位:百件)与单位成本(单位:元)满足线性回归方程,则以下说法中正确的是( )
A. 产量每增加100件,单位成本约下降14.2元
B. 产量每减少100件,单位成本约上升100.36元
C. 产量每增加100件,单位成本约上升14.2元
D. 产量每减少100件,单位成本约下降14.2元
【答案】A
【解析】选,表示产量每增加100件,单位成本约下降14.2元.故选.
3.(多选)如图四个散点图中,适合用直线拟合这两个变量的是( )
A. B.
C. D.
【答案】AC
【解析】选.由题图易知,两个图中的点大致分布在一条直线附近,因此适合用直线拟合两个变量.
4.[(2025·桂林期末)]中医是中华民族五千年传统文化的瑰宝,是千百年医疗实践的结晶,也是世界优秀文化的精华.某中医药企业根据市场调研与模拟,得到研发投入(单位:亿元)与产品收益(单位:亿元)的数据统计如下表:
研发投入亿元 1 2 3 4 5
产品收益亿元 3 7 9 10 11
用最小二乘法求得关于的线性回归方程是,当研发投入为20亿元时,相应的产品收益预测值为_ _ 亿元.
【答案】36.9
【解析】由题表中的数据可得,,
将样本中心点 代入线性回归方程可得,解得,所以线性回归方程为,当 时,(亿元),因此,当研发投入为20亿元时,相应的产品收益预测值为36.9亿元.
1.已学习:判断两个变量是否具有相关关系,会求线性回归方程并进行分析.
2.须贯通:判断两个变量是否具有相关关系,若具有相关关系,再求线性回归方程.
3.应注意:(1)先做散点图看图中的点是否呈线状分布,判断两个变量是否有线性关系;
(2)判定具有相关性后再求线性回归方程.
课后达标 检测
A 基础达标
1.已知变量,之间具有线性关系,其散点图如图所示,则其线性回归方程可能为( )
A. B.
C. D.
【答案】B
2.[(2025·芜湖期末)]为研究数学成绩(单位:分,满分150分)与物理成绩(单位:分,满分100分)之间的关系,随机抽取了5名同学这两科考试的成绩(取高二学年这两科所有考试成绩的均分),统计如下表:
数学成绩 100 137 116 142 125
物理成绩 89 89 97 85
根据表中的五组数据,用最小二乘法得到的线性回归方程为,由此可知表中的的值为( )
A. 78 B. 85 C. 88 D. 90
【答案】D
【解析】选.,,
则有,解得.
3.某校对学生记忆力和判断力进行统计分析,所得数据如表:
记忆力 2 5 6 8 9
判断力 7 8 10 12 18
则关于的线性回归方程为( )
(附: ,)
A. B.
C. D.
【答案】B
【解析】选.由题表中数据知,随着 的增大,增大,所以,排除,;又,,因此回归直线过点,代入选项验证知 正确.故选.
4.(多选)已知某产品的单价(单位:元)以及销量(单位:件)情况统计如下表所示,由表中数据求得线性回归方程,则下列说法中正确的是( )
单价元 4 5 6 7 8 9
销量件 90 84 83 80 75 68
A. 销量的平均数为80件
B. 根据线性回归方程可以测得,单价每上升1元,销量就减少4件
C.
D. 根据线性回归方程可以预测,单价为10元时,销量为66件
【答案】ABD
【解析】选., ,故 正确;将 代入线性回归方程得,故 错误;故线性回归方程为 ,由于回归直线的斜率为,故 正确;根据线性回归方程可以预测,单价为10元时,销量为(件),故 正确.故选.
5.已知线性回归方程中,且回归直线过定点,则线性回归方程为_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ .
【答案】
【解析】由题意知,,所以 故线性回归方程为.
6.期中考试后,某校高三(9)班对全班65名学生的成绩进行分析,得到数学成绩关于总成绩的线性回归方程为.由此可以估计,若两个同学的总成绩相差50分,则他们的数学成绩大约相差分.
【答案】20
【解析】设两人的总成绩分别为,,对应的数学成绩分别为,,则,,所以.
7.国际青年物理学家竞赛(简称)是当今备受重视的中学生顶级国际物理赛事.某中学的物理兴趣小组通过实验对其中一道竞赛题的两个物理量,进行测量,得到10组数据,, ,,通过散点图发现两变量具有较强的线性关系,并且利用最小二乘法求得线性回归方程为.由于数据保存失误导致丢失,但被保存,通过所学知识可以求得.
【答案】85
【解析】由,得,再由回归直线过 可得,,所以.
B 能力提升
8.蟋蟀鸣叫可以说是大自然优美、和谐的音乐,而且蟋蟀鸣叫的频率(单位:次数/分钟)与气温(单位:)之间存在着较强的线性关系.某地观测人员根据下表的观测数据,建立了关于的线性回归方程,则当蟋蟀每分钟鸣叫80次时,预测该地当时的气温为( )
(次数/分钟) 20 30 40 50 60
25 27.5 29 32.5 36
A. B. C. D.
【答案】C
【解析】选.由题意可得,,,将 代入,可得,即,所以,当 时,.所以当蟋蟀每分钟鸣叫80次时,预测该地当时的气温为.故选.
9.[(2025·汉中期末)](15分)大气污染物(直径不大于的颗粒物)的浓度超过一定限度会影响人的身体健康.为研究浓度(单位:)与汽车流量(单位:千辆)的线性关系,研究人员选定了10个城市,在每个城市建立交通监测点,统计了内过往的汽车流量以及同时段空气中的浓度,得到如下数据:
城市编号 1 2 3 4 5 6 7 8 9 10 总和
1.3 1.444 0.786 1.652 1.756 1.754 1.2 1.5 1.2 0.908 13.5
66 76 21 170 156 120 72 120 100 129 1 030
并计算得,,.
(1) 求变量关于的线性回归方程(保留整数);(7分)
(2) 根据内浓度确定空气质量等级,浓度在为优,为良,为轻度污染,为中度污染,为重度污染,已知某城市内过往的汽车流量为1 360辆,判断该城市的空气质量等级.(8分)
参考公式:线性回归方程,其中,.
【答案】
(1) 解:由题意得,,
因为,,
所以

所以,
所以变量 关于 的线性回归方程为.
(2) 当 辆 千辆时,可得.
因为,
所以该城市的空气质量等级为轻度污染.
C 素养拓展
10.(15分)高考复习经过二轮“见多识广”之后,为了研究考前“限时抢分”强化训练次数与答题正确率的关系,对某校高三某班学生进行了统计,得到如下表所示数据:
1 2 3 4
20 30 50 60
(1) 求关于的线性回归方程,并预测答题正确率是的强化训练次数(结果保留整数);(7分)
(2) 若用表示统计数据的“强化均值”(结果保留整数),若“强化均值”的标准差在区间内,则强化训练有效,请问这个班的强化训练是否有效?(8分)
附:,,样本数据,, ,的标准差为.
【答案】(1) 解:由所给数据计算得,,,,所以,所以,所以所求线性回归方程是.令,解得.所以预测答题正确率是 的强化训练次数为7.
(2) 经计算知,这四组数据的“强化均值”分别为5,6,8,9,则平均数是7,所以“强化均值”的标准差是,所以这个班的强化训练有效.
§2 成对数据的线性相关性
新课导入
散点图可以说明变量间有无线性关系,但无法量化两个变量之间的相关程度的大小,更不能精确地说明成对样本数据之间的密切程度,那么我们如何才能寻找到这样一个合适的量来对成对样本数据的相关程度进行定量分析呢?
学习目标
1.了解样本相关系数的统计含义. 2.会计算样本相关系数,并能根据样本相关系数的大小判断变量之间相关程度的强弱.
新知学习 探究
一 相关系数
思考1.正方形的面积与正方形的边长之间的函数关系是一个确定性的关系吗?
提示:正方形的面积 与正方形的边长 之间的函数关系为,是确定性关系.
思考2.一个人的体重与他的身高是一个确定性的关系吗
提示:我们知道,一个人的体重与他的身高有关系.一般而言,个子高的人往往体重值较大,个子矮的人往往体重值较小.但身高并不是决定体重的唯一因素,例如生活中的饮食习惯、体育锻炼、睡眠时间以及遗传因素等也是影响体重的重要因素.所以一个人的体重与他的身高不是确定性关系.
[知识梳理]
一般地,设随机变量,的组观测值分别为,, ,,记
.
称为随机变量和的样本(线性)相关系数.
[例1] 关于两个变量和的7组成对数据如表所示:
21 23 25 27 29 32 35
7 11 21 24 66 115 325
(1) 判断与是否具有线性关系?
(2) 求变量和的样本相关系数(结果保留1位小数).
参考公式:样本相关系数.
【答案】(1) 【解】 画散点图(图略),观察散点图,可以看出点都集中在一条直线附近,由此判断 与 具有线性关系.
(2) 由题得,,,所以.
(1)散点图可以直观地判断两变量是否具有线性关系.
(2)样本相关系数的计算运算量较大,注意运算的准确性.
[跟踪训练1].某唱片公司想了解唱片费用(单位:十万元)与唱片销售量(单位:千张)之间的关系,现从其所发行的唱片中随机抽取了10张,得到如下的资料:
,,,,,则与的样本相关系数_ _ .参考公式:
【答案】0.3
【解析】由题可知,,,
则.
二 样本(线性)相关系数的性质
[知识梳理]
1.样本(线性)相关系数的取值范围为①_ _ _ _ _ _ _ _ .
【答案】
2.值越接近1,随机变量之间的线性相关程度越②;值越接近0,随机变量之间的线性相关程度越③.
【答案】强; 弱
3.当时,两个随机变量的值总体上变化趋势相同,此时称两个随机变量④_ _ _ _ _ _ ;
当时,两个随机变量的值总体上变化趋势相反,此时称两个随机变量⑤_ _ _ _ _ _ ;
当时,此时称两个随机变量线性⑥_ _ _ _ _ _ .
【答案】正相关; 负相关; 不相关
[例2] (对接教材例1)为分析肥胖程度对总胆固醇与空腹血糖的影响,在肥胖人群中随机抽出8人,他们的肥胖指数值、总胆固醇指标值(单位:)、空腹血糖指标值(单位:)如表所示.
人员编号 1 2 3 4 5 6 7 8
值 25 27 30 32 33 35 40 42
指标值 5.3 5.4 5.5 5.6 5.7 6.5 6.9 7.1
指标值 6.7 7.2 7.3 8.0 8.1 8.6 9.0 9.1
用变量与,与的样本相关系数分别说明指标值与值、指标值与值的线性相关程度.
参考公式:样本相关系数 .
参考数据:,,,,
,,

,,,.
【解】 由题中数据可画出散点图(图略),知 与,与 之间存在相关性.由题知变量 与 的样本相关系数,变量 与 的样本相关系数,可以看出 指标值与 值、指标值与 值之间的线性相关程度很强.
值的大小反映成对样本数据之间线性相关程度的强弱,但当时,表明成对样本数据都落在一条直线上;当时,只表明成对样本数据间没有线性相关性,但不排除它们之间有其他相关性.
[跟踪训练2].
(1) 对两个变量,进行线性相关检验,得样本(线性)相关系数,对两个变量,进行线性相关检验,得样本线性相关系数,则下列判断正确的是( )
A. 变量与正相关,变量与负相关,变量与的线性相关性较强
B. 变量与负相关,变量与正相关,变量与的线性相关性较强
C. 变量与正相关,变量与负相关,变量与的线性相关性较强
D. 变量与负相关,变量与正相关,变量与的线性相关性较强
(2) 如图是相关变量,的散点图,现对这两个变量进行线性相关分析,方案一:根据图中所有数据计算得到样本相关系数为;方案二:剔除点,根据剩下的数据计算得到样本相关系数为,则
A. B.
C. D.
【答案】(1) C
(2) A
【解析】
(1) 选.因为,所以 与 正相关;,所以 与 负相关;又,所以变量 与 的线性相关性较强.故选.
(2) 选.由题图可知,变量 和 正相关,所以,.在剔除点 之后,可看出 和 的线性相关程度更强,更接近1,所以.故选.
课堂巩固 自测
1.对两个变量,的几组观测数据统计如表,则这两个相关变量的关系是( )
10 9 8 7 6 5
2 3 3.5 4 4.8 5
A. 负相关 B. 正相关
C. 先正相关后负相关 D. 先负相关后正相关
【答案】A
【解析】选.由题表知,随 的增大而减小,所以这两个变量负相关.故选.
2.[(2024·天津卷)]下列图中,线性相关系数最大的是( )
A. B. C. D.
【答案】A
【解析】选.选项 中的散点有明显的从左下角到右上角沿直线分布的趋势,且散点集中在一条直线的附近,故选项 中的线性相关系数最大,故选.
3.为了比较甲、乙、丙、丁四组数据的线性相关程度的强弱,小明分别计算了甲、乙、丙、丁四组数据的样本相关系数,其数值分别为,,,,则这四组数据中线性相关程度最强的是组数据.
【答案】甲
【解析】根据题意,因为样本相关系数的绝对值越大,线性相关程度越强,所以甲组数据的线性相关程度最强.
4.(教材P249T2改编)现随机抽取了某校10名学生在入学考试中的数学成绩与入学后的第一次数学考试成绩,数据如表:
学生编号 1 2 3 4 5 6 7 8 9 10
120 108 117 104 103 110 104 105 99 108
84 64 84 68 69 68 69 46 57 71
这10名学生的两次数学考试成绩是否具有较强的线性相关性?参考公式:样本相关系数
,参考数据:,,,.
解:由题中数据可画出散点图(图略),知 与 之间存在相关性.由题表得,

所以样本相关系数
,故两次数学考试成绩有较强的线性相关性.
1.已学习:样本相关系数的计算,(线性)相关程度的判定.
2.须贯通:由散点图判断两个变量的相关性,计算样本相关系数,得出(线性)相关强弱程度.
3.应注意:(1)一定按照步骤先作散点图,简单判断是否有相关性;
(2)定性以后再计算相关系数,得出(线性)相关强弱程度.
课后达标 检测
A 基础达标
1.下列关于散点图的说法中,正确的是( )
A. 任意给定统计数据,都可以绘制散点图
B. 从散点图中可以看出两个量是否具有一定的关系
C. 从散点图中可以看出两个量的因果关系
D. 从散点图中无法看出数据的分布情况
【答案】B
【解析】选.散点图不适合用于展示百分比占比的数据,另外数据量较少的数据也不适合用散点图表示,故 错误;散点图能看出两个量是否具有一定关系,但是并不一定是因果关系,故 正确,错误;从散点图中能看出数据的分布情况,故 错误.故选.
2.在成对数据,, ,(,,, ,不全相等)的散点图中,若所有点都在直线上,则这组数据的样本相关系数为( )
A. B. 1 C. D.
【答案】A
【解析】选.所有点都在直线 上,故两个变量具有确定的函数关系,且是负相关,所以样本相关系数为.故选.
3.对两个变量的四组数据进行统计,获得以下散点图,关于两个变量样本相关系数的比较,正确的是( )
A. B.
C. D.
【答案】A
【解析】选.由样本相关系数的性质,可知.故选.
4.若已知是的两倍,是的1.2倍,则样本相关系数的值为( )
A. B. C. 0.92 D. 0.65
【答案】B
【解析】选.
.故选.
5.(多选)对于样本相关系数,以下说法错误的是( )
A. 只能是正值,不能为负值
B. ,且越接近于1,成对样本数据的线性相关程度越强;相反则越弱
C. ,且越接近于1,成对样本数据的线性相关程度越弱;相反则越强
D. 时表示两个变量无相关关系
【答案】ACD
【解析】选.对于,样本相关系数,可以为负值,错误;对于,,根据样本相关系数的性质知,,且 越接近于1,成对样本数据的线性相关程度越强,相反则越弱,正确,错误;对于,当 时,两个变量之间为负相关关系,错误.故选.
6.若线性回归方程中的,则样本相关系数_ _ _ _ 附:,样本相关系数.
【答案】0
【解析】因为,且,
所以,
所以
,所以.
7.已知变量,线性相关,样本相关系数,则在以为坐标原点的平面直角坐标系下的散点图中,大多数的点都落在第_ _ _ _ 象限.
【答案】二、四
【解析】由,则
,所以 与 异号,又 为坐标原点,故大多数的点都落在第二、四象限.
B 能力提升
8.[(2025·桂林期末)]已知两组数据,, ,和,, ,,其中当且时,;当且时,,,我们研究这两组数据的相关性,在集合中取一个元素作为的值,使得相关性最强,则( )
A. 8 B. 11 C. 12 D. 13
【答案】B
【解析】选.设点坐标为,且,由题意得前9个点位于直线 上,且,则要使相关性更强,应更接近10,四个选项中11更接近10.故选.
9.(15分)5个学生的数学和物理成绩如表:
学生 学科
数学 80 75 70 65 60
物理 70 66 68 64 62
试分别用散点图和样本相关系数判断数学成绩与物理成绩是否有线性相关性,若有,是正相关还是负相关?
解:(散点图法)涉及两个变量:数学成绩与物理成绩,可以以数学成绩为自变量,考察因变量物理成绩的变化趋势.以 轴表示数学成绩,轴表示物理成绩,可得相应的散点图.
由散点图可知,两变量具有线性相关性且是正相关.
(样本相关系数 法)列表:
1 80 70 6 400 4 900 5 600
2 75 66 5 625 4 356 4 950
3 70 68 4 900 4 624 4 760
4 65 64 4 225 4 096 4 160
5 60 62 3 600 3 844 3 720
350 330 24 750 21 820 23 190
由表可得,,所以
.所以两变量具有线性相关性且正相关.
C 素养拓展
10.(15分)某企业在国家一系列优惠政策的大力扶持下,通过技术革新和能力提升,极大地提升了企业的影响力和市场知名度,订单数量节节攀升,下表为该企业2024年月份接到的订单数量.
月份 1 2 3 4
订单数量万件 5.2 5.3 5.7 5.8
(1) 试根据样本相关系数的值判断订单数量与月份的线性相关程度强弱(,则认为与的线性相关程度较强,,则认为与的线性相关程度较弱);(结果保留两位小数)(7分)
(2) 建立关于的线性回归方程,并预测该企业5月份接到的订单数量.(8分)
附:样本相关系数,
回归直线的斜率和截距的最小二乘法公式分别为,,.
【答案】(1) 解:,,,,,所以,所以订单数量 与月份 的线性相关程度较强.
(2) 因为,所以,所以线性回归方程为,令,则(万件),即预测该企业5月份接到的订单数量为6.05万件.
§3 独立性检验问题
新课导入
有关医学研究表明,许多疾病,例如:心脏病、癌症、脑血管病、慢性阻塞性肺病等都与吸烟有关,吸烟已成为继高血压之后的第二号全球杀手.为此,联合国固定每年5月31日为世界无烟日.那么如何探究这些疾病与吸烟的关系呢?
学习目标
1.理解独立性检验的基本思想及其实施步骤. 2.能利用列联表探讨两个分类变量的关系. 3.能借助计算公式进行独立性检验.
新知学习 探究
一 独立性检验
思考1.人的身高、直尺的长度、是否吸烟等都是变量,它们有什么不同
提示:人的身高,直尺的长度都是数值变量;一个人要么属于吸烟人群,要么属于不吸烟人群,这个变量取不同“值”表示个体所属的不同类别.
思考2.调查吸烟是否对患肺癌有影响,某肿瘤研究所随机调查了9 965人,其数据如下(单位:人):
吸烟情况 患肺癌情况
不患肺癌 患肺癌 总计
不吸烟 7 775 42 7 817
吸烟 2 099 49 2 148
总计 9 874 91
根据上表,不吸烟人群患肺癌的比例与吸烟人群患肺癌的比例各是多少?
提示:不吸烟人群患肺癌的比例为,吸烟人群患肺癌的比例为.
[知识梳理]
1.列联表
设,为两个变量,每一个变量都可以取两个值,变量,;变量,.
列联表如表:
总计
总计
其中,表示变量取,且变量取时的数据;表示变量取,且变量取时的数据;表示变量取,且变量取时的数据;表示变量取,且变量取时的数据.
2.列联表的独立性检验
设,用①_ _ _ _ _ _ 估计,②_ _ _ _ _ _ _ _ 估计,③_ _ _ _ _ _ _ _ 估计.若有式子,则可以认为与独立.
同理,若,则可以认为与独立;
若,则可以认为与独立;
若,则可以认为与独立.
在中,由于,,表示的是频率,不同于概率.即使变量,之间独立,式子两边也不一定恰好相等.但是当两边相差很大时,变量,之间就不独立.
【答案】; ;
[例1] “一本书,一碗面,一条河,一座桥”曾是兰州的城市名片,而现在“兰州马拉松”又成为了兰州的另一张名片,随着全民运动健康意识的提高,马拉松运动不仅在兰州,而且在全国各地逐渐兴起,参与马拉松训练与比赛的人数逐年增加.为此,某市对人们参加马拉松运动的情况进行了统计调查.其中一项调查是调查人员从参与马拉松运动的人中随机抽取200人,对其每周参与马拉松长跑训练的天数进行统计,得到以下统计表,
平均每周进行长跑训练的天数 不大于2天 3天或4天 不少于5天
人数 30 130 40
若某人平均每周进行长跑训练天数不少于5天,则称其为“热烈参与者”,否则称为“非热烈参与者”.
(1) 经调查,该市约有2万人参与马拉松运动,试估计该市“热烈参与者”的人数;
(2) 根据上表的数据,填写下列列联表(单位:人).
性别 参与情况
热烈参与者 非热烈参与者 总计
男 _ _ 140
女 _ _ 55
总计 _ _ _ _ _ _ _ _ _ _
【答案】(1) 【解】 以200人中“热烈参与者”的频率作为概率,可得该市“热烈参与者”的人数约为.
(2) 35;105;5;60;40;160;
【解析】
(2) 由题意可得 列联表如下(单位:人):
性别 参与情况
热烈参与者 非热烈参与者 总计
男 35 105 140
女 5 55 60
总计 40 160
列联表的应用
(1)作列联表时,关键是对涉及的变量分清类别,计算时要准确无误.
(2)利用列联表分析两变量间的关系时,首先要根据题中数据获得列联表,然后根据频率特征,直观判断两个分类变量间是否相互影响.
[跟踪训练1].假设有两个分类变量与,它们的可能取值分别为,和,,其列联表为:
总计
10 18 28
26
总计 44
则若与的关系最弱,整数的值为( )
A. 8 B. 9 C. 14 D. 19
【答案】C
【解析】选.在两个分类变量的列联表中,当 与 的值越接近时,认为两个分类变量有关的可能性越小.令,得,解得,又 为整数,所以当 与 的关系最弱时,整数 的值为14.故选.
二 独立性检验的基本思想
思考 有人说:“得出吸烟和患肺癌有关这个结论犯错误的可能性为1%,是指每100个吸烟者中就会有99个患肺癌的.”你认为这种观点正确吗?为什么?
提示:观点不正确.犯错误的可能性为1%说明的是吸烟与患肺癌有关的程度,不是患肺癌的百分数.
[知识梳理]
1.公式:,其中.
2.判断方法:
若χ2服从分布χ2(1),则有如下表的结论成立.
P(χ2≥x0) 0.10 0.05 0.025 0.010 0.005 0.001
x0 2.706 3.841 5.024 6.635 7.879 10.828
提出假设H0:变量A,B独立.
(1)当χ2≥3.841时,我们认为可能性不超过5%的小概率事件发生了,所以认为假设H0不成立,即认为变量A,B有关联,但是得出这个结论是可能犯错误的,即我们犯错误的可能性为5%.
(2)通常,当χ2<2.706时,我们不能否定假设H0,即认为变量A,B独立.
[例2] (对接教材例1)某校随机抽取100名学生,对其学习积极性和对待班级工作的态度进行了调查,统计数据如下表(单位:人):
学习积极性 对待班级工作的态度
积极 不太主动 总计
高 40 _ _ _ _
一般 _ _ 30 _ _
总计 _ _ _ _ _ _
已知随机抽查这100名学生中的一名学生,抽到积极参与班级工作的学生的概率是0.6.
(1) 请将上表补充完整;
(2) 试问:学生的学习积极性是否与对待班级工作的态度有关?
【答案】(1) 10;50;20;50;60;40;
(2)提出假设H0:学生的学习积极性与对待班级工作的态度无关.由公式计算得χ2=≈16.667,因为16.667>10.828,所以我们认为可能性不超过0.1%的小概率事件发生了,所以认为假设H0不成立,即认为学生的学习积极性与对待班级工作的态度有关.
【解析】
(1) 【解】 由题意,积极参与班级工作的学生人数为,列联表如下(单位:人):
学习积极性 对待班级工作的态度
积极 不太主动 总计
高 40 10 50
一般 20 30 50
总计 60 40
解决独立性检验问题的基本步骤
[跟踪训练2].为了解某比赛中是否接受挑战与受邀者的性别是否有关系(假设每个人是否接受挑战互不影响),某机构进行了随机抽样调查,得到如下调查结果(单位:人):
性别 是否接受挑战
接受挑战 不接受挑战 总计
男 50 10 60
女 20 20 40
总计 70 30
试问:比赛中接受挑战是否与受邀者的性别有关
解:提出假设H0:比赛中接受挑战与受邀者的性别无关.根据列联表中的数据,计算得χ2=≈12.698,因为12.698>10.828,所以我们认为可能性不超过0.1%的小概率事件发生了,所以认为假设H0不成立,即认为比赛中接受挑战与受邀者的性别有关.
课堂巩固 自测
1.在一项中学生近视情况的调查中,某校150名男生中有80名近视,140名女生中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( )
A. 平均数与方差 B. 回归分析
C. 独立性检验 D. 概率
【答案】C
【解析】选.判断两个变量是否有关的最有效方法是进行独立性检验.故选.
2.为了搞好对外宣传工作,会务组选聘了30名记者担任对外翻译工作,在下面“性别与是否会俄语”的列联表中(单位:人),_ _ _ _ .
性别 会俄语情况
会俄语 不会俄语 总计
男 20
女 6
总计 18
【答案】8
【解析】由 列联表的性质,可得,,,可得,所以.
3.为考察棉花种子是否经过处理与患病之间的关系,得如表所示的数据(单位:颗):
疾病 种子情况
经过处理 未经过处理 总计
患病 32 101 133
未患病 61 213 274
总计 93 314
根据以上数据得的值是_ _ _ _ .(精确到)
【答案】0.164
【解析】依题意
.
4.(教材P257T2改编)在研究某种药物对病毒的治疗效果时,进行动物试验,得到以下数据,对150只动物服用该药物治疗,其中132只动物存活,18只动物死亡,对照组150只动物进行常规治疗,其中114只动物存活,36只动物死亡.
(1) 根据以上数据建立一个列联表;
(2) 试问:该种药物对病毒是否有治疗效果?
【答案】
(1) 解:列联表如下(单位:只):
药物 试验结果
存活 死亡 总计
服用 132 18 150
未服用 114 36 150
总计 246 54
(2)提出假设H0:该种药物对病毒没有治疗效果.由(1)知χ2=≈7.317,因为7.317>6.635,所以我们认为可能性不超过1%的小概率事件发生了,所以认为假设H0不成立,即认为该种药物对病毒有治疗效果.
1.已学习:列联表,统计量和独立性检验思想,独立性检验的应用.
2.须贯通:能准确根据题意做出列联表,计算的值,会根据计算结果进行检验.
3.应注意:(1)准确得出列联表中的数据;
(2)会根据计算出的的值,进行独立性检验.
课后达标 检测
A 基础达标
1.如表是一个列联表,则表中,的值分别为( )
总计
21 73
22 25 47
总计 46
A. 94,72 B. 52,50 C. 52,74 D. 74,52
【答案】C
2.在一次独立性检验中得到如下列联表:
总计
200 800 1 000
180
总计 380
若这两个分类变量和没有关系,则的可能值是( )
A. 200 B. 720 C. 100 D. 180
【答案】B
【解析】选.由题表可得,,,即当 时,,易知此时两个分类变量没有关系.故选.
3.[(2025·南阳期末)]在列联表中,若每个数据变为原来的2倍,则的值变为原来的( )
A. 8倍 B. 4倍 C. 2倍 D. 1倍
【答案】C
【解析】选.把公式
中所有值变为原来的2倍,得

故 的值也变为原来的2倍.故选.
4.在研究打鼾与患心脏病之间的关系中,通过收集数据、整理分析数据得到打鼾与患心脏病有关的结论,并且这个结论犯错误的可能性为1%.下列说法中正确的是(  )
A.100个心脏病患者中至少有99人打鼾
B.1个人患心脏病,则这个人有99%的概率打鼾
C.100个心脏病患者中一定有打鼾的人
D.100个心脏病患者中可能一个打鼾的人都没有
【答案】D
【解析】选. 这是独立性检验,得到打鼾与患心脏病有关的结论犯错误的可能性为1%,即打鼾与患心脏病有关的可能性为99%.故选D.5.(多选)某高校在本校学生中对“喜欢滑冰是否与性别有关”做了一次调查,参与调查的学生中,男生人数是女生人数的3倍,有的男生喜欢滑冰,有的女生喜欢滑冰.若根据独立性检验的方法,有的把握判断是否喜欢滑冰和性别有关,则参与调查的男生人数可能为( )
参考公式:,其中
A. 12 B. 34 C. 36 D. 48
【答案】CD
【解析】选.设男生人数为,则女生人数为,且,,可得列联表如下(单位:人):
滑冰 性别
男 女 总计
喜欢
不喜欢
总计
所以,因为得到是否喜欢滑冰和性别有关这个结论犯错误的可能性至多为5%,所以≥3.841,解得x≥12,x∈N+,故C,D符合题意.故选CD.
6.为了判断某高中学生选修文科与性别的关系,现随机抽取50名学生,得到2×2列联表如下(单位:名),则得到选修文科与性别有关这个结论犯错误的可能性为________.
性别 选修
理科 文科 总计
男 13 10 23
女 7 20 27
总计 20 30 n=50
解析:由公式计算得χ2=≈4.844,因为4.844>3.841,所以得到选修文科与性别有关这个结论犯错误的可能性为5%.
答案:5%
7.某校对“学生性别和喜欢网络游戏是否有关”作了一次调查,其中被调查的男、女生人数相同,男生人数不超过65,男生喜欢网络游戏的人数占男生人数的,女生喜欢网络游戏的人数占女生人数的.若根据独立性检验得到喜欢网络游戏和性别有关这个结论犯错误的可能性至多为5%,则被调查的学生中男生可能有______人.(请将所有可能的结果都填在横线上)
解析:设男生有x人,x≤65,x∈N+,由题意可得2×2列联表如下(单位:人),
性别 喜欢网络游戏情况
喜欢 不喜欢 总计
男 x x x
女 x x x
总计 x x n=2x
因为χ2==x,所以x≥3.841,解得x≥41,x∈N+,又x为5的整数倍,x≤65,所以被调查的学生中男生可能的人数为45,50,55,60,65.
答案:45,50,55,60,65
8.(多选)为了解高中生选科时是否选择物理与数学成绩之间的关系,某教研机构随机抽取了50名高中生,通过问卷调查,得到以下数据:
选物理 不选物理
数学成绩优异 20 7
数学成绩一般 10 13
由以上数据,计算得到χ2=≈4.844,则以下说法中正确的是(  )
A.得到是否选择物理与数学成绩有关这个结论犯错误的可能性为5%
B.若表格中的所有数据都扩大为原来的10倍,在相同条件下,得到是否选择物理与数学成绩有关这个结论犯错误的可能性发生变化
C.95%的数学成绩优异的同学选择物理
D.若表格中的所有数据都扩大为原来的10倍,在相同条件下,得到是否选择物理与数学成绩有关这个结论犯错误的可能性不会发生变化
解析:选AB.因为4.844>3.841,所以得到是否选择物理与数学成绩有关这个结论犯错误的可能性为5%;若表中的数据都扩大为原来的10倍,则χ2=≈48.44,又48.44>10.828,故得到是否选择物理与数学成绩有关这个结论犯错误的可能性发生变化.故选AB.
9.(13分)在调查男女乘客是否晕机的情况中,已知男乘客晕机的为28人,不晕机的也是28人,而女乘客晕机的为28人,不晕机的为56人.
(1)根据以上数据建立一个2×2列联表;(6分)
(2)试判断是否晕机与性别有关吗?(7分)
解:(1)2×2列联表如下(单位:人):
性别 情况
晕机 不晕机 总计
男 28 28 56
女 28 56 84
总计 56 84 n=140
(2)提出假设H0:是否晕机与性别无关.由(1)得χ2==≈3.889.因为3.889>3.841,所以我们认为可能性不超过5%的小概率事件发生了,所以认为假设H0不成立,即认为是否晕机与性别有关.
10.(17分)(2024·全国甲卷改编)某工厂进行生产线智能化升级改造.升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
优级品 合格品 不合格品 总计
甲车间 26 24 0 50
乙车间 70 28 2 100
总计 96 52 2 150
(1)填写如下列联表:
优级品 非优级品
甲车间
乙车间
试问:甲、乙两车间产品的优级品率是否存在差异?(8分)
(2)已知升级改造前该工厂产品的优级品率p=0.5,设为升级改造后抽取的n件产品的优级品率,如果>p+1.65,则认为该工厂产品的优级品率提高了.根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了?(≈12.247)(9分)
附:χ2=,
P(χ2≥x0) 0.05 0.010 0.001
x0 3.841 6.635 10.828
解:(1)提出假设H0:甲、乙两车间产品的优级品率不存在差异.填写如下列联表:
优级品 非优级品
甲车间 26 24
乙车间 70 30
则完整的2×2列联表如下(单位:件):
优级品 非优级品 总计
甲车间 26 24 50
乙车间 70 30 100
总计 96 54 n=150
χ2==4.687 5.
因为4.687 5>3.841,所以我们认为可能性不超过5%的小概率事件发生了,所以认为假设H0不成立,即认为甲、乙两车间产品的优级品率存在差异 .
(2)由题意可知==0.64,
又p+1.65=0.5+1.65×≈0.5+1.65×≈0.57,
所以>p+1.65,所以能认为生产线智能化升级改造后,该工厂产品的优级品率提高了.
阶段提升(十) 统计案例(范围:§1~§3)
1.对两组呈线性相关的变量进行分析,得第一组和第二组对应的样本相关系数分别为r1,r2,则“r1>r2”是“第一组变量比第二组变量线性相关程度强”的(  )
A.充分不必要条件 B.必要不充分条件 C.充要条件
D.既不充分也不必要条件
解析:选D. 因为r1>r2,但不确定r1,r2的正负情况,所以不能推出第一组变量和第二组变量的线性相关程度强弱;若第一组变量比第二组变量线性相关程度强,则|r1|>|r2|,但不确定r1,r2的正负情况,所以“r1>r2”是“第一组变量比第二组变量线性相关程度强”的既不充分也不必要条件.故选D.
2.某商店经营一批进价为4元/件的商品,在市场调查时发现,此商品的销售单价X(单位:元)与日销售量Y(单位:件)之间有如下关系:
X 5 6 7 8
Y 10 8 7 3
试计算X,Y之间的样本相关系数.
参考数据: (xi-)(yi-)=-11, (xi-)2=5, (yi-)2=26, ≈11.401 8.
参考公式:r=.
解:由题知r=
=≈-0.964 8.
3.已知某连锁经营公司的5个零售店某月的销售额和利润额资料如下表:
商店名称 A B C D E
销售额X/千万元 3 5 6 7 9
利润额Y/千万元 2 3 3 4 5
(1)画出散点图;
(2)根据如下的参考公式与参考数据,求利润额Y与销售额X之间的线性回归方程;
(3)若该公司还有一个零售店某月销售额为10千万元,试估计它的利润额是多少.
参考公式:=,=-.
参考数据:iyi=112,=200.
解:(1)散点图如图.
(2)由(1)中散点图可以看出,X与Y有近似的线性关系.
由已知数据计算得n=5,==6,==3.4,==0.5,=3.4-0.5×6=0.4.则线性回归方程为Y=0.5X+0.4.
(3)将X=10代入线性回归方程中得到Y=0.5×10+0.4=5.4(千万元).
即估计该零售店的利润额为5.4千万元.
解决线性回归分析问题的一般步骤
(1)画散点图.根据已知数据画出散点图.
(2)判断变量的相关性并求线性回归方程.通过观察散点图或计算样本相关系数,判断两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出线性回归方程.
(3)实际应用.依据求得的线性回归方程解决实际问题.
题型二 独立性检验
1.(多选)以下关于独立性检验的说法中,正确的是(  )
A.独立性检验得到的结论一定正确
B.样本不同,独立性检验的结论可能有差异
C.独立性检验不是判断两分类变量是否相关的唯一方法
D.若由吸烟与患肺病的2×2列联表得χ2>6.635,则认为吸烟与患肺病有关,则某人吸烟,那么他有99%的可能患有肺病
解析:选BC.利用独立性检验时,结论与样本的选取有关,因此得到的结论可能有误,A错误;样本不同,独立性检验的结论可能有差异,B正确;可以利用频率表粗略地判断两个分类变量之间是否具有相关性,因此独立性检验不是判断两分类变量是否相关的唯一方法,C正确;若χ2>6.635,则我们认为可能性不超过1%的小概率事件发生了,即认为吸烟与患肺病有关,这个结论犯错误的可能性为1%,则某人吸烟,不表示他有99%的可能患有肺病,D错误.故选BC.
2.为了探究电离辐射的剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射照射小白鼠.在照射后14天的结果如下表所示(单位:只):
电离辐射剂量 存活情况
死亡 存活 总计
第一种剂量 14 11 25
第二种剂量 6 19 25
总计 20 30 n=50
由表中数据算得:χ2≈________,说明两种电离辐射剂量对小白鼠的致死作用____________.(填“相同”或“不相同”)
解析:提出假设H0:小白鼠的死亡与使用的电离辐射剂量无关.由列联表中数据,计算得χ2=≈5.333,因为5.333>5.024,
所以我们认为可能性不超过2.5%的小概率事件发生了,所以认为假设H0不成立,即认为小白鼠的死亡与使用的电离辐射剂量有关,即两种电离辐射剂量对小白鼠的致死作用不相同.
答案:5.333 不相同
3.某市组织全市中小学生观看了“天宫课堂”第四课,并随机抽取1 000名中小学生进行了一次“飞天宇航梦”的调查,得到如下2×2列联表(单位:名):
性别 “飞天宇航梦”
有 无 总计
男 100
女 350 500
总计
(1)若将样本频率视为概率,求从全市中小学生中随机选择1名学生,此学生有“飞天宇航梦”的概率;
(2)完成上面的列联表,问:学生性别和有“飞天宇航梦”是否有关?
附:χ2=,其中n=a+b+c+d.
解:(1)由题意与列联表可知被调查的男、女学生都是500人,
其中有“飞天宇航梦”的男生有400人,女生有350人,一共750人,
因此从全市中小学生中随机选择1名学生,此学生有“飞天宇航梦”的概率为=.
(2)提出假设H0:学生性别和有“飞天宇航梦”无关.2×2列联表如下(单位:名):
性别 “飞天宇航梦”
有 无 总计
男 400 100 500
女 350 150 500
总计 750 250 n=1 000
根据列联表中的数据,经计算得到,
χ2=≈13.333,
因为13.333>10.828,所以我们认为可能性不超过0.1%的小概率事件发生了,所以认为假设H0不成立,即认为学生性别和有“飞天宇航梦”有关.
主要考查根据样本制作2×2列联表,由2×2列联表计算χ2,分析并判断相关性结论的可信程度.χ2的值越大,说明判断两个分类变量有关联成立的可能性越大.因此根据列联表中数据求得χ2的值,和临界值比较,可得出结论.
题型三 成对数据统计分析中的综合问题
1.由于航天行业拥有广阔的发展前景,有越来越多的公司开始从事航天研究,某航天公司研发了一种火箭推进器,为测试其性能,对推进器飞行距离与损坏零件数进行了统计,数据如下:
飞行距离X/km 56 63 71 79 90 102 110 117
损坏零件数Y/个 61 73 90 105 119 136 149 163
参考数据:=86,=112,iyi=82 743,
=62 680.
(1)根据所给数据,求Y关于X的线性回归方程(精确到0.1,精确到1);
(2)该公司进行了第二项测试,从所有同型号推进器中随机抽取100台进行等距离飞行测试,对其中60台进行飞行前保养,测试结束后,有20台报废,其中保养过的推进器占比30%,请根据统计数据完成2×2列联表(单位:台),并分析推进器报废是否与保养情况有关?
报废情况 保养情况
保养 未保养 总计
报废 20
未报废
总计 60 n=100
附:线性回归方程Y=X+,=,=-,χ2=,n=a+b+c+d.
解:(1)由题意得==≈1.6,
则=-≈112-1.6×86≈-26,
所以Y=1.6X-26.
(2)提出假设H0:推进器报废与保养情况无关.由题意,报废推进器中保养过的共20×30%=6(台),未保养的推进器共20-6=14(台),
补充2×2列联表如下(单位:台):
报废情况 保养情况
保养 未保养 总计
报废 6 14 20
未报废 54 26 80
总计 60 40 n=100
则χ2==9.375,因为9.375>7.879,
所以我们认为可能性不超过0.5%的小概率事件发生了,所以认为假设H0不成立,即认为推进器报废与保养情况有关.
2.(2025·汉中期末)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区植物覆盖面积与某种野生动物数量的关系,将其分成面积相近的若干个地块,从这些地块中随机抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量(单位:只),并计算得(xi-)2=80,(yi-)2=9 000,(xi-)(yi-)=800.
(1)求样本(xi,yi)(i=1,2,…,20)的样本相关系数(精确到0.01),并推断这种野生动物的数量Y(单位:只)与植物覆盖面积X(单位:公顷)的线性相关程度(当|r|∈[0.75,1]时,认为线性相关程度强,否则认为线性相关程度弱);
(2)已知20个样区中有8个样区的这种野生动物数量低于样本平均数,从20个样区中随机抽取2个,记抽到这种野生动物数量低于样本平均数的样区的个数为X,求随机变量X的分布列.
附:样本相关系数r=,≈1.414.
解:(1)样本(xi,yi)(i=1,2,…,20)的样本相关系数为r===≈0.94.
由样本相关系数r≈0.94∈[0.75,1],可以推断出这种野生动物的数量Y与植物覆盖面积X的线性相关程度强.
(2)由题意得,X的可能取值为0,1,2,
所以P(X=0)==,
P(X=1)==,
P(X=2)==,
所以X的分布列为
X 0 1 2
P
3.某校在课外活动期间设置了文化艺术类活动和体育锻炼类活动,为了解学生对这两类活动的参与情况,统计了如下数据(单位:人):
性别 活动类型
文化艺术类 体育锻炼类 总计
男 100 300 400
女 50 120 170
总计 150 420 n=570
(1)分析该校学生所选择课外活动的类型与性别有无关联?
(2)为收集学生对课外活动的建议,在参加文化艺术类活动的学生中按性别用分层随机抽样的方法抽取了6名同学.若在这6名同学中随机抽取2名,求所抽取的2名同学中至少有1名女生的概率.
附:χ2=,n=a+b+c+d.
解:(1)提出假设H0:该校学生所选择课外活动的类型与性别无关.由题表中数据可得,
χ2=≈1.197,
因为1.197<2.706,
所以我们不能否定假设H0,即认为该校学生所选择课外活动的类型与性别无关.
(2)抽取的6名同学中,男生有6×=4(人),女生有6×=2(人),
记事件A为“抽取的2名同学中至少有1名女生”,则P()==,
所以P(A)=1-P()=,即所抽取的2名同学中至少有1名女生的概率为.
独立性检验与概率、统计综合问题的解题思路
本类题目以生活题材为背景,涉及独立性检验与概率、统计问题的综合,解决该类问题首先收集数据列出2×2列联表,并按照公式求得χ2的值后与相应的临界值进行比较,用最小二乘法求得两个变量X与Y满足的线性回归方程,其次按照随机变量满足的概率模型求解.
阶段小测(十)
一、单项选择题(本题共6小题,每小题5分,共30分.在每小题给出的四个选项中,只有一项是符合题目要求的.)
1.已知两个统计案例如下:
①某机构调查了100位社区网络员手机即时通讯软件的使用情况,结果如下表:
类别 35岁以上 35岁以下 总计
微信 45 20 65
QQ 13 22 35
总计 58 42 100
②为了解某地母亲身高与女儿身高的关系,随机测得10对母女的身高数据如下表:
母亲身高/cm 159 160 160 163 159 154 159 158 159 157
女儿身高/cm 158 159 160 161 161 155 162 157 162 156
则对这些数据的处理所采用的统计方法是(  )
A.①回归分析,②取平均值 B.①回归分析,②独立性检验
C.①独立性检验,②回归分析 D.①独立性检验,②取平均值
解析:选C.独立性检验是判断两个分类变量是否有关联的一种方法,而回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.①中的两个变量为分类变量,采用的统计方法为独立性检验,②中的两个变量具有相关关系,采用的统计方法为回归分析.故选C.
2.已知线性回归方程Y=2-3X,则当X增加1个单位时,Y平均(  )
A.增加3个单位 B.增加个单位
C.减少3个单位 D.减少个单位
解析:选C.依题意,线性回归方程为Y=2-3X,所以当X增加1个单位时,Y平均减少3个单位.故选C.
3.对变量X,Y有观测数据(xi,yi)(i=1,2,…,10),得散点图如图1;对变量U,V有观测数据(ui,vi)(i=1,2,…,10),得散点图如图2.r1表示变量X,Y之间的样本相关系数,r2表示变量U,V之间的样本相关系数,则(  )
A.-1C.0解析:选A.从题图中看出Y随X增大而减小,V随U增大而减小,则Y与X呈负相关关系,V与U呈负相关关系,即r1<0,r2<0, 故C,D不正确; 另外对比两题图,容易看出Y与X线性相关程度更强,故r1更接近-1,所以得-14.为了研究某班学生的右手一拃长X(单位:cm)和身高Y(单位:cm)的关系,从该班随机抽取了12名学生,根据测量数据的散点图可以看出Y与X之间有线性相关关系,设其线性回归方程为Y=X+,已知i=240,i=2 040,=6.5,若某学生的右手一拃长为22 cm,据此估计其身高为(  )
A.175 cm B.179 cm
C.183 cm D.187 cm
解析:选C.由题意得,x==20,y==170,代入y=x+,得170=6.5×20+,解得=40,所以其线性回归方程为Y=6.5X+40,将X=22代入,可得Y=6.5×22+40=183(cm).故选C.
5.某公司研发新产品投入X(单位:百万)与该产品的收益Y(单位:百万)的5组统计数据如表所示,由表中数据求得投入金额X与收益Y满足线性回归方程Y=X+2.6,则下列结论不正确的是(  )
X 5 6 8 9 12
Y 16 20 25 28 36
A.X与Y有正相关关系 B.回归直线经过点(8,25)
C.=2.4 D.当X=9时,偏差为0.2
解析:选C.对于A,由题中表格可知,X越大,Y越大,所以X与Y有正相关关系,故A正确;对于B,==8,==25,则样本点的中心为(8,25),所以回归直线经过点(8,25),故B正确;对于C,将(8,25)代入线性回归方程,得25=8+2.6,解得=2.8,故C不正确;对于D,Y=2.8X+2.6,当X=9时,Y=2.8×9+2.6=27.8,则偏差为28-27.8=0.2,故D正确.故选C.
6.有甲、乙两个班级共计105人进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下列联表(单位:人):
班级 成绩
优秀 非优秀 总计
甲班 10 b 10+b
乙班 c 30 30+c
总计 10+c 30+b n=105
已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是(  )
附:χ2=,其中n=a+b+c+d.
A.c=30,b=45
B.c=20,b=35
C.认为成绩与班级有关
D.认为成绩与班级无关
解析:选C.因为在105人中随机抽取1人,成绩优秀的概率为,所以成绩优秀的人数为105×=30,成绩非优秀人数为105-30=75,所以c=30-10=20,b=75-30=45,故A,B错误;经计算可得χ2≈6.109>5.024,所以我们认为可能性不超过2.5%的小概率事件发生了,即认为成绩与班级有关,故C正确,D错误.故选C.
二、多项选择题(本题共2小题,每小题6分,共12分.在每小题给出的选项中,有多项符合题目要求.全部选对的得6分,部分选对的得部分分,有选错的得0分.)
7.有两个分类变量X,Y,其调查数据如下表所示,
X Y
Y1 Y2
X1 a 20-a
X2 15-a 30+a
其中a,15-a均为大于5的整数,若认为X,Y有关犯错误的可能性至多为5%,则a的值可以为(  )
A.6 B.7
C.8 D.9
解析:选CD.由题中列联表中数据,得χ2==
≥3.841,由a,15-a均为大于5的整数,得58.已知由样本数据(xi,yi)(i=1,2,3,…,10)组成的一个样本,得到线性回归方程为Y=-X+3,且=4.剔除一个偏离直线较大的异常点(-5,-1)后,得到新的回归直线经过点(6,-4).关于剔除该异常点后的说法正确的是(  )
A.相关变量X,Y具有正相关关系
B.样本相关系数的绝对值变大
C.回归直线经过点(5,-1)
D.随X值增加相关变量Y值减小的速度变小
解析:选BC.依题意,原样本中,=-4+3=-1,剔除一个偏离直线较大的异常点(-5,-1)后,新样本中,′==5,′==-1,因此剔除该异常点后的回归直线经过点(5,-1),C正确;由新的回归直线经过点(6,-4),得新的回归直线斜率为=-3,因此相关变量X,Y具有负相关关系,A错误;又|-3|>|-1|,则剔除该异常点后,随X值增加相关变量Y值减小的速度变大,D错误;由剔除的是偏离直线较大的异常点,得剔除该点后,新样本数据的线性相关程度变强,即样本相关系数的绝对值变大,B正确.故选BC.
三、填空题(本题共3小题,每小题5分,共15分.请把正确答案填在题中横线上.)
9.某食品研究部门为了解一种酒品的储藏年份X与芳香度Y之间的相关关系,在市场上收集到了一部分不同年份的该酒品,并测定了其芳香度(如下表).
年份X 0 1 4 5 6 8
芳香度Y 1.3 1.8 5.6 7.4 9.3
由最小二乘法得到线性回归方程Y=1.03X+1.13,但不小心在检测后滴到表格上一滴检测液,污损了一个数据,则推断该数据为________________________________.
解析:由题表数据知,==4,设污损的数据为a,
则==,所以=1.03×4+1.13,解得a=6.1,即污损的数据为6.1.
答案:6.1
10.为预测某种产品的回收率Y,需要研究它和原料有效成分含量X之间的相关关系,现取了8组观察值.计算知i=52,i=228,=478,iyi=1 849,则Y关于X的线性回归方程是___________________________________.(精确到0.01)
解析:由题意知,i=52,i=228,
可得=6.5,=28.5,
可得=≈2.62,
则=-≈28.5-2.62×6.5=11.47,
所以Y关于X的线性回归方程为Y=2.62X+11.47.
答案:Y=2.62X+11.47
11.为了考察某种药物预防疾病的效果,进行动物试验,得到如下列联表(单位:只):
药物 疾病
未患病 患病 总计
服用 a 50-a 50
未服用 80-a a-30 50
总计 80 20 n=100
若在本次考察中认为药物有效,犯错误的可能性至多为1%,则a的最小值为________.(其中a≥40且a∈N+,参考数据及公式:≈2.58, ≈3.29,χ2=,n=a+b+c+d)
解析:由题意可得χ2=≥6.635,
整理得(100a-4 000)2≥502×42×6.635,因为a≥40,所以100a-4 000≥0,所以100a-4 000≥200×≈200×2.58=516,解得a>45.16,又因为a∈N+,所以a≥46,所以a的最小值为46.
答案:46
四、解答题(本题共3小题,共43分.解答应写出必要的文字说明、证明过程或演算步骤.)
12.(本小题满分13分)某机构为了解学生是否喜欢绘画与性别是否有关,调查了400名学生(男女各一半),发现喜欢绘画的人数是300,喜欢绘画的男生比女生少60人.
(1)完成下面的2×2列联表(单位:人);(5分)
性别 喜欢绘画情况
喜欢 不喜欢 总计


总计
(2)试问:学生是否喜欢绘画与性别有关吗?(8分)
附:χ2=,n=a+b+c+d.
解:(1)2×2列联表如下(单位:人):
性别 喜欢绘画情况
喜欢 不喜欢 总计
男 120 80 200
女 180 20 200
总计 300 100 n=400
(2)提出假设H0:学生是否喜欢绘画与性别无关.由(1)中2×2列联表得,
χ2==48,因为48>10.828,
所以我们认为可能性不超过0.1%的小概率事件发生了,所以认为假设H0不成立,即认为学生是否喜欢绘画与性别有关.
13.(本小题满分15分)某制冷技术重点实验室研究了不同果蔬在不同冻结速率下的冰点温度.设冻结速率为X(单位:min),冰点温度为Y(单位:℃),下表为某种水果冰点温度随冻结速率变化的统计数据:
X 10 20 30 40 50
Y -5 -4.5 -2 1 2
根据以上数据,绘制了散点图:
(1)由散点图可以看出,可用直线拟合Y与X的关系,请用样本相关系数r加以说明;(6分)
(2)求Y关于X的线性回归方程,并预测当冻结速率为60 min时,这种水果的冰点温度.(9分)
附:样本(xi,yi)(i=1,2,…,n)的样本相关系数r=,当|r|∈[0.75,1]时,两个变量线性相关程度很强.线性回归方程Y=X+中,=,=-.
参考数据:(xi-)(yi-)=195,(xi-)2=1 000,(yi-)2≈40.
解:(1)r=≈=0.975,
因为0.975∈[0.75,1],故变量X与Y的线性相关程度很强,所以可以用直线拟合Y与X的关系.
(2)由题表可知,
==30,
==-1.7.
因为===0.195,
所以=- =-1.7-0.195×30=-7.55,
故Y关于X的线性回归方程为Y=0.195X-7.55,当X=60时,Y=0.195×60-7.55=4.15(℃),
故当冻结速率为60 min时,预测这种水果的冰点温度为4.15 ℃.
14.(本小题满分15分)某品牌卫生纸生产厂家为保证产品的质量,现从甲、乙两条生产线生产的产品中各随机抽取500件进行品质鉴定,并将统计结果整理如下:
生产线 合格品 优等品
甲 250 250
乙 300 200
(1)试问:产品的品质与生产线有关吗?(5分)
(2)用频率近似概率,从甲、乙两条生产线生产的产品中各随机抽取2件进行详细检测,记抽取的产品中优等品的件数为X,求随机变量X的分布列与均值.(10分)
附:χ2=,其中n=a+b+c+d.
解:(1)提出假设H0:产品的品质与生产线无关.补充列联表如下(单位:件):
生产线 产品品质
合格品 优等品 总计
甲 250 250 500
乙 300 200 500
总计 550 450 n=1 000
根据列联表中的数据,经计算得到χ2=≈10.101,因为10.101>7.879,
所以我们认为可能性不超过0.5%的小概率事件发生了,所以认为假设H0不成立,即认为产品的品质与生产线有关.
(2)由样本数据可知甲、乙两条生产线生产的产品中优等品的频率分别为,.
所以可估计从甲、乙两条生产线生产的产品中各随机抽取1件产品,其为优等品的概率分别为,.
X的所有可能值为0,1,2,3,4,
P(X=0)=()2×()2=,
P(X=1)=C×()2×()2+()2×C××=,
P(X=2)=()2×()2+C×()2×C××+()2×()2=,
P(X=3)=C×()2×()2+()2×C××=,
P(X=4)=()2×()2=.
所以X的分布列为
X 0 1 2 3 4
P
所以EX=0×+1×+2×+3×+4×=.
章末综合检测(六)
(时间:120分钟,满分:150分)
一、单项选择题(本题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的.)
1.设两个变量X和Y之间具有线性关系,它们的相关系数为r,Y关于X的线性回归方程为Y=kX+b,则(  )
A.k与r的符号相反 B.b与r的符号相同
C.k与r的符号相同 D.b与r的符号相反
解析:选C.若k>0,等价于两个变量正相关,等价于r>0;若k<0,等价于两个变量负相关,等价于r<0,所以k与r的符号相同,故A错误,C正确;又因为b与r的符号没有关系,故B,D错误.故选C.
2.某同学在研究变量X,Y之间的相关关系时,得到数据如表所示,并采用最小二乘法得到了线性回归方程Y=X+,则(  )
X 4.8 5.8 7 8.3 9.1
Y 2.8 4.1 7.2 9.1 11.8
A.>0,>0 B.>0,<0
C.<0,<0 D.<0,>0
解析:选D.画出散点图如图,
从而可以看出Y=X+中,>0,<0.故选D.
3.已知X与Y之间的一组数据如表,若Y关于X的线性回归方程为Y=2.1X-1.25,则m的值为(  )
X 1 2 3 4
Y m 3.2 4.8 7.5
A.1 B.0.85
C.0.7 D.0.5
解析:选D.=(1+2+3+4)=2.5,=(m+3.2+4.8+7.5)=(m+15.5),因为Y关于X的线性回归方程为Y=2.1X-1.25,所以(m+15.5)=2.1×2.5-1.25,解得m=0.5.故选D.
4.手机给人们的生活带来便捷,但同时也对中学生的生活和学习造成了一定的影响.某校几个学生成立研究性学习小组,就使用手机对学习成绩的影响随机抽取了该校100名学生的期末考试成绩并制成列联表(单位:人),则下列说法正确的是(  )
手机使用情况 成绩
优秀 不优秀 总计
不用手机 40 10 50
使用手机 5 45 50
总计 45 55 n=100
A.使用手机的学生学习成绩优秀的概率为
B.不用手机的学生学习成绩优秀的概率为
C.认为使用手机对学习成绩有影响犯错误的可能性为0.1%
D.认为使用手机对学习成绩无影响犯错误的可能性为0.1%
解析:选C.由题表中的数据,得使用手机的学生学习成绩优秀的概率为=,不用手机的学生学习成绩优秀的概率为=,计算χ2=≈49.495,因为49.495>10.828,所以认为使用手机对学习成绩有影响犯错误的可能性为0.1%,C正确,A,B,D错误.故选C.
5.如果在一次实验中,测得(X,Y)的五组数值如表所示,经计算知,Y关于X的线性回归方程是Y=6.5X+,当X=6时,预测Y=(  )
X 0 1 2 3 4
Y 10 15 20 30 35
A.47.5 B.48
C.49 D.49.5
解析:选B.由题表可得=(0+1+2+3+4)=2,=(10+15+20+30+35)=22,又=6.5x+,故22=6.5×2+,解得=9.故Y=6.5X+9,代入X=6可得Y=6.5×6+9=48.故选B.
6.已知由表中数据得到的线性回归方程为Y=5.3X-,且由此得到当X=7时,预测Y是28.9,则实数m的值为(  )
X 2 3 4 5 6
Y 3 7 12 m 23
A.18 B.20
C.21 D.22
解析:选B.由题意知,==4,==+9,
则解得故选B.
7.某校对“喜欢吃水果和学生性别是否有关”进行了一次调查,其中被调查的女生人数是男生人数的,男生喜欢吃水果的人数占被调查的男生人数的,女生喜欢吃水果的人数占被调查的女生人数的,若得出喜欢吃水果和学生性别有关这个结论犯错误的可能性至多为1%,则被调查的男生至少有(  )
A.12人 B.18人
C.24人 D.30人
解析:选B.设被调查的男生人数为x,被调查的女生人数为,x,∈N+,则得到2×2列联表如下(单位:人):
学生性别 喜欢吃水果情况
喜欢 不喜欢 总计
男 x

总计 x n=
则χ2==≥6.635,解得x>17.69,又因为男、女生人数为整数,所以被调查的男生至少有18人.故选B.
8.某学校校医研究温差x(单位:℃)与本校当天新增感冒人数y(单位:人)的关系,该医生记录了5天的数据,且样本点的中心为(8,25).由于保管不善,记录的5天数据中有两个数据看不清楚,现用m,n代替,已知18≤m≤24,26≤n≤34,m,n∈N+,则下列结论正确的是(  )
x 5 6 8 9 12
y 17 m 25 n 35
A.在m,n确定的条件下,去掉样本点的中心(8,25),则样本相关系数r增大
B.在m,n确定的条件下,经过拟合,发现基本符合线性回归方程Y=2.6X+,则=4
C.在m,n确定的条件下,经过拟合,发现基本符合线性回归方程Y=2.6X+,则当X=12时,偏差为0.4
D.事件“m=20,n=28”发生的概率为
解析:选D.对于A,因为回归直线过样本点的中心(8,25),所以在m,n确定的条件下去掉样本点的中心(8,25),则样本相关系数r不变,所以A错误;对于B,由样本点的中心为(8,25),可得25=2.6×8+,解得=4.2,所以B错误;对于C,由Y=2.6X+4.2,当X=12时,可得Y=35.4,则35-35.4=-0.4,所以C错误;对于D,由17+m+25+n+35=5×25,可得m+n=48,则m可取18,19,20,21,22,n可取26,27,28,29,30,则(m,n)的取值为(18,30),(19,29),(20,28),(21,27),(22,26),所以事件“m=20,n=28”发生的概率为,所以D正确.故选D.
二、多项选择题(本题共3小题,每小题6分,共18分.在每小题给出的选项中,有多项符合题目要求.全部选对的得6分,部分选对的得部分分,有选错的得0分.)
9.已知变量X,Y之间的线性回归方程为Y=-0.7X+10.3,且变量X,Y之间的一组相关数据如表所示,则下列说法中正确的是(  )
X 6 8 10 12
Y 6 m 3 2
A.变量X,Y之间负相关
B.m=4
C.可以预测,当X=11时,Y为2.6
D.由表格数据知,该回归直线必过点(9,4)
解析:选ACD.由Y=-0.7X+10.3得=-0.7<0,所以X,Y负相关,故A正确;当X=11时,预测Y为2.6,故C正确;==9,故=-0.7×9+10.3=4.故回归直线必过点(9,4),故D正确;因为y=4,所以=4,m=5,故B错误.故选ACD.
10.在一次恶劣天气的飞行航程中,调查男、女乘客在飞机上晕机的情况,得到部分数据如列联表所示(单位:人),则(  )
性别 晕机情况
晕机者 未晕机者 总计
男 a 15 c
女 6 b d
总计 e 28 n=46
A.<
B.χ2<2.706
C.可以认为在恶劣天气的飞行航程中,是否晕机与性别有关
D.可以认为在恶劣天气的飞行航程中,是否晕机与性别无关
解析:选BD.由题中列联表数据,知解得所以得到如下列联表(单位:人):
性别 晕机情况
晕机者 未晕机者 总计
男 12 15 27
女 6 13 19
总计 18 28 n=46
所以==>=,故A错误;由列联表中的数据,得χ2=≈0.775,因为0.775<2.706,所以可以认为在恶劣天气的飞行航程中,是否晕机与性别无关,故B,D正确,C错误.故选BD.
11.已知某产品的销售额Y(单位:万元)与广告费用X(单位:万元)之间的关系如表,若根据表中的数据用最小二乘法求得Y关于X的线性回归方程为Y=6.5X+9,则下列说法中正确的是(  )
X 0 1 2 3 4
Y 10 15 m 30 35
A.产品的销售额与广告费用正相关
B.该回归直线过点(2,22)
C.当广告费用为10万元时,销售额一定为74万元
D.m的值是20
解析:选ABD.因为线性回归方程中X的系数为6.5>0,因此,该产品的销售额与广告费用正相关,A正确;又=2,则=6.5×2+9=22,回归直线一定过点(2,22),B正确;当X=10时,Y=6.5×10+9=74,说明当广告费用为10万元时,销售额估计为74万元,不是一定为74万元,C错误;由=22,得m=20,D正确.故选ABD.
三、填空题(本题共3小题,每小题5分,共15分.请把正确答案填在题中横线上.)
12.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业某月的产品销量X(单位:千箱)与单位成本Y(单位:元)的资料进行线性回归分析,结果如下:=,=71,=79,iyi=1 481.则销量每增加1千箱,单位成本下降____________________________元.
(结果保留5位有效数字)附:=,=-.
解析:由题意知===-,=y-x=71+×=,所以线性回归方程为Y=-X+,所以销量每增加1千箱,单位成本下降≈1.818 2元.
答案:1.818 2
13.某中学统计了一个班40名学生的英语成绩与语文成绩,并制成了一个不完整的2×2列联表(单位:名):
语文成绩 英语成绩
及格 不及格 总计
及格 20
不及格 11
总计 25 n=40
则认为该班学生的英语成绩与语文成绩________(填“有”或“无”)关.
解析:由题意可得2×2列联表如下(单位:名):
语文成绩 英语成绩
及格 不及格 总计
及格 20 4 24
不及格 5 11 16
总计 25 15 n=40
则χ2=≈11.111.因为11.111>10.828,因此我们认为可能性不超过0.1%的小概率事件发生了,即认为该班学生的英语成绩与语文成绩有关.
答案:有
14.已知由一组样本数据确定的线性回归方程为Y=1.5X+1,且x=2,发现有两组数据(2.2,2.9)与(1.8,5.1)误差较大,去掉这两组数据后,重新求得回归直线的斜率为1,那么新的线性回归方程为________.
解析:因为x=2,所以y=1.5×2+1=4,由题意知,去掉两组数据(2.2,2.9)和(1.8,5.1)后,新的回归直线仍过(2,4),设重新求得的线性回归方程为Y=X+b,将(2,4)代入,解得b=2,即Y=X+2.
答案:Y=X+2
四、解答题(本题共5小题,共77分.解答应写出必要的文字说明、证明过程或演算步骤.)
15.(本小题满分13分)某市104路公交车上午7:05—8:55时段在起点站每9分钟发一班次.公交公司为了了解早高峰时段各班次上车乘客情况,某日上午7:14—8:35记录了在起点站各班次车辆上车乘客的人数:
发车 时刻 7:14 7:23 7:32 7:41 7:50 7:59 8:08 8:17 8:26 8:35
上车乘 客数/人 10 13 13 18 17 15 12 9 3 3
请绘制这组成对数据的散点图,并通过观察散点图大致判断客车发车时刻与上车乘客人数之间的相关性.
解:绘制散点图如图所示,
观察散点图可知,7:41之前客车发车时刻与上车乘客人数之间正相关,7:41之后客车发车时刻与上车乘客人数之间负相关.
16.(本小题满分15分)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
养殖法 箱产量
<50kg ≥50kg 总计


总计
(1)根据频率分布直方图,填写2×2列联表(单位:箱);(7分)
(2)试问:箱产量与养殖方法是否有关?(8分)
解:(1)由题中频率分布直方图知,旧养殖法箱产量低于50 kg的箱数为5×(0.012+0.014+0.024+0.034+0.040)×100=62;不低于50 kg的箱数为100-62=38;新养殖法箱产量低于50 kg的箱数为5×(0.004+0.020+0.044)×100=34;不低于50 kg的箱数为100-34=66.由此可得2×2列联表如下(单位:箱):
养殖法 箱产量
<50kg ≥50kg 总计
旧 62 38 100
新 34 66 100
总计 96 104 n=200
(2)提出假设H0:箱产量与养殖方法无关.结合(1)中列联表得χ2=≈15.705,因为15.705>10.828,所以我们认为可能性不超过0.1%的小概率事件发生了,所以认为假设H0不成立,即认为箱产量与养殖方法有关.
17.(本小题满分15分)为了解某一地区电动汽车的销售情况,一机构根据统计数据,得到数据如表所示.
月份 6月 7月 8月 9月 10月
月份代码X 1 2 3 4 5
产值Y/亿元 16 20 23 31 40
(1)求电动汽车产值Y关于月份代码X的线性回归方程Y=X+;(5分)
(2)该机构随机调查了该地区100位购车车主的性别与购车种类,其中购买非电动汽车的男性45人,女性35人;购买电动汽车的男性5人,女性15人.请问是否购买电动汽车与性别有关吗?(10分)
参考数据及公式:①(xi-)(yi-)=59;②=,=-;③χ2=,其中n=a+b+c+d.
解:(1)由题知==3,==26,====5.9,=-=26-5.9×3=8.3,故所求线性回归方程为Y=5.9X+8.3.
(2)提出假设H0:是否购买电动汽车与性别无关.根据题意,得2×2列联表如下(单位:人):
性别 购买种类
非电动汽车 电动汽车 总计
男 45 5 50
女 35 15 50
总计 80 20 n=100
χ2==6.25,因为6.25>5.024,所以我们认为可能性不超过2.5%的小概率事件发生了,所以认为假设H0不成立,即认为是否购买电动汽车与性别有关.
18.(本小题满分17分)为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查得到了如下的2×2列联表(单位:人):
性别 喜爱打篮球情况
喜爱 不喜爱 总计
男 6
女 10
总计 n=48
已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为.
(1)请将上面的2×2列联表补充完整(不用写计算过程);(3分)
(2)试问:该班学生喜爱打篮球与性别有关吗?(6分)
(3)现从女生中随机抽取2人进一步调查,设其中喜爱打篮球的女生人数为X,求X的分布列与均值.(8分)
附:χ2=,其中n=a+b+c+d.
解:(1)依题意,喜爱打篮球的学生人数为48×=32,
完善2×2列联表如下(单位:人):
性别 喜爱打篮球情况
喜爱 不喜爱 总计
男 22 6 28
女 10 10 20
总计 32 16 n=48
(2)提出假设H0:该班学生喜爱打篮球与性别无关.由(1)得χ2=≈4.286,因为4.286>3.841,所以我们认为可能性不超过5%的小概率事件发生了,所以假设H0不成立,即认为该班学生喜爱打篮球与性别有关.
(3)由题知X的所有可能取值为0,1,2,
则P(X=0)==,P(X=1)==,P(X=2)==,
所以X的分布列为
X 0 1 2
P
EX=0×+1×+2×=1.
19.(本小题满分17分)某市场监管部门对某线下实体店2025年的前两个季度的月利润情况进行调查统计,得到的数据如下:
月份X 1 2 3 4 5 6
净利润Y/万元 1.0 1.4 1.7 2.0 2.2 2.4
(1)是否可以用线性回归模型拟合Y与X的关系?请用样本相关系数r加以说明;(参考:若|r|≥0.75时,则线性相关程度较强,若0.3<|r|<0.75时,则线性相关程度一般,计算r时精确度为0.01)(8分)
(2)利用最小二乘法求出Y关于X的线性回归方程,并利用样本估计总体,预测9月份的净利润.(9分)
附:对于一组数据(ui,vi)(i=1,2,3,…,n),其线性回归方程v=+u的系数
=,=-.样本相关系数r=.参考数据:≈1.78,62≈19.01,iyi=42.3,=20.45,≈5.02,≈0.28.
解:(1)由条件得==3.5,
62=73.5,6≈6×3.5×1.78=37.38,=12+22+32+42+52+62=91.则r=≈

≈≈0.98>0.75,因此X与Y线性相关程度较强,可以用线性回归模型拟合X与Y的关系.
(2)根据(1)得变量X,Y线性相关,设所求的线性回归方程为Y=+X.由题得
=≈==≈0.28,又因为=-≈1.78-0.28×3.5=0.8,从而可得变量X,Y线性回归方程为Y=0.8+0.28X.当X=9时,Y=0.8+0.28×9=3.32,因此预测9月份的净利润为3.32万元.
21世纪教育网(www.21cnjy.com)

展开更多......

收起↑

资源预览