2023届高考数学一轮复习(全国版)——第71课统计案例学案

资源下载
  1. 二一教育资源

2023届高考数学一轮复习(全国版)——第71课统计案例学案

资源简介

第71课 统计案例
一、目标导引:
1.网购已成为当今消费者喜欢的购物方式.某机构对A、B、C、D四家同类运动服装网店的关注人数(千人)与其商品销售件数(百件)进行统计对比,得到如下表格:
网店名称 A B C D
3 4 6 7
11 12 20 17
由散点图知,可以用回归直线来近似刻画它们之间的关系.
(1)求与的回归直线方程;
(2)在(1)的回归模型中,请用说明销售件数的差异有多大程度是由关注人数引起的?(精确到0.01)
参考公式:,.
二、知识梳理:
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归方程为,
其中.
(3)通过求残差平方和的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.
(4)相关系数:
当时,表明两个变量正相关;
当时,表明两个变量负相关.
的绝对值越接近于,表明两个变量的线性相关性越强.的绝对值越接近于时,表明两个变量之间几乎不存在线性相关关系.通常大于时,认为两个变量有很强的线性相关性.
(5)相关指数:
相关指数:.其中是残差平方和,其值越小,则越大(越接近1),模型拟合效果越好.
3.利用独立性检验解决问题的三步骤
(1)根据样本数据制成列联表.
假设有两个分类变量和,它们的取值分别为{,}和{,},其样本频数列联表(称为列联表)为:
总计
总计
(2)根据公式:
(其中为样本容量) ,计算的值.
(3)查表比较与临界值的大小关系,作统计判断.
三、综合运用
问题1(线性回归方程及应用)
例题1.下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1~7分别对应年份2008~2014.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
参考数据:,,,≈2.646.
参考公式:相关系数 回归方程 中斜率和截距的最小二乘估计公式分别为:.
【提炼】 1.在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,也可计算相关系数r进行判断.若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.
2.(1)正确运用计算b,a的公式和准确的计算,是求线性回归方程的关键.(2)回归直线y=bx+a必过样本点的中心(,).
问题2(非线性回归及其应用)
例题2:某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费(单位:千元)对年销售量(单位:)和年利润(单位:千元)的影响,对近8年的宣传费和年销售量数据作了初步处理,得到下面的散点图及一些统计量的值.
46.6 56.3 6.8 289.8 1.6 1469 108.8
表中= ,
(1)根据散点图判断,与,哪一个适宜作为年销售量关于年宣传费的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中数据,建立关于的回归方程;
(3)已知这种产品的年利润与,的关系为 ,根据(2)的结果回答下列问题:
(i)当年宣传费时,年销售量及年利润的预报值时多少?
(ii)当年宣传费为何值时,年利润的预报值最大?
附:对于一组数据,,……,,其回归线的斜率和截距的最小二乘估计分别为:

问题3(独立性检验)
例题3.某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).
(1)应收集多少位女生的样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2),[2,4),[4,6),[6,8),[8,10),[10,12).估计该校学生每周平均体育运动时间超过4小时的概率;
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
0.10 0.05 0.010 0.005
2.706 3.841 6.635 7.879
附:.
【提炼】 1.在2×2列联表中,如果两个变量没有关系,则应满足. 越小,说明两个变量之间关系越弱;越大,说明两个变量之间关系越强.
2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表;
(2)根据公式,计算的值;
(3)比较与临界值的大小关系,作统计推断.
问题4(综合应用)
例题4:2017年4月1日,新华通讯社发布:国务院决定设立河北雄安新区.消息一出,河北省雄县、容城、安新3县及周边部分区域迅速成为海内外高度关注的焦点.
(1)为了响应国家号召,北京市某高校立即在所属的8个学院的教职员工中作了“是否愿意将学校整体搬迁至雄安新区”的问卷调查,8个学院的调查人数及统计数据如下:
调查人数() 10 20 30 40 50 60 70 80
愿意整体搬迁人数() 8 17 25 31 39 47 55 66
请根据上表提供的数据,用最小二乘法求出变量关于变量的线性回归方程(保留小数点后两位有效数字);若该校共有教职员工2500人,请预测该校愿意将学校整体搬迁至雄安新区的人数;
参考公式及数据: .
四、总结提升
1.回归直线一定经过样本的中心点.
2.解答非线性拟合问题,先作出散点图,再根据散点图选择合适的函数类型,设出回归方程,利用换元法将非线性回归方程化为线性回归方程,求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,即可求出非线性回归方程,再利用回归方程进行预报预测.
3.解决独立性检验问题的三步骤
(1)根据样本数据制成列联表.
(2)根据公式,计算的值.
(3)查表比较与临界值的大小关系,作统计判断.
五、即时检测
1.为了均衡教育资源,加大对偏远地区的教育投入,调查了某地若干户家庭的年收入(单位:万元)和年教育支出(单位:万元),调查显示年收入与年教育支出具有线性相关关系,并由调查数据得到对的回归直线方程:.由回归直线方程可知,家庭年收入每增加1万元,年教育支出平均增加________万元.
2.为了判定两个分类变量和是否有关系,应用独立性检验法算得的观测值为5,又已知,,则下列说法正确的是(  )
A.有的把握认为“和有关系”
B.有的把握认为“和没有关系”
C.有的把握认为“和有关系”
D.有的把握认为“和没有关系”
第71课 统计案例
一、目标导引:
1.网购已成为当今消费者喜欢的购物方式.某机构对A、B、C、D四家同类运动服装网店的关注人数(千人)与其商品销售件数(百件)进行统计对比,得到如下表格:
网店名称 A B C D
3 4 6 7
11 12 20 17
由散点图知,可以用回归直线来近似刻画它们之间的关系.
(1)求与的回归直线方程;
(2)在(1)的回归模型中,请用说明销售件数的差异有多大程度是由关注人数引起的?(精确到0.01)
参考公式:,.
1.解析:(1)∵,,,,
∴,,
∴所求的回归直线方程是.
(2)∵,,
∴.
说明销售件数的差异有是由关注人数引起的.
二、知识梳理:
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归方程为,
其中.
(3)通过求残差平方和的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.
(4)相关系数:
当时,表明两个变量正相关;
当时,表明两个变量负相关.
的绝对值越接近于,表明两个变量的线性相关性越强.的绝对值越接近于时,表明两个变量之间几乎不存在线性相关关系.通常大于时,认为两个变量有很强的线性相关性.
(6)相关指数:
相关指数:.其中是残差平方和,其值越小,则越大(越接近1),模型拟合效果越好.
3.利用独立性检验解决问题的三步骤
(1)根据样本数据制成列联表.
假设有两个分类变量和,它们的取值分别为{,}和{,},其样本频数列联表(称为列联表)为:
总计
总计
(2)根据公式:
(其中为样本容量) ,计算的值.
(3)查表比较与临界值的大小关系,作统计判断.
三、综合运用
问题1(线性回归方程及应用)
例题1.下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1~7分别对应年份2008~2014.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
参考数据:,,,≈2.646.
参考公式:相关系数
回归方程 中斜率和截距的最小二乘估计公式分别为:

解:(1)由折线图中数据和附注中参考数据得,,
,,
.
因为与的相关系数近似为0.99,说明与的线性相关程度相当高,从而可以用线性回归模型拟合与的关系.
(2)由及(1)得,
.
所以,关于的回归方程为:.
将2016年对应的代入回归方程得:.
所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.
【提炼】 1.在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,也可计算相关系数r进行判断.若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.
2.(1)正确运用计算b,a的公式和准确的计算,是求线性回归方程的关键.(2)回归直线y=bx+a必过样本点的中心(,).
问题2(非线性回归及其应用)
例题2:某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费(单位:千元)对年销售量(单位:)和年利润(单位:千元)的影响,对近8年的宣传费和年销售量数据作了初步处理,得到下面的散点图及一些统计量的值.
[:]
46.6 56.3 6.8 289.8 1.6 1469 108.8
表中= ,
(1)根据散点图判断,与,哪一个适宜作为年销售量关于年宣传费的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中数据,建立关于的回归方程;
(3)已知这种产品的年利润与,的关系为 ,根据(2)的结果回答下列问题:
(i)当年宣传费时,年销售量及年利润的预报值时多少?
(ii)当年宣传费为何值时,年利润的预报值最大?
附:对于一组数据,,……,,其回归线的斜率和截距的最小二乘估计分别为:

解析:(1)由散点图可以判断,适宜作为年销售量关于年宣传费的回归方程类型.
(2)令,先建立起关于的线性回归方程
由于,,
所以关于的线性回归方程为,
因此关于的回归方程为.
(3)(ⅰ)由(2)知,当时,年销售量的预报值,
(ⅱ)根据(2)的结果知,年利润的预报值

∴当,即时,取得最大值.
故宣传费用为千元时,年利润的预报值最大.
问题3(独立性检验)
例题3.某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).
(1)应收集多少位女生的样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2),[2,4),[4,6),[6,8),[8,10),[10,12).估计该校学生每周平均体育运动时间超过4小时的概率;
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
0.10 0.05 0.010 0.005
2.706 3.841 6.635 7.879
附:.
解答:(1)利用分层抽样,,所以应收集90位女生的样本数据.
(2)由频率分布直方图得1-2×(0.025+0.100)=0.75.所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.
(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.
又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:
每周平均体育运动时间与性别列联表
男生 女生 总计
每周平均体育运动时间不超过4小时 45 30 75
每周平均体育运动时间超过4小时 165 60 225
总计 210 90 300
将2×2列联表中的数据代入公式计算,得χ2的值

所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
【提炼】 1.在2×2列联表中,如果两个变量没有关系,则应满足. 越小,说明两个变量之间关系越弱;越大,说明两个变量之间关系越强.
2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表;
(2)根据公式,计算的值;
(3)比较与临界值的大小关系,作统计推断.
问题4(综合应用)
例题4:2017年4月1日,新华通讯社发布:国务院决定设立河北雄安新区.消息一出,河北省雄县、容城、安新3县及周边部分区域迅速成为海内外高度关注的焦点.
(1)为了响应国家号召,北京市某高校立即在所属的8个学院的教职员工中作了“是否愿意将学校整体搬迁至雄安新区”的问卷调查,8个学院的调查人数及统计数据如下:
调查人数() 10 20 30 40 50 60 70 80
愿意整体搬迁人数() 8 17 25 31 39 47 55 66
请根据上表提供的数据,用最小二乘法求出变量关于变量的线性回归方程(保留小数点后两位有效数字);若该校共有教职员工2500人,请预测该校愿意将学校整体搬迁至雄安新区的人数;
参考公式及数据: .
解答:由已知有,,,
,故变量关于变量的线性回归方程为,所以当时,.
四、总结提升
1.回归直线一定经过样本的中心点.
2.解答非线性拟合问题,先作出散点图,再根据散点图选择合适的函数类型,设出回归方程,利用换元法将非线性回归方程化为线性回归方程,求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,即可求出非线性回归方程,再利用回归方程进行预报预测.
3.解决独立性检验问题的三步骤
(1)根据样本数据制成列联表.
(2)根据公式,计算的值.
(3)查表比较与临界值的大小关系,作统计判断.
五、即时检测
1.为了均衡教育资源,加大对偏远地区的教育投入,调查了某地若干户家庭的年收入(单位:万元)和年教育支出(单位:万元),调查显示年收入与年教育支出具有线性相关关系,并由调查数据得到对的回归直线方程:.由回归直线方程可知,家庭年收入每增加1万元,年教育支出平均增加________万元.
1.解析:由题意知,.
2.为了判定两个分类变量和是否有关系,应用独立性检验法算得的观测值为5,又已知,,则下列说法正确的是(  )
A.有的把握认为“和有关系”
B.有的把握认为“和没有关系”
C.有的把握认为“和有关系”
D.有的把握认为“和没有关系”
2.解析:选 依题意,,且,因此有的把握认为“和有关系”,选A.

展开更多......

收起↑

资源预览