【备战高考】数学核心考点与题型分类梳理 第十章 第3节 变量间的相关关系与统计案例(pdf版)

资源下载
  1. 二一教育资源

【备战高考】数学核心考点与题型分类梳理 第十章 第3节 变量间的相关关系与统计案例(pdf版)

资源简介

第三节 变量间的相关关系与统计案例
一、基础知识
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关
系不同,相关关系是一种非确定性关系. 体现的不一定是因果关系.
(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称
为正相关;点散布在左上角到右下角的区域内,两个变量的这种相关关系为负相关.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,
称两个变量之间具有线性相关关系,这条直线叫做回归直线.
^ ^ ^
(2)回归方程为y=bx+a,其中
n
(3)通过求Q= (yi-bx
2
i-a) 的最小值而得到回归直线的方法,即使得样本数据的点到
i=1
回归直线的距离的平方和最小,这一方法叫做最小二乘法.
(4)相关系数:
当 r>0 时,表明两个变量正相关;
当 r<0 时,表明两个变量负相关.
r 的绝对值越接近于 1,表明两个变量的线性相关性越强.r 的绝对值越接近于 0,表明
两个变量之间几乎不存在线性相关关系.通常|r|大于 0.75 时,认为两个变量有很强的线性相
关性.
3.独立性检验
(1)2×2 列联表
设 X,Y 为两个变量,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2
列联表)如下:
y1 y2 总计
x1 a b a+b
x2 c d c+d
总计 a+c b+d a+b+c+d
(2)独立性检验
第 807页/共1004页
n(ad-bc)2
利用随机变量 K2(也可表示为 χ2)的观测值 k= (其中 n=a+b+c
(a+b)(c+d)(a+c)(b+d)
+d 为样本容量)来判断“两个变量有关系”的方法称为独立性检验.
二、常用结论
^ ^
(1)求解回归方程的关键是确定回归系数a,b,应充分利用回归直线过样本中心点 ( x ,
y ).
(2)根据 K2 的值可以判断两个分类变量有关的可信程度,若 K2 越大,则两分类变量有关
的把握越大.
^
(3)根据回归方程计算的y值,仅是一个预报值,不是真实发生的值.
考点一 回归分析
考法(一) 求线性回归方程
[典例] (2019·湘东五校联考)已知具有相关关系的两个变量 x,y 的几组数据如下表所
示:
x 2 4 6 8 10
y 3 6 7 10 12
(1)请根据上表数据在网格纸中绘制散点图;
^ ^ ^
(2)请根据上表数据,用最小二乘法求出 y 关于 x 的线性回归方程y=bx+a,并估计当 x
=20 时 y 的值.
n
xiyi-n x y
i=1
^ ^ ^
参考公式:b= ,a= y -b x .
n
x2i-n x 2
i=1
[解] (1)散点图如图所示:
第 808页/共1004页
1
(2)依题意, x = ×(2+4+6+8+10)=6,
5
1
y = ×(3+6+7+10+12)=7.6,
5
5 5
x2i=4+16+36+64+100=220, xiyi=6+24+42+80+120=272,
i=1 i=1
5
xiyi-5 x y
i=1
^ 272-5×6×7.6 44
∴b= = = =1.1,
5 220-5×62 40
x2 2i-5 x
i=1
^
∴a=7.6-1.1×6=1,
^
∴线性回归方程为y=1.1x+1,故当 x=20 时,y=23.
考法(二) 相关系数及应用
[典例] 如图是我国 2012 年至 2018 年生活垃圾无害化处理量(单位:亿吨)的折线图.
由折线图看出,可用线性回归模型拟合 y 与 t 的关系,请用相关系数加以说明.
7 7 7
参考数据: yi=9.32, tiyi=40.17, (y 2i- y ) =0.55, 7≈2.646.
i=1 i=1 i=1
第 809页/共1004页
n
(ti- t )(yi- y )
i=1
参考公式:相关系数 r= .
n n
(ti- t )2 (yi- y )2
i=1 i=1
[解] 由折线图中数据和参考数据及公式得 t =4,
7 7
(ti- t )2=28, (y 2i- y ) =0.55,
i=1 i=1
7 7 7 2.89
(ti- t )(yi- y )= tiyi- t yi=40.17-4×9.32=2.89,r≈ ≈0.99.
0.55×2×2.646
i=1 i=1 i=1
因为 y 与 t 的相关系数近似为 0.99,说明 y 与 t 的线性相关程度相当高,从而可以用线
性回归模型拟合 y 与 t 的关系.
[解题技法]
1.线性回归分析问题的类型及解题方法
(1)求线性回归方程:
^ ^
①利用公式,求出回归系数b,a.
②待定系数法:利用回归直线过样本点中心求系数.
(2)利用回归方程进行预测:
把回归直线方程看作一次函数,求函数值.
^
(3)利用回归直线判断正、负相关:决定正相关还是负相关的是系数b.
2.模型拟合效果的判断
(1)残差平方和越小,模型的拟合效果越好.
(2)相关指数 R2 越大,模型的拟合效果越好.
(3)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于 1 时,两变量的线性相
关性越强.
[题组训练]
1.(2019·惠州调研)某商场为了了解毛衣的月销售量 y(件)与月平均气温 x(℃)之间的关
系,随机统计了某 4 个月的月销售量与当月平均气温,其数据如下表:
月平均气温 x/℃ 17 13 8 2
月销售量 y/件 24 33 40 55
^ ^ ^ ^
由表中数据算出线性回归方程y=bx+a中的b=-2,气象部门预测下个月的平均气温约
为 6 ℃,据此估计该商场下个月毛衣销售量约为( )
第 810页/共1004页
A.46 件 B.40 件
C.38 件 D.58 件
^ ^ ^ ^
解析:选 A 由题中数据,得 x =10, y =38,回归直线y=bx+a过点( x , y ),且b
^ ^
=-2,代入得a=58,则回归方程y=-2x+58,所以当 x=6 时,y=46,故选 A.
2.近期,某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间
的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交
车队统计了活动刚推出一周内每天使用扫码支付的人次,用 x 表示活动推出的天数,y 表示
每天使用扫码支付的人次,统计数据如下表:
x 1 2 3 4 5 6 7
y 60 110 210 340 660 1 010 1 960
根据以上数据,绘制了散点图.
参考数据:
7 7
y v x y x v 0.54i i i i 10
i=1 i=1
621 2.54 25 350 78.12 3.47
1 7
其中 vi=lg yi, v = vi. 7
i=1
(1)根据散点图判断,在推广期内,y=a+bx 与 y=c·dx(c,d 均为大于零的常数)哪一个
适宜作为扫码支付的人次 y 关于活动推出天数 x 的回归方程类型(给出判断即可,不必说明
理由)
(2)根据(1)的判断结果及上表中数据,建立 y 关于 x 的回归方程,并预测活动推出第 8
天使用扫码支付的人次.
参考公式:
^ ^ ^
对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βμ 的斜率和截距的
第 811页/共1004页
n
uivi-n u v
i=1
^ ^
最小二乘估计公式分别为 β= ,α= v -β U .
n
u2i-n u 2
i=1
解:(1)根据散点图可以判断,y=c·dx 适宜作为扫码支付的人次 y 关于活动推出天数 x
的回归方程类型.
(2)y=c·dx两边同时取常用对数,得 lg y=lg(c·dx)=lg c+xlg d,
设 lg y=v,则 v=lg c+xlg d.
7
∵ x =4, v =2.54, x2i=140,
i=1
7
xivi-7 x v
i=1 78.12-7×4×2.54
∴lg d= ≈ 2 =0.25,
7 140-7×4
x2i-7 x 2
i=1
把(4,2.54)代入 v=lg c+xlg d,得 lg c=1.54,
^ ^ +
∴v=1.54+0.25x,∴y=101.54 0.25x=101.54·(100.25)x.
^ + ×
把 x=8 代入上式,得y=101.54 0.25 8=103.54=103×100.54=3 470,
^
∴y关于 x的回归方程为y=101.54·(100.25)x,活动推出第 8天使用扫码支付的人次为 3 470.
考点二 独立性检验
[典例] (2018·全国卷Ⅲ节选)某工厂为提高生产效率,开展技术创新活动,提出了完
成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取 40 名工人,将他
们随机分成两组,每组 20 人.第一组工人用第一种生产方式,第二组工人用第二种生产方
式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)求 40 名工人完成生产任务所需时间的中位数 m,并将完成生产任务所需时间超过 m
和不超过 m 的工人数填入下面的列联表:
超过 m 不超过 m
第 812页/共1004页
第一种生产方式
第二种生产方式
(2)根据(1)中的列联表,能否有 99%的把握认为两种生产方式的效率有差异?
n(ad-bc)2
附:K2= ,
(a+b)(c+d)(a+c)(b+d)
79+81
[解] (1)由茎叶图知 m= =80.
2
列联表如下:
超过 m 不超过 m
第一种生产方式 15 5
第二种生产方式 5 15
40(15×15-5×5)2
(2)因为 K2= =10>6.635,所以有 99%的把握认为两种生产方式的效
20×20×20×20
率有差异.
[解题技法]
(1)明确两类主体;
2 个明确
(2)明确研究的两个问题
(1)准确画出 2×2 列联表;
2 个关键
(2)准确求解 K2
(1)根据样本数据制成 2×2 列联表;
n(ad-bc)2
3 个步骤 (2)根据公式 K2= ,计算 K2 的值;
(a+b)(c+d)(a+c)(b+d)
(3)查表比较 K2 与临界值的大小关系,作统计判断
[题组训练]
1.(2019·沧州模拟)某班主任对全班 50 名学生进行了作业量的调查,数据如表:
认为作业量大 认为作业量不大 总计
男生 18 9 27
女生 8 15 23
总计 26 24 50
第 813页/共1004页
已知 P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025,P(K2≥6.635)≈0.010.
则________(填“有”或“没有”)97.5%的把握认为“学生的性别与认为作业量大
有关”.
50×(18×15-8×9)2
解析:因为 K2= ≈5.059>5.024,
26×24×27×23
所以有 97.5%的把握认为“学生的性别与认为作业量大有关”.
答案:有
2.为考察某种疫苗预防疾病的效果,进行动物试验,得到统计数据如下:
未发病 发病 总计
未注射疫苗 20 x A
注射疫苗 30 y B
总计 50 50 100
2
现从所有试验动物中任取一只,取到“注射疫苗”动物的概率为 .
5
(1)求 2×2 列联表中的数据 x,y,A,B 的值.
(2)绘制发病率的条形统计图,并判断疫苗是否影响到了发病率?
(3)能否在犯错误的概率不超过 0.001 的前提下认为疫苗有效?
n(ad-bc)2
附:K2= ,n=a+b+c+d.
(a+b)(c+d)(a+c)(b+d)
临界值表:
P(K2≥k0) 0.05 0.01 0.005 0.001
k0 3.841 6.635 7.879 10.828
解:(1)设“从所有试验动物中任取一只,取到‘注射疫苗’动物”为事件 M,
y+30 2
由已知得 P(M)= = ,
100 5
所以 y=10,则 B=40,x=40,A=60.
40 2
(2)未注射疫苗发病率为 = ≈0.67,
60 3
第 814页/共1004页
10 1
注射疫苗发病率为 = =0.25.
40 4
发病率的条形统计图如图所示,由图可以看出疫苗影响到了发病率.
100×(20×10-40×30)2
(3)因为 K2= ≈16.67>10.828.
60×40×50×50
所以能在犯错误的概率不超过 0.001 的前提下认为疫苗有效.
[课时跟踪检测]
A 级
1.对变量 x,y 有观测数据(xi,yi)(i=1,2,…,10),得散点图如图①,对变量 u,v有
观测数据(ui,vi)(i=1,2,…,10),得散点图如图②.由这两个散点图可以判断( )
A.变量 x 与 y 正相关,u 与 v正相关
B.变量 x 与 y 正相关,u 与 v负相关
C.变量 x 与 y 负相关,u 与 v正相关
D.变量 x 与 y 负相关,u 与 v负相关
解析:选 C 由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图
②的线性回归方程斜率为正,则由散点图可判断变量 x 与 y 负相关,u 与 v正相关.
2.(2019·长沙模拟)为了解某社区居民购买水果和牛奶的年支出费用与购买食品的年支
出费用的关系,随机调查了该社区 5 户家庭,得到如下统计表:
第 815页/共1004页
购买食品的年支出
2.09 2.15 2.50 2.84 2.92
费用 x/万元
购买水果和牛奶的
1.25 1.30 1.50 1.70 1.75
年支出费用 y/万元
^ ^ ^ ^ ^ ^
根据上表可得回归方程y=bx+a,其中b=0.59,a= y -b x ,据此估计,该社区一
户购买食品的年支出费用为 3.00 万元的家庭购买水果和牛奶的年支出费用约为( )
A.1.795 万元 B.2.555 万元
C.1.915 万元 D.1.945 万元
1 1
解析:选 A x = ×(2.09+2.15+2.50+2.84+2.92)=2.50(万元),y = ×(1.25+1.30
5 5
^ ^ ^ ^
+1.50+1.70+1.75)=1.50(万元),其中b=0.59,则a= y -b x =0.025,y=0.59x+0.025,
^
故年支出费用为 3.00 万元的家庭购买水果和牛奶的年支出费用约为y=0.59×3.00+0.025=
1.795(万元).
3.下面四个命题中,错误的是( )
A.从匀速传递的产品生产流水线上,质检员每 15 分钟从中抽取一件产品进行某项指
标检测,这样的抽样是系统抽样
B.对分类变量 X 与 Y 的随机变量 K2的观测值 k 来说,k 越大,“X 与 Y 有关系”的把
握程度越大
C.两个随机变量相关性越强,则相关系数的绝对值越接近于 0
^
D.在回归直线方程y=0.4x+12 中,当解释变量 x 每增加一个单位时,预报变量平均
增加 0.4 个单位
解析:选 C 两个随机变量的线性相关性越强,则相关系数的绝对值越接近于 1,故 C
错误.
4.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问 100 名性别
不同的居民是否能做到“光盘”行动,得到如下的列联表:
做不到“光盘” 能做到“光盘”
男 45 10
女 30 15
则下面的正确结论是( )
附表及公式:
P(K2≥k0) 0.100 0.050 0.010 0.001
第 816页/共1004页
k0 2.706 3.841 6.635 10.828
n(ad-bc)2
K2= ,n=a+b+c+d.
(a+b)(c+d)(a+c)(b+d)
A.有 90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”
B.在犯错误的概率不超过 1%的前提下,认为“该市居民能否做到‘光盘’与性别无
关”
C.在犯错误的概率不超过 1%的前提下,认为“该市居民能否做到‘光盘’与性别有
关”
D.有 90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”
解析:选 A 由列联表得到 a=45,b=10,c=30,d=15,则 a+b=55,c+d=45,a
+c=75,b+d=25,ad=675,bc=300,n=100,计算得 K2的观测值 k=
n(ad-bc)2 100×(675-300)2
= ≈3.030.因为 2.706<3.030<3.841,
(a+b)(c+d)(a+c)(b+d) 55×45×75×25
所以有 90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”.
5.为了研究工人的日平均工作量是否与年龄有关,从某工厂抽取了 100 名工人,且规
定日平均生产件数不少于 80 件者为“生产能手”,列出的 2×2 列联表如下:
生产能手 非生产能手 总计
25 周岁以上 25 35 60
25 周岁以下 10 30 40
总计 35 65 100
有________以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”.
100×(25×30-10×35)2
解析:由 2×2 列联表可知,K2= ≈2.93,因为 2.93>2.706,所
40×60×35×65
以有 90%以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”.
答案:90%
6.随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存
款(年底余额)如下表:
年份 2014 2015 2016 2017 2018
时间代号 t 1 2 3 4 5
储蓄存款 y
5 6 7 8 10
(千亿元)
则 y 关于 t 的回归方程是________________.
第 817页/共1004页
1 n 15 1 n 36
解析:由表中数据得 n=5, t = ti= =3, y = yi= =7.2. n 5 n 5
i=1 i=1
n
又 t2-n t 2=55-5×32i =10,
i=1
n
tiyi-n t y =120-5×3×7.2=12.
i=1
n
tiyi-n t y
i=1
^ 12
从而b= = =1.2,
n 10
t2i-n t 2
i=1
^ ^
a= y -b t =7.2-1.2×3=3.6,
^
故所求回归方程为y=1.2t+3.6.
^
答案:y=1.2t+3.6
7.某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定
此次广告费支出.广告费支出 x(万元)和销售量 y(万台)的数据如下:
年份 2012 2013 2014 2015 2016 2017 2018
广告费支
1 2 4 6 11 13 19
出 x
销售量 y 1.9 3.2 4.0 4.4 5.2 5.3 5.4
(1)若用线性回归模型拟合 y 与 x 的关系,求出 y 关于 x 的线性回归方程;
^
(2)若用 y=c+d x模型拟合 y 与 x 的关系,可得回归方程y=1.63+0.99 x,经计算线性
回归模型和该模型的 R2分别约为 0.75 和 0.88,请用 R2 说明选择哪个回归模型更好;
(3)已知利润 z 与 x,y 的关系为 z=200y-x.根据(2)的结果,求当广告费 x=20 时,销售
量及利润的预报值.
^ ^ ^
参考公式:回归直线y=a+bx 的斜率和截距的最小二乘估计分别为
n n
xiyi-n x y (xi- x )(yi- y )
i=1 i=1
^ ^ ^
b= = ,a= y -b x .
n n
x2i-n x 2 (xi- x )2
i=1 i=1
参考数据: 5≈2.24.
7 7
解:(1)∵ x =8, y =4.2, xiyi=279.4, x2i=708,
i=1 i=1
第 818页/共1004页
7
xiyi-7 x y
i=1
^ 279.4-7×8×4.2 ^ ^
∴b= = 2 =0.17,a= y -b x =4.2-0.17×8=2.84,
7 708-7×8
x2i-7 x 2
i=1
^
∴y 关于 x 的线性回归方程为y=0.17x+2.84.
(2)∵0.75<0.88 且 R2 越大,反映残差平方和越小,模型的拟合效果越好,
^
∴选用y=1.63+0.99 x更好.
^
(3)由(2)知,当 x=20 时,销售量的预报值y=1.63+0.99 20≈6.07(万台),利润的预报
值 z=200×(1.63+0.99 20)-20≈1 193.04(万元).
B 级
1.(2018·江门一模)为探索课堂教学改革,江门某中学数学老师用“传统教学”和“导
学案”两种教学方式分别在甲、乙两个平行班进行教学实验.为了解教学效果,期末考试后,
分别从两个班级各随机抽取 20 名学生的成绩进行统计,得到如下茎叶图.记成绩不低于 70
分者为“成绩优良”.
(1)请大致判断哪种教学方式的教学效果更佳,并说明理由;
(2)构造一个教学方式与成绩优良的 2×2 列联表,并判断能否在犯错误的概率不超过
0.05 的前提下认为“成绩优良与教学方式有关”.
n(ad-bc)2
附:K2= ,其中 n=a+b+c+d.
(a+b)(c+d)(a+c)(b+d)
临界值表:
P(K2≥k0) 0.10 0.05 0.025 0.010
k0 2.706 3.841 5.024 6.635
解:(1)“导学案”教学方式教学效果更佳.
第 819页/共1004页
理由 1:乙班样本数学成绩大多在 70 分以上,甲班样本数学成绩 70 分以下的明显更多.
理由 2:甲班样本数学成绩的平均分为 70.2;乙班样本数学成绩的平均分为 79.05.
68+72
理由 3:甲班样本数学成绩的中位数为 =70,乙班样本数学成绩的中位数为
2
77+78
=77.5.
2
(2)2×2 列联表如下:
甲班 乙班 总计
成绩优良 10 16 26
成绩不优良 10 4 14
总计 20 20 40
40×(10×4-10×16)2
由上表数据可得 K2= ≈3.956>3.841,
20×20×26×14
所以能在犯错误的概率不超过 0.05 的前提下认为“成绩优良与教学方式有关”.
2.(2019·广州调研)某基地蔬菜大棚采用无土栽培方式种植各
类蔬菜.过去 50 周的资料显示,该地周光照量 X(单位:小时)都
在 30 小时以上,其中不足 50 小时的有 5 周,不低于 50 小时且不
超过 70 小时的有 35 周,超过 70 小时的有 10 周.根据统计,该
基地的西红柿增加量 y(千克)与使用某种液体肥料的质量 x(千克)之间的对应数据为如图所示
的折线图.
(1)依据折线图计算相关系数 r(精确到 0.01),并据此判断是否可用线性回归模型拟合 y
与 x 的关系;(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合)
(2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但
每周光照控制仪运行台数受周光照量 X 限制,并有如下关系:
周光照量 X/小时 30<X<50 50≤X≤70 X>70
光照控制仪运行台数 3 2 1
对商家来说,若某台光照控制仪运行,则该台光照控制仪产生的周利润为 3 000 元;若
某台光照控制仪未运行,则该台光照控制仪周亏损 1 000 元.若商家安装了 3 台光照控制仪,
求商家在过去 50 周的周总利润的平均值.
第 820页/共1004页
n
(xi- x )(yi- y )
i=1
相关系数公式:r= ,
n n
(xi- x )2 (yi- y )2
i=1 i=1
参考数据: 0.3≈0.55, 0.9≈0.95.
2+4+5+6+8
解:(1)由已知数据可得 x = =5,
5
3+4+4+4+5
y = =4.
5
5
因为 (xi- x )(yi- y )=(-3)×(-1)+0+0+0+3×1=6,
i=1
5
(xi- x )2= (-3)2+(-1)2+02+12+32=2 5,
i=1
5
(y - y )2i = (-1)2+02+02+02+12= 2,
i=1
5
(xi- x )(yi- y )
i=1 6
所以相关系数 r= = = 0.9≈0.95.
5 5 2 5× 2
(xi- x )2 (y - y )2i
i=1 i=1
因为|r|>0.75,所以可用线性回归模型拟合 y 与 x 的关系.
(2)由条件可得在过去 50 周里,
当 X>70 时,共有 10 周,此时只有 1 台光照控制仪运行,
每周的周总利润为 1×3 000-2×1 000=1 000(元).
当 50≤X≤70 时,共有 35 周,此时有 2 台光照控制仪运行,
每周的周总利润为 2×3 000-1×1 000=5 000(元).
当 30<X<50 时,共有 5 周,此时 3 台光照控制仪都运行,
每周的周总利润为 3×3 000=9 000(元).
所以过去 50 周的周总利润的平均值为
1 000×10+5 000×35+9 000×5
=4 600(元),
50
所以商家在过去 50 周的周总利润的平均值为 4 600 元.
第 821页/共1004页

展开更多......

收起↑

资源预览