北师大版高中数学选择性必修第一册第七章统计案例§2成对数据的线性相关性课件(共83张PPT)+学案

资源下载
  1. 二一教育资源

北师大版高中数学选择性必修第一册第七章统计案例§2成对数据的线性相关性课件(共83张PPT)+学案

资源简介

(共83张PPT)
§2 成对数据的线性相关性
 
第七章 统计案例
学习目标
1.结合实例,了解样本相关系数的统计含义,通过对相关系 数、正相关、负相关等概念的学习,培养数学抽象的核心 素养.
2.会计算样本相关系数,了解样本相关系数与标准化数据向 量夹角的关系,借助相关系数r的应用,提升数学建模与数 据分析的核心素养.
任务一 相关系数
问题导思
问题1.给定两个随机变量(X,Y)的n组成对数据:(x1,y1),(x2,y2),…,(xn,yn),利用最小二乘法,一定可以得到Y关于X的线性回归方程吗?都有实际意义吗?
提示:一定,未必,随机变量Y与X不一定具有线性关系.
问题2.观察如下散点图:

能判断出图①与图②对应的成对数据有线性关系吗?哪组变量线性关系
更强?
提示:可以判断出图①与图②对应的成对数据线性相关,但图①与图②对应的成对数据的线性关系哪个更强,从散点图难以区别.
新知构建
2.相关性的分类
(1)当______时,两个随机变量正相关;
(2)当______时,两个随机变量负相关;
(3)当______时,两个随机变量线性不相关.
r>0
r<0
r=0
微提醒
(链教材P244例1)某企业坚持以市场需求为导向,合理配置生产资源,不断探索、改革销售模式.下表是该企业每月生产的一种核心产品的产量X(件)与相应的生产总成本Y(万元)的五组对照数据:
典例
1
产量x(件) 1 2 3 4 5
生产总成本y(万元) 3 7 8 10 12
规律方法
对点练1.近年来,随着社会对教育越来越重视,家庭的平均教育支出呈现出逐年增长的趋势,下表反映了2020-2024年某市家庭平均教育支出占家庭总支出的比例Y(百分比)与年份编号X之间的关系:
年份 2020 2021 2022 2023 2024
x 1 2 3 4 5
y 21 26 40 49 54
0.976

返回
任务二 线性相关性强弱的判断
问题导思
问题3.变量U和变量V的样本相关系数为r1=0.984,变量X和变量Y的样本相关系数为r2=-0.834,结合如下相应散点图,思考两组变量间的线性相关性强弱如何?
提示:两组变量都具有较强的线性相关性,其中变量U和变量V的线性相关性更强一些.
新知构建
样本(线性)相关系数r与线性相关程度的关系
(1)r的取值范围为___________;
(2)|r|值越接近1,随机变量之间的线性相关程度越____;
(3)|r|值越接近0,随机变量之间的线性相关程度越____.
[-1,1]


微提醒
判断变量之间的线性相关关系,一般用散点图,但在作图中,由于存在误差,有时很难判断这些点是否分布在一条直线的附近,从而就很难判断两个变量之间是否具有线性相关关系,此时就可利用线性相关系数r来判断.|r|越接近1,它们的散点图越接近一条直线,两个变量之间的相关关系越强.
(1)对于X与Y两个变量,有四组样本数据,分别算出它们的线性相关系数r(如下):-0.87,0.72,-0.78,0.85,则线性相关性最强的是
A.-0.87 B.0.72
C.-0.78 D.0.85
典例
2

线性相关系数的绝对值越接近1,线性相关性越强,则线性相关性最强的是-0.87.故选A.



对于A,从散点图可以看出变量Y随X的增大而减小,去掉B点也是负相关;故A正确;对于B、C,去掉B点后,相关系数r变的更小更趋于-1,故B错误,C正确;对于D,去掉B点后,变量X与变量Y的线性相关性增强,故D正确.故选ACD.
规律方法
判断线性相关强弱的基本方法
1.散点图:散点图只是粗略作出判断,所有的点越接近直线,相关性越强.
2.样本相关系数:样本相关系数能够较准确的判断相关的程度,其绝对值越接近于1,相关性越强.

对点练2.(1)对四组数据进行统计,获得以下散点图,设①②③④图对应的相关系数分别为r1,r2,r3,r4,则r1,r2,r3,r4的大小关系为
A.r2<r4<r3<r1
B.r2<r4<r1<r3
C.r4<r2<r3<r1
D.r4<r2<r1<r3
由散点图可知,图①,③是正相关,图②,④是负相关,且图①,②比③,④的线性相关性更强,所以r2<r4<r3<r1.故选A.
1
返回
任务三 成对数据的线性相关性的实际应用
典例
3
规律方法
课堂小结
任务再现 1.样本相关系数的计算.2.线性相关关系程度的判断.3.成对数据的线性相关性的实际应用
方法提炼 公式法、数形结合思想
易错警示 样本相关系数的大小与变量间线性相关程度的对应关系混淆
返回
随堂评价

1.变量X,Y的散点图如图所示,那么X,Y之间的样本相关系数r最接近的值为
A.1
B.-0.5
C.0
D.0.5
根据变量X,Y的散点图,得X,Y之间的线性相关关系非常不明显,所以样本相关系数r最接近的值应为0.故选C.

2.已知变量x与y的回归直线方程为y=3x-1,变量y与z负相关,则
A.x与y负相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z正相关
D.x与y正相关,x与z负相关
根据回归方程y=3x-1可知变量x与y正相关,又变量y与z负相关,由正相关、负相关的定义可知,x与z负相关.故选D.
3.变量X与Y相对应的成对数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的成对数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则r1,r2,0的大小关系为     .
r2<0<r1
对于变量X与Y而言,Y随X的增大而增大,故变量Y与X正相关,即r1>0;对于变量U与V而言,V随U的增大而减小,故变量V与U负相关,即r2<0,故r2<0<r1.
X 5 10 15 20 25
Y 103 105 110 111 114
0.983

返回
课时分层评价

1.有变量x与变量m,n,o,p对应的4组样本数据,计算出它们的线性相关系数分别为r1=-0.92,r2=-0.71,r3=0.84,r4=0.51,则与x线性相关关系最弱的是
A.m B.n
C.o D.p

2.(2025·山西大同高二期中)对两个变量x,y进行线性相关性检验,得线性相关系数r1=0.958,对两个变量u,v进行线性相关性检验,得线性相关系数r2=-0.974,则下列判断正确的是
A.变量x与变量y正相关,变量u与变量v负相关,变量x与变量y的线性相关性更强
B.变量x与变量y正相关,变量u与变量v负相关,变量u与变量v的线性相关性更强
C.变量x与变量y负相关,变量u与变量v正相关,变量u与变量v的线性相关性更强
D.变量x与变量y负相关,变量u与变量v正相关,变量x与变量y的线性相关性更强




x 1 2 3 4 5
y 0.5 0.9 1 1.1 1.5




1.818 2

8.戏曲相关部门特意进行了“喜爱看秦腔”的调查,发现年龄段与爱看秦腔的人数比存在较好的线性相关关系,年龄在[40,44],[45,49],[50,54],[55,59]的爱看人数比分别是0.10,0.18,0.20,0.30.现用各年龄段的中间值代表年龄段,如42代表[40,44].由此求得爱看人数比Y关于年龄段X的回归直线方程为Y=kX-0.418 8.那么,年龄在[60,64]的爱看人数比为    .
0.35
x 30 35 40 45 50
y 18 14 10 8 5
-0.992

i 1 2 3 4 5
-10 -5 0 5 10
7 3 -1 -3 -6
-70 -15 0 -15 -60

10.(15分)2024年初,冰城哈尔滨充分利用得天独厚的冰雪资源,成为2024年第一个“火出圈”的网红城市,冰城通过创新营销展示了丰富的文化活动,成功提升了吸引力和知名度,为其他旅游城市提供了宝贵经验,从2024年1月1日至5日,哈尔滨太平国际机场接待外地游客数量如下:
x(日) 1 2 3 4 5
y(万人) 45 50 60 65 80
(1)计算x,y的相关系数r(计算结果精确到0.01),并判断是否可以认为日期与游客人数的相关性很强;

11.已知两个变量X和Y之间具有线性相关性,甲、乙两个同学各自独立地做了10次和15次试验,并且利用线性回归的方法求得回归直线分别为l1和l2,已知两个人在试验中发现对变量X的观测数据的平均数都为s,对变量Y的观测数据的平均数都是t,则下列说法正确的是
A.l1与l2一定有公共点(s,t)
B.l1与l2相交,但交点一定不是(s,t)
C.l1与l2必定平行
D.l1与l2必定重合



-0.3
e7.4

14.(15分)随着全球新能源汽车市场的快速发展,在政策的有力推动下,中国的国产新能源汽车迅速崛起.新能源汽车因其较高的驱动效率、较低的用车成本、安静舒适的驾驶体验等优势深受部分车主的支持与欢迎.未来在努力解决充电效率较低、续航里程限制、低温环境影响等主要困难之后,新能源汽车市场有望得到进一步发展.某地区近些年的新能源汽车的年销量不断攀升,如下表所示:
年份 2018 2019 2020 2021 2022 2023
年份代码(x) 1 2 3 4 5 6
新能源汽车年销量(y)/万辆 y1 y2 y3 y4 y5 y6
年份 2018 2019 2020 2021 2022 2023
年份代码(x) 1 2 3 4 5 6
新能源汽车年销量(y)/万辆 y1 y2 y3 y4 y5 y6
年份 2018 2019 2020 2021 2022 2023
年份代码(x) 1 2 3 4 5 6
新能源汽车年销量(y)/万辆 y1 y2 y3 y4 y5 y6
年份 2018 2019 2020 2021 2022 2023
年份代码(x) 1 2 3 4 5 6
新能源汽车年销量(y)/万辆 y1 y2 y3 y4 y5 y6
年份 2018 2019 2020 2021 2022 2023
年份代码(x) 1 2 3 4 5 6
新能源汽车年销量(y)/万辆 y1 y2 y3 y4 y5 y6
年份 2018 2019 2020 2021 2022 2023
年份代码(x) 1 2 3 4 5 6
新能源汽车年销量(y)/万辆 y1 y2 y3 y4 y5 y6



返回§2 成对数据的线性相关性
学习目标 1.结合实例,了解样本相关系数的统计含义,通过对相关系数、正相关、负相关等概念的学习,培养数学抽象的核心素养. 2.会计算样本相关系数,了解样本相关系数与标准化数据向量夹角的关系,借助相关系数r的应用,提升数学建模与数据分析的核心素养.
任务一 相关系数
问题1.给定两个随机变量(X,Y)的n组成对数据:(x1,y1),(x2,y2),…,(xn,yn),利用最小二乘法,一定可以得到Y关于X的线性回归方程吗?都有实际意义吗?
提示:一定,未必,随机变量Y与X不一定具有线性关系.
问题2.观察如下散点图:
能判断出图①与图②对应的成对数据有线性关系吗?哪组变量线性关系更强?
提示:可以判断出图①与图②对应的成对数据线性相关,但图①与图②对应的成对数据的线性关系哪个更强,从散点图难以区别.
1.样本(线性)相关系数
一般地,设随机变量X,Y的n组观测值分别为(x1,y1),(x2,y2),…,(xn,yn),记r=,称r为随机变量X和Y的样本(线性)相关系数.
2.相关性的分类
(1)当r>0时,两个随机变量正相关;
(2)当r<0时,两个随机变量负相关;
(3)当r=0时,两个随机变量线性不相关.
[微提醒] 为运算方便,还可利用下面的公式:r=.
(链教材P244例1)某企业坚持以市场需求为导向,合理配置生产资源,不断探索、改革销售模式.下表是该企业每月生产的一种核心产品的产量X(件)与相应的生产总成本Y(万元)的五组对照数据:
产量x(件) 1 2 3 4 5
生产总成本y(万元) 3 7 8 10 12
试求Y与X的相关系数,并利用相关系数说明Y与X是正相关还是负相关?(结果保留两位小数)
参考公式:r=.参考数据:≈10.7.
解:==3,==8,=
=,

=,
=×+×+×+×+×=21,
故相关系数r=≈0.98,
因为r≈0.98>0,
所以Y与X是正相关.
样本相关系数的计算步骤
第一步:求出,的值;
第二步:求出(xi-)(yi-),(xi-)2,的值;
第三步:代入公式计算得结果.
注意:(1)散点图可以直观地判断两变量是否具有线性关系.(2)样本相关系数的计算运算量较大,注意运算的准确性.
对点练1.近年来,随着社会对教育越来越重视,家庭的平均教育支出呈现出逐年增长的趋势,下表反映了2020-2024年某市家庭平均教育支出占家庭总支出的比例Y(百分比)与年份编号X之间的关系:
年份 2020 2021 2022 2023 2024
x 1 2 3 4 5
y 21 26 40 49 54
则Y与X的样本相关系数r=    (保留3位小数).
附:≈3.2,≈28.5,
r=.
答案:0.976
解析:由题意可知:==3,==38,可得(xi-)(yi-)=89,(xi-)2=10,(yi-)2=814,所以r==≈≈0.976.
任务二 线性相关性强弱的判断
问题3.变量U和变量V的样本相关系数为r1=0.984,变量X和变量Y的样本相关系数为r2=-0.834,结合如下相应散点图,思考两组变量间的线性相关性强弱如何?
提示:两组变量都具有较强的线性相关性,其中变量U和变量V的线性相关性更强一些.
样本(线性)相关系数r与线性相关程度的关系
(1)r的取值范围为[-1,1];
(2)|r|值越接近1,随机变量之间的线性相关程度越强;
(3)|r|值越接近0,随机变量之间的线性相关程度越弱.
[微提醒] 判断变量之间的线性相关关系,一般用散点图,但在作图中,由于存在误差,有时很难判断这些点是否分布在一条直线的附近,从而就很难判断两个变量之间是否具有线性相关关系,此时就可利用线性相关系数r来判断.|r|越接近1,它们的散点图越接近一条直线,两个变量之间的相关关系越强.
(1)对于X与Y两个变量,有四组样本数据,分别算出它们的线性相关系数r(如下):-0.87,0.72,-0.78,0.85,则线性相关性最强的是(  )
A.-0.87 B.0.72
C.-0.78 D.0.85
(2)(多选题)某同学根据变量X与Y的六组数据(i=1,2,…,6)绘制了如下散点图,并选择一元线性回归模型进行拟合,若去掉B点,则下列说法正确的是(  )
A.变量X与Y负相关没变
B.相关系数r越趋于1
C.相关系数r变小了
D.Y与X线性相关程度变强
答案:(1)A (2)ACD
解析:(1)线性相关系数的绝对值越接近1,线性相关性越强,则线性相关性最强的是-0.87.故选A.
(2)对于A,从散点图可以看出变量Y随X的增大而减小,去掉B点也是负相关;故A正确;对于B、C,去掉B点后,相关系数r变的更小更趋于-1,故B错误,C正确;对于D,去掉B点后,变量X与变量Y的线性相关性增强,故D正确.故选ACD.
判断线性相关强弱的基本方法
1.散点图:散点图只是粗略作出判断,所有的点越接近直线,相关性越强.
2.样本相关系数:样本相关系数能够较准确的判断相关的程度,其绝对值越接近于1,相关性越强.
对点练2.(1)对四组数据进行统计,获得以下散点图,设①②③④图对应的相关系数分别为r1,r2,r3,r4,则r1,r2,r3,r4的大小关系为(  )
A.r2<r4<r3<r1 B.r2<r4<r1<r3
C.r4<r2<r3<r1 D.r4<r2<r1<r3
(2)在研究线性回归模型时,样本数据(i=1,2,3,…,n)所对应的点均在直线y=x+3上,用r表示两个变量X与Y的线性相关程度,则r=    .
答案:(1)A (2)1
解析:(1)由散点图可知,图①,③是正相关,图②,④是负相关,且图①,②比③,④的线性相关性更强,所以r2<r4<r3<r1.故选A.
(2)由已知样本数据(i=1,2,3,…,n)所对应的点均在直线y=x+3上,则=1,又>0,所以满足正相关,即r=1.
任务三 成对数据的线性相关性的实际应用
随着全国新能源汽车推广力度的加大,新能源汽车市场迎来了前所未有的新机遇.某公司生产了A,B两种不同型号的新能源汽车,为了解大众对生产的新能源汽车的接受程度,公司在某地区采用随机抽样的方式进行调查,对A,B两种不同型号的新能源汽车进行综合评估(得分越高接受程度就越高),综合得分按照,,,[80,100]分组,绘制成评估综合得分的频率分布直方图(如图):
(1)以综合得分的平均数为依据,判断A,B两种不同型号的新能源汽车哪种型号更受大众喜欢;
(2)为进一步了解该地区新能源汽车销售情况,某机构根据统计数据,用最小二乘法得到该地区新能源汽车销量y(单位:万台)关于年份x的线性回归方程为Y=4.7X-9 495.2,且销量y的方差为=50,年份x的方差为=2,求y与x的相关系数r,并据此判断该地区新能源汽车销量y与年份x的相关性强弱.
参考公式:①线性回归方程:Y=X+,其中=,=-;
②相关系数r=(若|r|∈,则相关性较弱;若|r|∈,则相关性较强;若|r|∈,则相关性很强).
解:(1)设A,B两种不同型号的新能源汽车的综合得分的平均数为,,
由题可知,=30×0.1+50×0.3+70×0.4+90×0.2=64,
=30×0.3+50×0.2+70×0.4+90×0.1=56,
由于>,所以A型号的新能源汽车更受大众喜欢.
(2)相关系数r==·=·,
所以r=4.7×=4.7×=0.94>0.75,
故该地区新能源汽车销量y与年份x的相关性很强.
1.当相关系数|r|越接近1时,两个变量的相关关系越强,当相关系数|r|越接近0时,两个变量的相关关系越弱;当r=0时,只表明成对数据间没有线性相关关系,但不排除它们之间有其他相关关系.
2.若数据x1,x2,…,xn及y1,y2,…,yn的方差分别为,,则样本线性相关系数公式可变形为r=·.
对点练3.某学校对高三(1)班50名学生第一次模拟考试的数学成绩和化学成绩统计得到数据如下:数学成绩的方差为=10,化学成绩的方差为=8,=500 500,其中xi,yi(i∈N且1≤i≤50)分别表示这50名学生的数学成绩和化学成绩,y关于x的线性回归方程为Y=0.4X+t.
(1)求y与x的样本相关系数r;
(2)从概率统计规律来看,本次考试高三(1)班学生数学成绩η服从正态分布N,用样本平均数作为μ的估计值,用样本方差作为σ2的估计值.试估计该校共800名高三学生中,数学成绩位于区间的人数.
附:①线性回归方程Y=+X中:=,=-;
②样本相关系数r=;
③若η~N,则P≈0.68,P(μ-2σ≤η≤μ+2σ)≈0.95;
④≈3.16.
解:(1)因为==10,=(yi-)2=8,
所以=500,=400,
又==
=0.4,所以=200,
所以r===.
(2)因为=-50=500,=500 500,
所以500 500-50=500,解得=100,即μ=100,
因为σ2=10,所以σ≈3.16,
所以数学成绩η服从正态分布N,
因为P=P
=P+P
=P+P
≈×0.68+×0.95=0.815,
所以该校高三学生数学成绩位于区间(96.84,106.32)的大约有800×0.815=652人.
任务再现 1.样本相关系数的计算.2.线性相关关系程度的判断.3.成对数据的线性相关性的实际应用
方法提炼 公式法、数形结合思想
易错警示 样本相关系数的大小与变量间线性相关程度的对应关系混淆
1.变量X,Y的散点图如图所示,那么X,Y之间的样本相关系数r最接近的值为(  )
A.1 B.-0.5
C.0 D.0.5
答案:C
解析:根据变量X,Y的散点图,得X,Y之间的线性相关关系非常不明显,所以样本相关系数r最接近的值应为0.故选C.
2.已知变量x与y的回归直线方程为y=3x-1,变量y与z负相关,则(  )
A.x与y负相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z正相关
D.x与y正相关,x与z负相关
答案:D
解析:根据回归方程y=3x-1可知变量x与y正相关,又变量y与z负相关,由正相关、负相关的定义可知,x与z负相关.故选D.
3.变量X与Y相对应的成对数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的成对数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则r1,r2,0的大小关系为    .
答案:r2<0<r1
解析:对于变量X与Y而言,Y随X的增大而增大,故变量Y与X正相关,即r1>0;对于变量U与V而言,V随U的增大而减小,故变量V与U负相关,即r2<0,故r2<0<r1.
4.两个变量满足如下表关系:
X 5 10 15 20 25
Y 103 105 110 111 114
则两个变量线性相关系数为    .(保留3位小数)附:≈3.16,≈9.01
答案:0.983
解析:xi=75,yi=543,=1 375,xiyi=8 285,=59 051,=15,=108.6.r=
=≈0.983.
课时分层评价48 成对数据的线性相关性
(时间:60分钟 满分:100分)
(1—9,每小题5分,共45分)
1.有变量x与变量m,n,o,p对应的4组样本数据,计算出它们的线性相关系数分别为r1=-0.92,r2=-0.71,r3=0.84,r4=0.51,则与x线性相关关系最弱的是(  )
A.m B.n
C.o D.p
答案:D
解析:相关系数的绝对值越小,变量间的线性相关性越弱,因为<<<,所以与x线性相关关系最弱的是p.故选D.
2.(2025·山西大同高二期中)对两个变量x,y进行线性相关性检验,得线性相关系数r1=0.958,对两个变量u,v进行线性相关性检验,得线性相关系数r2=-0.974,则下列判断正确的是(  )
A.变量x与变量y正相关,变量u与变量v负相关,变量x与变量y的线性相关性更强
B.变量x与变量y正相关,变量u与变量v负相关,变量u与变量v的线性相关性更强
C.变量x与变量y负相关,变量u与变量v正相关,变量u与变量v的线性相关性更强
D.变量x与变量y负相关,变量u与变量v正相关,变量x与变量y的线性相关性更强
答案:B
解析:由线性相关系数r1=0.958>0知x与y正相关,由线性相关系数r2=-0.974<0知u与v负相关,又<,所以变量u与变量v的线性相关性比变量x与变量y的线性相关性更强.故选B.
3.(2025·广东珠海高二月考)一唱片公司欲知唱片费用x(十万元)与唱片销售量y(千张)之间的关系,从其所发行的唱片中随机抽选了10张,得如下的资料:xi=28,=303.4,yi=75,=598.5,xiyi=237,则y与x的相关系数r的绝对值为(  )
(相关系数:r=)
A.0.3 B.0.4
C.0.5 D.0.6
答案:A
解析:因为xi=28,yi=75,所以=2.8,=7.5,|r|===0.3.故选A.
4.已知变量x与变量y线性相关,x与y的样本相关系数为-0.8,且由观测数据算得样本平均数=5,=6,则由该观测数据算得经验回归方程可能是(  )
A.Y=0.8X+2 B.Y=X+1
C.Y=-0.8X+9 D.Y=-X+11
答案:D
解析:因为x与y的样本相关系数为-0.8<0,可知x与y为负相关,故A、B错误;又因为经验回归方程过样本中心点,对于Y=-0.8X+9,则-0.8×5+9=5≠6,故C错误;对于Y=-X+11,则-5+11=6,故D正确.故选D.
5.为了研究y关于x的线性相关关系,收集了5组样本数据(见表):若已求得一元线性回归方程Y=X+0.34,则下列选项中正确的是(  )
x 1 2 3 4 5
y 0.5 0.9 1 1.1 1.5
A.=0.2
B.去掉样本点后,x与y的样本相关系数r不会改变
C.当x=8时,y的预测值为2.2
D.x与y的样本是负相关
答案:B
解析:==3,==1,所以样本点的中心坐标为,将它代入Y=X+0.34,得3+0.34=1,解得=0.22,故A错误;由相关系数公式可知,去掉样本点(3,1)后,x与y的样本相关系数r不会改变,故B正确;当x=8时,y的预测值为y=0.22×8+0.34=2.1,故C错误;因为>0,所以x与y的样本是正相关,故D错误.故选B.
6.(多选题)(2025·四川成都高二期中)对于样本相关系数,下列说法正确的是(  )
A.样本相关系数可以用来判断成对样本数据相关的正负性
B.样本相关系数可以是正的,也可以是负的
C.样本相关系数越大,成对样本数据的线型相关程度越强
D.样本相关系数r∈
答案:ABD
解析:对于A,样本相关系数可以用来判断成对样本数据相关的正负性,故A正确;对于B,样本相关系数可以是正的,也可以是负的,故B正确;对于C,样本相关系数的绝对值越大,成对样本数据的线性相关程度也越强,故C错误;对于D,样本相关系数r∈,故D正确.故选ABD.
7.某白酒酿造企业市场部对该企业9月份的产品销量y(单位:千箱)与单位成本x(单位:元)的资料进行线性回归分析,结果如下:=,=71,=79,xiyi=1 481.则销量每增加1 000箱,单位成本下降    元(结果保留5位有效数字).
附:回归直线的斜率和截距的最小二乘法公式分别为:=,=-.
答案:1.818 2
解析:由题意知===-,=-=71+×=,所以线性回归方程为Y=-X+,所以销量每增加1 000箱,单位成本下降≈1.818 2元.
8.戏曲相关部门特意进行了“喜爱看秦腔”的调查,发现年龄段与爱看秦腔的人数比存在较好的线性相关关系,年龄在[40,44],[45,49],[50,54],[55,59]的爱看人数比分别是0.10,0.18,0.20,0.30.现用各年龄段的中间值代表年龄段,如42代表[40,44].由此求得爱看人数比Y关于年龄段X的回归直线方程为Y=kX-0.418 8.那么,年龄在[60,64]的爱看人数比为    .
答案:0.35
解析:由题意可得各年龄段的值为42,47,52,57,则==49.5,爱看人数比的平均值==0.195,代入Y=kX-0.418 8,得0.195=49.5k-0.418 8,即k=0.012 4,所以Y=0.012 4X-0.418 8,取X=62,得Y=0.012 4×62-0.418 8=0.35.所以年龄在[60,64]的爱看人数比为0.35.
9.经调查,某种手机流量包的定价x(单位:元/月)和购买人数y(单位:万人)的关系如下表:
x 30 35 40 45 50
y 18 14 10 8 5
计算该流量包的定价x与购买人数y的相关系数r=    .(结果保留3位小数)附:≈8.062.
答案:-0.992
解析:根据表格中的数据,可得=(30+35+40+45+50)=40,=(18+14+10+8+5)=11.
可列表如下:
i 1 2 3 4 5
xi- -10 -5 0 5 10
yi- 7 3 -1 -3 -6
-70 -15 0 -15 -60
则(xi-)(yi-)=-160,
=×=,因此相关系数r==≈-0.992.
10.(15分)2024年初,冰城哈尔滨充分利用得天独厚的冰雪资源,成为2024年第一个“火出圈”的网红城市,冰城通过创新营销展示了丰富的文化活动,成功提升了吸引力和知名度,为其他旅游城市提供了宝贵经验,从2024年1月1日至5日,哈尔滨太平国际机场接待外地游客数量如下:
x(日) 1 2 3 4 5
y(万人) 45 50 60 65 80
(1)计算x,y的相关系数r(计算结果精确到0.01),并判断是否可以认为日期与游客人数的相关性很强;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程.
参考公式:==,=-,r=,
参考数据:≈1.732.
解:(1)因为==3,==60,
所以=xiyi-5=(1×45+2×50+3×60+4×65+5×80)-5×3×60=85,
=+++(4-3)2+=10,
=++(60-60)2++=750,
所以r==≈≈0.98,
由此可以认为两者的相关性很强.
(2)由(1)知=85,=10,
所以===8.5.
因为=-=60-8.5×3=34.5,所以回归方程为Y=8.5X+34.5.
(11—13,每小题5分,共15分)
11.已知两个变量X和Y之间具有线性相关性,甲、乙两个同学各自独立地做了10次和15次试验,并且利用线性回归的方法求得回归直线分别为l1和l2,已知两个人在试验中发现对变量X的观测数据的平均数都为s,对变量Y的观测数据的平均数都是t,则下列说法正确的是(  )
A.l1与l2一定有公共点(s,t)
B.l1与l2相交,但交点一定不是(s,t)
C.l1与l2必定平行
D.l1与l2必定重合
答案:A
解析:由于回归直线Y=X+恒过(,)点,又两人对变量X的观测数据的平均值为s,对变量Y的观测数据的平均值为t,所以l1和l2恒过点(s,t).故选A.
12.(多选题)已知由样本数据(i=1,2,3,…,10)组成的一个样本,得到回归直线方程为Y=-X+2,且=4.剔除一个偏离直线较远的异常点后,得到新的回归直线经过点(7,-4).则下列说法正确的是(  )
A.相关变量x,y具有正相关关系
B.剔除该异常点后,样本相关系数的绝对值变大
C.剔除该异常点后的回归直线方程经过点
D.剔除该异常点后,随x值增加相关变量y值减小速度变小
答案:BC
解析:对于A,由回归直线方程为Y=-X+2,可得=-1<0,所以相关变量x,y具有负相关关系,故A不正确;对于B,剔除异常点后,变量的拟合程度变大,所以样本相关系数的绝对值变大,故B正确;对于C,由回归直线方程为Y=-X+2,且=4,可得=-2,剔除一个偏离直线较远的异常点后,得到==6,==-2,即回归直线方程经过点(6,-2),故C正确;对于D,由新的回归直线经过点,列方程组解得=10,=-2,所以新的回归直线方程为Y=-2X+10,斜率由-1变成-2,所以剔除该异常点后,随X值的增加相关变量Y值减小的速度变大,故D错误.故选BC.
13.(双空题)某校数学建模兴趣小组收集了一组恒温动物体重W(单位:克)与脉搏率f(单位:心跳次数/分钟)的对应数据(Wi,fi)(i=1,2,…,8),根据生物学常识和散点图得出f与W近似满足f=cWk(c,k为参数).令xi=ln Wi,yi=ln fi,计算得=8,=5,=214.由最小二乘法得线性回归方程为=x+7.4,则k=    ;c=    .
答案:-0.3 e7.4
解析:因为f=cWk,两边取对数可得ln f=ln c+kln W,又xi=ln Wi,yi=ln fi,因为回归直线方程=x+7.4必过样本中心点,所以5=8+7.4,解得=-0.3,所以k==-0.3,ln c=7.4,即c=e7.4.
14.(15分)随着全球新能源汽车市场的快速发展,在政策的有力推动下,中国的国产新能源汽车迅速崛起.新能源汽车因其较高的驱动效率、较低的用车成本、安静舒适的驾驶体验等优势深受部分车主的支持与欢迎.未来在努力解决充电效率较低、续航里程限制、低温环境影响等主要困难之后,新能源汽车市场有望得到进一步发展.某地区近些年的新能源汽车的年销量不断攀升,如下表所示:
年份 2018 2019 2020 2021 2022 2023
年份代码(x) 1 2 3 4 5 6
新能源汽车年销量(y)/万辆 y1 y2 y3 y4 y5 y6
(1)若该地区新能源汽车车主的年龄X(单位:岁)近似服从正态分布N,其中年龄X∈(61,69]的有5万人,试估计该地区新能源汽车车主共有多少万人?(结果按四舍五入取整数)
(2)已知变量X与Y之间的相关系数r=,请求出Y关于X的线性回归方程Y=X+,并据此估计2025年时,该地区新能源汽车的年销量.
参考公式与数据:
①若随机变量X~N,则P(μ-σ≤X≤μ+σ)≈0.682 6;P(μ-2σ≤X≤μ+2σ)≈0.954 4;P(μ-3σ≤X≤μ+3σ)≈0.997 4;
②r=,
=;
③=210,=30.
解:(1)由题意得,该地区新能源汽车车主的年龄X(单位:岁)近似服从正态分布N,
则μ=45,σ=8,所以61=μ+2σ,69=μ+3σ,
P=P=[P(μ-3σ≤X≤μ+3σ)-P(μ-2σ≤X≤μ+2σ)]≈=0.021 5,
所以估计该地区新能源汽车车主共有≈233万人.
(2)由题意得,==,
所以(xi-)2=++(3-)2+++=,
由已知,r===,
所以=××=35,
所以===2,
所以=-=30-2×=23,
所以Y关于X的线性回归方程为Y=2X+23,
2025年对应的年份代码x=8,所以当x=8时,Y=2×8+23=39,
估计2025年时,该地区新能源汽车的年销量约为39万辆.
(15、16,每小题5分,共10分)
15.已知由样本数据组成的一个样本,得到经验回归方程为Y=2X+0.75,且=1.125,增加两个样本点和后,得到新样本的经验回归方程为Y=3X+,则=(  )
A.1.1 B.0.5
C.0.8 D.-1.1
答案:C
解析:因为xi=1.125×8=9,所以增加两个样本点后x的平均数为=0.8;因为=2×1.125+0.75=3,所以yi=3×8=24,所以增加两个样本点后y的平均数为=3.2,所以3.2=3×0.8+,解得=0.8.故选C.
16.现调查某地区某种野生动物的数量,将该地区分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样本,调查得到样本数据,其中xi,yi分别表示第i个样本的植物覆盖面积(单位:公顷)和这种野生动物的数量,构造向量a=(x1-,x2-,…,x20-),b=,其中=,=,并计算得xi=60,yi=1 200,xiyi=4 400,|a|=9,=100,由教材中的知识,我们知道n对数据的相关系数r=cos 〈a,b〉,则上述数据的相关系数r=    .
答案:
解析:由题干数据,xi=60,yi=1 200可得=3,=60,根据夹角公式的定义,r=cos〈a,b〉=,而a·b=(xi-)(yi-),根据=(xiyi-yi-xi+·)=xiyi-yi-xi+·=xiyi-20·-20·+20·=xiyi-20·=4 400-20×3×60=800,于是r=cos 〈a,b〉===.
21世纪教育网(www.21cnjy.com)

展开更多......

收起↑

资源列表