资源简介 (共83张PPT)§2 成对数据的线性相关性 第七章 统计案例学习目标1.结合实例,了解样本相关系数的统计含义,通过对相关系 数、正相关、负相关等概念的学习,培养数学抽象的核心 素养.2.会计算样本相关系数,了解样本相关系数与标准化数据向 量夹角的关系,借助相关系数r的应用,提升数学建模与数 据分析的核心素养.任务一 相关系数问题导思问题1.给定两个随机变量(X,Y)的n组成对数据:(x1,y1),(x2,y2),…,(xn,yn),利用最小二乘法,一定可以得到Y关于X的线性回归方程吗?都有实际意义吗?提示:一定,未必,随机变量Y与X不一定具有线性关系.问题2.观察如下散点图: 能判断出图①与图②对应的成对数据有线性关系吗?哪组变量线性关系更强?提示:可以判断出图①与图②对应的成对数据线性相关,但图①与图②对应的成对数据的线性关系哪个更强,从散点图难以区别.新知构建2.相关性的分类(1)当______时,两个随机变量正相关;(2)当______时,两个随机变量负相关;(3)当______时,两个随机变量线性不相关.r>0r<0r=0微提醒(链教材P244例1)某企业坚持以市场需求为导向,合理配置生产资源,不断探索、改革销售模式.下表是该企业每月生产的一种核心产品的产量X(件)与相应的生产总成本Y(万元)的五组对照数据:典例1产量x(件) 1 2 3 4 5生产总成本y(万元) 3 7 8 10 12规律方法对点练1.近年来,随着社会对教育越来越重视,家庭的平均教育支出呈现出逐年增长的趋势,下表反映了2020-2024年某市家庭平均教育支出占家庭总支出的比例Y(百分比)与年份编号X之间的关系:年份 2020 2021 2022 2023 2024x 1 2 3 4 5y 21 26 40 49 540.976 返回任务二 线性相关性强弱的判断问题导思问题3.变量U和变量V的样本相关系数为r1=0.984,变量X和变量Y的样本相关系数为r2=-0.834,结合如下相应散点图,思考两组变量间的线性相关性强弱如何?提示:两组变量都具有较强的线性相关性,其中变量U和变量V的线性相关性更强一些.新知构建样本(线性)相关系数r与线性相关程度的关系(1)r的取值范围为___________;(2)|r|值越接近1,随机变量之间的线性相关程度越____;(3)|r|值越接近0,随机变量之间的线性相关程度越____.[-1,1]强弱微提醒判断变量之间的线性相关关系,一般用散点图,但在作图中,由于存在误差,有时很难判断这些点是否分布在一条直线的附近,从而就很难判断两个变量之间是否具有线性相关关系,此时就可利用线性相关系数r来判断.|r|越接近1,它们的散点图越接近一条直线,两个变量之间的相关关系越强.(1)对于X与Y两个变量,有四组样本数据,分别算出它们的线性相关系数r(如下):-0.87,0.72,-0.78,0.85,则线性相关性最强的是A.-0.87 B.0.72C.-0.78 D.0.85典例2√线性相关系数的绝对值越接近1,线性相关性越强,则线性相关性最强的是-0.87.故选A.√√√对于A,从散点图可以看出变量Y随X的增大而减小,去掉B点也是负相关;故A正确;对于B、C,去掉B点后,相关系数r变的更小更趋于-1,故B错误,C正确;对于D,去掉B点后,变量X与变量Y的线性相关性增强,故D正确.故选ACD.规律方法判断线性相关强弱的基本方法1.散点图:散点图只是粗略作出判断,所有的点越接近直线,相关性越强.2.样本相关系数:样本相关系数能够较准确的判断相关的程度,其绝对值越接近于1,相关性越强.√对点练2.(1)对四组数据进行统计,获得以下散点图,设①②③④图对应的相关系数分别为r1,r2,r3,r4,则r1,r2,r3,r4的大小关系为A.r2<r4<r3<r1B.r2<r4<r1<r3C.r4<r2<r3<r1D.r4<r2<r1<r3由散点图可知,图①,③是正相关,图②,④是负相关,且图①,②比③,④的线性相关性更强,所以r2<r4<r3<r1.故选A.1返回任务三 成对数据的线性相关性的实际应用典例3规律方法课堂小结任务再现 1.样本相关系数的计算.2.线性相关关系程度的判断.3.成对数据的线性相关性的实际应用方法提炼 公式法、数形结合思想易错警示 样本相关系数的大小与变量间线性相关程度的对应关系混淆返回随堂评价√1.变量X,Y的散点图如图所示,那么X,Y之间的样本相关系数r最接近的值为A.1B.-0.5C.0D.0.5根据变量X,Y的散点图,得X,Y之间的线性相关关系非常不明显,所以样本相关系数r最接近的值应为0.故选C.√2.已知变量x与y的回归直线方程为y=3x-1,变量y与z负相关,则A.x与y负相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z正相关D.x与y正相关,x与z负相关根据回归方程y=3x-1可知变量x与y正相关,又变量y与z负相关,由正相关、负相关的定义可知,x与z负相关.故选D.3.变量X与Y相对应的成对数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的成对数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则r1,r2,0的大小关系为 .r2<0<r1对于变量X与Y而言,Y随X的增大而增大,故变量Y与X正相关,即r1>0;对于变量U与V而言,V随U的增大而减小,故变量V与U负相关,即r2<0,故r2<0<r1.X 5 10 15 20 25Y 103 105 110 111 1140.983 返回课时分层评价√1.有变量x与变量m,n,o,p对应的4组样本数据,计算出它们的线性相关系数分别为r1=-0.92,r2=-0.71,r3=0.84,r4=0.51,则与x线性相关关系最弱的是A.m B.nC.o D.p√2.(2025·山西大同高二期中)对两个变量x,y进行线性相关性检验,得线性相关系数r1=0.958,对两个变量u,v进行线性相关性检验,得线性相关系数r2=-0.974,则下列判断正确的是A.变量x与变量y正相关,变量u与变量v负相关,变量x与变量y的线性相关性更强B.变量x与变量y正相关,变量u与变量v负相关,变量u与变量v的线性相关性更强C.变量x与变量y负相关,变量u与变量v正相关,变量u与变量v的线性相关性更强D.变量x与变量y负相关,变量u与变量v正相关,变量x与变量y的线性相关性更强√ √√x 1 2 3 4 5y 0.5 0.9 1 1.1 1.5 √√√1.818 2 8.戏曲相关部门特意进行了“喜爱看秦腔”的调查,发现年龄段与爱看秦腔的人数比存在较好的线性相关关系,年龄在[40,44],[45,49],[50,54],[55,59]的爱看人数比分别是0.10,0.18,0.20,0.30.现用各年龄段的中间值代表年龄段,如42代表[40,44].由此求得爱看人数比Y关于年龄段X的回归直线方程为Y=kX-0.418 8.那么,年龄在[60,64]的爱看人数比为 .0.35x 30 35 40 45 50y 18 14 10 8 5-0.992 i 1 2 3 4 5-10 -5 0 5 107 3 -1 -3 -6-70 -15 0 -15 -60 10.(15分)2024年初,冰城哈尔滨充分利用得天独厚的冰雪资源,成为2024年第一个“火出圈”的网红城市,冰城通过创新营销展示了丰富的文化活动,成功提升了吸引力和知名度,为其他旅游城市提供了宝贵经验,从2024年1月1日至5日,哈尔滨太平国际机场接待外地游客数量如下:x(日) 1 2 3 4 5y(万人) 45 50 60 65 80(1)计算x,y的相关系数r(计算结果精确到0.01),并判断是否可以认为日期与游客人数的相关性很强;√11.已知两个变量X和Y之间具有线性相关性,甲、乙两个同学各自独立地做了10次和15次试验,并且利用线性回归的方法求得回归直线分别为l1和l2,已知两个人在试验中发现对变量X的观测数据的平均数都为s,对变量Y的观测数据的平均数都是t,则下列说法正确的是A.l1与l2一定有公共点(s,t)B.l1与l2相交,但交点一定不是(s,t)C.l1与l2必定平行D.l1与l2必定重合√√ -0.3e7.4 14.(15分)随着全球新能源汽车市场的快速发展,在政策的有力推动下,中国的国产新能源汽车迅速崛起.新能源汽车因其较高的驱动效率、较低的用车成本、安静舒适的驾驶体验等优势深受部分车主的支持与欢迎.未来在努力解决充电效率较低、续航里程限制、低温环境影响等主要困难之后,新能源汽车市场有望得到进一步发展.某地区近些年的新能源汽车的年销量不断攀升,如下表所示:年份 2018 2019 2020 2021 2022 2023年份代码(x) 1 2 3 4 5 6新能源汽车年销量(y)/万辆 y1 y2 y3 y4 y5 y6年份 2018 2019 2020 2021 2022 2023年份代码(x) 1 2 3 4 5 6新能源汽车年销量(y)/万辆 y1 y2 y3 y4 y5 y6年份 2018 2019 2020 2021 2022 2023年份代码(x) 1 2 3 4 5 6新能源汽车年销量(y)/万辆 y1 y2 y3 y4 y5 y6年份 2018 2019 2020 2021 2022 2023年份代码(x) 1 2 3 4 5 6新能源汽车年销量(y)/万辆 y1 y2 y3 y4 y5 y6年份 2018 2019 2020 2021 2022 2023年份代码(x) 1 2 3 4 5 6新能源汽车年销量(y)/万辆 y1 y2 y3 y4 y5 y6年份 2018 2019 2020 2021 2022 2023年份代码(x) 1 2 3 4 5 6新能源汽车年销量(y)/万辆 y1 y2 y3 y4 y5 y6√ 返回§2 成对数据的线性相关性学习目标 1.结合实例,了解样本相关系数的统计含义,通过对相关系数、正相关、负相关等概念的学习,培养数学抽象的核心素养. 2.会计算样本相关系数,了解样本相关系数与标准化数据向量夹角的关系,借助相关系数r的应用,提升数学建模与数据分析的核心素养.任务一 相关系数问题1.给定两个随机变量(X,Y)的n组成对数据:(x1,y1),(x2,y2),…,(xn,yn),利用最小二乘法,一定可以得到Y关于X的线性回归方程吗?都有实际意义吗?提示:一定,未必,随机变量Y与X不一定具有线性关系.问题2.观察如下散点图:能判断出图①与图②对应的成对数据有线性关系吗?哪组变量线性关系更强?提示:可以判断出图①与图②对应的成对数据线性相关,但图①与图②对应的成对数据的线性关系哪个更强,从散点图难以区别.1.样本(线性)相关系数一般地,设随机变量X,Y的n组观测值分别为(x1,y1),(x2,y2),…,(xn,yn),记r=,称r为随机变量X和Y的样本(线性)相关系数.2.相关性的分类(1)当r>0时,两个随机变量正相关;(2)当r<0时,两个随机变量负相关;(3)当r=0时,两个随机变量线性不相关.[微提醒] 为运算方便,还可利用下面的公式:r=.(链教材P244例1)某企业坚持以市场需求为导向,合理配置生产资源,不断探索、改革销售模式.下表是该企业每月生产的一种核心产品的产量X(件)与相应的生产总成本Y(万元)的五组对照数据:产量x(件) 1 2 3 4 5生产总成本y(万元) 3 7 8 10 12试求Y与X的相关系数,并利用相关系数说明Y与X是正相关还是负相关?(结果保留两位小数)参考公式:r=.参考数据:≈10.7.解:==3,==8,==,==,=×+×+×+×+×=21,故相关系数r=≈0.98,因为r≈0.98>0,所以Y与X是正相关.样本相关系数的计算步骤第一步:求出,的值;第二步:求出(xi-)(yi-),(xi-)2,的值;第三步:代入公式计算得结果.注意:(1)散点图可以直观地判断两变量是否具有线性关系.(2)样本相关系数的计算运算量较大,注意运算的准确性.对点练1.近年来,随着社会对教育越来越重视,家庭的平均教育支出呈现出逐年增长的趋势,下表反映了2020-2024年某市家庭平均教育支出占家庭总支出的比例Y(百分比)与年份编号X之间的关系:年份 2020 2021 2022 2023 2024x 1 2 3 4 5y 21 26 40 49 54则Y与X的样本相关系数r= (保留3位小数).附:≈3.2,≈28.5,r=.答案:0.976解析:由题意可知:==3,==38,可得(xi-)(yi-)=89,(xi-)2=10,(yi-)2=814,所以r==≈≈0.976.任务二 线性相关性强弱的判断问题3.变量U和变量V的样本相关系数为r1=0.984,变量X和变量Y的样本相关系数为r2=-0.834,结合如下相应散点图,思考两组变量间的线性相关性强弱如何?提示:两组变量都具有较强的线性相关性,其中变量U和变量V的线性相关性更强一些.样本(线性)相关系数r与线性相关程度的关系(1)r的取值范围为[-1,1];(2)|r|值越接近1,随机变量之间的线性相关程度越强;(3)|r|值越接近0,随机变量之间的线性相关程度越弱.[微提醒] 判断变量之间的线性相关关系,一般用散点图,但在作图中,由于存在误差,有时很难判断这些点是否分布在一条直线的附近,从而就很难判断两个变量之间是否具有线性相关关系,此时就可利用线性相关系数r来判断.|r|越接近1,它们的散点图越接近一条直线,两个变量之间的相关关系越强.(1)对于X与Y两个变量,有四组样本数据,分别算出它们的线性相关系数r(如下):-0.87,0.72,-0.78,0.85,则线性相关性最强的是( )A.-0.87 B.0.72C.-0.78 D.0.85(2)(多选题)某同学根据变量X与Y的六组数据(i=1,2,…,6)绘制了如下散点图,并选择一元线性回归模型进行拟合,若去掉B点,则下列说法正确的是( )A.变量X与Y负相关没变B.相关系数r越趋于1C.相关系数r变小了D.Y与X线性相关程度变强答案:(1)A (2)ACD解析:(1)线性相关系数的绝对值越接近1,线性相关性越强,则线性相关性最强的是-0.87.故选A.(2)对于A,从散点图可以看出变量Y随X的增大而减小,去掉B点也是负相关;故A正确;对于B、C,去掉B点后,相关系数r变的更小更趋于-1,故B错误,C正确;对于D,去掉B点后,变量X与变量Y的线性相关性增强,故D正确.故选ACD.判断线性相关强弱的基本方法1.散点图:散点图只是粗略作出判断,所有的点越接近直线,相关性越强.2.样本相关系数:样本相关系数能够较准确的判断相关的程度,其绝对值越接近于1,相关性越强.对点练2.(1)对四组数据进行统计,获得以下散点图,设①②③④图对应的相关系数分别为r1,r2,r3,r4,则r1,r2,r3,r4的大小关系为( )A.r2<r4<r3<r1 B.r2<r4<r1<r3C.r4<r2<r3<r1 D.r4<r2<r1<r3(2)在研究线性回归模型时,样本数据(i=1,2,3,…,n)所对应的点均在直线y=x+3上,用r表示两个变量X与Y的线性相关程度,则r= .答案:(1)A (2)1解析:(1)由散点图可知,图①,③是正相关,图②,④是负相关,且图①,②比③,④的线性相关性更强,所以r2<r4<r3<r1.故选A.(2)由已知样本数据(i=1,2,3,…,n)所对应的点均在直线y=x+3上,则=1,又>0,所以满足正相关,即r=1.任务三 成对数据的线性相关性的实际应用随着全国新能源汽车推广力度的加大,新能源汽车市场迎来了前所未有的新机遇.某公司生产了A,B两种不同型号的新能源汽车,为了解大众对生产的新能源汽车的接受程度,公司在某地区采用随机抽样的方式进行调查,对A,B两种不同型号的新能源汽车进行综合评估(得分越高接受程度就越高),综合得分按照,,,[80,100]分组,绘制成评估综合得分的频率分布直方图(如图):(1)以综合得分的平均数为依据,判断A,B两种不同型号的新能源汽车哪种型号更受大众喜欢;(2)为进一步了解该地区新能源汽车销售情况,某机构根据统计数据,用最小二乘法得到该地区新能源汽车销量y(单位:万台)关于年份x的线性回归方程为Y=4.7X-9 495.2,且销量y的方差为=50,年份x的方差为=2,求y与x的相关系数r,并据此判断该地区新能源汽车销量y与年份x的相关性强弱.参考公式:①线性回归方程:Y=X+,其中=,=-;②相关系数r=(若|r|∈,则相关性较弱;若|r|∈,则相关性较强;若|r|∈,则相关性很强).解:(1)设A,B两种不同型号的新能源汽车的综合得分的平均数为,,由题可知,=30×0.1+50×0.3+70×0.4+90×0.2=64,=30×0.3+50×0.2+70×0.4+90×0.1=56,由于>,所以A型号的新能源汽车更受大众喜欢.(2)相关系数r==·=·,所以r=4.7×=4.7×=0.94>0.75,故该地区新能源汽车销量y与年份x的相关性很强.1.当相关系数|r|越接近1时,两个变量的相关关系越强,当相关系数|r|越接近0时,两个变量的相关关系越弱;当r=0时,只表明成对数据间没有线性相关关系,但不排除它们之间有其他相关关系.2.若数据x1,x2,…,xn及y1,y2,…,yn的方差分别为,,则样本线性相关系数公式可变形为r=·.对点练3.某学校对高三(1)班50名学生第一次模拟考试的数学成绩和化学成绩统计得到数据如下:数学成绩的方差为=10,化学成绩的方差为=8,=500 500,其中xi,yi(i∈N且1≤i≤50)分别表示这50名学生的数学成绩和化学成绩,y关于x的线性回归方程为Y=0.4X+t.(1)求y与x的样本相关系数r;(2)从概率统计规律来看,本次考试高三(1)班学生数学成绩η服从正态分布N,用样本平均数作为μ的估计值,用样本方差作为σ2的估计值.试估计该校共800名高三学生中,数学成绩位于区间的人数.附:①线性回归方程Y=+X中:=,=-;②样本相关系数r=;③若η~N,则P≈0.68,P(μ-2σ≤η≤μ+2σ)≈0.95;④≈3.16.解:(1)因为==10,=(yi-)2=8,所以=500,=400,又===0.4,所以=200,所以r===.(2)因为=-50=500,=500 500,所以500 500-50=500,解得=100,即μ=100,因为σ2=10,所以σ≈3.16,所以数学成绩η服从正态分布N,因为P=P=P+P=P+P≈×0.68+×0.95=0.815,所以该校高三学生数学成绩位于区间(96.84,106.32)的大约有800×0.815=652人.任务再现 1.样本相关系数的计算.2.线性相关关系程度的判断.3.成对数据的线性相关性的实际应用方法提炼 公式法、数形结合思想易错警示 样本相关系数的大小与变量间线性相关程度的对应关系混淆1.变量X,Y的散点图如图所示,那么X,Y之间的样本相关系数r最接近的值为( )A.1 B.-0.5C.0 D.0.5答案:C解析:根据变量X,Y的散点图,得X,Y之间的线性相关关系非常不明显,所以样本相关系数r最接近的值应为0.故选C.2.已知变量x与y的回归直线方程为y=3x-1,变量y与z负相关,则( )A.x与y负相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z正相关D.x与y正相关,x与z负相关答案:D解析:根据回归方程y=3x-1可知变量x与y正相关,又变量y与z负相关,由正相关、负相关的定义可知,x与z负相关.故选D.3.变量X与Y相对应的成对数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的成对数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则r1,r2,0的大小关系为 .答案:r2<0<r1解析:对于变量X与Y而言,Y随X的增大而增大,故变量Y与X正相关,即r1>0;对于变量U与V而言,V随U的增大而减小,故变量V与U负相关,即r2<0,故r2<0<r1.4.两个变量满足如下表关系:X 5 10 15 20 25Y 103 105 110 111 114则两个变量线性相关系数为 .(保留3位小数)附:≈3.16,≈9.01答案:0.983解析:xi=75,yi=543,=1 375,xiyi=8 285,=59 051,=15,=108.6.r==≈0.983.课时分层评价48 成对数据的线性相关性(时间:60分钟 满分:100分)(1—9,每小题5分,共45分)1.有变量x与变量m,n,o,p对应的4组样本数据,计算出它们的线性相关系数分别为r1=-0.92,r2=-0.71,r3=0.84,r4=0.51,则与x线性相关关系最弱的是( )A.m B.nC.o D.p答案:D解析:相关系数的绝对值越小,变量间的线性相关性越弱,因为<<<,所以与x线性相关关系最弱的是p.故选D.2.(2025·山西大同高二期中)对两个变量x,y进行线性相关性检验,得线性相关系数r1=0.958,对两个变量u,v进行线性相关性检验,得线性相关系数r2=-0.974,则下列判断正确的是( )A.变量x与变量y正相关,变量u与变量v负相关,变量x与变量y的线性相关性更强B.变量x与变量y正相关,变量u与变量v负相关,变量u与变量v的线性相关性更强C.变量x与变量y负相关,变量u与变量v正相关,变量u与变量v的线性相关性更强D.变量x与变量y负相关,变量u与变量v正相关,变量x与变量y的线性相关性更强答案:B解析:由线性相关系数r1=0.958>0知x与y正相关,由线性相关系数r2=-0.974<0知u与v负相关,又<,所以变量u与变量v的线性相关性比变量x与变量y的线性相关性更强.故选B.3.(2025·广东珠海高二月考)一唱片公司欲知唱片费用x(十万元)与唱片销售量y(千张)之间的关系,从其所发行的唱片中随机抽选了10张,得如下的资料:xi=28,=303.4,yi=75,=598.5,xiyi=237,则y与x的相关系数r的绝对值为( )(相关系数:r=)A.0.3 B.0.4C.0.5 D.0.6答案:A解析:因为xi=28,yi=75,所以=2.8,=7.5,|r|===0.3.故选A.4.已知变量x与变量y线性相关,x与y的样本相关系数为-0.8,且由观测数据算得样本平均数=5,=6,则由该观测数据算得经验回归方程可能是( )A.Y=0.8X+2 B.Y=X+1C.Y=-0.8X+9 D.Y=-X+11答案:D解析:因为x与y的样本相关系数为-0.8<0,可知x与y为负相关,故A、B错误;又因为经验回归方程过样本中心点,对于Y=-0.8X+9,则-0.8×5+9=5≠6,故C错误;对于Y=-X+11,则-5+11=6,故D正确.故选D.5.为了研究y关于x的线性相关关系,收集了5组样本数据(见表):若已求得一元线性回归方程Y=X+0.34,则下列选项中正确的是( )x 1 2 3 4 5y 0.5 0.9 1 1.1 1.5A.=0.2B.去掉样本点后,x与y的样本相关系数r不会改变C.当x=8时,y的预测值为2.2D.x与y的样本是负相关答案:B解析:==3,==1,所以样本点的中心坐标为,将它代入Y=X+0.34,得3+0.34=1,解得=0.22,故A错误;由相关系数公式可知,去掉样本点(3,1)后,x与y的样本相关系数r不会改变,故B正确;当x=8时,y的预测值为y=0.22×8+0.34=2.1,故C错误;因为>0,所以x与y的样本是正相关,故D错误.故选B.6.(多选题)(2025·四川成都高二期中)对于样本相关系数,下列说法正确的是( )A.样本相关系数可以用来判断成对样本数据相关的正负性B.样本相关系数可以是正的,也可以是负的C.样本相关系数越大,成对样本数据的线型相关程度越强D.样本相关系数r∈答案:ABD解析:对于A,样本相关系数可以用来判断成对样本数据相关的正负性,故A正确;对于B,样本相关系数可以是正的,也可以是负的,故B正确;对于C,样本相关系数的绝对值越大,成对样本数据的线性相关程度也越强,故C错误;对于D,样本相关系数r∈,故D正确.故选ABD.7.某白酒酿造企业市场部对该企业9月份的产品销量y(单位:千箱)与单位成本x(单位:元)的资料进行线性回归分析,结果如下:=,=71,=79,xiyi=1 481.则销量每增加1 000箱,单位成本下降 元(结果保留5位有效数字).附:回归直线的斜率和截距的最小二乘法公式分别为:=,=-.答案:1.818 2解析:由题意知===-,=-=71+×=,所以线性回归方程为Y=-X+,所以销量每增加1 000箱,单位成本下降≈1.818 2元.8.戏曲相关部门特意进行了“喜爱看秦腔”的调查,发现年龄段与爱看秦腔的人数比存在较好的线性相关关系,年龄在[40,44],[45,49],[50,54],[55,59]的爱看人数比分别是0.10,0.18,0.20,0.30.现用各年龄段的中间值代表年龄段,如42代表[40,44].由此求得爱看人数比Y关于年龄段X的回归直线方程为Y=kX-0.418 8.那么,年龄在[60,64]的爱看人数比为 .答案:0.35解析:由题意可得各年龄段的值为42,47,52,57,则==49.5,爱看人数比的平均值==0.195,代入Y=kX-0.418 8,得0.195=49.5k-0.418 8,即k=0.012 4,所以Y=0.012 4X-0.418 8,取X=62,得Y=0.012 4×62-0.418 8=0.35.所以年龄在[60,64]的爱看人数比为0.35.9.经调查,某种手机流量包的定价x(单位:元/月)和购买人数y(单位:万人)的关系如下表:x 30 35 40 45 50y 18 14 10 8 5计算该流量包的定价x与购买人数y的相关系数r= .(结果保留3位小数)附:≈8.062.答案:-0.992解析:根据表格中的数据,可得=(30+35+40+45+50)=40,=(18+14+10+8+5)=11.可列表如下:i 1 2 3 4 5xi- -10 -5 0 5 10yi- 7 3 -1 -3 -6-70 -15 0 -15 -60则(xi-)(yi-)=-160,=×=,因此相关系数r==≈-0.992.10.(15分)2024年初,冰城哈尔滨充分利用得天独厚的冰雪资源,成为2024年第一个“火出圈”的网红城市,冰城通过创新营销展示了丰富的文化活动,成功提升了吸引力和知名度,为其他旅游城市提供了宝贵经验,从2024年1月1日至5日,哈尔滨太平国际机场接待外地游客数量如下:x(日) 1 2 3 4 5y(万人) 45 50 60 65 80(1)计算x,y的相关系数r(计算结果精确到0.01),并判断是否可以认为日期与游客人数的相关性很强;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程.参考公式:==,=-,r=,参考数据:≈1.732.解:(1)因为==3,==60,所以=xiyi-5=(1×45+2×50+3×60+4×65+5×80)-5×3×60=85,=+++(4-3)2+=10,=++(60-60)2++=750,所以r==≈≈0.98,由此可以认为两者的相关性很强.(2)由(1)知=85,=10,所以===8.5.因为=-=60-8.5×3=34.5,所以回归方程为Y=8.5X+34.5.(11—13,每小题5分,共15分)11.已知两个变量X和Y之间具有线性相关性,甲、乙两个同学各自独立地做了10次和15次试验,并且利用线性回归的方法求得回归直线分别为l1和l2,已知两个人在试验中发现对变量X的观测数据的平均数都为s,对变量Y的观测数据的平均数都是t,则下列说法正确的是( )A.l1与l2一定有公共点(s,t)B.l1与l2相交,但交点一定不是(s,t)C.l1与l2必定平行D.l1与l2必定重合答案:A解析:由于回归直线Y=X+恒过(,)点,又两人对变量X的观测数据的平均值为s,对变量Y的观测数据的平均值为t,所以l1和l2恒过点(s,t).故选A.12.(多选题)已知由样本数据(i=1,2,3,…,10)组成的一个样本,得到回归直线方程为Y=-X+2,且=4.剔除一个偏离直线较远的异常点后,得到新的回归直线经过点(7,-4).则下列说法正确的是( )A.相关变量x,y具有正相关关系B.剔除该异常点后,样本相关系数的绝对值变大C.剔除该异常点后的回归直线方程经过点D.剔除该异常点后,随x值增加相关变量y值减小速度变小答案:BC解析:对于A,由回归直线方程为Y=-X+2,可得=-1<0,所以相关变量x,y具有负相关关系,故A不正确;对于B,剔除异常点后,变量的拟合程度变大,所以样本相关系数的绝对值变大,故B正确;对于C,由回归直线方程为Y=-X+2,且=4,可得=-2,剔除一个偏离直线较远的异常点后,得到==6,==-2,即回归直线方程经过点(6,-2),故C正确;对于D,由新的回归直线经过点,列方程组解得=10,=-2,所以新的回归直线方程为Y=-2X+10,斜率由-1变成-2,所以剔除该异常点后,随X值的增加相关变量Y值减小的速度变大,故D错误.故选BC.13.(双空题)某校数学建模兴趣小组收集了一组恒温动物体重W(单位:克)与脉搏率f(单位:心跳次数/分钟)的对应数据(Wi,fi)(i=1,2,…,8),根据生物学常识和散点图得出f与W近似满足f=cWk(c,k为参数).令xi=ln Wi,yi=ln fi,计算得=8,=5,=214.由最小二乘法得线性回归方程为=x+7.4,则k= ;c= .答案:-0.3 e7.4解析:因为f=cWk,两边取对数可得ln f=ln c+kln W,又xi=ln Wi,yi=ln fi,因为回归直线方程=x+7.4必过样本中心点,所以5=8+7.4,解得=-0.3,所以k==-0.3,ln c=7.4,即c=e7.4.14.(15分)随着全球新能源汽车市场的快速发展,在政策的有力推动下,中国的国产新能源汽车迅速崛起.新能源汽车因其较高的驱动效率、较低的用车成本、安静舒适的驾驶体验等优势深受部分车主的支持与欢迎.未来在努力解决充电效率较低、续航里程限制、低温环境影响等主要困难之后,新能源汽车市场有望得到进一步发展.某地区近些年的新能源汽车的年销量不断攀升,如下表所示:年份 2018 2019 2020 2021 2022 2023年份代码(x) 1 2 3 4 5 6新能源汽车年销量(y)/万辆 y1 y2 y3 y4 y5 y6(1)若该地区新能源汽车车主的年龄X(单位:岁)近似服从正态分布N,其中年龄X∈(61,69]的有5万人,试估计该地区新能源汽车车主共有多少万人?(结果按四舍五入取整数)(2)已知变量X与Y之间的相关系数r=,请求出Y关于X的线性回归方程Y=X+,并据此估计2025年时,该地区新能源汽车的年销量.参考公式与数据:①若随机变量X~N,则P(μ-σ≤X≤μ+σ)≈0.682 6;P(μ-2σ≤X≤μ+2σ)≈0.954 4;P(μ-3σ≤X≤μ+3σ)≈0.997 4;②r=,=;③=210,=30.解:(1)由题意得,该地区新能源汽车车主的年龄X(单位:岁)近似服从正态分布N,则μ=45,σ=8,所以61=μ+2σ,69=μ+3σ,P=P=[P(μ-3σ≤X≤μ+3σ)-P(μ-2σ≤X≤μ+2σ)]≈=0.021 5,所以估计该地区新能源汽车车主共有≈233万人.(2)由题意得,==,所以(xi-)2=++(3-)2+++=,由已知,r===,所以=××=35,所以===2,所以=-=30-2×=23,所以Y关于X的线性回归方程为Y=2X+23,2025年对应的年份代码x=8,所以当x=8时,Y=2×8+23=39,估计2025年时,该地区新能源汽车的年销量约为39万辆.(15、16,每小题5分,共10分)15.已知由样本数据组成的一个样本,得到经验回归方程为Y=2X+0.75,且=1.125,增加两个样本点和后,得到新样本的经验回归方程为Y=3X+,则=( )A.1.1 B.0.5C.0.8 D.-1.1答案:C解析:因为xi=1.125×8=9,所以增加两个样本点后x的平均数为=0.8;因为=2×1.125+0.75=3,所以yi=3×8=24,所以增加两个样本点后y的平均数为=3.2,所以3.2=3×0.8+,解得=0.8.故选C.16.现调查某地区某种野生动物的数量,将该地区分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样本,调查得到样本数据,其中xi,yi分别表示第i个样本的植物覆盖面积(单位:公顷)和这种野生动物的数量,构造向量a=(x1-,x2-,…,x20-),b=,其中=,=,并计算得xi=60,yi=1 200,xiyi=4 400,|a|=9,=100,由教材中的知识,我们知道n对数据的相关系数r=cos 〈a,b〉,则上述数据的相关系数r= .答案:解析:由题干数据,xi=60,yi=1 200可得=3,=60,根据夹角公式的定义,r=cos〈a,b〉=,而a·b=(xi-)(yi-),根据=(xiyi-yi-xi+·)=xiyi-yi-xi+·=xiyi-20·-20·+20·=xiyi-20·=4 400-20×3×60=800,于是r=cos 〈a,b〉===.21世纪教育网(www.21cnjy.com) 展开更多...... 收起↑ 资源列表 北师大版高中数学选择性必修第一册第七章统计案例§2成对数据的线性相关性学案.docx 北师大版高中数学选择性必修第一册第七章统计案例§2成对数据的线性相关性课件.ppt