资源简介 第8章第1节 成对数据的相关分析题型1 变量间的相关关系 题型2 样本相关系数▉题型1 变量间的相关关系【知识点的认识】1、变量之间的相关关系两个变量之间的关系可能是确定的关系(如:函数关系),或非确定性关系.当自变量取值一定时,因变量也确定,则为确定关系;当自变量取值一定时,因变量带有随机性,这种变量之间的关系称为相关关系.相关关系是一种非确定性关系,如长方体的高与体积之间的关系就是确定的函数关系,而人的身高与体重的关系,学生的数学成绩好坏与物理成绩的关系等都是相关关系.2、线性相关和非线性相关:两个变量之间的相关关系又可分为线性相关和非线性相关,如果所有的样本点都落在某一函数曲线的附近,则变量之间具有相关关系(不确定性的关系),如果所有样本点都落在某一直线附近,那么变量之间具有线性相关关系,相关关系只说明两个变量在数量上的关系,不表明他们之间的因果关系,也可能是一种伴随关系.3、两个变量相关关系与函数关系的区别和联系(1)相同点:两者均是两个变量之间的关系.(2)不同点:函数关系是一种确定的关系,如匀速直线运动中时间t与路程s的关系,相关关系是一种非确定的关系,如一块农田的小麦产量与施肥量之间的关系,函数关系是两个随机变量之间的关系,而相关关系是非随机变量与随机变量之间的关系;函数关系式一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.1.观察下列散点图,其中两个变量的相关关系判断一定正确的是( )A.图1中y与x呈正相关B.图2中y与x不相关C.图3中y与x的线性相关系数小于0D.图1中y与x的线性相关系数小于图2中y与x的线性相关系数2.下列两个变量之间的关系是相关关系的是( )A.正方形的边长a与对角线长lB.球的体积v与表面积sC.一个人的身高h与学习成绩fD.平均学习时间t与学习成绩f(多选)3.下列各组的两个变量中呈正相关关系的是( )A.学生的身高与学生的化学成绩B.汽车行驶的里程与它的耗油量C.人的年龄与年收入D.水果的重量与它的总价4.为了比较甲、乙、丙、丁四组数据的线性相关性强弱,某同学分别计算了甲、乙、丙、丁四组数据的线性相关系数,求得数值依次为﹣0.98,﹣0.27,0.36,0.93,则这四组数据中线性相关性最强的是 组数据.5.为了比较甲、乙、丙、丁四组数据的线性相关性的强弱,某人分别计算了甲、乙、丙、丁四组数据的线性相关系数,其数值分别为﹣0.95,0.87,0.58,0.92,则这四组数据中线性相关性最强的是 组数据.▉题型2 样本相关系数【知识点的认识】1、概念:相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度.于是,著名统计学家卡尔 皮尔逊设计了统计指标﹣﹣相关系数.相关系数是用以反映变量之间相关关系密切程度的统计指标.相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数.相关系数用r表示,计算公式为其中:当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关;|r|≤1,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.3、残差:相关指数R2用来刻画回归的效果,其计算公式是在含有一个解释变量的线性模型中,R2恰好等于相关系数r的平方.显然,R2取值越大,意味着残差平方和越小,也就是模型的拟合效果越好.【解题方法点拨】建立回归模型的基本步骤:(1)确定研究对象,明确哪个变量是解释变量,哪个是预报变量;(2)画出解释变量和预报变量的散点图,观察它们之间的关系;(3)由经验确定回归方程的类型(如观察到数据呈线性关系,则选用线性回归方程:x);(4)按一定规则估计回归方程中的参数(如最小二乘法);(5)得出结果分析残差图是否有异常,若存在异常,则检查数据是否有误,或模型是否适当.当回归方程不是形如:x时,我们称之为非线性回归方程.6.下列说法中,正确的个数是( )①回归直线至少经过一个样本点;②可以用相关系数r刻画两个变量的相关程度强弱,r值越大两个变量的相关程度越强;③残差图中,残差点所在的水平带状区域越窄,则回归方程的预报精确度越高;④根据分类变量X与Y的成对样本数据,计算得到χ2=4.712,根据小概率值α=0.05的χ2独立性检验(x0.05=3.841),可判断X与Y有关联,此推断犯错误的概率不超过0.05.A.1 B.2 C.3 D.47.对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是( )A.r2<r4<0<r3<r1 B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1 D.r2<r4<0<r1<r38.根据变量x,y的观测数据(xi,yi)(i=1,2,…,15),绘制成散点图1;根据变量u,v的观测数据(ui,vi)(i=1,2,…,15),绘制成散点图2.若用线性回归进行分析,设r1表示变量x,y的样本相关系数,r2表示变量u,v的样本相关系数,则( )A.﹣1<r1<r2<0 B.﹣1<r2<r1<0C.0<r1<r2<1 D.0<r2<r1<19.已知5对成对样本数据(1,2),(3,3),(5,6),(7,9),(9,10)成线性关系,样本相关系数为r1,去掉1对数据(5,6)后,剩下的4对成对样本数据成线性关系,样本相关系数为r2,则( )A.r1=r2B.r1>r2C.r1<r2D.r1,r2的大小无法确定10.对两个变量x,y进行线性相关性检验,得线性相关系数r1=﹣0.9872,对两个变量u,v进行线性相关性检验,得线性相关系数r2=0.9384,则下列判断正确的是( )A.变量x与变量y正相关,变量u与变量v负相关,变量x与变量y的线性相关性更强B.变量x与变量y负相关,变量u与变量v正相关,变量x与变量y的线性相关性更强C.变量x与变量y正相关,变量u与变量v负相关,变量u与变量v的线性相关性更强D.变量x与变量y负相关,变量u与变量v正相关,变量u与变量v的线性相关性更强(多选)11.研究变量x,y的相关关系时,得到了n组成对数据(xi,yi),i=1,2,…,n,先进行一次线性回归分析,接着增加一组成对数据(xn+1,yn+1),其中,再重新进行一次线性回归分析,则第二次线性回归分析后( )参考公式:①回归直线x,,②相关系数.A.相关系数不变B.变量x与y的相关性变强C.线性回归方程不变D.回归系数不变(多选)12.某同学用搜集到的六组数据(xi,yi)(i=1,2, ,6)绘制了如下散点图,在这六个点中去掉B点后重新进行回归分析,则下列说法正确的是( )A.决定系数R2变小B.相关系数r的绝对值越趋于1C.残差平方和变小D.解释变量x与预报变量y相关性变弱(多选)13.下列关于相关系数r的叙述中,正确的是( )A.﹣1≤r≤1B.当y与x正相关时,r>0C.r=0时,两个变量之间的回归直线方程没有价值D.当成对数据构成的点都在回归直线上时,则r=114.对于两个事件M,N,若0<P(M)<1,0<P(M)<1,称为事件M,N的相关系数.在春暖花开、风和叶翠的季节,小张、小李、小王、小刘四人都计划周末去踏青,现有四个可出游的景点:南湖、净月、莲花山和天定山,若事件M:净月景点至少有一人:事件N:莲花山和天定山两个景点恰有一个景点无人,则事件M,N的相关系数为 .15.“南澳牡蛎”是我国地理标志产品,产量高、肉质肥、营养好,素有“海洋牛奶精品”的美誉.2024年该基地考虑增加人工投入,现有以往的人工投入增量x(人)与年收益增量y(万元)的数据如表:人工投入增量x(人) 2 3 4 6 8 10 13年收益增量y(万元) 13 22 31 42 50 56 58该基地为了预测人工投入增量为16人时的年收益增量,建立了y与x的两个回归模型:模型①:由最小二乘公式可求得y与x的线性回归方程:4.1x+11.8;模型②:由散点图的样本点分布,可以认为样本点集中在曲线:y的附近,对人工投入增量x做变换,令,则y,且有,,,.(1)(i)根据所给的统计量,求模型②中y关于x的回归方程(精确到0.1);(ii)根据下列表格中的数据,比较两种模型的决定系数R2,并选择拟合精度更高、更可靠的模型,预测人工投入增量为16人时的年收益增量.回归模型 模型① 模型②回归方程 4.1x+11.8 y182.4 79.2(2)根据养殖规模与以往的养殖经验,产自某南澳牡蛎养殖基地的单个“南澳牡蛎”质量(克)在正常环境下服从正态分布N(32,16).购买10只该基地的“南澳牡蛎”,会买到质量小于20g的牡蛎的可能性有多大?附:若随机变量Z~N(μ,σ2),则P(μ﹣3σ<Z<μ+3σ)=0.9974,0.998710≈0.9871;样本(ti,yt)(i=1,2,…,n)的最小二乘估计公式为:,.第8章第1节 成对数据的相关分析题型1 变量间的相关关系 题型2 样本相关系数▉题型1 变量间的相关关系【知识点的认识】1、变量之间的相关关系两个变量之间的关系可能是确定的关系(如:函数关系),或非确定性关系.当自变量取值一定时,因变量也确定,则为确定关系;当自变量取值一定时,因变量带有随机性,这种变量之间的关系称为相关关系.相关关系是一种非确定性关系,如长方体的高与体积之间的关系就是确定的函数关系,而人的身高与体重的关系,学生的数学成绩好坏与物理成绩的关系等都是相关关系.2、线性相关和非线性相关:两个变量之间的相关关系又可分为线性相关和非线性相关,如果所有的样本点都落在某一函数曲线的附近,则变量之间具有相关关系(不确定性的关系),如果所有样本点都落在某一直线附近,那么变量之间具有线性相关关系,相关关系只说明两个变量在数量上的关系,不表明他们之间的因果关系,也可能是一种伴随关系.3、两个变量相关关系与函数关系的区别和联系(1)相同点:两者均是两个变量之间的关系.(2)不同点:函数关系是一种确定的关系,如匀速直线运动中时间t与路程s的关系,相关关系是一种非确定的关系,如一块农田的小麦产量与施肥量之间的关系,函数关系是两个随机变量之间的关系,而相关关系是非随机变量与随机变量之间的关系;函数关系式一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.1.观察下列散点图,其中两个变量的相关关系判断一定正确的是( )A.图1中y与x呈正相关B.图2中y与x不相关C.图3中y与x的线性相关系数小于0D.图1中y与x的线性相关系数小于图2中y与x的线性相关系数【答案】D【解答】解:对于选项A,图1中y随x增大而减小,y与x呈负相关,故A错误;对于选项B,图2中各点较分散,y与x的相关性不强,不能肯定不相关,故B错误;对于选项C,图3中y随x增大而增大,y与x呈正相关,相关系数大于0,故C错误;对于选项D,图1与图2,y与x都呈负相关,所以相关系数为负,而图1中y与x的线性相关性较强,所以图1中y与x的线性相关系数小于图2中y与x的线性相关系数,故D正确.故选:D.2.下列两个变量之间的关系是相关关系的是( )A.正方形的边长a与对角线长lB.球的体积v与表面积sC.一个人的身高h与学习成绩fD.平均学习时间t与学习成绩f【答案】D【解答】解:对于A,正方形的边长a与对角线长l的关系为l,两个变量是函数关系,故A错误;对于B,球的体积v与表面积s的关系为s,两个变量是函数关系,故B错误;对于C,一个人的身高h与学习成绩f不相关,故C错误;对于D,平均学习时间t与学习成绩f具有相关关系,故D正确.故选:D.(多选)3.下列各组的两个变量中呈正相关关系的是( )A.学生的身高与学生的化学成绩B.汽车行驶的里程与它的耗油量C.人的年龄与年收入D.水果的重量与它的总价【答案】BD【解答】解:学生的身高与学生的化学成绩没有必然联系,故A错误;汽车行驶的里程与它的耗油量,呈正相关关系,故B正确;人的年龄与年收入没有必然联系,故C错误;水果的重量与它的总价,呈正相关关系,故D正确.故选:BD.4.为了比较甲、乙、丙、丁四组数据的线性相关性强弱,某同学分别计算了甲、乙、丙、丁四组数据的线性相关系数,求得数值依次为﹣0.98,﹣0.27,0.36,0.93,则这四组数据中线性相关性最强的是 甲 组数据.【答案】甲【解答】解:相关系数r的绝对值|r|越接近于1,则数据的线性相关性越强,∵|﹣0.98|>|0.93|>|0.36|>|﹣0.27|,∴这四组数据中线性相关性最强的是甲组数据.故答案为:甲.5.为了比较甲、乙、丙、丁四组数据的线性相关性的强弱,某人分别计算了甲、乙、丙、丁四组数据的线性相关系数,其数值分别为﹣0.95,0.87,0.58,0.92,则这四组数据中线性相关性最强的是 甲 组数据.【答案】甲.【解答】解:根据题意,因为线性相关系数的绝对值越大,线性相关性越强,甲、乙、丙、丁四组数据的线性相关系数分别为﹣0.95,0.87,0.58,0.92,所以甲组数据的线性相关性最强.故答案为:甲.▉题型2 样本相关系数【知识点的认识】1、概念:相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度.于是,著名统计学家卡尔 皮尔逊设计了统计指标﹣﹣相关系数.相关系数是用以反映变量之间相关关系密切程度的统计指标.相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数.相关系数用r表示,计算公式为其中:当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关;|r|≤1,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.3、残差:相关指数R2用来刻画回归的效果,其计算公式是在含有一个解释变量的线性模型中,R2恰好等于相关系数r的平方.显然,R2取值越大,意味着残差平方和越小,也就是模型的拟合效果越好.【解题方法点拨】建立回归模型的基本步骤:(1)确定研究对象,明确哪个变量是解释变量,哪个是预报变量;(2)画出解释变量和预报变量的散点图,观察它们之间的关系;(3)由经验确定回归方程的类型(如观察到数据呈线性关系,则选用线性回归方程:x);(4)按一定规则估计回归方程中的参数(如最小二乘法);(5)得出结果分析残差图是否有异常,若存在异常,则检查数据是否有误,或模型是否适当.当回归方程不是形如:x时,我们称之为非线性回归方程.6.下列说法中,正确的个数是( )①回归直线至少经过一个样本点;②可以用相关系数r刻画两个变量的相关程度强弱,r值越大两个变量的相关程度越强;③残差图中,残差点所在的水平带状区域越窄,则回归方程的预报精确度越高;④根据分类变量X与Y的成对样本数据,计算得到χ2=4.712,根据小概率值α=0.05的χ2独立性检验(x0.05=3.841),可判断X与Y有关联,此推断犯错误的概率不超过0.05.A.1 B.2 C.3 D.4【答案】B【解答】解:对于①,回归直线不一定经过样本点,故①错误;对于②,可以用相关系数r刻画两个变量的相关程度强弱,r的绝对值越接近于1两个变量的相关程度越强,故②错误;对于③,残差图中,残差点所在的水平带状区域越窄,则回归方程的预报精确度越高,故③正确;对于④,因为χ2=4.712>x0.05=3.841,则应拒绝假设,可判断X与Y有关联,此推断犯错误的概率不超过0.05,故④正确.故选:B.7.对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是( )A.r2<r4<0<r3<r1 B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1 D.r2<r4<0<r1<r3【答案】A【解答】解:由给出的四组数据的散点图可以看出,图1和图3是正相关,相关系数大于0,图2和图4是负相关,相关系数小于0,图1和图2的点相对更加集中,所以相关性要强,所以r1接近于1,r2接近于﹣1,由此可得r2<r4<r3<r1.故选:A.8.根据变量x,y的观测数据(xi,yi)(i=1,2,…,15),绘制成散点图1;根据变量u,v的观测数据(ui,vi)(i=1,2,…,15),绘制成散点图2.若用线性回归进行分析,设r1表示变量x,y的样本相关系数,r2表示变量u,v的样本相关系数,则( )A.﹣1<r1<r2<0 B.﹣1<r2<r1<0C.0<r1<r2<1 D.0<r2<r1<1【答案】A【解答】解:由图象可以看出y随x的增大而减小,v随u的增大而减小,所以y与x负相关,v与u负相关,即r1<0,r2<0,故C错误,D错误,另外对比两图,容易看出y与x的相关性更强,故r1更接近于﹣1,所以﹣1<r1<r2<0,故A正确.故选:A.9.已知5对成对样本数据(1,2),(3,3),(5,6),(7,9),(9,10)成线性关系,样本相关系数为r1,去掉1对数据(5,6)后,剩下的4对成对样本数据成线性关系,样本相关系数为r2,则( )A.r1=r2B.r1>r2C.r1<r2D.r1,r2的大小无法确定【答案】B【解答】解:由题意可知,,,所以样本点中心是(5,6),所以去掉样本点中心后,数据的相关性变弱,画出散点图如下:由散点图可知,相关系数是正数,即r1>r2.故选:B.10.对两个变量x,y进行线性相关性检验,得线性相关系数r1=﹣0.9872,对两个变量u,v进行线性相关性检验,得线性相关系数r2=0.9384,则下列判断正确的是( )A.变量x与变量y正相关,变量u与变量v负相关,变量x与变量y的线性相关性更强B.变量x与变量y负相关,变量u与变量v正相关,变量x与变量y的线性相关性更强C.变量x与变量y正相关,变量u与变量v负相关,变量u与变量v的线性相关性更强D.变量x与变量y负相关,变量u与变量v正相关,变量u与变量v的线性相关性更强【答案】B【解答】解:由线性相关系数r1=﹣0.9872<0知x与y负相关,由线性相关系数r2=0.9384>0知u与v正相关,|r1|>|r2|,故变量x与y的线性相关性比u与v的线性相关性强.故选:B.(多选)11.研究变量x,y的相关关系时,得到了n组成对数据(xi,yi),i=1,2,…,n,先进行一次线性回归分析,接着增加一组成对数据(xn+1,yn+1),其中,再重新进行一次线性回归分析,则第二次线性回归分析后( )参考公式:①回归直线x,,②相关系数.A.相关系数不变B.变量x与y的相关性变强C.线性回归方程不变D.回归系数不变【答案】ACD【解答】解:设,,则,,所以,对于A,B,由,,则相关系数,可得相关系数不变,变量的相关性不变,故A正确,B错误;对于C,D,因为.且回归直线过点(,),所以,均不变,所以线性回归方程不变,故C和D均正确.故选:ACD.(多选)12.某同学用搜集到的六组数据(xi,yi)(i=1,2, ,6)绘制了如下散点图,在这六个点中去掉B点后重新进行回归分析,则下列说法正确的是( )A.决定系数R2变小B.相关系数r的绝对值越趋于1C.残差平方和变小D.解释变量x与预报变量y相关性变弱【答案】BC【解答】解:从图中可以看出B点较其他点,偏离直线远,故去掉B点后,回归效果更好,决定系数R2越接近于1,所拟合的回归方程越优,故去掉B点后,R2变大,越趋于1,A错误;相关系数|r|越趋于1,拟合的回归方程越优,故去掉B点后,故相关系数r的绝对值越趋于1,B正确;残差平方和变小拟合效果越好,故C正确;解释变量x与预报变量y相关性增强,D错误.故选:BC.(多选)13.下列关于相关系数r的叙述中,正确的是( )A.﹣1≤r≤1B.当y与x正相关时,r>0C.r=0时,两个变量之间的回归直线方程没有价值D.当成对数据构成的点都在回归直线上时,则r=1【答案】ABC【解答】解:对于A,根据相关系数的概念,可得﹣1≤r≤1,A正确;对于B,变量y与x正相关,r>0,B正确;对于C,当r=0时,两个变量之间的相关性非常弱,所以两个变量之间的回归直线方程没有价值,所以C正确;对于D,当成对数据构成的点都在回归直线上时,可得r=±1,所以D错误.故选:ABC.14.对于两个事件M,N,若0<P(M)<1,0<P(M)<1,称为事件M,N的相关系数.在春暖花开、风和叶翠的季节,小张、小李、小王、小刘四人都计划周末去踏青,现有四个可出游的景点:南湖、净月、莲花山和天定山,若事件M:净月景点至少有一人:事件N:莲花山和天定山两个景点恰有一个景点无人,则事件M,N的相关系数为 .【答案】.【解答】解:事件M:净月景点至少有一人,则事件:净月景点无人,则,所以,事件N:莲花山和天定山两个景点恰有一个景点无人,所以,所以,事件MN:净月景点至少有一人,莲花山和天定山两个景点恰有一个景点无人,,所以.故答案为:.15.“南澳牡蛎”是我国地理标志产品,产量高、肉质肥、营养好,素有“海洋牛奶精品”的美誉.2024年该基地考虑增加人工投入,现有以往的人工投入增量x(人)与年收益增量y(万元)的数据如表:人工投入增量x(人) 2 3 4 6 8 10 13年收益增量y(万元) 13 22 31 42 50 56 58该基地为了预测人工投入增量为16人时的年收益增量,建立了y与x的两个回归模型:模型①:由最小二乘公式可求得y与x的线性回归方程:4.1x+11.8;模型②:由散点图的样本点分布,可以认为样本点集中在曲线:y的附近,对人工投入增量x做变换,令,则y,且有,,,.(1)(i)根据所给的统计量,求模型②中y关于x的回归方程(精确到0.1);(ii)根据下列表格中的数据,比较两种模型的决定系数R2,并选择拟合精度更高、更可靠的模型,预测人工投入增量为16人时的年收益增量.回归模型 模型① 模型②回归方程 4.1x+11.8 y182.4 79.2(2)根据养殖规模与以往的养殖经验,产自某南澳牡蛎养殖基地的单个“南澳牡蛎”质量(克)在正常环境下服从正态分布N(32,16).购买10只该基地的“南澳牡蛎”,会买到质量小于20g的牡蛎的可能性有多大?附:若随机变量Z~N(μ,σ2),则P(μ﹣3σ<Z<μ+3σ)=0.9974,0.998710≈0.9871;样本(ti,yt)(i=1,2,…,n)的最小二乘估计公式为:,.【答案】(1)(i)21.3x﹣14.4;(ii)答案见解析(2)0.0129.【解答】解:(1)(i)∵,,,,∴,,∴模型②中y关于x的回归方程为21.3x﹣14.4.(ii)由表格中的数据,有182.4>79.2,即,模型①的R2小于模型②,说明回归模型②刻画的拟合效果更好.当x=16时,模型②的收益增量的预测值为(万元),这个结果比模型①的预测精度更高、更可靠.(2)由已知单个“南澳牡蛎”质量ξ~N(32,16),则μ=32,σ=4,由正态分布的对称性可知,,设购买10只该基地的“南澳牡蛎”,其中质量小于20g的牡蛎为X只,∴X~B(10,0,0013),∴P(X≥1)=1﹣P(X=0)=1﹣(1﹣0.0013)10=1﹣0.9871=0.0129,∴这10只“南澳牡蛎”中,会买到质量小于20g的牡蛎的可能性仅为0.0129. 展开更多...... 收起↑ 资源列表 第8章第1节 成对数据的相关分析 高中数学选择性必修二同步复习讲义(沪教版2020)(原卷版).docx 第8章第1节 成对数据的相关分析 高中数学选择性必修二同步复习讲义(沪教版2020)(解析版).docx