资源简介 2 成对数据的线性相关性课时目标1.结合实例,会通过相关系数比较多组成对数据的相关性.2.进一步掌握一元线性回归模型参数的统计意义,会用相关统计软件.了解非线性回归模型.1.相关系数一般地,设随机变量X,Y的n组观测值分别为(x1,y1),(x2,y2),…,(xn,yn),记r==,称r为随机变量X和Y的样本____________.2.相关系数r的性质(1)r的取值范围为__________;(2)|r|值越接近1,随机变量之间的线性相关程度越____;(3)|r|值越接近0,随机变量之间的线性相关程度越____.3.相关性的分类(1)当______时,两个随机变量正相关;(2)当______时,两个随机变量负相关;(3)当______时,两个随机变量线性不相关.题型(一) 相关系数的计算[例1] 减脂是现在很热门的话题,人体内的脂肪会受年龄的影响而不同,为了解脂肪和年龄是否有关系,某兴趣小组得到年龄和脂肪观测值的如下数据:年龄 23 27 39 41 45 50 53 56脂肪值 9.5 17.8 21.2 25.9 27.5 28.2 29.6 31.4并计算得≈41.8,≈23.9,x=14 930,y≈4 941,xiyi=8 562.5.求年龄和脂肪值的样本相关系数(精确到0.01).听课记录: (1)散点图可以直观地判断两变量是否具有线性关系.(2)样本相关系数的计算运算量较大,注意运算的准确性. [针对训练]1.一般来说,一个人的身高越高,他的手就越大.为调查这一问题,对某校10名高一男生的身高X与右手长度Y进行测量得到如下数据(单位:cm):身高X 168 170 171 172 174 176 178 178 180 181右手长度Y 19.0 20.0 21.0 21.5 21.0 22.0 24.0 23.0 22.5 23.0(1)画出散点图,判断Y与X是否具有近似的线性关系?(2)如果具有近似的线性关系,求出样本相关系数的大小(结果保留两位小数).题型(二) 相关系数的意义[例2] 经过分层随机抽样得到16名学生高一和高二结束时的数学考试成绩(满分:100分),如下表所示.学生编号 1 2 3 4 5 6 7 8高一 84 85 71 74 60 58 51 82高二 84 88 72 73 68 62 60 85学生编号 9 10 11 12 13 14 15 16高一 87 69 79 80 83 84 63 54高二 88 73 84 82 83 83 66 67(1)绘制这些成对数据的散点图;(2)计算学生高一和高二数学成绩的样本相关系数.根据此样本相关系数,你能得出什么结论?听课记录: |r|的大小反映成对样本数据之间线性相关程度的强弱,但当|r|=1时,表明成对样本数据都落在一条直线上;当r=0时,只表明成对样本数据间没有线性相关关系,但不排除它们之间有其他相关关系. [针对训练]2.第24届冬奥会于2022年2月4日在北京市和张家口市联合举行,此项赛事大大激发了国人冰雪运动的热情.某滑雪场在冬奥会期间开业,下表统计了该滑雪场开业第X天的滑雪人数(单位:百人)的数据:天数代码X 1 2 3 4 5 6 7滑雪人数Y/百人 11 13 16 15 20 21 23根据第1至7天的数据分析,可用线性回归模型拟合Y与X的关系,请用样本相关系数加以说明(保留两位有效数字).参考数据:xiyi=532,≈57.5.参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其样本相关系数r=.题型(三) 可线性化的回归分析[例3] 某公司在市场调查中,发现某产品的单位定价x(单位:万元/吨)对月销售量y(单位:吨)有影响.对不同定价xi和月销售量yi(i=1,2,…,8)数据作了初步处理,x z xiyi ziyi0.24 43 9 0.164 820 68 3 956表中z=.经过分析发现可以用y=+来拟合y与x的关系.(1)求y关于x的回归方程;(2)若生产1吨产品的成本为1.6万元,那么预计价格定位多少时,该产品的月利润取最大值,求此时的月利润.参考公式:==,=-.听课记录:求非线性回归方程的步骤(1)确定变量,作出散点图.(2)根据散点图,选择恰当的拟合函数.(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.(4)分析拟合效果,通过计算样本相关系数来判断拟合效果.(5)根据相应的变换,写出非线性回归方程. [针对训练]3.下表为收集到的一组数据:X 21 23 25 27 29 32 35Y 7 11 21 24 66 115 325(1)作出X与Y的散点图,并猜测X与Y之间的关系;(2)建立X与Y的回归模型;(3)利用所得模型,预报X=40时Y的值.2 成对数据的线性相关性1.(线性)相关系数 2.(1)[-1,1] (2)强 (3)弱 3.(1)r>0 (2)r<0 (3)r=0[题型(一)][例1] 解:r=≈=≈≈0.96.[针对训练]1.解:(1)散点图如图所示.可见身高与右手长度之间的总体趋势为一条直线,即Y与X具有近似的线性关系.(2)根据题表数据计算得=174.8,=21.7,x=305 730,y=4 729.5,xiyi=37 986.所以r===≈0.89.[题型(二)][例2] 解:(1)绘制散点图如图所示.(2)记高一成绩为变量X,高二成绩为变量Y,则有==72.75,==76.125,因为xiyi-16 =(84×84+85×88+…+54×67)-16×72.75×76.125=1 672.5,x-162=(842+852+…+542)-16×72.752=2 207,y-162=(842+882+…+672)-16×76.1252=1 361.75,所以r==≈0.965.因为样本相关系数非常接近于1,所以表明高一、高二的数学成绩有很强的相关关系.[针对训练]2.解:因为=×(1+2+3+4+5+6+7)=4,=×(11+13+16+15+20+21+23)=17,所以 (xi-)(yi-)=xiyi-7 =532-7×4×17=56,所以r=≈≈0.97,所以样本相关系数r的绝对值接近于1,所以可以推断X和Y这两个变量线性相关,且相关程度很强.[题型(三)][例3] 解:(1)令z=,则y=+z,则===5,=-=-2,∴y=-2+5z,∴y=-2+,即y关于x的回归方程为y=-2+.(2)月利润T=y(x-1.6)=(x-1.6)=8.2-≤8.2-2=0.2(当且仅当2x=,即x=2时,取等号).故预计价格定位2万元/吨时,该产品的月利润取最大值,最大值为0.2万元.[针对训练]3.解:(1)作出散点图如图所示,从散点图可以看出X与Y不具有近似的线性关系,根据已有知识可以发现样本点分布在某一条指数型函数曲线Y=c1e的周围,其中c1,c2为待定的参数.(2)对Y=c1e两边取对数,得ln Y=ln c1+c2X,令Z=ln Y,则有变换后的样本点应分布在直线Z=bX+a(a=ln c1,b=c2)的周围,这样就可以利用线性回归模型来建立Y与X之间的非线性回归方程了,数据可以转化为X 21 23 25 27 29 32 35Z 1.946 2.398 3.045 3.178 4.190 4.745 5.784求得线性回归方程为Z=0.272X-3.848,∴Y=e0.272X-3.848.(3)当X=40时,Y=e0.272×40-3.848≈1 131.(共70张PPT)§2成对数据的线性相关性(深化课—题型研究式教学)课时目标1.结合实例,会通过相关系数比较多组成对数据的相关性.2.进一步掌握一元线性回归模型参数的统计意义,会用相关统计软件.3.了解非线性回归模型.(线性)相关系数2.相关系数r的性质(1)r的取值范围为________;(2)|r|值越接近1,随机变量之间的线性相关程度越____;(3)|r|值越接近0,随机变量之间的线性相关程度越____.[-1,1]强弱3.相关性的分类(1)当______时,两个随机变量正相关;(2)当______时,两个随机变量负相关;(3)当______时,两个随机变量线性不相关.r>0r<0r=0CONTENTS目录123题型(一) 相关系数的计算题型(二) 相关系数的意义题型(三) 可线性化的回归分析4课时跟踪检测题型(一) 相关系数的计算01[例1] 减脂是现在很热门的话题,人体内的脂肪会受年龄的影响而不同,为了解脂肪和年龄是否有关系,某兴趣小组得到年龄和脂肪观测值的如下数据:年龄 23 27 39 41 45 50 53 56脂肪值 9.5 17.8 21.2 25.9 27.5 28.2 29.6 31.4方法技巧(1)散点图可以直观地判断两变量是否具有线性关系.(2)样本相关系数的计算运算量较大,注意运算的准确性.1.一般来说,一个人的身高越高,他的手就越大.为调查这一问题,对某校10名高一男生的身高X与右手长度Y进行测量得到如下数据(单位:cm):针对训练身高X 168 170 171 172 174 176 178 178 180 181右手长度Y 19.0 20.0 21.0 21.5 21.0 22.0 24.0 23.0 22.5 23.0(1)画出散点图,判断Y与X是否具有近似的线性关系?(2)如果具有近似的线性关系,求出样本相关系数的大小(结果保留两位小数).解:(1)散点图如图所示.可见身高与右手长度之间的总体趋势为一条直线,即Y与X具有近似的线性关系.题型(二) 相关系数的意义02[例2] 经过分层随机抽样得到16名学生高一和高二结束时的数学考试成绩(满分:100分),如下表所示.学生编号 1 2 3 4 5 6 7 8高一 84 85 71 74 60 58 51 82高二 84 88 72 73 68 62 60 85 学生编号 9 10 11 12 13 14 15 16高一 87 69 79 80 83 84 63 54高二 88 73 84 82 83 83 66 67(1)绘制这些成对数据的散点图;(2)计算学生高一和高二数学成绩的样本相关系数.根据此样本相关系数,你能得出什么结论?解:(1)绘制散点图如图所示.(2)记高一成绩为变量X,高二成绩为变量Y,方法技巧|r|的大小反映成对样本数据之间线性相关程度的强弱,但当|r|=1时,表明成对样本数据都落在一条直线上;当r=0时,只表明成对样本数据间没有线性相关关系,但不排除它们之间有其他相关关系. 2.第24届冬奥会于2022年2月4日在北京市和张家口市联合举行,此项赛事大大激发了国人冰雪运动的热情.某滑雪场在冬奥会期间开业,下表统计了该滑雪场开业第X天的滑雪人数(单位:百人)的数据:针对训练天数代码X 1 2 3 4 5 6 7滑雪人数Y/百人 11 13 16 15 20 21 23根据第1至7天的数据分析,可用线性回归模型拟合Y与X的关系,请用样本相关系数加以说明(保留两位有效数字).题型(三) 可线性化的回归分析03[例3] 某公司在市场调查中,发现某产品的单位定价x(单位:万元/吨)对月销售量y(单位:吨)有影响.对不同定价xi和月销售量yi(i=1,2,…,8)数据作了初步处理,方法技巧求非线性回归方程的步骤(1)确定变量,作出散点图.(2)根据散点图,选择恰当的拟合函数.(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.(4)分析拟合效果,通过计算样本相关系数来判断拟合效果.(5)根据相应的变换,写出非线性回归方程.3.下表为收集到的一组数据:针对训练X 21 23 25 27 29 32 35Y 7 11 21 24 66 115 325X 21 23 25 27 29 32 35Z 1.946 2.398 3.045 3.178 4.190 4.745 5.784求得线性回归方程为Z=0.272X-3.848,∴Y=e0.272X-3.848.(3)当X=40时,Y=e0.272×40-3.848≈1 131.课时跟踪检测041345678910111213142√1567891011121314234√√√15678910111213143423.对四组数据进行统计,获得如下散点图,关于其样本相关系数的比较,说法正确的是( )1567891011121314342A.r4C.r2解析:由题图中散点的分布趋势知,r1,r3>0,r2,r4<0,由题图散点的分布状态知,|r1|>|r3|,|r2|>|r4|,所以r1>r3>0>r4>r2.√1567891011121314342√4.用模型y=cekx拟合一组数据时,为了求出回归方程,设z=ln y,将其变换后得到线性回归方程z=0.5x+2,则c=( )A.0.5 B.e0.5C.2 D.e2解析:对y=cekx两边取对数,可得ln y=ln(cekx)=ln c+ln ekx=ln c+kx,故z=ln c+kx,∵z=0.5x+2,∴ln c=2,解得c=e2.故选D.15678910111213143425.已知变量X,Y之间的线性回归方程为Y=-0.4X+7.6,且变量X,Y之间的一组相关数据如表所示,则下列说法错误的是( )X 6 8 10 12Y 6 m 3 2√156789101112131434215678910111213143421567891011121314342-1156789101112131434215678910111213143427.为了比较甲、乙、丙、丁四组数据的线性相关性强弱,某同学分别计算了甲、乙、丙、丁四组数据的线性相关系数,求得数值依次为-0.98,-0.27,0.36,0.93,则这四组数据中线性相关性最强的是_____组数据.甲1567891011121314342一、三15678910111213143429.5名学生的数学和物理成绩如下表,画出散点图,并判断它们是否具有相关关系. 学生 学科 A B C D E数学 80 75 70 65 60物理 70 66 68 64 621567891011121314342解:把数学成绩作为横坐标,把相应的物理成绩作为纵坐标,在直角坐标系中描点(xi,yi)(i=1,2,…,5),作出散点图如图所示.1567891011121314342156789101112131434210.维尼纶纤维的耐热水性能的好坏可以用指标“缩醛化度”Y(单位:克分子%)来衡量,这个指标越高,耐热水性能也越好,而甲醛浓度是影响缩醛化度的重要因素,在生产中常用甲醛浓度X(单位:g·L-1)去控制这一指标,为此必须找出它们之间的关系.现安排一批实验,获得如下数据:1567891011121314342甲醛浓度/g·L-1 18 20 22 24 26 28 30缩醛化度/克分子% 26.86 28.35 28.75 28.87 29.75 30.00 30.361567891011121314342解:(1)散点图如图所示.1567891011121314342i xi yi xiyi1 18 26.86 324 483.482 20 28.35 400 5673 22 28.75 484 632.54 24 28.87 576 692.885 26 29.75 676 773.56 28 30.00 784 8407 30 30.36 900 910.80总和 168 202.94 4 144 4 900.16156789101112131434215678910111213143421567891011121314342X 1 2 3 4Y e e3 e4 e6√1567891011121314342X 1 2 3 4Z 1 3 4 6156789101112131434212.[多选]某学校校医研究温差X(℃)与本校当天新增感冒人数Y(人)的关系,该医生记录了5天的数据,且样本中心点为(8,25).由于保管不善,记录的5天数据中有两个数据看不清楚,现用m,n代替,已知18≤m≤24,26≤n≤34,则下列结论正确的是( )X 5 6 8 9 12Y 17 m 25 n 351567891011121314342√√1567891011121314342解析:因为线性回归方程过数据的样本中心点(8,25),所以在m,n确定的条件下去掉样本点(8,25),样本相关系数r不变,所以A错误;1567891011121314342156789101112131434215678910111213143421567891011121314342156789101112131434215678910111213143421567891011121314342(1)请从样本相关系数的角度,分析哪一个模型拟合度更好?(2)根据(1)的选择及表中数据,建立y关于x的回归方程.(系数精确到0.01)15678910111213143421567891011121314342课时跟踪检测(六十) 成对数据的线性相关性A级——综合提能1.变量X,Y的散点图如图所示,那么X,Y之间的样本相关系数r最接近的值为( )A.1 B.-0.5C.0 D.0.52.[多选]对于回归分析,下列说法正确的是( )A.在回归分析中,变量间的关系是非确定性关系,因此因变量不能由自变量唯一确定B.样本(线性)相关系数可以是正的或负的C.回归分析中,如果r=-1,说明x与y之间完全线性相关D.样本相关系数r∈(-1,1)3.对四组数据进行统计,获得如下散点图,关于其样本相关系数的比较,说法正确的是( )A.r4C.r24.用模型y=cekx拟合一组数据时,为了求出回归方程,设z=ln y,将其变换后得到线性回归方程z=0.5x+2,则c=( )A.0.5 B.e0.5C.2 D.e25.已知变量X,Y之间的线性回归方程为Y=-0.4X+7.6,且变量X,Y之间的一组相关数据如表所示,则下列说法错误的是( )X 6 8 10 12Y 6 m 3 2A.变量X,Y之间呈现负相关关系B.m的值等于5C.变量X,Y之间的样本相关系数r=-0.4D.由表格数据知,该回归直线必过点(9,4)6.已知成对样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥3)中x1,x2,…,xn互不相等,且所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-x+1上,则这组成对样本数据的样本相关系数r=________.7.为了比较甲、乙、丙、丁四组数据的线性相关性强弱,某同学分别计算了甲、乙、丙、丁四组数据的线性相关系数,求得数值依次为-0.98,-0.27,0.36,0.93,则这四组数据中线性相关性最强的是________组数据.8.已知某个样本点中的变量X,Y线性相关,样本相关系数r>0,平移坐标系,则在以(,)为坐标原点的坐标系下的散点图,大多数的点都落在第______象限.9.5名学生的数学和物理成绩如下表,画出散点图,并判断它们是否具有相关关系.学生学科 A B C D E数学 80 75 70 65 60物理 70 66 68 64 6210.维尼纶纤维的耐热水性能的好坏可以用指标“缩醛化度”Y(单位:克分子%)来衡量,这个指标越高,耐热水性能也越好,而甲醛浓度是影响缩醛化度的重要因素,在生产中常用甲醛浓度X(单位:g·L-1)去控制这一指标,为此必须找出它们之间的关系.现安排一批实验,获得如下数据:甲醛浓度/g·L-1 18 20 22 24 26 28 30缩醛化度/克分子% 26.86 28.35 28.75 28.87 29.75 30.00 30.36(1)画出散点图;(2)求线性回归方程;(3)求样本相关系数r.B级——应用创新11.已知变量Y关于X的回归方程为Y=eX-0.5,其一组数据如下表所示:X 1 2 3 4Y e e3 e4 e6若X=5,则预测Y的值可能为( )A.e5 B.eC.e7 D.e12.[多选]某学校校医研究温差X(℃)与本校当天新增感冒人数Y(人)的关系,该医生记录了5天的数据,且样本中心点为(8,25).由于保管不善,记录的5天数据中有两个数据看不清楚,现用m,n代替,已知18≤m≤24,26≤n≤34,则下列结论正确的是( )X 5 6 8 9 12Y 17 m 25 n 35A.在m,n确定的条件下,去掉样本点(8,25),则样本相关系数r增大B.在m,n确定的条件下,经过拟合,发现基本符合线性回归方程Y=2.6X+,则=4C.在m,n确定的条件下,经过拟合,发现基本符合线性回归方程Y=2.6X+,则当X=12时,Y=35.4D.事件“m=20,n=28”发生的概率为13.近日“脆皮大学生”话题在网上引发热议,更多的人开始关注青少年身体素质.身体健康指数H与体质测试成绩Y有一定的相关关系,随机收集某大学20名学生的数据得 (hi-)(yi-)=38,hi=80,yi=1 256,H与Y的方差满足DH=DY=2.(1)求H与Y的样本相关系数r的值;(2)建立Y关于H的线性回归方程,并预测H=6时体质测试成绩.14.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备加大研发资金投入,为了解年研发资金投入额x(单位:亿元)对年盈利额y(单位:亿元)的影响,通过对“十二五”和“十三五”规划发展10年期间年研发资金投入额xi和年盈利额yi(i=1,2,…,10)数据进行分析,建立了两个函数模型:y=α+βx2;y=eλx+t,其中α,β,λ,t均为常数,e为自然对数的底数,令ui=x,vi=ln yi(i=1,2,…,10),经计算得如下数据:=26 =215 =680 =5.36(xi-)2=100 (ui-)2=22 500 (ui-)·(yi-)=260 (yi-)2=4(vi-)2=4 (xi-)·(vi-)=18(1)请从样本相关系数的角度,分析哪一个模型拟合度更好?(2)根据(1)的选择及表中数据,建立y关于x的回归方程.(系数精确到0.01)课时跟踪检测(六十)1.选C 根据变量X,Y的散点图,得X,Y之间的线性相关关系非常不明显,所以样本相关系数r最接近的值应为0.2.选ABC ∵样本相关系数|r|≤1,∴D错误.其余均正确.3.选B 由题图中散点的分布趋势知,r1,r3>0,r2,r4<0,由题图散点的分布状态知,|r1|>|r3|,|r2|>|r4|,所以r1>r3>0>r4>r2.4.选D 对y=cekx两边取对数,可得ln y=ln(cekx)=ln c+ln ekx=ln c+kx,故z=ln c+kx,∵z=0.5x+2,∴ln c=2,解得c=e2.故选D.5.选C 根据系数=-0.4<0,判断变量X,Y之间呈现负相关关系,A正确;根据题表中数据,计算=×(6+8+10+12)=9,=×(6+m+3+2)=,代入线性回归方程得=-0.4×9+7.6,解得m=5,B正确;因为==-0.4,r=,所以变量X,Y之间的样本相关系数r≠-0.4,C错误;由线性回归方程一定过(,),且=9,==4,所以线性回归方程必过点(9,4),D正确.6.解析:因为所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-x+1上,显然直线y=-x+1的斜率-<0,所以样本数据呈负相关,样本相关系数为-1.答案:-17.解析:根据题意,因为线性相关系数的绝对值越大,线性相关性越强,又甲、乙、丙、丁四组数据的线性相关系数分别为-0.98,-0.27,0.36,0.93,所以甲组数据的线性相关性最强.答案:甲8.解析:因为r>0,所以变量X,Y正相关,则在以(,)为坐标原点的坐标系下的散点图,大多数的点都落在第一、三象限.答案:一、三9.解:把数学成绩作为横坐标,把相应的物理成绩作为纵坐标,在直角坐标系中描点(xi,yi)(i=1,2,…,5),作出散点图如图所示.则==70,==66,(xi-)(yi-)=90,=5,=2,可得r==0.9>0,所以数学成绩与物理成绩是高度正相关的.10.解:(1)散点图如图所示.(2)由(1)中散点图可以看出,两变量之间有近似的线性相关关系,下面用列表的方法计算,.i xi yi x xiyi1 18 26.86 324 483.482 20 28.35 400 5673 22 28.75 484 632.54 24 28.87 576 692.885 26 29.75 676 773.56 28 30.00 784 8407 30 30.36 900 910.80总和 168 202.94 4 144 4 900.16==24,=,所以==≈0.264 3,所以=-=-0.264 3×24≈22.648.所以线性回归方程为Y=0.264 3X+22.648.(3)由y≈5 892,得r==≈0.96.11.选D 由Y=eX-0.5,得ln Y=X-0.5,令Z=ln Y,则Z=X-0.5.由题表中数据可得X与Z的相关数据如表所示:X 1 2 3 4Z 1 3 4 6==2.5,==3.5.将(2.5,3.5)代入Z=X-0.5,得3.5=2.5-0.5,解得=1.6,∴Z=1.6X-0.5,∴Y=e1.6X-0.5.当X=5时,Y=e1.6×5-0.5=e,故选D.12.选CD 因为线性回归方程过数据的样本中心点(8,25),所以在m,n确定的条件下去掉样本点(8,25),样本相关系数r不变,所以A错误;由样本中心点为(8,25),可得25=2.6×8+,解得=4.2,所以B错误;由Y=2.6X+4.2,当X=12时,可得Y=35.4,所以C正确;由m+n=48,得m可取18,19,20,21,22,n可取26,27,28,29,30,则(m,n)的取值为(18,30),(19,29),(20,28),(21,27),(22,26),所以m=20,n=28的概率为,所以D正确.13.解:(1)由题意知DH=(hi-)2=2,所以(hi-)2=40,同理(yi-)2=40,r===0.95.(2)由题意得==0.95,=yi=62.8,=hi=4,则=-=59,Y=0.95H+59.当H=6时,Y=64.7,即可预测H=6时体质测试成绩为64.7.14.解:(1)设模型y=α+x2的样本相关系数为r1,模型y=eλx+t的样本相关系数为r2,对于模型y=α+x2,令u=x2,即y=α+βu,所以r1==≈0.87,对于模型y=eλx+t,有ln y=ln eλx+t=λx+t,令v=ln y,即v=λx+t,所以r2===0.9.因为r1(2)因为===0.18,=-=5.36-0.18×26=0.68,所以y关于x的回归方程为y=e0.18x+0.68. 展开更多...... 收起↑ 资源列表 2 成对数据的线性相关性.docx 2 成对数据的线性相关性.pptx 课时跟踪检测(六十) 成对数据的线性相关性.doc