资源简介 第三节 变量间的相关关系与统计案例一、基础知识1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系. 体现的不一定是因果关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关;点散布在左上角到右下角的区域内,两个变量的这种相关关系为负相关.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.^ ^ ^(2)回归方程为y=bx+a,其中n(3)通过求Q= (yi-bx2i-a) 的最小值而得到回归直线的方法,即使得样本数据的点到i=1回归直线的距离的平方和最小,这一方法叫做最小二乘法.(4)相关系数:当 r>0 时,表明两个变量正相关;当 r<0 时,表明两个变量负相关.r 的绝对值越接近于 1,表明两个变量的线性相关性越强.r 的绝对值越接近于 0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于 0.75 时,认为两个变量有很强的线性相关性.3.独立性检验(1)2×2 列联表设 X,Y 为两个变量,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)如下:y1 y2 总计x1 a b a+bx2 c d c+d总计 a+c b+d a+b+c+d(2)独立性检验第 807页/共1004页n(ad-bc)2利用随机变量 K2(也可表示为 χ2)的观测值 k= (其中 n=a+b+c(a+b)(c+d)(a+c)(b+d)+d 为样本容量)来判断“两个变量有关系”的方法称为独立性检验.二、常用结论^ ^(1)求解回归方程的关键是确定回归系数a,b,应充分利用回归直线过样本中心点 ( x ,y ).(2)根据 K2 的值可以判断两个分类变量有关的可信程度,若 K2 越大,则两分类变量有关的把握越大.^(3)根据回归方程计算的y值,仅是一个预报值,不是真实发生的值.考点一 回归分析考法(一) 求线性回归方程[典例] (2019·湘东五校联考)已知具有相关关系的两个变量 x,y 的几组数据如下表所示:x 2 4 6 8 10y 3 6 7 10 12(1)请根据上表数据在网格纸中绘制散点图;^ ^ ^(2)请根据上表数据,用最小二乘法求出 y 关于 x 的线性回归方程y=bx+a,并估计当 x=20 时 y 的值.n xiyi-n x yi=1^ ^ ^参考公式:b= ,a= y -b x .n x2i-n x 2i=1[解] (1)散点图如图所示:第 808页/共1004页1(2)依题意, x = ×(2+4+6+8+10)=6,51y = ×(3+6+7+10+12)=7.6,55 5 x2i=4+16+36+64+100=220, xiyi=6+24+42+80+120=272,i=1 i=15 xiyi-5 x yi=1^ 272-5×6×7.6 44∴b= = = =1.1,5 220-5×62 40 x2 2i-5 xi=1^∴a=7.6-1.1×6=1,^∴线性回归方程为y=1.1x+1,故当 x=20 时,y=23.考法(二) 相关系数及应用[典例] 如图是我国 2012 年至 2018 年生活垃圾无害化处理量(单位:亿吨)的折线图.由折线图看出,可用线性回归模型拟合 y 与 t 的关系,请用相关系数加以说明.7 7 7参考数据: yi=9.32, tiyi=40.17, (y 2i- y ) =0.55, 7≈2.646.i=1 i=1 i=1第 809页/共1004页n (ti- t )(yi- y )i=1参考公式:相关系数 r= .n n (ti- t )2 (yi- y )2i=1 i=1[解] 由折线图中数据和参考数据及公式得 t =4,7 7 (ti- t )2=28, (y 2i- y ) =0.55,i=1 i=17 7 7 2.89 (ti- t )(yi- y )= tiyi- t yi=40.17-4×9.32=2.89,r≈ ≈0.99.0.55×2×2.646i=1 i=1 i=1因为 y 与 t 的相关系数近似为 0.99,说明 y 与 t 的线性相关程度相当高,从而可以用线性回归模型拟合 y 与 t 的关系.[解题技法]1.线性回归分析问题的类型及解题方法(1)求线性回归方程:^ ^①利用公式,求出回归系数b,a.②待定系数法:利用回归直线过样本点中心求系数.(2)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值.^(3)利用回归直线判断正、负相关:决定正相关还是负相关的是系数b.2.模型拟合效果的判断(1)残差平方和越小,模型的拟合效果越好.(2)相关指数 R2 越大,模型的拟合效果越好.(3)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于 1 时,两变量的线性相关性越强.[题组训练]1.(2019·惠州调研)某商场为了了解毛衣的月销售量 y(件)与月平均气温 x(℃)之间的关系,随机统计了某 4 个月的月销售量与当月平均气温,其数据如下表:月平均气温 x/℃ 17 13 8 2月销售量 y/件 24 33 40 55^ ^ ^ ^由表中数据算出线性回归方程y=bx+a中的b=-2,气象部门预测下个月的平均气温约为 6 ℃,据此估计该商场下个月毛衣销售量约为( )第 810页/共1004页A.46 件 B.40 件C.38 件 D.58 件^ ^ ^ ^解析:选 A 由题中数据,得 x =10, y =38,回归直线y=bx+a过点( x , y ),且b^ ^=-2,代入得a=58,则回归方程y=-2x+58,所以当 x=6 时,y=46,故选 A.2.近期,某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每天使用扫码支付的人次,用 x 表示活动推出的天数,y 表示每天使用扫码支付的人次,统计数据如下表:x 1 2 3 4 5 6 7y 60 110 210 340 660 1 010 1 960根据以上数据,绘制了散点图.参考数据:7 7y v x y x v 0.54i i i i 10i=1 i=1621 2.54 25 350 78.12 3.471 7其中 vi=lg yi, v = vi. 7i=1(1)根据散点图判断,在推广期内,y=a+bx 与 y=c·dx(c,d 均为大于零的常数)哪一个适宜作为扫码支付的人次 y 关于活动推出天数 x 的回归方程类型(给出判断即可,不必说明理由) (2)根据(1)的判断结果及上表中数据,建立 y 关于 x 的回归方程,并预测活动推出第 8天使用扫码支付的人次.参考公式:^ ^ ^对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βμ 的斜率和截距的第 811页/共1004页n uivi-n u vi=1^ ^最小二乘估计公式分别为 β= ,α= v -β U .n u2i-n u 2i=1解:(1)根据散点图可以判断,y=c·dx 适宜作为扫码支付的人次 y 关于活动推出天数 x的回归方程类型.(2)y=c·dx两边同时取常用对数,得 lg y=lg(c·dx)=lg c+xlg d,设 lg y=v,则 v=lg c+xlg d.7∵ x =4, v =2.54, x2i=140,i=17 xivi-7 x vi=1 78.12-7×4×2.54∴lg d= ≈ 2 =0.25,7 140-7×4 x2i-7 x 2i=1把(4,2.54)代入 v=lg c+xlg d,得 lg c=1.54,^ ^ +∴v=1.54+0.25x,∴y=101.54 0.25x=101.54·(100.25)x.^ + ×把 x=8 代入上式,得y=101.54 0.25 8=103.54=103×100.54=3 470,^∴y关于 x的回归方程为y=101.54·(100.25)x,活动推出第 8天使用扫码支付的人次为 3 470.考点二 独立性检验[典例] (2018·全国卷Ⅲ节选)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取 40 名工人,将他们随机分成两组,每组 20 人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)求 40 名工人完成生产任务所需时间的中位数 m,并将完成生产任务所需时间超过 m和不超过 m 的工人数填入下面的列联表:超过 m 不超过 m第 812页/共1004页第一种生产方式第二种生产方式(2)根据(1)中的列联表,能否有 99%的把握认为两种生产方式的效率有差异?n(ad-bc)2附:K2= ,(a+b)(c+d)(a+c)(b+d)79+81[解] (1)由茎叶图知 m= =80.2列联表如下:超过 m 不超过 m第一种生产方式 15 5第二种生产方式 5 1540(15×15-5×5)2(2)因为 K2= =10>6.635,所以有 99%的把握认为两种生产方式的效20×20×20×20率有差异.[解题技法](1)明确两类主体;2 个明确(2)明确研究的两个问题(1)准确画出 2×2 列联表;2 个关键(2)准确求解 K2(1)根据样本数据制成 2×2 列联表;n(ad-bc)23 个步骤 (2)根据公式 K2= ,计算 K2 的值;(a+b)(c+d)(a+c)(b+d)(3)查表比较 K2 与临界值的大小关系,作统计判断[题组训练]1.(2019·沧州模拟)某班主任对全班 50 名学生进行了作业量的调查,数据如表:认为作业量大 认为作业量不大 总计男生 18 9 27女生 8 15 23总计 26 24 50第 813页/共1004页已知 P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025,P(K2≥6.635)≈0.010.则________(填“有”或“没有”)97.5%的把握认为“学生的性别与认为作业量大有关”.50×(18×15-8×9)2解析:因为 K2= ≈5.059>5.024,26×24×27×23所以有 97.5%的把握认为“学生的性别与认为作业量大有关”.答案:有2.为考察某种疫苗预防疾病的效果,进行动物试验,得到统计数据如下:未发病 发病 总计未注射疫苗 20 x A注射疫苗 30 y B总计 50 50 1002现从所有试验动物中任取一只,取到“注射疫苗”动物的概率为 .5(1)求 2×2 列联表中的数据 x,y,A,B 的值.(2)绘制发病率的条形统计图,并判断疫苗是否影响到了发病率?(3)能否在犯错误的概率不超过 0.001 的前提下认为疫苗有效?n(ad-bc)2附:K2= ,n=a+b+c+d.(a+b)(c+d)(a+c)(b+d)临界值表:P(K2≥k0) 0.05 0.01 0.005 0.001k0 3.841 6.635 7.879 10.828解:(1)设“从所有试验动物中任取一只,取到‘注射疫苗’动物”为事件 M,y+30 2由已知得 P(M)= = ,100 5所以 y=10,则 B=40,x=40,A=60.40 2(2)未注射疫苗发病率为 = ≈0.67,60 3第 814页/共1004页10 1注射疫苗发病率为 = =0.25.40 4发病率的条形统计图如图所示,由图可以看出疫苗影响到了发病率.100×(20×10-40×30)2(3)因为 K2= ≈16.67>10.828.60×40×50×50所以能在犯错误的概率不超过 0.001 的前提下认为疫苗有效.[课时跟踪检测]A 级1.对变量 x,y 有观测数据(xi,yi)(i=1,2,…,10),得散点图如图①,对变量 u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图如图②.由这两个散点图可以判断( )A.变量 x 与 y 正相关,u 与 v正相关B.变量 x 与 y 正相关,u 与 v负相关C.变量 x 与 y 负相关,u 与 v正相关D.变量 x 与 y 负相关,u 与 v负相关解析:选 C 由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量 x 与 y 负相关,u 与 v正相关.2.(2019·长沙模拟)为了解某社区居民购买水果和牛奶的年支出费用与购买食品的年支出费用的关系,随机调查了该社区 5 户家庭,得到如下统计表:第 815页/共1004页购买食品的年支出2.09 2.15 2.50 2.84 2.92费用 x/万元购买水果和牛奶的1.25 1.30 1.50 1.70 1.75年支出费用 y/万元^ ^ ^ ^ ^ ^根据上表可得回归方程y=bx+a,其中b=0.59,a= y -b x ,据此估计,该社区一户购买食品的年支出费用为 3.00 万元的家庭购买水果和牛奶的年支出费用约为( )A.1.795 万元 B.2.555 万元C.1.915 万元 D.1.945 万元1 1解析:选 A x = ×(2.09+2.15+2.50+2.84+2.92)=2.50(万元),y = ×(1.25+1.305 5^ ^ ^ ^+1.50+1.70+1.75)=1.50(万元),其中b=0.59,则a= y -b x =0.025,y=0.59x+0.025,^故年支出费用为 3.00 万元的家庭购买水果和牛奶的年支出费用约为y=0.59×3.00+0.025=1.795(万元).3.下面四个命题中,错误的是( )A.从匀速传递的产品生产流水线上,质检员每 15 分钟从中抽取一件产品进行某项指标检测,这样的抽样是系统抽样B.对分类变量 X 与 Y 的随机变量 K2的观测值 k 来说,k 越大,“X 与 Y 有关系”的把握程度越大C.两个随机变量相关性越强,则相关系数的绝对值越接近于 0^D.在回归直线方程y=0.4x+12 中,当解释变量 x 每增加一个单位时,预报变量平均增加 0.4 个单位解析:选 C 两个随机变量的线性相关性越强,则相关系数的绝对值越接近于 1,故 C错误.4.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问 100 名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:做不到“光盘” 能做到“光盘”男 45 10女 30 15则下面的正确结论是( )附表及公式:P(K2≥k0) 0.100 0.050 0.010 0.001第 816页/共1004页k0 2.706 3.841 6.635 10.828n(ad-bc)2K2= ,n=a+b+c+d.(a+b)(c+d)(a+c)(b+d)A.有 90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”B.在犯错误的概率不超过 1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C.在犯错误的概率不超过 1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”D.有 90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”解析:选 A 由列联表得到 a=45,b=10,c=30,d=15,则 a+b=55,c+d=45,a+c=75,b+d=25,ad=675,bc=300,n=100,计算得 K2的观测值 k=n(ad-bc)2 100×(675-300)2= ≈3.030.因为 2.706<3.030<3.841,(a+b)(c+d)(a+c)(b+d) 55×45×75×25所以有 90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”.5.为了研究工人的日平均工作量是否与年龄有关,从某工厂抽取了 100 名工人,且规定日平均生产件数不少于 80 件者为“生产能手”,列出的 2×2 列联表如下:生产能手 非生产能手 总计25 周岁以上 25 35 6025 周岁以下 10 30 40总计 35 65 100有________以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”.100×(25×30-10×35)2解析:由 2×2 列联表可知,K2= ≈2.93,因为 2.93>2.706,所40×60×35×65以有 90%以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”.答案:90%6.随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:年份 2014 2015 2016 2017 2018时间代号 t 1 2 3 4 5储蓄存款 y5 6 7 8 10(千亿元)则 y 关于 t 的回归方程是________________.第 817页/共1004页1 n 15 1 n 36解析:由表中数据得 n=5, t = ti= =3, y = yi= =7.2. n 5 n 5i=1 i=1n又 t2-n t 2=55-5×32i =10,i=1n tiyi-n t y =120-5×3×7.2=12.i=1n tiyi-n t yi=1^ 12从而b= = =1.2,n 10 t2i-n t 2i=1^ ^a= y -b t =7.2-1.2×3=3.6,^故所求回归方程为y=1.2t+3.6.^答案:y=1.2t+3.67.某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出 x(万元)和销售量 y(万台)的数据如下:年份 2012 2013 2014 2015 2016 2017 2018广告费支1 2 4 6 11 13 19出 x销售量 y 1.9 3.2 4.0 4.4 5.2 5.3 5.4(1)若用线性回归模型拟合 y 与 x 的关系,求出 y 关于 x 的线性回归方程;^(2)若用 y=c+d x模型拟合 y 与 x 的关系,可得回归方程y=1.63+0.99 x,经计算线性回归模型和该模型的 R2分别约为 0.75 和 0.88,请用 R2 说明选择哪个回归模型更好;(3)已知利润 z 与 x,y 的关系为 z=200y-x.根据(2)的结果,求当广告费 x=20 时,销售量及利润的预报值.^ ^ ^参考公式:回归直线y=a+bx 的斜率和截距的最小二乘估计分别为n n xiyi-n x y (xi- x )(yi- y )i=1 i=1^ ^ ^b= = ,a= y -b x .n n x2i-n x 2 (xi- x )2i=1 i=1参考数据: 5≈2.24.7 7解:(1)∵ x =8, y =4.2, xiyi=279.4, x2i=708,i=1 i=1第 818页/共1004页7 xiyi-7 x yi=1^ 279.4-7×8×4.2 ^ ^∴b= = 2 =0.17,a= y -b x =4.2-0.17×8=2.84,7 708-7×8 x2i-7 x 2i=1^∴y 关于 x 的线性回归方程为y=0.17x+2.84.(2)∵0.75<0.88 且 R2 越大,反映残差平方和越小,模型的拟合效果越好,^∴选用y=1.63+0.99 x更好.^(3)由(2)知,当 x=20 时,销售量的预报值y=1.63+0.99 20≈6.07(万台),利润的预报值 z=200×(1.63+0.99 20)-20≈1 193.04(万元).B 级1.(2018·江门一模)为探索课堂教学改革,江门某中学数学老师用“传统教学”和“导学案”两种教学方式分别在甲、乙两个平行班进行教学实验.为了解教学效果,期末考试后,分别从两个班级各随机抽取 20 名学生的成绩进行统计,得到如下茎叶图.记成绩不低于 70分者为“成绩优良”.(1)请大致判断哪种教学方式的教学效果更佳,并说明理由;(2)构造一个教学方式与成绩优良的 2×2 列联表,并判断能否在犯错误的概率不超过0.05 的前提下认为“成绩优良与教学方式有关”.n(ad-bc)2附:K2= ,其中 n=a+b+c+d.(a+b)(c+d)(a+c)(b+d)临界值表:P(K2≥k0) 0.10 0.05 0.025 0.010k0 2.706 3.841 5.024 6.635解:(1)“导学案”教学方式教学效果更佳.第 819页/共1004页理由 1:乙班样本数学成绩大多在 70 分以上,甲班样本数学成绩 70 分以下的明显更多.理由 2:甲班样本数学成绩的平均分为 70.2;乙班样本数学成绩的平均分为 79.05.68+72理由 3:甲班样本数学成绩的中位数为 =70,乙班样本数学成绩的中位数为277+78=77.5.2(2)2×2 列联表如下:甲班 乙班 总计成绩优良 10 16 26成绩不优良 10 4 14总计 20 20 4040×(10×4-10×16)2由上表数据可得 K2= ≈3.956>3.841,20×20×26×14所以能在犯错误的概率不超过 0.05 的前提下认为“成绩优良与教学方式有关”.2.(2019·广州调研)某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.过去 50 周的资料显示,该地周光照量 X(单位:小时)都在 30 小时以上,其中不足 50 小时的有 5 周,不低于 50 小时且不超过 70 小时的有 35 周,超过 70 小时的有 10 周.根据统计,该基地的西红柿增加量 y(千克)与使用某种液体肥料的质量 x(千克)之间的对应数据为如图所示的折线图.(1)依据折线图计算相关系数 r(精确到 0.01),并据此判断是否可用线性回归模型拟合 y与 x 的关系;(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合)(2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量 X 限制,并有如下关系:周光照量 X/小时 30<X<50 50≤X≤70 X>70光照控制仪运行台数 3 2 1对商家来说,若某台光照控制仪运行,则该台光照控制仪产生的周利润为 3 000 元;若某台光照控制仪未运行,则该台光照控制仪周亏损 1 000 元.若商家安装了 3 台光照控制仪,求商家在过去 50 周的周总利润的平均值.第 820页/共1004页n (xi- x )(yi- y )i=1相关系数公式:r= ,n n (xi- x )2 (yi- y )2i=1 i=1参考数据: 0.3≈0.55, 0.9≈0.95.2+4+5+6+8解:(1)由已知数据可得 x = =5,53+4+4+4+5y = =4.55因为 (xi- x )(yi- y )=(-3)×(-1)+0+0+0+3×1=6,i=15 (xi- x )2= (-3)2+(-1)2+02+12+32=2 5,i=15 (y - y )2i = (-1)2+02+02+02+12= 2,i=15 (xi- x )(yi- y )i=1 6所以相关系数 r= = = 0.9≈0.95.5 5 2 5× 2 (xi- x )2 (y - y )2ii=1 i=1因为|r|>0.75,所以可用线性回归模型拟合 y 与 x 的关系.(2)由条件可得在过去 50 周里,当 X>70 时,共有 10 周,此时只有 1 台光照控制仪运行,每周的周总利润为 1×3 000-2×1 000=1 000(元).当 50≤X≤70 时,共有 35 周,此时有 2 台光照控制仪运行,每周的周总利润为 2×3 000-1×1 000=5 000(元).当 30<X<50 时,共有 5 周,此时 3 台光照控制仪都运行,每周的周总利润为 3×3 000=9 000(元).所以过去 50 周的周总利润的平均值为1 000×10+5 000×35+9 000×5=4 600(元),50所以商家在过去 50 周的周总利润的平均值为 4 600 元.第 821页/共1004页 展开更多...... 收起↑ 资源预览