资源简介 考点五十一 变量间的相关关系与统计案例知识梳理1.相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系.两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.2.散点图通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.3.正相关与负相关从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.4.回归直线方程(1)曲线拟合从散点图上,如果变量之间存在某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这样的近似过程称为曲线拟合.(2)线性相关在两个变量x和y的散点图中,若所有点看上去都在一条直线附近波动,则称变量间是线性相关,这条直线叫回归直线.若所有点看上去都在某条曲线(不是一条直线)附近波动,称此相关是非线性相关.如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的.(3)最小二乘法如果有n个点(x1,y1),(x2,y2),…,(xn,yn),可以用[y1-(a+bx1)]2+[y2-(a+bx2)]2+…+[yn-(a+bxn)]2来刻画这些点与直线y=a+bx的接近程度,使得上式达到最小值的直线y=a+bx就是所要求的直线,这种方法称为最小二乘法.(4)回归方程方程y=bx+a是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中a,b是待定参数.eq \b\lc\{\rc\ (\a\vs4\al\co1(b=\f(\o(∑,\s\up6(n),\s\do4(i=1)) xi-\x\to(x) yi-\x\to(y) ,\o(∑,\s\up6(n),\s\do4(i=1)) xi-\x\to(x) 2)=\f(\o(∑,\s\up6(n),\s\do4(i=1))xiyi-n\x\to(x) \x\to(y),\o(∑,\s\up6(n),\s\do4(i=1))x-n\x\to(x)2),,a=\x\to(y)-b\x\to(x).))说明:回归直线必过样本中心(,),但是样本数据不一定在回归直线上,甚至可能所有的样本数据点都不在直线上.5.相关系数相关系数r= =eq \f(\o(∑,\s\up6(n),\s\do4(i=1))xiyi-n\x\to(x) \x\to(y),\r( \o(∑,\s\up6(n),\s\do4(i=1))x-n\x\to(x)2 \o(∑,\s\up6(n),\s\do4(i=1))y-n\x\to(y)2 )) ;当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.6.独立性检验设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2=1;变量B:B1,B2=1;2×2列联表:B1 B2 总计A1 a b a+bA2 c d c+d总计 a+c b+d n=a+b+c+d构造一个随机变量χ2=.利用随机变量χ2来判断“两个分类变量有关系”的方法称为独立性检验.当χ2≤2.706时,没有充分的证据判定变量A,B有关联;当χ2>2.706时,有90%的把握判定变量A,B有关联;当χ>3.841时,有95%的把握判定变量A,B有关联;当χ>6.635时,有99%的把握判定变量A,B有关联.典例剖析题型一 相关关系判断例1 变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则________.①r2答案 ③解析 对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r1>0;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r2<0,所以有r2<0变式训练 四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y与x负相关且=2.347x-6.423; ②y与x负相关且=-3.476x+5.648;③y与x正相关且=5.437x+8.493; ④y与x正相关且=-4.326x-4.578.其中一定不正确的结论的序号是________.答案 ①④解析 由回归直线方程=x+,知当>0时,x与y正相关,当<0时,x与y负相关,所以①④一定.解题要点 判断变量之间有无相关关系,一种简便可行的方法就是绘制散点图,根据散点图很容易看出两个变量之间是否具有相关性,是不是存在线性相关关系,是正相关还是负相关,相关关系是强还是弱.题型二 回归分析例2 已知x,y取值如下表:x 0 1 4 5 6 8y 1.3 1.8 5.6 6.1 7.4 9.3从所得的散点图分析可知:y与x线性相关,且=0.95x+a,则a=________.答案 1.45解析 ∵==4,==5.25,又=0.95x+a过(,),∴5.25=0.95×4+a,得a=1.45.变式训练 已知x与y之间的一组数据:x 0 1 2 3y m 3 5.5 7已求得关于y与x的线性回归方程=2.1x+0.85,则m的值为________.答案 0.5解析 ==,==,把(,)代入线性回归方程,=2.1×+0.85,m=0.5.解题要点 回归直线方程=x+必过样本点中心(,).利用这一结论,可以快速求出回归方程中的参数.例3 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.x 3 4 5 6y 2.5 3 4 4.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)解析 (1)由题意,作散点图如图.(2)由对照数据,计算得yi=66.5,=32+42+52+62=86,=4.5,=3.5,===0.7,=-=3.5-0.7×4.5=0.35,所以回归方程为=0.7x+0.35.(3)当x=100时,y=100×0.7+0.35=70.35(吨标准煤),预测生产100吨甲产品的生产能耗比技改前降低90-70.35=19.65(吨标准煤).变式训练 (2015新课标Ⅰ文)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量(单位:t)和年利润z(单位:千元)的影响,对近8年的宣传费和年销售量数据作了初步处理,得到下面的散点图及一些统计量的值.(xi-)2 (wi-)2 (xi-)·(yi-) (wi-)·(yi-)46.6 563 6.8 289.8 1.6 1 469 108.8表中wi=,=i.(I)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(II)根据(I)的判断结果及表中数据,建立y关于x的回归方程;(III)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(II)的结果回答下列问题:(i)当年宣传费时,年销售量及年利润的预报值时多少?(ii)当年宣传费为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计为=- .解析 (I)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.(II)令w=,先建立y关于w的线性回归方程,由于==68,=-=563-68×6.8=100.6,所以y关于w的线性回归方程为=100.6+68w,因此y关于x的回归方程为=100.6+68.(III)(i)由(II)知,当x=49时,年销售量y的预报值=100.6+68=576.6,年利润z的预报值=576.6×0.2-49=66.32.(ii)根据(II)的结果知,年利润z的预报值=0.2(100.6+68)-x=-x+13.6+20.12.所以当==6.8,即x=46.24时, 取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.解题要点 (1)正确运用计算b,a的公式和准确的计算,是求线性回归方程的关键.(2)分析两变量的相关关系,可由散点图作出判断,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(3) 求解回归方程关键是确定回归系数,,因求解的公式计算量太大,一般题目中给出相关的量,如,,x,xiyi等,便可直接代入求解.充分利用回归直线过样本中心点(,),即有y=+,可确定.题型三 相关分析例4 有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:优秀 非优秀 总计甲班 10 b乙班 c 30总计 105已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是________.列联表中c的值为30,b的值为35列联表中c的值为15,b的值为50根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系”答案 ③解析 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c=20,b=45,选项A、B.根据列联表中的数据,得到χ2=≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”.变式训练 在研究色盲与性别的关系调查中,调查了男性480人,其中有38人患色盲,调查的520名女性中,有6人患色盲.(1)根据以上数据建立一个2×2列联表;(2)若认为“性别与患色盲有关系”,求出错的概率.解析 (1)2×2列联表如下:患色盲 不患色盲 总计男 38 442 480女 6 514 520总计 44 956 1 000(2)假设H0:“性别与患色盲没有关系”,根据(1)中2×2列联表中数据,可求得χ2=≈27.14,又P(χ2≥10.828)=0.001,即H0成立的概率不超过0.001,故若认为“性别与患色盲有关系”,则出错的概率为0.1%.解题要点 (1)独立性检验的关键是正确列出2×2列联表,并计算出χ2的值.(2)弄清判断两变量有关的把握性与犯概率的关系,根据题目要求作出正确的回答. 展开更多...... 收起↑ 资源预览