资源简介 第4章 统计4.1 成对数据的统计相关性基础过关练 题组一 变量的相关关系1.下列说法正确的是( )A.任何两个变量都具有相关关系B.球的体积与该球的半径具有相关关系C.农作物的产量与施肥量之间是一种确定性关系D.一个学生的数学成绩与物理成绩之间是一种非确定性关系2.(多选)对于任意给定的两个变量的统计数据,下列说法错误的是( )A.一定可以分析出两个变量之间的关系B.一定可以用一条直线近似地表示两者之间的关系C.一定可以画出散点图D.一定可以用确定的表达式表示两者之间的关系3.在下列各图中,两个变量之间具有相关关系的是 ( )A.(1)(2) B.(1)(3)C.(2)(4) D.(2)(3)4.给出5组数据如表所示,从中选出4组数据使x与y的线性相关程度最大,若保留第1组数据(-5,-3),则在余下的4组数据中应去掉 ( )组号 1 2 3 4 5x -5 -4 -3 -2 4y -3 -2 4 -1 6A.第2组数据 B.第3组数据C.第4组数据 D.第5组数据5.某商城在某年前5个月的销售额和利润额资料如下表所示:月份 一月 二月 三月 四月 五月销售额 x/千万元 3 5 6 7 9利润额 y/百万元 2 3 3 4 5(1)根据上表数据画出散点图;(2)观察散点图,判断利润额y与销售额x之间是否具有线性相关关系.题组二 相关系数的应用6.已知r1是变量X与Y之间的相关系数,r2是变量U与V之间的相关系数,且r1=0.837,r2=-0.957,则 ( )A.变量X与Y之间呈正相关关系,且X与Y之间的相关性强于U与V之间的相关性B.变量X与Y之间呈负相关关系,且X与Y之间的相关性强于U与V之间的相关性C.变量U与V之间呈负相关关系,且X与Y之间的相关性弱于U与V之间的相关性D.变量U与V之间呈正相关关系,且X与Y之间的相关性弱于U与V之间的相关性7.对四组数据进行统计,获得以下散点图,关于其相关系数的比较正确的是( )A.r2B.r4C.r4D.r28.下表是弹簧伸长的长度x(cm)与拉力值y(N)的对应数据:长度x(cm) 1 2 3 4 5拉力值y(N) 3 7 8 10 12(1)求相关系数rxy(保留两位小数);(2)通过相关系数rxy说明y与x是否高度相关.(若|rxy|>0.8,则认为y与x是高度相关的)附:rxy=,≈3.16,≈6.78.9.某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如下表所示:使用年限x(单位:年) 2 4 5 6 8失效费y(单位:万元) 3 4 5 6 7根据上表数据,计算y与x的相关系数rxy,并说明y与x是否高度相关.(若|rxy|>0.8,则认为y与x高度相关)附:rxy=.题组三 多组成对数据的相关性、相关系数与向量的夹角10.近年来,“共享汽车”在我国各城市迅猛发展,为人们的出行提供了便利,但也给城市交通管理带来了一些困难.为了解“共享汽车”在M省的发展情况,M省某调查机构从该省随机抽取了5个城市,分别收集和分析了“共享汽车”的A,B,C三项指标数据xi,yi,zi(i=1,2,3,4,5),数据如下表所示:城市编号i 1 2 3 4 5A指标xi 4 6 2 8 5B指标yi 4 4 3 5 4C指标zi 3 6 2 5 4(1)分别求y与x之间的相关系数rxy及z与x之间的相关系数rxz,并比较y与x,z与x之间相关性的强弱;(2)利用向量夹角来分析y与x之间及z与x之间的相关关系.附:相关系数rxy=能力提升练 题组一 变量的相关关系1.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),其散点图如图(1);对变量u,v有观测数据(ui,vi)(i=1,2,…,10),其散点图如图(2),由这两个散点图可以判断( )A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关2.(多选)在一次质量检测中,某校高三1班48名物理方向的学生的语文成绩、数学成绩与六科总成绩在全年级中的排名情况如图所示,“”表示的是该班甲、乙、丙三名同学对应的点.从这次考试的成绩看,下列结论正确的是( )A.该班六科总成绩在全年级排名前6的同学的语文成绩比数学成绩排名更好B.在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是语文C.数学成绩与六科总成绩的相关性比语文成绩与六科总成绩的相关性更强D.在甲、乙两人中,语文成绩名次比六科总成绩名次靠前的学生是甲题组二 相关系数的应用3.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).记rXY为变量X与Y之间的相关系数,rUV为变量U与V之间的相关系数,则( )A.rUV4.为了监控一条生产线上某种零件的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸数据:抽取次序x 1 2 3 4 5 6零件 尺寸y 9.95 10.12 9.96 9.96 10.01 9.92抽取次序x 7 8 9 10 11 12零件 尺寸y 9.98 10.04 10.26 9.91 10.13 10.02抽取次序x 13 14 15 16零件 尺寸y 9.22 10.04 10.05 9.95经计算得=(xi-)(yi-)=-2.78.(1)求y与x的相关系数rxy,并回答是否可以认为这一天生产的零件的尺寸不随生产过程的进行而系统地变大或变小(若|rxy|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)在一天内抽检的零件中,如果出现了尺寸在(-3s,+3s)之外的零件,就认为这条生产线在这一天的生产过程中可能出现了异常情况,需对当天生产的所有零件进行检查.从这一天抽检的结果看,是否需对当天生产的所有零件进行检查 5.近年来,大学生就业压力日益严峻,伴随着政府政策的引导与社会观念的转变,大学生的创业意识及就业方向也悄然发生转变.在国家提供税收、担保贷款等多方面的政策扶持下,某大学生选择加盟某专营店自主创业,该专营店统计了近五年来的创收利润yi(单位:万元)与时间ti(单位:年)的相关数据,列表如下:ti 1 2 3 4 5yi 2.4 2.7 4.1 6.4 7.9(1)依据表中给出的数据,是否可用线性回归模型拟合y与t的关系 请计算相关系数rty并加以说明(计算结果精确到0.01,若|rty|>0.8,则认为y与t高度相关,可用线性回归模型拟合y与t的关系).附:相关系数rty=(2)专营店为吸引顾客,特推出两种促销方案:方案一:每消费满500元可减50元;方案二:每消费满500元可抽奖一次,每次中奖的概率都为,中奖就可以获得100元现金奖励,假设顾客每次抽奖的结果相互独立.某位顾客购买了2 000元的产品.作为专营店老板,是希望该顾客选择直接返还现金,还是选择参加四次抽奖 请说明理由.答案与分层梯度式解析第4章 统计4.1 成对数据的统计相关性基础过关练1.D 当两个变量之间具有确定的关系时,两个变量之间是函数关系,而不是相关关系,故A错误;球的体积与该球的半径之间是函数关系,故B错误;农作物的产量与施肥量之间的关系是相关关系,是一种非确定性关系,故C错误;学生的数学成绩与物理成绩之间的关系是相关关系,是一种非确定性关系,故D正确.故选D.2.ABD 给出两个变量的统计数据,总可以画出相应的散点图,但不一定能分析出两个变量之间的关系,更不一定符合线性相关,即不一定能用一条直线近似地表示两者之间的关系,故A、B中说法不正确,C中说法正确.两个变量之间不一定具有函数关系,故D中说法不正确.故选ABD.3.D 对于题图(1),所有的点都在曲线上,故具有函数关系;对于题图(2),所有的散点都分布在一条直线附近,故具有相关关系;对于题图(3),所有的散点都分布在一条曲线附近,故具有相关关系;对于题图(4),散点的分布杂乱无章,故不具有相关关系.故选D.4.B 画出散点图如图所示,由图可知应去掉第3组数据(-3,4),故选B.5.解析 (1)散点图如图所示.(2)由散点图可知,所有散点排列在一条直线附近,所以利润额与销售额之间具有线性相关关系.6.C 易知变量X与Y之间呈正相关关系,变量U与V之间呈负相关关系,因为|r1|=0.837,|r2|=0.957,|r1|<|r2|,所以X与Y之间的相关性弱于U与V之间的相关性.故选C.7.B 由题中的散点图可以看出,图1和图3是正相关,相关系数大于0,则r1>0,r3>0,图2和图4是负相关,相关系数小于0,则r2<0,r4<0,图3和图4的点相对于图1和图2更加集中,所以相关性较强,所以r3更接近于1,r4更接近于-1,由此可得r4故选B.8.解析 (1)依题意得==3,==8,==,==,(xi-)(yi-)=(-2)×(-5)+(-1)×(-1)+0×0+1×2+2×4=21,所以相关系数rxy==≈≈0.98.(2)由(1)知,rxy≈0.98>0.8,说明y与x是高度相关的.9.解析 由题表知,=×(2+4+5+6+8)=5,=×(3+4+5+6+7)=5,xiyi=2×3+4×4+5×5+6×6+8×7=139,=22+42+52+62+82=145,=32+42+52+62+72=135,所以rxy===≈0.99,因为|0.99|>0.8,所以认为y与x高度相关.10.解析 (1)由已知,得==5,==4,==4,所以rxy===≈0.95,rxz===≈0.846,所以y与x正相关,z与x正相关,又因为rxy>rxz,所以y与x之间的相关性比z与x之间的相关性强.(2)由(1)知=5,=4,=4,将题表中x,y,z的相关数据分别减去,,,记a=(x1-,x2-,x3-,x4-,x5-),b=(y1-,y2-,y3-,y4-,y5-),c=(z1-,z2-,z3-,z4-,z5-),则可得a=(-1,1,-3,3,0),b=(0,0,-1,1,0),c=(-1,2,-2,1,0),于是cos===≈0.95,cos===≈0.846,所以y与x正相关,z与x正相关,又因为cos>cos,所以y与x之间的相关性比z与x之间的相关性强.能力提升练1.C 题图(1)中的散点大致分布在一条直线附近,从整体上看,y随x的增大而呈现减小的趋势,所以x与y负相关.题图(2)中的散点大致分布在一条直线附近,从整体上看,v随u的增大而呈现增大的趋势,所以u与v正相关.故选C.方法总结判定两个变量正、负相关的方法(1)画散点图:若散点近似均匀地分布在左下角到右上角的区域,则两个变量正相关;若散点近似均匀地分布在左上角到右下角的区域,则两个变量负相关.(2)相关系数:rxy>0时,x与y正相关;rxy<0时,x与y负相关.2.BCD 由题图可得,该班六科总成绩排名前6的同学的数学成绩比语文成绩排名更好,故A错误;由题图2可得,丙的总成绩排在班上倒数第三名,其语文成绩排在全年级250到300名之间,由题图1可得,丙的数学成绩排在全年级400名左右,故B正确;题图2中的点的分布较题图1中的点更分散,可知数学成绩与六科总成绩的相关性比语文成绩与六科总成绩的相关性更强,故C正确;由题图1可得甲的总成绩排在班上第7名,全年级名次为100名多一点,对应到题图2可得,甲的语文成绩排在全年级前50名,故甲的语文成绩名次比其六科总成绩名次靠前,由题图1可得乙的总成绩排在班上第27名,全年级名次为250名左右,对应到题图2可得,乙的语文成绩排在全年级250名左右,故乙的语文成绩名次与其六科总成绩名次相近,故D正确.故选BCD.3.B 由变量X与Y的对应数据可得变量X与Y之间呈正相关,因此rXY >0;由变量U与V的对应数据可得变量U与V之间呈负相关,因此rUV<0.故rUV<04.解析 (1)易得y与x的相关系数rxy==≈-0.18.由于|rxy|<0.25,因此可以认为这一天生产的零件的尺寸不随生产过程的进行而系统地变大或变小.(2)由于=9.97,s≈0.212,所以-3s=9.334,+3s=10.606.由样本数据可以看出抽取的第13个零件的尺寸在(-3s,+3s)以外,因此需对当天生产的所有零件进行检查.5.解析 (1)由题知,=×(1+2+3+4+5)=3,=×(2.4+2.7+4.1+6.4+7.9)=4.7,===≈≈0.97,∵|0.97|>0.8,∴y与t高度相关,可用线性回归模型拟合.(2)专营店老板希望该顾客选择参加四次抽奖.理由如下:用X表示顾客在四次抽奖中中奖的次数,∵顾客每次抽奖的结果相互独立,∴X~B,∴E(X)=4×=1.6.由于顾客每中一次奖就可获得100元现金奖励,因此顾客在四次抽奖中可获得的现金奖励的期望为1.6×100=160(元).∵160<4×50=200,∴专营店老板希望该顾客选择参加四次抽奖.(共9张PPT)1.散点图将成对观测数据用直角坐标系中的点表示,这些点称为散点,由坐标系及散点形成的数据图叫作散点图,散点图直观地描述了变量之间的关系形态.2.线性相关关系如果两个变量之间的关系近似地表现为一条直线,则称它们有线性相关关系,简称为相关关系.3.线性相关如果一个变量的取值完全依赖于另一个变量,各观测点落在一条直线上,则称它们线性相关,这实际上就是函数关系.4.1 成对数据的统计相关性1 | 散点图1.定义一般地,对n个成对观测数据(x1,y1),(x2,y2),…,(xn,yn),我们用{xi}表示数据x1,x2,…,xn,{yi}表示数据y1,y2,…,yn,用 =2 | 相关系数为{xi}和{yi}的相关系数.2.相关系数的性质rxy的取值范围是[-1,1].当0负相关;当rxy=0时,称{xi}和{yi}不相关.(2)|rxy|越接近于1,变量x,y的线性相关程度越高,这时数据 (x1,y1),(x2,y2),…,(xn,yn)分散在一条直线附近.(3)|rxy|越接近于0,变量x,y的线性相关程度越低.(4) rxy具有对称性,即rxy=ryx.(5) rxy仅仅是变量x与y之间线性相关程度的一个度量.rxy=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有关系,它们之间可能存在非线性关系.1.利用向量夹角的余弦值表示相关系数把两组成对数据分别看作n维空间的两个向量(x1,x2,…,xn),(y1,y2,…,yn),再将向量的每个元素都减去均值,形成a=(x1- ,x2- ,…,xn- ),b=(y1- ,y2- ,…,yn- ),从而有cos= 2.相关程度与向量夹角的关系(1)当∈ 时,余弦值越大表示两个向量的夹角越小,两组数据的正相关程度越高;余弦值越小表示两个向量的夹角越大,两组数据的正相关程度越低.(2)当∈ 时,余弦值越大表示两个向量的夹角越小,两组数据的负相关程度越低;余弦值越小表示两个向量的夹角越大,两组数据的负相关程度越高.(3)当= 时,余弦值为0,这说明两组数据不相关.3 | 相关系数与向量夹角1.相关关系是两个变量之间的一种确定的关系吗 不是.相关关系是一种不确定的关系.2.两个变量有线性相关关系就是两个变量线性相关吗 不是.若两个变量有线性相关关系,则它们之间的关系近似地表现为一条直线,不是函数关系;若两个变量线性相关,则各观测点完全落在一条直线上,两个变量之间是函数关系.3.当相关系数rxy=0时,可以说两个变量之间没有关系吗 不可以.rxy=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有关系,它们之间可能存在非线性关系.4.若r1=-0.95,r2=0.85,则体现两变量相关关系较强的是r2吗 不是.当|r|越接近于1时,成对数据的线性相关程度越强,所以体现两变量相关关系较强的是r1.知识辨析 两个变量相关性的判断 1.利用散点图判断两个变量的相关性若散点落在一条直线附近,则认为这两个变量有线性相关关系.一般地,如果变量x和y正相关,那么大多数散点将分布在第一、三象限,对应的成对数据同号的居多;如果变量x和y负相关,那么大多数散点将分布在第二、四象限,对应的成对数据异号的居多.2.利用相关系数判断两个变量的相关性|rxy|刻画了样本点集中于某条直线的程度.|rxy|越接近于1,散点图中的散点分布越接近于一条直线,两个变量的线性相关程度越高.3.利用向量的夹角判断两个变量的相关性由相关系数rxy=cos,结合相关程度与向量夹角的关系可直接判断两个变量的相关性. 典例 下表为某省十二个地区某年1月平均气温与海拔及纬度的数据:平均气温xi/℃ 6.9 17 16.9 11.3 14.2 12.3海拔yi/m 3 640 4 420 4 220 2 840 3 200 3 140纬度zi 32.2 33.8 35 36.3 37.1 38.4平均气温xi/℃ 18.2 17.3 10.4 13.3 6.4 8.6海拔yi/m 3 360 4 650 2 680 3 970 2 080 2 260纬度zi 38.9 35.3 36.8 33.8 35.9 36.6注:表中i=1,2,3,…,12.(1)试分析1月平均气温与海拔之间、1月平均气温与纬度之间是否具有相关关系;(2)用向量夹角分析1月平均气温与海拔之间、1月平均气温与纬度之间的相关关系.思路点拨 (1)作散点图,观察相关性.(2)均值化处理两组成对数据,求出各自对应的第一分量、第二分量构成的12维向量,求向量夹角的余弦值得到相关系数,进而解决问题.解析 (1)作1月平均气温x与海拔y的散点图,如图:作1月平均气温x与纬度z的散点图,如图:将其依次记为(x'1,y'1),(x'2,y'2),…,(x'12,y'12),(x'1,z'1),(x'2,z'2),…,(x'12,z'12).设“标准化”处理后的成对数据(x'1,y'1),(x'2,y'2),…,(x'12,y'12)的第一分量构成12维向量x'=(x'1,x'2,…,x'12),第二分量构成12维向量y'=(y'1,y'2,…,y'12),故x'·y'≈8.737 2.设向量x'与y'的夹角为θ1,于是得1月平均气温与海拔之间的相关系数rxy=cos θ1= ≈0.728 1.设均值化处理后的成对数据(x'1,z'1),(x'2,z'2),…,(x'12,z'12)的第二分量构成12维向量z'=(z'1,z'2,…,z'12),有x'·z'≈2.229 4.设向量x'与z'的夹角为θ2,于是得1月平均气温与纬度之间的相关系数rxz=cos θ2= ≈0.185 8.因此,1月平均气温与海拔之间呈正相关,但相关关系一般,1月平均气温与纬度之间相关关系很弱. 展开更多...... 收起↑ 资源列表 4.1 成对数据的统计相关性.docx 4.1 成对数据的统计相关性.pptx