资源简介 2.1 相关系数 2.2 成对数据的线性相关性分析新课程标准解读 核心素养1.结合实例,了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系 数学抽象2.结合实例,会通过相关系数比较多组成对数据的相关性 数据分析 据隆众资讯数据统计,2020~2022年截止到10月底的数据显示,聚丙烯期货价格及现货价格二者相关系数为88.70%,其中2020年二者相关系数高达90.86%,2021年降至83.97%,2022年截止到10月底二者相关系数为65.23%.【问题】 什么是相关系数,如何计算,它有什么作用? 知识点 样本(线性)相关系数1.样本相关系数的概念一般地,设随机变量X,Y的n组观测值分别为(x1,y1),(x2,y2),…,(xn,yn),记r== ,称r为随机变量X和Y的样本(线性)相关系数.2.相关系数r的计算公式r= .3.样本相关系数的性质(1)样本相关系数r的取值范围为 ;(2)|r|值越接近1,随机变量之间的线性相关程度越 ;|r|值越接近0,随机变量之间的线性相关程度越 ;(3)当r>0时,两个随机变量的值总体上变化趋势相同,此时称两个随机变量 相关;(4)当r<0时,两个随机变量的值总体上变化趋势相反,此时称两个随机变量 相关;(5)当r=0,此时称两个随机变量线性 .1.判断正误.(正确的画“√”,错误的画“×”)(1)若相关系数为0,则说明两变量x,y之间没任何关系.( )(2)两个变量相关系数越大,说明它们的相关性越强.( )(3)求回归方程时,最好用相关系数判断一下两变量相关性的强弱.( )2.已知一组成对样本数据为(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等),若这组成对样本数据的样本相关系数为-1,则所有的样本点(xi,yi)(i=1,2,…,n)满足的方程可以是( )A.y=-x+1 B.y=x-1C.y=x+1 D.y=-x23.已知求得甲、乙、丙3组不同数据的线性相关系数分别为0.81,-0.98,0.63,其中 (填“甲、乙、丙”中的一个)组数据的线性相关性最强.题型一 相关关系的判断【例1】 以下是在某地搜集到的不同楼盘新房屋的销售价格Y(单位:万元)和房屋面积X(单位:m2)的数据:房屋面积X/m2 115 110 80 135 105销售价格Y/万元 24.8 21.6 19.4 29.2 22(1)画出数据对应的散点图;尝试解答(2)判断新房屋的销售价格和房屋面积之间是否具有相关关系?如果有相关关系,是正相关还是负相关?尝试解答通性通法1.两个变量X和Y具有相关关系的判断方法(1)散点图法:通过散点图,观察它们的分布是否存在一定规律,直观地判断;(2)表格、关系式法:结合表格或关系式进行判断;(3)经验法:借助积累的经验进行分析判断.2.判断两个变量X和Y之间是否具有线性相关关系,常用的方法就是绘制散点图,如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.【跟踪训练】1.下列两个变量之间的关系是相关关系的是( )A.正方体的棱长和体积B.单位圆中角的度数和所对弧长C.亩产量为常数时,土地面积和总产量D.日照时间与水稻的亩产量2.对变量X,Y有观测数据(xi,yi)(i=1,2,…,10),得散点图如图①;对变量U,V有观测数据(ui,vi)(i=1,2,…,10),得散点图如图②.由这两个散点图可以判断( )A.变量X与Y正相关,U与V正相关B.变量X与Y正相关,U与V负相关C.变量X与Y负相关,U与V正相关D.变量X与Y负相关,U与V负相关题型二 相关系数的性质【例2】 (1)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得样本相关系数r如下表:甲 乙 丙 丁r 0.82 0.78 0.69 0.85则哪位同学的试验结果体现A,B两变量有更强的线性相关性( )A.甲 B.乙 C.丙 D.丁(2)对四组不同数据进行统计,获得如图所示的散点图,对它们的样本相关系数进行比较,正确的是( )A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3尝试解答通性通法 两个变量间的线性相关关系可以通过成对样本数据的相关系数r进行定量分析:|r|越接近1,成对数据的线性相关程度越强;|r|越接近0,成对数据的线性相关程度越弱.特别地,当|r|=1时,成对数据的散点落在一条直线上,此时两个变量满足线性关系,但不是相关关系,而是函数关系.当r=0时,成对数据之间没有线性相关关系,但不排除它们之间有其他相关关系.当r>0时,两变量正相关;当r<0时,两变量负相关.【跟踪训练】如图是相关变量x,y的散点图,现对这两个变量进行线性相关分析,方案一:根据图中所有数据计算得到相关系数为r1;方案二:剔除点(10,32),根据剩下的数据计算得到相关系数为r2,则( )A.0<r1<r2<1 B.0<r2<r1<1C.-1<r1<r2<0 D.-1<r2<r1<0题型三 样本相关系数的计算【例3】 某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得xi=60,yi=1 200,(xi-)2=80,(yi-)2=9 000,(xi-)(yi-)=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01).附:样本相关系数r=,≈1.414.尝试解答通性通法样本相关系数的计算 由公式r==代入样本数据后直接计算,其中=xi,=yi,点(,)又称样本中心点.【跟踪训练】 某单位一种大型设备的使用年限x(单位:年)与所支出的维修费用y(单位:万元)有如下统计资料:x 2 3 4 5 6y 2.2 3.8 5.5 6.5 7.0计算y与x之间的样本相关系数(精确到0.001,已知=90,≈140.8,xiyi=112.3,≈8.9,≈1.4),并推断它们的相关程度.1.已知相关关系:①正相关,②负相关,③不相关.则图(1)(2)(3)分别反映的两变量间的相关关系是( )A.①②③ B.②③① C.②①③ D.①③②2.对于线性相关系数r,叙述正确的是( )A.r∈(-∞,+∞),且r越大,相关程度越大B.r∈(-∞,+∞),且|r|越大,相关程度越大C.r∈[-1,1],且r越大,相关程度越大D.r∈[-1,1],且|r|越大,相关程度越大3.已知变量x,y之间具有线性相关关系,其散点图如图所示,则其回归方程可能为( )A.=1.5x+2 B.=-1.5x+2C.=1.5x-2 D.=-1.5x-24.在一组成对样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线Y=X+1上,则这组样本数据的样本相关系数为( )A.-1 B.0C. D.15.如图所示,给出了样本量均为7的A,B两组样本数据的散点图,已知A组样本数据的相关系数为r1,B组数据的相关系数为r2,则有r1 r2(填“>”或“<”).2.1 相关系数2.2 成对数据的线性相关性分析【基础知识·重落实】知识点1.2.3.(1)[-1,1] (2)强 弱 (3)正 (4)负 (5)不相关自我诊断1.(1)× (2)× (3)√2.A 若这组样本数据的相关系数为-1,则样本数据为线性相关,排除D,又相关系数为-1,所以样本数据为负相关,排除B、C(B、C为正相关).故选A.3.乙 解析:两个变量的相关系数的绝对值越接近于1,它的线性相关性越强.在甲、乙、丙所给的数值中-0.98是相关系数绝对值最大的值,即乙的线性相关性最强.【典型例题·精研析】【例1】 解:(1)数据对应的散点图如图所示.(2)通过以上数据对应的散点图可以判断,新房屋的销售价格和房屋面积之间具有相关关系,且是正相关.跟踪训练1.D 不确定性是相关关系的一个重要特征.A、B、C为函数关系,而D为相关关系.2.C 由两个散点图的形状判断,X与Y负相关,U与V是正相关.【例2】 (1)D (2)A 解析:(1)|r|越接近1,相关性越强,故选D.(2)由给出的四组数据的散点图可以看出,图①和图③中的成对数据是正相关的,样本相关系数大于0,图②和图④中的成对数据是负相关的,样本相关系数小于0,图①和图②中的点相对更加集中于一条直线附近,所以相关性更强,所以r1接近于1,r2接近于-1,由此可得r2<r4<0<r3<r1.跟踪训练 A 由散点图可知,变量x和y成正线性相关,所以0<r1<1,0<r2<1.在剔除点(10,32)之后,可看出x和y的线性相关程度更强,r2更接近1,所以0<r1<r2<1.故选A.【例3】 解:(1)由已知得样本平均数=yi=60,从而该地区这种野生动物数量的估计值为60×200=12 000.(2)样本(xi,yi)(i=1,2,…,20)的相关系数r===≈0.94.跟踪训练 解:∵==4,==5,∴xiyi-5=112.3-5×4×5=12.3,-5=90-80=10,-5≈140.8-125=15.8,∴r====≈≈0.987.由样本相关系数r≈0.987,可以推断这个大型设备的使用年限与所支出的维修费用这两个变量正线性相关,且相关程度很强.随堂检测1.D 对于题图(1),图中的点带状分布,且从左到右上升,是正相关关系①;对于题图(2),图中的点没有明显的带状分布,两变量不相关③;对于题图(3),图中的点带状分布,且从左到右是下降的,是负相关关系②.故选D.2.D 相关系数r是来衡量两个变量之间的线性相关程度的,线性相关系数是一个绝对值小于等于1的量,并且它的绝对值越大就说明相关程度越大.故选D.3.B 结合散点图可知,变量x,y之间是负相关,且纵截距大于0,故选B.4.D 因为所有样本点(xi,yi)(i=1,2,…,n)都在直线Y=X+1上,且X,Y的变化趋势相同,所以样本相关系数为1.5.> 解析:根据A,B两组样本数据的散点图知,A组样本数据几乎在一条直线上,且成正相关,∴相关系数r1接近1,B组数据分散在一条直线附近,也成正相关,∴相关系数r2满足r2<r1,即r1>r2.6 / 6(共79张PPT)2.2 成对数据的线性相关性分析新课程标准解读 核心素养1.结合实例,了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系 数学抽象2.结合实例,会通过相关系数比较多组成对数据的相关性 数据分析目录基础知识·重落实01典型例题·精研析02知能演练·扣课标03基础知识·重落实01课前预习 必备知识梳理 据隆众资讯数据统计,2020~2022年截止到10月底的数据显示,聚丙烯期货价格及现货价格二者相关系数为88.70%,其中2020年二者相关系数高达90.86%,2021年降至83.97%,2022年截止到10月底二者相关系数为65.23%.【问题】 什么是相关系数,如何计算,它有什么作用? 知识点 样本(线性)相关系数1. 样本相关系数的概念一般地,设随机变量 X , Y 的 n 组观测值分别为( x1, y1),( x2,y2),…,( xn , yn ),记 r == ,称 r 为随机变量 X 和 Y 的样本(线性)相关系数.2. 相关系数 r 的计算公式r = .3. 样本相关系数的性质(1)样本相关系数 r 的取值范围为 ;(2)| r |值越接近1,随机变量之间的线性相关程度越 ;| r |值越接近0,随机变量之间的线性相关程度越 ;(3)当 r >0时,两个随机变量的值总体上变化趋势相同,此时称两个随机变量 相关;(4)当 r <0时,两个随机变量的值总体上变化趋势相反,此时称两个随机变量 相关;(5)当 r =0,此时称两个随机变量线性 .[-1,1] 强 弱 正 负 不相关 1. 判断正误.(正确的画“√”,错误的画“×”)(1)若相关系数为0,则说明两变量 x , y 之间没任何关系.( × )(2)两个变量相关系数越大,说明它们的相关性越强. ( × )(3)求回归方程时,最好用相关系数判断一下两变量相关性的强弱. ( √ )××√2. 已知一组成对样本数据为( x1, y1),( x2, y2),…,( xn ,yn )( n ≥2, x1, x2,…, xn 不全相等),若这组成对样本数据的样本相关系数为-1,则所有的样本点( xi , yi )( i =1,2,…,n )满足的方程可以是( )B. y = x -1C. y = x +1 D. y =- x2解析: 若这组样本数据的相关系数为-1,则样本数据为线性相关,排除D,又相关系数为-1,所以样本数据为负相关,排除B、C(B、C为正相关).故选A.3. 已知求得甲、乙、丙3组不同数据的线性相关系数分别为0.81,-0.98,0.63,其中 (填“甲、乙、丙”中的一个)组数据的线性相关性最强.解析:两个变量的相关系数的绝对值越接近于1,它的线性相关性越强.在甲、乙、丙所给的数值中-0.98是相关系数绝对值最大的值,即乙的线性相关性最强.乙 典型例题·精研析02课堂互动 关键能力提升题型一 相关关系的判断【例1】 以下是在某地搜集到的不同楼盘新房屋的销售价格 Y (单位:万元)和房屋面积 X (单位:m2)的数据:房屋面积X/m2 115 110 80 135 105销售价格Y/万元 24.8 21.6 19.4 29.2 22(1)画出数据对应的散点图;解:数据对应的散点图如图所示.(2)判断新房屋的销售价格和房屋面积之间是否具有相关关系?如果有相关关系,是正相关还是负相关?解:通过以上数据对应的散点图可以判断,新房屋的销售价格和房屋面积之间具有相关关系,且是正相关.通性通法1. 两个变量 X 和 Y 具有相关关系的判断方法(1)散点图法:通过散点图,观察它们的分布是否存在一定规律,直观地判断;(2)表格、关系式法:结合表格或关系式进行判断;(3)经验法:借助积累的经验进行分析判断.2. 判断两个变量 X 和 Y 之间是否具有线性相关关系,常用的方法就是绘制散点图,如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.【跟踪训练】1. 下列两个变量之间的关系是相关关系的是( )A. 正方体的棱长和体积B. 单位圆中角的度数和所对弧长C. 亩产量为常数时,土地面积和总产量D. 日照时间与水稻的亩产量解析: 不确定性是相关关系的一个重要特征.A、B、C为函数关系,而D为相关关系.2. 对变量 X , Y 有观测数据( xi , yi )( i =1,2,…,10),得散点图如图①;对变量 U , V 有观测数据( ui , vi )( i =1,2,…,10),得散点图如图②.由这两个散点图可以判断( )A. 变量 X 与 Y 正相关, U 与 V 正相关B. 变量 X 与 Y 正相关, U 与 V 负相关C. 变量 X 与 Y 负相关, U 与 V 正相关D. 变量 X 与 Y 负相关, U 与 V 负相关解析: 由两个散点图的形状判断, X 与 Y 负相关, U 与 V 是正相关.题型二 相关系数的性质【例2】 (1)甲、乙、丙、丁四位同学各自对 A , B 两变量的线性相关性做试验,并用回归分析方法分别求得样本相关系数 r 如下表:甲 乙 丙 丁r 0.82 0.78 0.69 0.85A. 甲 B. 乙C. 丙 D. 丁则哪位同学的试验结果体现 A , B 两变量有更强的线性相关性( )解析:| r |越接近1,相关性越强,故选D.(2)对四组不同数据进行统计,获得如图所示的散点图,对它们的样本相关系数进行比较,正确的是( )A. r2< r4<0< r3< r1 B. r4< r2<0< r1< r3C. r4< r2<0< r3< r1 D. r2< r4<0< r1< r3解析:由给出的四组数据的散点图可以看出,图①和图③中的成对数据是正相关的,样本相关系数大于0,图②和图④中的成对数据是负相关的,样本相关系数小于0,图①和图②中的点相对更加集中于一条直线附近,所以相关性更强,所以 r1接近于1,r2接近于-1,由此可得 r2< r4<0< r3< r1.通性通法 两个变量间的线性相关关系可以通过成对样本数据的相关系数 r进行定量分析:| r |越接近1,成对数据的线性相关程度越强;| r |越接近0,成对数据的线性相关程度越弱.特别地,当| r |=1时,成对数据的散点落在一条直线上,此时两个变量满足线性关系,但不是相关关系,而是函数关系.当 r =0时,成对数据之间没有线性相关关系,但不排除它们之间有其他相关关系.当 r >0时,两变量正相关;当 r <0时,两变量负相关.【跟踪训练】如图是相关变量 x , y 的散点图,现对这两个变量进行线性相关分析,方案一:根据图中所有数据计算得到相关系数为 r1;方案二:剔除点(10,32),根据剩下的数据计算得到相关系数为 r2,则( )A. 0< r1< r2<1B. 0< r2< r1<1C. -1< r1< r2<0D. -1< r2< r1<0解析: 由散点图可知,变量 x 和 y 成正线性相关,所以0< r1<1,0< r2<1.在剔除点(10,32)之后,可看出 x 和 y 的线性相关程度更强, r2更接近1,所以0< r1< r2<1.故选A.题型三 样本相关系数的计算【例3】 某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据( xi , yi )( i =1,2,…,20),其中 xi 和 yi分别表示第 i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得 xi =60, yi =1 200, ( xi - )2=80,( yi - )2=9 000, ( xi - )( yi - )=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);解:由已知得样本平均数 = yi =60,从而该地区这种野生动物数量的估计值为60×200=12 000.(2)求样本( xi , yi )( i =1,2,…,20)的相关系数(精确到0.01).附:样本相关系数 r = , ≈1.414.解:样本( xi , yi )( i =1,2,…,20)的相关系数r = = = ≈0.94.通性通法样本相关系数的计算 由公式 r = = 代入样本数据后直接计算,其中 = xi , = yi ,点( , )又称样本中心点.【跟踪训练】 某单位一种大型设备的使用年限 x (单位:年)与所支出的维修费用 y (单位:万元)有如下统计资料:x 2 3 4 5 6y 2.2 3.8 5.5 6.5 7.0计算 y 与 x 之间的样本相关系数(精确到0.001,已知 =90,≈140.8, xiyi =112.3, ≈8.9, ≈1.4),并推断它们的相关程度.解:∵ = =4,= =5,∴ xiyi -5 =112.3-5×4×5=12.3,-5 =90-80=10,-5 ≈140.8-125=15.8,∴ r = = = = ≈≈0.987.由样本相关系数 r ≈0.987,可以推断这个大型设备的使用年限与所支出的维修费用这两个变量正线性相关,且相关程度很强.1. 已知相关关系:①正相关,②负相关,③不相关.则图(1)(2)(3)分别反映的两变量间的相关关系是( )A. ①②③ B. ②③①C. ②①③ D. ①③②解析: 对于题图(1),图中的点带状分布,且从左到右上升,是正相关关系①;对于题图(2),图中的点没有明显的带状分布,两变量不相关③;对于题图(3),图中的点带状分布,且从左到右是下降的,是负相关关系②.故选D.2. 对于线性相关系数 r ,叙述正确的是( )A. r ∈(-∞,+∞),且 r 越大,相关程度越大B. r ∈(-∞,+∞),且| r |越大,相关程度越大C. r ∈[-1,1],且 r 越大,相关程度越大D. r ∈[-1,1],且| r |越大,相关程度越大解析: 相关系数 r 是来衡量两个变量之间的线性相关程度的,线性相关系数是一个绝对值小于等于1的量,并且它的绝对值越大就说明相关程度越大.故选D.3. 已知变量 x , y 之间具有线性相关关系,其散点图如图所示,则其回归方程可能为( )解析: 结合散点图可知,变量 x , y 之间是负相关,且纵截距大于0,故选B.4. 在一组成对样本数据( x1, y1),( x2, y2),…,( xn , yn )( n≥2, x1, x2,…, xn 不全相等)的散点图中,若所有样本点( xi ,yi )( i =1,2,…, n )都在直线 Y = X +1上,则这组样本数据的样本相关系数为( )A. -1 B. 0D. 1解析: 因为所有样本点( xi , yi )( i =1,2,…, n )都在直线 Y = X +1上,且 X , Y 的变化趋势相同,所以样本相关系数为1.5. 如图所示,给出了样本量均为7的 A , B 两组样本数据的散点图,已知 A 组样本数据的相关系数为 r1, B 组数据的相关系数为 r2,则有 r1r2(填“>”或“<”).> 解析:根据 A , B 两组样本数据的散点图知, A 组样本数据几乎在一条直线上,且成正相关,∴相关系数 r1接近1, B 组数据分散在一条直线附近,也成正相关,∴相关系数 r2满足 r2< r1,即 r1> r2.知能演练·扣课标03课后巩固 核心素养落地1. 如果两个变量之间的线性相关程度很高,则其相关系数 r 的绝对值应接近于( )A. 0.5 B. 2C. 0 D. 1解析: 相关系数| r |越接近于1,相关程度越高.故选D.123456789101112131415162. 若回归直线的斜率 ∈(0,+∞),则相关系数 r 的取值范围为( )A. (0,1] B. [-1,0)C. 0 D. 无法确定解析: 由相关系数与回归直线斜率之间的关系可知相关系数的取值范围是0< r ≤1,故选A.123456789101112131415163. 为了对变量 x 与 y 的线性相关性进行检验,由样本点( x1, y1),( x2, y2),…,( x10, y10)求得两个变量的样本相关系数为 r ,则下面说法中正确的是( )A. 若所有样本点都在直线 y =-2 x +1上,则 r =1B. 若所有样本点都在直线 y =-2 x +1上,则 r =-2C. 若| r |越大,则变量 x 与 y 的线性相关性越强D. 若| r |越小,则变量 x 与 y 的线性相关性越强12345678910111213141516解析: 若所有样本点都在直线 y =-2 x +1上,则 x 与 y 是函数关系,且直线斜率为负数,所以 r =-1,故A、B说法均错误;若| r |越大,则变量 x 与 y 的线性相关性越强,故C说法正确,D说法错误.故选C.123456789101112131415164. 某次考试之后,班主任从全班同学中随机抽取8位同学,他们的数学、物理成绩(单位:分,满分100分)的散点图如图所示:根据以上信息,有下列结论:12345678910111213141516①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系;②从全班同学中随机抽取2名同学(记为甲、乙),若甲同学的数学成绩为80分,乙同学的数学成绩为60分,则可以判断出甲同学的物理成绩一定比乙同学的物理成绩高;③从全班同学中随机抽取2名同学(记为甲、乙),若甲同学的数学成绩为80分,乙同学的数学成绩为60分,则不能判断出甲同学的物理成绩一定比乙同学的物理成绩高.其中正确的个数是( )A. 0 B. 1C. 2 D. 312345678910111213141516解析: 由散点图,知两个变量具有线性相关关系,所以①正确;利用统计知识进行预测,得到的结论有一定的随机性,所以②错误,③正确.所以正确结论的个数为2,故选C.123456789101112131415165. (多选)如图是根据 X , Y 的观测数据( xi , yi )( i =1,2,…,10)得到的散点图,由这些散点图可以判断变量 X , Y 具有线性相关关系的图是( )12345678910111213141516解析: 由题图知,B、C的点呈片状分布,没有明显的线性相关关系;A中 Y 随 X 的增大而减小,各点整体呈下降趋势, X与 Y 负相关;D中 Y 随 X 的增大而增大,各点整体呈上升趋势,X 与 Y 正相关.123456789101112131415166. (多选)甲、乙、丙、丁四位同学利用暑假对某地10个自然村进行社会调查.他们先走访了5个自然村,发现了一个有趣的现象,其中3个村庄附近天鹅比较多,婴儿出生率也比较高,另外2个村庄附近天鹅比较少,婴儿出生率也比较低,也听说当地流传着一个说法“天鹅带来了孩子”,于是他们对另外5个村庄进行了估计,下列说法不正确的是( )A. 如果村庄附近的天鹅多,则这个村庄的婴儿出生率一定高B. 如果村庄婴儿出生率比较低,则这个村庄附近的天鹅一定比较少C. 村庄附近的天鹅数与婴儿出生率具有相关性D. 村庄附近的天鹅数与婴儿出生率一定成正比12345678910111213141516解析: 从调查现象来看,村庄附近的天鹅数与婴儿出生率具有相关性,是相关关系而不是确定性的关系,因此A、B、D都是不正确的.123456789101112131415167. 下表给出了5组数据,为选出4组数据使其线性相关程度最大,且保留第1组数据(-5,-3),则应去掉第 组数据.第 i 组 1 2 3 4 5xi -5 -4 -3 -2 4yi -3 -2 4 -1 63 12345678910111213141516解析:画出散点图如图所示,则应去掉第3组数据(-3,4).123456789101112131415168. 在一次试验中,测得变量 X 与 Y 的四组值分别为(1,2),(2,0),(4,-4),(-1,6),则 Y 与 X 的相关系数为 .解析:由题得 =1.5, =1, =22, =56, xiyi =-20,相关系数 r = =-1.-1 123456789101112131415169. 当且仅当线性相关系数 r 满足 时,数据点( xi , yi )( i=1,2,…, n )在一条直线上.解析:当数据点( xi , yi )在一条直线上时, Y 只受 X 的影响,即数据点完全线性相关,此时| r |=1.| r |=1 1234567891011121314151610. 某农场经过观测得到水稻产量和施化肥量的统计数据如表:施化肥量 X 15 20 25 30 35 40 45水稻产量 Y 330 345 365 405 445 450 455求水稻产量与施化肥量的样本相关系数,并判断相关性的强弱.参考数据: =7 000, =1 132 725, xiyi =87 175.12345678910111213141516解:由已知数据计算可知,= =30,= ≈399.3,所以样本相关系数 r = =≈0.97,由于0.97与1十分接近,所以水稻产量与施化肥量的相关性很强.1234567891011121314151611. 下表是某城市在2023年1月份至10月份各月最低温与最高温(℃)的数据表,已知该城市各月最低温与最高温具有相关关系,根据该表,下列结论错误的是( )月份 1 2 3 4 5 6 7 8 9 10最高温 5 9 9 11 17 24 27 30 31 21最低温 -12 -3 1 -2 7 17 19 23 25 1012345678910111213141516A. 最低温与最高温为正相关B. 每月最低温与最高温的平均值在前8个月逐月增加C. 月温差(最高温减最低温)的最大值出现在1月D. 1至4月温差(最高温减最低温)相对于7至10月,波动性更大12345678910111213141516解析: 对于A,由题意可知该城市的各月最低温与最高温具有相关关系,由数据分析可得最低温与最高温为正相关,故A正确;对于B,由表中数据,每月最高温与最低温的平均值依次为:-3.5,3,5,4.5,12,20.5,23,26.5,28,15.5,在前8个月不是逐月增加,故B错误;对于C,由表中数据,月温差依次为:17,12,8,13,10,7,8,7,6,11.月温差的最大值出现在1月,故C正确;对于D,由C的结论,分析可得1至4月的月温差相对于7至10月,波动性更大,故D正确.故选B.1234567891011121314151612. 某国际控股有限公司2018~2023年的年广告支出 y (单位:百万元)与年利润 x (单位:百万元)的统计资料如下表所示:年份 2018 2019 2020 2021 2022 2023支出 y 0.64 0.72 0.79 0.85 0.98 1.06利润 x 11.9 13.1 15.7 17.1 19.6 21.512345678910111213141516A. 利润的中位数是15.7, y 与 x 为正相关关系B. 利润的中位数是16.4, y 与 x 为正相关关系C. 利润的中位数是17.1, y 与 x 为负相关关系D. 利润的中位数是16.4, y 与 x 为负相关关系解析: 由题意得,利润的中位数是 =16.4,而且随着利润的增加,支出也在增加,所以 y 与 x 为正相关关系,故选B.根据统计资料,可知下列说法正确的是( )1234567891011121314151613. (多选)某同学将收集到的六组数据制作成散点图如图所示,并得到其回归直线的方程为 l1: =0.68 x + ,计算其相关系数为r1.经过分析确定点 F 为“离群点”,把它去掉后,再利用剩下的5组数据计算得到的回归直线方程为 l2: = x +0.68,相关系数为r2,以下结论中,正确的是( )A. r1>0, r2>0 B. r1> r212345678910111213141516解析: 由图可知两变量呈现正相关,故 r1>0, r2>0,且 r1< r2,故A正确,B错误;又回归直线 l1: =0.68 x + 必经过样本中心点(3.5,2.5),所以 =2.5-0.68×3.5=0.12,C正确;回归直线 l2: = x +0.68必经过样本中心点(3,2),所以2=×3+0.68,所以 =0.44,也可直接根据散点图判断0< <0.68(比较两直线的倾斜程度),故A、C、D正确.1234567891011121314151614. 在某地区随机抽取了8对母女的身高数据,如表:母亲身高 X/cm 154 157 158 159 160 161 162 163女儿身高 Y/cm 155 156 159 162 161 164 165 16612345678910111213141516③用关于均值 和 为零点( , )平移后的成对样本数据( x1- , y1- ),( x2- , y2- ),…,( x8- , y8- )与原始成对样本数据相关性完全相同;④用样本相关系数 r 可以估计总体两个变量的相关系数.下列说法正确的序号为 .①8个成对样本数据呈正相关;②成对样本数据中变量 X 和变量 Y 的样本相关系数 r 约为0.963;①②③④ 12345678910111213141516解析:由成对样本数据可得, =(154+157+…+163)÷8=159.25, =(155+156+…+166)÷8=161, -8 =59.5, -8 =116, xiyi -8 =80,∴ r == ≈0.963,②正确;12345678910111213141516由 r ≈0.963>0,8个成对样本数据呈正相关关系,①正确;平移后的成对样本数据所对应平面直角坐标系中的散点图与原始的成对样本数据所对应的散点图形状完成一致,故相关性完全相同,③正确;根据统计学思想,④正确.1234567891011121314151615. 如图是某企业2016年至2022年的污水净化量(单位:吨)的折线图.注:年份代码1~7分别对应年份2016~2022.(1)由折线图看出,可用线性回归模型拟合 y 和 t 的关系,请用相关系数加以说明;12345678910111213141516解:由折线图中的数据得, =4, ( ti - )2=28, ( yi - )2=18,所以 r = ≈0.94.因为 y 与 t 的相关系数近似为0.94,说明 y 与 t 的线性相关程度相当大,所以可以用线性回归模型拟合 y 与 t 的关系.12345678910111213141516(2)建立 y 关于 t 的回归方程,预测2024年该企业的污水净化量.参考数据: =54, ( ti - )( yi - )=21,≈3.74, ( yi - )2= ,12345678910111213141516参考公式:相关系数 r = ,线性回归方程 = + t , = , = - .12345678910111213141516解:因为 =54, = = = ,所以 = - =54- ×4=51,所以 y 关于 t 的线性回归方程为 = t + = t +51,将2024年对应的年份代码 t =9代入上式,得 = ×9+51=57.75,所以预测2024年该企业污水净化量约为57.75吨.1234567891011121314151616. 为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:12345678910111213141516抽取次序 1 2 3 4 5 6 7 8零件尺寸 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04抽取次序 9 10 11 12 13 14 15 16零件尺寸 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.9512345678910111213141516经计算得 = xi =9.97, s = =≈0.212, ≈18.439, ( xi- )( i -8.5)=-2.78,其中 xi 为抽取的第 i 个零件的尺寸, i=1,2,…,16.12345678910111213141516求( xi , i )( i =1,2,…,16)的样本相关系数 r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若| r |<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).附:样本( xi , yi )( i =1,2,…, n )的样本相关系数 r =.12345678910111213141516解:由样本数据得( xi , i )( i =1,2,…,16)的样本相关系数为 r = ≈ ≈-0.18.由于| r |<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.12345678910111213141516谢 谢 观 看!2.1 相关系数 2.2 成对数据的线性相关性分析1.如果两个变量之间的线性相关程度很高,则其相关系数r的绝对值应接近于( )A.0.5 B.2C.0 D.12.若回归直线的斜率∈(0,+∞),则相关系数r的取值范围为( )A.(0,1] B.[-1,0)C.0 D.无法确定3.为了对变量x与y的线性相关性进行检验,由样本点(x1,y1),(x2,y2),…,(x10,y10)求得两个变量的样本相关系数为r,则下面说法中正确的是( )A.若所有样本点都在直线y=-2x+1上,则r=1B.若所有样本点都在直线y=-2x+1上,则r=-2C.若|r|越大,则变量x与y的线性相关性越强D.若|r|越小,则变量x与y的线性相关性越强4.某次考试之后,班主任从全班同学中随机抽取8位同学,他们的数学、物理成绩(单位:分,满分100分)的散点图如图所示:根据以上信息,有下列结论:①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系;②从全班同学中随机抽取2名同学(记为甲、乙),若甲同学的数学成绩为80分,乙同学的数学成绩为60分,则可以判断出甲同学的物理成绩一定比乙同学的物理成绩高;③从全班同学中随机抽取2名同学(记为甲、乙),若甲同学的数学成绩为80分,乙同学的数学成绩为60分,则不能判断出甲同学的物理成绩一定比乙同学的物理成绩高.其中正确的个数是( )A.0 B.1C.2 D.35.(多选)如图是根据X,Y的观测数据(xi,yi)(i=1,2,…,10)得到的散点图,由这些散点图可以判断变量X,Y具有线性相关关系的图是( )6.(多选)甲、乙、丙、丁四位同学利用暑假对某地10个自然村进行社会调查.他们先走访了5个自然村,发现了一个有趣的现象,其中3个村庄附近天鹅比较多,婴儿出生率也比较高,另外2个村庄附近天鹅比较少,婴儿出生率也比较低,也听说当地流传着一个说法“天鹅带来了孩子”,于是他们对另外5个村庄进行了估计,下列说法不正确的是( )A.如果村庄附近的天鹅多,则这个村庄的婴儿出生率一定高B.如果村庄婴儿出生率比较低,则这个村庄附近的天鹅一定比较少C.村庄附近的天鹅数与婴儿出生率具有相关性D.村庄附近的天鹅数与婴儿出生率一定成正比7.下表给出了5组数据,为选出4组数据使其线性相关程度最大,且保留第1组数据(-5,-3),则应去掉第 组数据.第i组 1 2 3 4 5xi -5 -4 -3 -2 4yi -3 -2 4 -1 68.在一次试验中,测得变量X与Y的四组值分别为(1,2),(2,0),(4,-4),(-1,6),则Y与X的相关系数为 .9.当且仅当线性相关系数r满足 时,数据点(xi,yi)(i=1,2,…,n)在一条直线上.10.某农场经过观测得到水稻产量和施化肥量的统计数据如表:施化肥量X 15 20 25 30 35 40 45水稻产量Y 330 345 365 405 445 450 455求水稻产量与施化肥量的样本相关系数,并判断相关性的强弱.参考数据:=7 000,=1 132 725,xiyi=87 175.11.下表是某城市在2023年1月份至10月份各月最低温与最高温(℃)的数据表,已知该城市各月最低温与最高温具有相关关系,根据该表,下列结论错误的是( )月份 1 2 3 4 5 6 7 8 9 10最高温 5 9 9 11 17 24 27 30 31 21最低温 -12 -3 1 -2 7 17 19 23 25 10A.最低温与最高温为正相关B.每月最低温与最高温的平均值在前8个月逐月增加C.月温差(最高温减最低温)的最大值出现在1月D.1至4月温差(最高温减最低温)相对于7至10月,波动性更大12.某国际控股有限公司2018~2023年的年广告支出y(单位:百万元)与年利润x(单位:百万元)的统计资料如下表所示:年份 2018 2019 2020 2021 2022 2023支出y 0.64 0.72 0.79 0.85 0.98 1.06利润x 11.9 13.1 15.7 17.1 19.6 21.5根据统计资料,可知下列说法正确的是( )A.利润的中位数是15.7,y与x为正相关关系B.利润的中位数是16.4,y与x为正相关关系C.利润的中位数是17.1,y与x为负相关关系D.利润的中位数是16.4,y与x为负相关关系13.(多选)某同学将收集到的六组数据制作成散点图如图所示,并得到其回归直线的方程为l1:=0.68x+,计算其相关系数为r1.经过分析确定点F为“离群点”,把它去掉后,再利用剩下的5组数据计算得到的回归直线方程为l2:=x+0.68,相关系数为r2,以下结论中,正确的是( )A.r1>0,r2>0 B.r1>r2C.=0.12 D.0<<0.6814.在某地区随机抽取了8对母女的身高数据,如表:母亲身高 X/cm 154 157 158 159 160 161 162 163女儿身高 Y/cm 155 156 159 162 161 164 165 166下列说法正确的序号为 .①8个成对样本数据呈正相关;②成对样本数据中变量X和变量Y的样本相关系数r约为0.963;③用关于均值和为零点(,)平移后的成对样本数据(x1-,y1-),(x2-,y2-),…,(x8-,y8-)与原始成对样本数据相关性完全相同;④用样本相关系数r可以估计总体两个变量的相关系数.15.如图是某企业2016年至2022年的污水净化量(单位:吨)的折线图.注:年份代码1~7分别对应年份2016~2022.(1)由折线图看出,可用线性回归模型拟合y和t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程,预测2024年该企业的污水净化量.参考数据:=54, (ti-)(yi-)=21,≈3.74, (yi-)2=,参考公式:相关系数r=,线性回归方程=+t,=,=-.16.为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:抽取次序 1 2 3 4 5 6 7 8零件尺寸 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04抽取次序 9 10 11 12 13 14 15 16零件尺寸 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95经计算得=xi=9.97,s==≈0.212,≈18.439,(xi-)(i-8.5)=-2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.求(xi,i)(i=1,2,…,16)的样本相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).附:样本(xi,yi)(i=1,2,…,n)的样本相关系数r=.2.1 相关系数2.2 成对数据的线性相关性分析1.D 相关系数|r|越接近于1,相关程度越高.故选D.2.A 由相关系数与回归直线斜率之间的关系可知相关系数的取值范围是0<r≤1,故选A.3.C 若所有样本点都在直线y=-2x+1上,则x与y是函数关系,且直线斜率为负数,所以r=-1,故A、B说法均错误;若|r|越大,则变量x与y的线性相关性越强,故C说法正确,D说法错误.故选C.4.C 由散点图,知两个变量具有线性相关关系,所以①正确;利用统计知识进行预测,得到的结论有一定的随机性,所以②错误,③正确.所以正确结论的个数为2,故选C.5.AD 由题图知,B、C的点呈片状分布,没有明显的线性相关关系;A中Y随X的增大而减小,各点整体呈下降趋势,X与Y负相关;D中Y随X的增大而增大,各点整体呈上升趋势,X与Y正相关.6.ABD 从调查现象来看,村庄附近的天鹅数与婴儿出生率具有相关性,是相关关系而不是确定性的关系,因此A、B、D都是不正确的.7.3 解析:画出散点图如图所示,则应去掉第3组数据(-3,4).8.-1 解析:由题得=1.5,=1,=22,=56,xiyi=-20,相关系数r==-1.9.|r|=1 解析:当数据点(xi,yi)在一条直线上时,Y只受X的影响,即数据点完全线性相关,此时|r|=1.10.解:由已知数据计算可知,==30,=≈399.3,所以样本相关系数r==≈0.97,由于0.97与1十分接近,所以水稻产量与施化肥量的相关性很强.11.B 对于A,由题意可知该城市的各月最低温与最高温具有相关关系,由数据分析可得最低温与最高温为正相关,故A正确;对于B,由表中数据,每月最高温与最低温的平均值依次为:-3.5,3,5,4.5,12,20.5,23,26.5,28,15.5,在前8个月不是逐月增加,故B错误;对于C,由表中数据,月温差依次为:17,12,8,13,10,7,8,7,6,11.月温差的最大值出现在1月,故C正确;对于D,由C的结论,分析可得1至4月的月温差相对于7至10月,波动性更大,故D正确.故选B.12.B 由题意得,利润的中位数是=16.4,而且随着利润的增加,支出也在增加,所以y与x为正相关关系,故选B.13.ACD 由图可知两变量呈现正相关,故r1>0,r2>0,且r1<r2,故A正确,B错误;又回归直线l1:=0.68x+必经过样本中心点(3.5,2.5),所以=2.5-0.68×3.5=0.12,C正确;回归直线l2:=x+0.68必经过样本中心点(3,2),所以2=×3+0.68,所以=0.44,也可直接根据散点图判断0<<0.68(比较两直线的倾斜程度),故A、C、D正确.14.①②③④ 解析:由成对样本数据可得,=(154+157+…+163)÷8=159.25,=(155+156+…+166)÷8=161,-8=59.5,-8=116,xiyi-8 =80,∴r==≈0.963,②正确;由r≈0.963>0,8个成对样本数据呈正相关关系,①正确;平移后的成对样本数据所对应平面直角坐标系中的散点图与原始的成对样本数据所对应的散点图形状完成一致,故相关性完全相同,③正确;根据统计学思想,④正确.15.解:(1)由折线图中的数据得,=4, (ti-)2=28, (yi-)2=18,所以r=≈0.94.因为y与t的相关系数近似为0.94,说明y与t的线性相关程度相当大,所以可以用线性回归模型拟合y与t的关系.(2)因为=54,===,所以=-=54-×4=51,所以y关于t的线性回归方程为=t+=t+51,将2024年对应的年份代码t=9代入上式,得=×9+51=57.75,所以预测2024年该企业污水净化量约为57.75吨.16.解:由样本数据得(xi,i)(i=1,2,…,16)的样本相关系数为r=≈≈-0.18.由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.1 / 4 展开更多...... 收起↑ 资源列表 2.1 相关系数 2.2 成对数据的线性相关性分析.docx 2.1 相关系数 2.2 成对数据的线性相关性分析.pptx 2.1 相关系数2.2 成对数据的线性相关性分析(练习,含解析).docx