第七章 2.1 相关系数2.2 成对数据的线性相关性分析(课件 学案 练习)高中数学 北师大版(2019)选择性必修 第一册

资源下载
  1. 二一教育资源

第七章 2.1 相关系数2.2 成对数据的线性相关性分析(课件 学案 练习)高中数学 北师大版(2019)选择性必修 第一册

资源简介

2.1 相关系数 2.2 成对数据的线性相关性分析
新课程标准解读 核心素养
1.结合实例,了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系 数学抽象
2.结合实例,会通过相关系数比较多组成对数据的相关性 数据分析
  据隆众资讯数据统计,2020~2022年截止到10月底的数据显示,聚丙烯期货价格及现货价格二者相关系数为88.70%,其中2020年二者相关系数高达90.86%,2021年降至83.97%,2022年截止到10月底二者相关系数为65.23%.
【问题】 什么是相关系数,如何计算,它有什么作用?
                      
                      
                      
                      
知识点 样本(线性)相关系数
1.样本相关系数的概念
一般地,设随机变量X,Y的n组观测值分别为(x1,y1),(x2,y2),…,(xn,yn),记r=
=            ,称r为随机变量X和Y的样本(线性)相关系数.
2.相关系数r的计算公式
r=                .
3.样本相关系数的性质
(1)样本相关系数r的取值范围为    ;
(2)|r|值越接近1,随机变量之间的线性相关程度越   ;|r|值越接近0,随机变量之间的线性相关程度越   ;
(3)当r>0时,两个随机变量的值总体上变化趋势相同,此时称两个随机变量   相关;
(4)当r<0时,两个随机变量的值总体上变化趋势相反,此时称两个随机变量   相关;
(5)当r=0,此时称两个随机变量线性   .
1.判断正误.(正确的画“√”,错误的画“×”)
(1)若相关系数为0,则说明两变量x,y之间没任何关系.(  )
(2)两个变量相关系数越大,说明它们的相关性越强.(  )
(3)求回归方程时,最好用相关系数判断一下两变量相关性的强弱.(  )
2.已知一组成对样本数据为(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等),若这组成对样本数据的样本相关系数为-1,则所有的样本点(xi,yi)(i=1,2,…,n)满足的方程可以是(  )
A.y=-x+1     B.y=x-1
C.y=x+1 D.y=-x2
3.已知求得甲、乙、丙3组不同数据的线性相关系数分别为0.81,-0.98,0.63,其中   (填“甲、乙、丙”中的一个)组数据的线性相关性最强.
题型一 相关关系的判断
【例1】 以下是在某地搜集到的不同楼盘新房屋的销售价格Y(单位:万元)和房屋面积X(单位:m2)的数据:
房屋面积X/m2 115 110 80 135 105
销售价格Y/万元 24.8 21.6 19.4 29.2 22
(1)画出数据对应的散点图;
尝试解答
(2)判断新房屋的销售价格和房屋面积之间是否具有相关关系?如果有相关关系,是正相关还是负相关?
尝试解答
通性通法
1.两个变量X和Y具有相关关系的判断方法
(1)散点图法:通过散点图,观察它们的分布是否存在一定规律,直观地判断;
(2)表格、关系式法:结合表格或关系式进行判断;
(3)经验法:借助积累的经验进行分析判断.
2.判断两个变量X和Y之间是否具有线性相关关系,常用的方法就是绘制散点图,如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
【跟踪训练】
1.下列两个变量之间的关系是相关关系的是(  )
A.正方体的棱长和体积
B.单位圆中角的度数和所对弧长
C.亩产量为常数时,土地面积和总产量
D.日照时间与水稻的亩产量
2.对变量X,Y有观测数据(xi,yi)(i=1,2,…,10),得散点图如图①;对变量U,V有观测数据(ui,vi)(i=1,2,…,10),得散点图如图②.由这两个散点图可以判断(  )
A.变量X与Y正相关,U与V正相关
B.变量X与Y正相关,U与V负相关
C.变量X与Y负相关,U与V正相关
D.变量X与Y负相关,U与V负相关
题型二 相关系数的性质
【例2】 (1)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得样本相关系数r如下表:
甲 乙 丙 丁
r 0.82 0.78 0.69 0.85
则哪位同学的试验结果体现A,B两变量有更强的线性相关性(  )
A.甲   B.乙   C.丙   D.丁
(2)对四组不同数据进行统计,获得如图所示的散点图,对它们的样本相关系数进行比较,正确的是(  )
A.r2<r4<0<r3<r1
B.r4<r2<0<r1<r3
C.r4<r2<0<r3<r1
D.r2<r4<0<r1<r3
尝试解答
通性通法
  两个变量间的线性相关关系可以通过成对样本数据的相关系数r进行定量分析:
|r|越接近1,成对数据的线性相关程度越强;
|r|越接近0,成对数据的线性相关程度越弱.
特别地,当|r|=1时,成对数据的散点落在一条直线上,此时两个变量满足线性关系,但不是相关关系,而是函数关系.
当r=0时,成对数据之间没有线性相关关系,但不排除它们之间有其他相关关系.
当r>0时,两变量正相关;当r<0时,两变量负相关.
【跟踪训练】
如图是相关变量x,y的散点图,现对这两个变量进行线性相关分析,方案一:根据图中所有数据计算得到相关系数为r1;方案二:剔除点(10,32),根据剩下的数据计算得到相关系数为r2,则(  )
A.0<r1<r2<1 B.0<r2<r1<1
C.-1<r1<r2<0 D.-1<r2<r1<0
题型三 样本相关系数的计算
【例3】 某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得xi=60,yi=1 200,(xi-)2=80,(yi-)2=9 000,(xi-)(yi-)=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01).
附:样本相关系数r=,≈1.414.
尝试解答
通性通法
样本相关系数的计算
  由公式r==代入样本数据后直接计算,其中=xi,=yi,点(,)又称样本中心点.
【跟踪训练】
 某单位一种大型设备的使用年限x(单位:年)与所支出的维修费用y(单位:万元)有如下统计资料:
x 2 3 4 5 6
y 2.2 3.8 5.5 6.5 7.0
计算y与x之间的样本相关系数(精确到0.001,已知=90,≈140.8,xiyi=112.3,≈8.9,≈1.4),并推断它们的相关程度.
1.已知相关关系:①正相关,②负相关,③不相关.则图(1)(2)(3)分别反映的两变量间的相关关系是(  )
A.①②③ B.②③① C.②①③ D.①③②
2.对于线性相关系数r,叙述正确的是(  )
A.r∈(-∞,+∞),且r越大,相关程度越大
B.r∈(-∞,+∞),且|r|越大,相关程度越大
C.r∈[-1,1],且r越大,相关程度越大
D.r∈[-1,1],且|r|越大,相关程度越大
3.已知变量x,y之间具有线性相关关系,其散点图如图所示,则其回归方程可能为(  )
A.=1.5x+2 B.=-1.5x+2
C.=1.5x-2 D.=-1.5x-2
4.在一组成对样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线Y=X+1上,则这组样本数据的样本相关系数为(  )
A.-1 B.0
C. D.1
5.如图所示,给出了样本量均为7的A,B两组样本数据的散点图,已知A组样本数据的相关系数为r1,B组数据的相关系数为r2,则有r1    r2(填“>”或“<”).
2.1 相关系数
2.2 成对数据的线性相关性分析
【基础知识·重落实】
知识点
1.
2.
3.(1)[-1,1] (2)强 弱 (3)正 (4)负 (5)不相关
自我诊断
1.(1)× (2)× (3)√
2.A 若这组样本数据的相关系数为-1,则样本数据为线性相关,排除D,又相关系数为-1,所以样本数据为负相关,排除B、C(B、C为正相关).故选A.
3.乙 解析:两个变量的相关系数的绝对值越接近于1,它的线性相关性越强.在甲、乙、丙所给的数值中-0.98是相关系数绝对值最大的值,即乙的线性相关性最强.
【典型例题·精研析】
【例1】 解:(1)数据对应的散点图如图所示.
(2)通过以上数据对应的散点图可以判断,新房屋的销售价格和房屋面积之间具有相关关系,且是正相关.
跟踪训练
1.D 不确定性是相关关系的一个重要特征.A、B、C为函数关系,而D为相关关系.
2.C 由两个散点图的形状判断,X与Y负相关,U与V是正相关.
【例2】 (1)D (2)A 解析:(1)|r|越接近1,相关性越强,故选D.
(2)由给出的四组数据的散点图可以看出,图①和图③中的成对数据是正相关的,样本相关系数大于0,图②和图④中的成对数据是负相关的,样本相关系数小于0,图①和图②中的点相对更加集中于一条直线附近,所以相关性更强,所以r1接近于1,r2接近于-1,由此可得r2<r4<0<r3<r1.
跟踪训练
 A 由散点图可知,变量x和y成正线性相关,所以0<r1<1,0<r2<1.在剔除点(10,32)之后,可看出x和y的线性相关程度更强,r2更接近1,所以0<r1<r2<1.故选A.
【例3】 解:(1)由已知得样本平均数=yi=60,从而该地区这种野生动物数量的估计值为60×200=12 000.
(2)样本(xi,yi)(i=1,2,…,20)的相关系数r===≈0.94.
跟踪训练
 解:∵==4,
==5,
∴xiyi-5=112.3-5×4×5=12.3,
-5=90-80=10,
-5≈140.8-125=15.8,
∴r====≈≈0.987.
由样本相关系数r≈0.987,可以推断这个大型设备的使用年限与所支出的维修费用这两个变量正线性相关,且相关程度很强.
随堂检测
1.D 对于题图(1),图中的点带状分布,且从左到右上升,是正相关关系①;对于题图(2),图中的点没有明显的带状分布,两变量不相关③;对于题图(3),图中的点带状分布,且从左到右是下降的,是负相关关系②.故选D.
2.D 相关系数r是来衡量两个变量之间的线性相关程度的,线性相关系数是一个绝对值小于等于1的量,并且它的绝对值越大就说明相关程度越大.故选D.
3.B 结合散点图可知,变量x,y之间是负相关,且纵截距大于0,故选B.
4.D 因为所有样本点(xi,yi)(i=1,2,…,n)都在直线Y=X+1上,且X,Y的变化趋势相同,所以样本相关系数为1.
5.> 解析:根据A,B两组样本数据的散点图知,A组样本数据几乎在一条直线上,且成正相关,∴相关系数r1接近1,B组数据分散在一条直线附近,也成正相关,∴相关系数r2满足r2<r1,即r1>r2.
6 / 6(共79张PPT)
2.2 
成对数据的线性相关性分析
新课程标准解读 核心素养
1.结合实例,了解样本相关系数的统计含义,了解样
本相关系数与标准化数据向量夹角的关系 数学抽象
2.结合实例,会通过相关系数比较多组成对数据的相
关性 数据分析
目录
基础知识·重落实
01
典型例题·精研析
02
知能演练·扣课标
03
基础知识·重落实
01
课前预习 必备知识梳理
  据隆众资讯数据统计,2020~2022年截止到10月底的数据显示,
聚丙烯期货价格及现货价格二者相关系数为88.70%,其中2020年二者
相关系数高达90.86%,2021年降至83.97%,2022年截止到10月底二者
相关系数为65.23%.
【问题】 什么是相关系数,如何计算,它有什么作用?
                      
                       
知识点 样本(线性)相关系数
1. 样本相关系数的概念
一般地,设随机变量 X , Y 的 n 组观测值分别为( x1, y1),( x2,
y2),…,( xn , yn ),记 r =
= ,称 r 为随机变量 X 和 Y 的样本(线
性)相关系数.
2. 相关系数 r 的计算公式
r = .
3. 样本相关系数的性质
(1)样本相关系数 r 的取值范围为 ;
(2)| r |值越接近1,随机变量之间的线性相关程度
越 ;| r |值越接近0,随机变量之间的线性相关程度
越 ;
(3)当 r >0时,两个随机变量的值总体上变化趋势相同,此时称
两个随机变量 相关;
(4)当 r <0时,两个随机变量的值总体上变化趋势相反,此时称
两个随机变量 相关;
(5)当 r =0,此时称两个随机变量线性 .
[-1,1] 
强 
弱 
正 
负 
不相关 
1. 判断正误.(正确的画“√”,错误的画“×”)
(1)若相关系数为0,则说明两变量 x , y 之间没任何关系.
( × )
(2)两个变量相关系数越大,说明它们的相关性越强. ( × )
(3)求回归方程时,最好用相关系数判断一下两变量相关性的强
弱. ( √ )
×
×

2. 已知一组成对样本数据为( x1, y1),( x2, y2),…,( xn ,
yn )( n ≥2, x1, x2,…, xn 不全相等),若这组成对样本数据的
样本相关系数为-1,则所有的样本点( xi , yi )( i =1,2,…,
n )满足的方程可以是(  )
B. y = x -1
C. y = x +1 D. y =- x2
解析: 若这组样本数据的相关系数为-1,则样本数据为线性相
关,排除D,又相关系数为-1,所以样本数据为负相关,排除B、
C(B、C为正相关).故选A.
3. 已知求得甲、乙、丙3组不同数据的线性相关系数分别为0.81,-
0.98,0.63,其中 (填“甲、乙、丙”中的一个)组数据的线性
相关性最强.
解析:两个变量的相关系数的绝对值越接近于1,它的线性相关性
越强.在甲、乙、丙所给的数值中-0.98是相关系数绝对值最大的
值,即乙的线性相关性最强.
乙 
典型例题·精研析
02
课堂互动 关键能力提升
题型一 相关关系的判断
【例1】 以下是在某地搜集到的不同楼盘新房屋的销售价格 Y (单
位:万元)和房屋面积 X (单位:m2)的数据:
房屋面积X/m2 115 110 80 135 105
销售价格Y/万元 24.8 21.6 19.4 29.2 22
(1)画出数据对应的散点图;
解:数据对应的散点图如图所示.
(2)判断新房屋的销售价格和房屋面积之间是否具有相关关系?如
果有相关关系,是正相关还是负相关?
解:通过以上数据对应的散点图可以判断,新房屋的销售
价格和房屋面积之间具有相关关系,且是正相关.
通性通法
1. 两个变量 X 和 Y 具有相关关系的判断方法
(1)散点图法:通过散点图,观察它们的分布是否存在一定规
律,直观地判断;
(2)表格、关系式法:结合表格或关系式进行判断;
(3)经验法:借助积累的经验进行分析判断.
2. 判断两个变量 X 和 Y 之间是否具有线性相关关系,常用的方法就是
绘制散点图,如果发现点的分布从整体上看大致在一条直线附近,
那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
【跟踪训练】
1. 下列两个变量之间的关系是相关关系的是(  )
A. 正方体的棱长和体积
B. 单位圆中角的度数和所对弧长
C. 亩产量为常数时,土地面积和总产量
D. 日照时间与水稻的亩产量
解析: 不确定性是相关关系的一个重要特征.A、B、C为函数关
系,而D为相关关系.
2. 对变量 X , Y 有观测数据( xi , yi )( i =1,2,…,10),得散点
图如图①;对变量 U , V 有观测数据( ui , vi )( i =1,2,…,
10),得散点图如图②.由这两个散点图可以判断(  )
A. 变量 X 与 Y 正相关, U 与 V 正相关
B. 变量 X 与 Y 正相关, U 与 V 负相关
C. 变量 X 与 Y 负相关, U 与 V 正相关
D. 变量 X 与 Y 负相关, U 与 V 负相关
解析: 由两个散点图的形状判断, X 与 Y 负相关, U 与 V 是
正相关.
题型二 相关系数的性质
【例2】 (1)甲、乙、丙、丁四位同学各自对 A , B 两变量的线性
相关性做试验,并用回归分析方法分别求得样本相关系数 r 如下表:
甲 乙 丙 丁
r 0.82 0.78 0.69 0.85
A. 甲 B. 乙
C. 丙 D. 丁
则哪位同学的试验结果体现 A , B 两变量有更强的线性相关性(  )
解析:| r |越接近1,相关性越强,故选D.
(2)对四组不同数据进行统计,获得如图所示的散点图,对它们的
样本相关系数进行比较,正确的是(  )
A. r2< r4<0< r3< r1 B. r4< r2<0< r1< r3
C. r4< r2<0< r3< r1 D. r2< r4<0< r1< r3
解析:由给出的四组数据的散点图可以看出,图①和图③中的成
对数据是正相关的,样本相关系数大于0,图②和图④中的成对
数据是负相关的,样本相关系数小于0,图①和图②中的点相对
更加集中于一条直线附近,所以相关性更强,所以 r1接近于1,
r2接近于-1,由此可得 r2< r4<0< r3< r1.
通性通法
  两个变量间的线性相关关系可以通过成对样本数据的相关系数 r
进行定量分析:
| r |越接近1,成对数据的线性相关程度越强;
| r |越接近0,成对数据的线性相关程度越弱.
特别地,当| r |=1时,成对数据的散点落在一条直线上,此时两个
变量满足线性关系,但不是相关关系,而是函数关系.
当 r =0时,成对数据之间没有线性相关关系,但不排除它们之间有其
他相关关系.
当 r >0时,两变量正相关;当 r <0时,两变量负相关.
【跟踪训练】
如图是相关变量 x , y 的散点图,现对这两个变量进行线性相关分析,
方案一:根据图中所有数据计算得到相关系数为 r1;方案二:剔除点
(10,32),根据剩下的数据计算得到相关系数为 r2,则(  )
A. 0< r1< r2<1
B. 0< r2< r1<1
C. -1< r1< r2<0
D. -1< r2< r1<0
解析: 由散点图可知,变量 x 和 y 成正线性相关,所以0< r1<1,
0< r2<1.在剔除点(10,32)之后,可看出 x 和 y 的线性相关程度更
强, r2更接近1,所以0< r1< r2<1.故选A.
题型三 样本相关系数的计算
【例3】 某沙漠地区经过治理,生态系统得到很大改善,野生动物
数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近
的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样
区,调查得到样本数据( xi , yi )( i =1,2,…,20),其中 xi 和 yi
分别表示第 i 个样区的植物覆盖面积(单位:公顷)和这种野生动物
的数量,并计算得 xi =60, yi =1 200, ( xi - )2=80,
( yi - )2=9 000, ( xi - )( yi - )=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估
计值等于样区这种野生动物数量的平均数乘以地块数);
解:由已知得样本平均数 = yi =60,从而该地区这
种野生动物数量的估计值为60×200=12 000.
(2)求样本( xi , yi )( i =1,2,…,20)的相关系数(精确到
0.01).
附:样本相关系数 r = , ≈1.414.
解:样本( xi , yi )( i =1,2,…,20)的相关系数
r = = = ≈0.94.
通性通法
样本相关系数的计算
  由公式 r = = 代入
样本数据后直接计算,其中 = xi , = yi ,点( , )又
称样本中心点.
【跟踪训练】
 某单位一种大型设备的使用年限 x (单位:年)与所支出的维修费
用 y (单位:万元)有如下统计资料:
x 2 3 4 5 6
y 2.2 3.8 5.5 6.5 7.0
计算 y 与 x 之间的样本相关系数(精确到0.001,已知 =90,
≈140.8, xiyi =112.3, ≈8.9, ≈1.4),并推断它们的相
关程度.
解:∵ = =4,
= =5,
∴ xiyi -5 =112.3-5×4×5=12.3,
-5 =90-80=10,
-5 ≈140.8-125=15.8,
∴ r = = = = ≈
≈0.987.
由样本相关系数 r ≈0.987,可以推断这个大型设备的使用年限与所支
出的维修费用这两个变量正线性相关,且相关程度很强.
1. 已知相关关系:①正相关,②负相关,③不相关.则图(1)(2)
(3)分别反映的两变量间的相关关系是(  )
A. ①②③ B. ②③①
C. ②①③ D. ①③②
解析: 对于题图(1),图中的点带状分布,且从左到右上升,
是正相关关系①;对于题图(2),图中的点没有明显的带状分
布,两变量不相关③;对于题图(3),图中的点带状分布,且从
左到右是下降的,是负相关关系②.故选D.
2. 对于线性相关系数 r ,叙述正确的是(  )
A. r ∈(-∞,+∞),且 r 越大,相关程度越大
B. r ∈(-∞,+∞),且| r |越大,相关程度越大
C. r ∈[-1,1],且 r 越大,相关程度越大
D. r ∈[-1,1],且| r |越大,相关程度越大
解析: 相关系数 r 是来衡量两个变量之间的线性相关程度的,线
性相关系数是一个绝对值小于等于1的量,并且它的绝对值越大就
说明相关程度越大.故选D.
3. 已知变量 x , y 之间具有线性相关关系,其散点图如图所示,则其回
归方程可能为(  )
解析: 结合散点图可知,变量 x , y 之间是负相关,且纵截距大
于0,故选B.
4. 在一组成对样本数据( x1, y1),( x2, y2),…,( xn , yn )( n
≥2, x1, x2,…, xn 不全相等)的散点图中,若所有样本点( xi ,
yi )( i =1,2,…, n )都在直线 Y = X +1上,则这组样本数据
的样本相关系数为(  )
A. -1 B. 0
D. 1
解析: 因为所有样本点( xi , yi )( i =1,2,…, n )都在直
线 Y = X +1上,且 X , Y 的变化趋势相同,所以样本相关系数为1.
5. 如图所示,给出了样本量均为7的 A , B 两组样本数据的散点图,已
知 A 组样本数据的相关系数为 r1, B 组数据的相关系数为 r2,则有 r1
r2(填“>”或“<”).
> 
解析:根据 A , B 两组样本数据的散点图知, A 组样本数据几乎在
一条直线上,且成正相关,∴相关系数 r1接近1, B 组数据分散在一
条直线附近,也成正相关,∴相关系数 r2满足 r2< r1,即 r1> r2.
知能演练·扣课标
03
课后巩固 核心素养落地
1. 如果两个变量之间的线性相关程度很高,则其相关系数 r 的绝对值
应接近于(  )
A. 0.5 B. 2
C. 0 D. 1
解析: 相关系数| r |越接近于1,相关程度越高.故选D.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
2. 若回归直线的斜率 ∈(0,+∞),则相关系数 r 的取值范围为
(  )
A. (0,1] B. [-1,0)
C. 0 D. 无法确定
解析: 由相关系数与回归直线斜率之间的关系可知相关系数的
取值范围是0< r ≤1,故选A.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
3. 为了对变量 x 与 y 的线性相关性进行检验,由样本点( x1, y1),
( x2, y2),…,( x10, y10)求得两个变量的样本相关系数为 r ,
则下面说法中正确的是(  )
A. 若所有样本点都在直线 y =-2 x +1上,则 r =1
B. 若所有样本点都在直线 y =-2 x +1上,则 r =-2
C. 若| r |越大,则变量 x 与 y 的线性相关性越强
D. 若| r |越小,则变量 x 与 y 的线性相关性越强
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
解析: 若所有样本点都在直线 y =-2 x +1上,则 x 与 y 是函数
关系,且直线斜率为负数,所以 r =-1,故A、B说法均错误;
若| r |越大,则变量 x 与 y 的线性相关性越强,故C说法正确,D
说法错误.故选C.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
4. 某次考试之后,班主任从全班同学中随机抽取8位同学,他们的数
学、物理成绩(单位:分,满分100分)的散点图如图所示:
根据以上信息,有下列结论:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系;
②从全班同学中随机抽取2名同学(记为甲、乙),若甲同学的数
学成绩为80分,乙同学的数学成绩为60分,则可以判断出甲同学的
物理成绩一定比乙同学的物理成绩高;
③从全班同学中随机抽取2名同学(记为甲、乙),若甲同学的数
学成绩为80分,乙同学的数学成绩为60分,则不能判断出甲同学的
物理成绩一定比乙同学的物理成绩高.其中正确的个数是(  )
A. 0 B. 1
C. 2 D. 3
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
解析: 由散点图,知两个变量具有线性相关关系,所以①正
确;利用统计知识进行预测,得到的结论有一定的随机性,所以②
错误,③正确.所以正确结论的个数为2,故选C.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
5. (多选)如图是根据 X , Y 的观测数据( xi , yi )( i =1,2,…,
10)得到的散点图,由这些散点图可以判断变量 X , Y 具有线性相
关关系的图是(  )
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
解析: 由题图知,B、C的点呈片状分布,没有明显的线性
相关关系;A中 Y 随 X 的增大而减小,各点整体呈下降趋势, X
与 Y 负相关;D中 Y 随 X 的增大而增大,各点整体呈上升趋势,
X 与 Y 正相关.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
6. (多选)甲、乙、丙、丁四位同学利用暑假对某地10个自然村进行
社会调查.他们先走访了5个自然村,发现了一个有趣的现象,其中3
个村庄附近天鹅比较多,婴儿出生率也比较高,另外2个村庄附近
天鹅比较少,婴儿出生率也比较低,也听说当地流传着一个说法
“天鹅带来了孩子”,于是他们对另外5个村庄进行了估计,下列说法
不正确的是(  )
A. 如果村庄附近的天鹅多,则这个村庄的婴儿出生率一定高
B. 如果村庄婴儿出生率比较低,则这个村庄附近的天鹅一定比较少
C. 村庄附近的天鹅数与婴儿出生率具有相关性
D. 村庄附近的天鹅数与婴儿出生率一定成正比
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
解析: 从调查现象来看,村庄附近的天鹅数与婴儿出生率具
有相关性,是相关关系而不是确定性的关系,因此A、B、D都是不
正确的.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
7. 下表给出了5组数据,为选出4组数据使其线性相关程度最大,且保
留第1组数据(-5,-3),则应去掉第 组数据.
第 i 组 1 2 3 4 5
xi -5 -4 -3 -2 4
yi -3 -2 4 -1 6
3 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
解析:画出散点图如图所示,
则应去掉第3组数据(-3,4).
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
8. 在一次试验中,测得变量 X 与 Y 的四组值分别为(1,2),(2,
0),(4,-4),(-1,6),则 Y 与 X 的相关系数为 .
解析:由题得 =1.5, =1, =22, =56, xiyi =-
20,相关系数 r = =-1.
-1 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
9. 当且仅当线性相关系数 r 满足 时,数据点( xi , yi )( i
=1,2,…, n )在一条直线上.
解析:当数据点( xi , yi )在一条直线上时, Y 只受 X 的影响,即
数据点完全线性相关,此时| r |=1.
| r |=1 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
10. 某农场经过观测得到水稻产量和施化肥量的统计数据如表:
施化肥量 X 15 20 25 30 35 40 45
水稻产量 Y 330 345 365 405 445 450 455
求水稻产量与施化肥量的样本相关系数,并判断相关性的强弱.
参考数据: =7 000, =1 132 725, xiyi =87 175.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
解:由已知数据计算可知,
= =30,
= ≈399.3,
所以样本相关系数 r = =
≈0.97,
由于0.97与1十分接近,所以水稻产量与施化肥量的相关性很强.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
11. 下表是某城市在2023年1月份至10月份各月最低温与最高温(℃)
的数据表,已知该城市各月最低温与最高温具有相关关系,根据
该表,下列结论错误的是(  )
月份 1 2 3 4 5 6 7 8 9 10
最高温 5 9 9 11 17 24 27 30 31 21
最低温 -12 -3 1 -2 7 17 19 23 25 10
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
A. 最低温与最高温为正相关
B. 每月最低温与最高温的平均值在前8个月逐月增加
C. 月温差(最高温减最低温)的最大值出现在1月
D. 1至4月温差(最高温减最低温)相对于7至10月,波动性更大
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
解析: 对于A,由题意可知该城市的各月最低温与最高温具有
相关关系,由数据分析可得最低温与最高温为正相关,故A正确;
对于B,由表中数据,每月最高温与最低温的平均值依次为:-
3.5,3,5,4.5,12,20.5,23,26.5,28,15.5,在前8个月不是
逐月增加,故B错误;对于C,由表中数据,月温差依次为:17,
12,8,13,10,7,8,7,6,11.月温差的最大值出现在1月,故C
正确;对于D,由C的结论,分析可得1至4月的月温差相对于7至10
月,波动性更大,故D正确.故选B.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
12. 某国际控股有限公司2018~2023年的年广告支出 y (单位:百万
元)与年利润 x (单位:百万元)的统计资料如下表所示:
年份 2018 2019 2020 2021 2022 2023
支出 y 0.64 0.72 0.79 0.85 0.98 1.06
利润 x 11.9 13.1 15.7 17.1 19.6 21.5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
A. 利润的中位数是15.7, y 与 x 为正相关关系
B. 利润的中位数是16.4, y 与 x 为正相关关系
C. 利润的中位数是17.1, y 与 x 为负相关关系
D. 利润的中位数是16.4, y 与 x 为负相关关系
解析: 由题意得,利润的中位数是 =16.4,而且随着
利润的增加,支出也在增加,所以 y 与 x 为正相关关系,故选B.
根据统计资料,可知下列说法正确的是(  )
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
13. (多选)某同学将收集到的六组数据制作成散点图如图所示,并
得到其回归直线的方程为 l1: =0.68 x + ,计算其相关系数为
r1.经过分析确定点 F 为“离群点”,把它去掉后,再利用剩下的5组
数据计算得到的回归直线方程为 l2: = x +0.68,相关系数为
r2,以下结论中,正确的是(  )
A. r1>0, r2>0 B. r1> r2
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
解析: 由图可知两变量呈现正相关,故 r1>0, r2>0,且 r1
< r2,故A正确,B错误;又回归直线 l1: =0.68 x + 必经过样
本中心点(3.5,2.5),所以 =2.5-0.68×3.5=0.12,C正确;
回归直线 l2: = x +0.68必经过样本中心点(3,2),所以2=
×3+0.68,所以 =0.44,也可直接根据散点图判断0< <0.68
(比较两直线的倾斜程度),故A、C、D正确.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
14. 在某地区随机抽取了8对母女的身高数据,如表:
母亲身高 X/cm 15
4 157 158 159 160 161 162 163
女儿身高 Y/cm 15
5 156 159 162 161 164 165 166
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
③用关于均值 和 为零点( , )平移后的成对样本数据( x1
- , y1- ),( x2- , y2- ),…,( x8- , y8- )与
原始成对样本数据相关性完全相同;
④用样本相关系数 r 可以估计总体两个变量的相关系数.
下列说法正确的序号为 .
①8个成对样本数据呈正相关;
②成对样本数据中变量 X 和变量 Y 的样本相关系数 r 约为0.963;
①②③④ 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
解析:由成对样本数据可得, =(154+157+…+163)÷8=
159.25, =(155+156+…+166)÷8=161, -8 =
59.5, -8 =116, xiyi -8 =80,∴ r =
= ≈0.963,②正确;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
由 r ≈0.963>0,8个成对样本数据呈正相关关系,①正确;
平移后的成对样本数据所对应平面直角坐标系中的散点图与原始
的成对样本数据所对应的散点图形状完成一致,故相关性完全相
同,③正确;
根据统计学思想,④正确.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
15. 如图是某企业2016年至2022年的污水净化量(单位:吨)的折
线图.
注:年份代码1~7分别对应年份2016~2022.
(1)由折线图看出,可用线性回归模型拟合 y 和 t 的关系,请用相
关系数加以说明;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
解:由折线图中的数据得, =4, ( ti - )2=28, ( yi - )2=18,
所以 r = ≈0.94.
因为 y 与 t 的相关系数近似为0.94,说明 y 与 t 的线性相关
程度相当大,所以可以用线性回归模型拟合 y 与 t 的关系.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
(2)建立 y 关于 t 的回归方程,预测2024年该企业的污水净化量.
参考数据: =54, ( ti - )( yi - )=21,
≈3.74, ( yi - )2= ,
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
参考公式:相关系数 r = ,线性回
归方程 = + t , = , = - .
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
解:因为 =54, = = = ,
所以 = - =54- ×4=51,
所以 y 关于 t 的线性回归方程为 = t + = t +51,将2024
年对应的年份代码 t =9代入上式,得 = ×9+51=57.75,
所以预测2024年该企业污水净化量约为57.75吨.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
16. 为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从
该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面
是检验员在一天内依次抽取的16个零件的尺寸:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
抽取次序 1 2 3 4 5 6 7 8
零件尺寸 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04
抽取次序 9 10 11 12 13 14 15 16
零件尺寸 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
经计算得 = xi =9.97, s = =
≈0.212, ≈18.439, ( xi
- )( i -8.5)=-2.78,其中 xi 为抽取的第 i 个零件的尺寸, i
=1,2,…,16.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
求( xi , i )( i =1,2,…,16)的样本相关系数 r ,并回答是否
可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变
大或变小(若| r |<0.25,则可以认为零件的尺寸不随生产过程
的进行而系统地变大或变小).
附:样本( xi , yi )( i =1,2,…, n )的样本相关系数 r =
.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
解:由样本数据得( xi , i )( i =1,2,…,16)的样本相关系
数为 r = ≈ ≈-0.18.
由于| r |<0.25,因此可以认为这一天生产的零件尺寸不随生产
过程的进行而系统地变大或变小.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
谢 谢 观 看!2.1 相关系数 2.2 成对数据的线性相关性分析
1.如果两个变量之间的线性相关程度很高,则其相关系数r的绝对值应接近于(  )
A.0.5          B.2
C.0 D.1
2.若回归直线的斜率∈(0,+∞),则相关系数r的取值范围为(  )
A.(0,1] B.[-1,0)
C.0 D.无法确定
3.为了对变量x与y的线性相关性进行检验,由样本点(x1,y1),(x2,y2),…,(x10,y10)求得两个变量的样本相关系数为r,则下面说法中正确的是(  )
A.若所有样本点都在直线y=-2x+1上,则r=1
B.若所有样本点都在直线y=-2x+1上,则r=-2
C.若|r|越大,则变量x与y的线性相关性越强
D.若|r|越小,则变量x与y的线性相关性越强
4.某次考试之后,班主任从全班同学中随机抽取8位同学,他们的数学、物理成绩(单位:分,满分100分)的散点图如图所示:
根据以上信息,有下列结论:
①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系;
②从全班同学中随机抽取2名同学(记为甲、乙),若甲同学的数学成绩为80分,乙同学的数学成绩为60分,则可以判断出甲同学的物理成绩一定比乙同学的物理成绩高;
③从全班同学中随机抽取2名同学(记为甲、乙),若甲同学的数学成绩为80分,乙同学的数学成绩为60分,则不能判断出甲同学的物理成绩一定比乙同学的物理成绩高.其中正确的个数是(  )
A.0 B.1
C.2 D.3
5.(多选)如图是根据X,Y的观测数据(xi,yi)(i=1,2,…,10)得到的散点图,由这些散点图可以判断变量X,Y具有线性相关关系的图是(  )
6.(多选)甲、乙、丙、丁四位同学利用暑假对某地10个自然村进行社会调查.他们先走访了5个自然村,发现了一个有趣的现象,其中3个村庄附近天鹅比较多,婴儿出生率也比较高,另外2个村庄附近天鹅比较少,婴儿出生率也比较低,也听说当地流传着一个说法“天鹅带来了孩子”,于是他们对另外5个村庄进行了估计,下列说法不正确的是(  )
A.如果村庄附近的天鹅多,则这个村庄的婴儿出生率一定高
B.如果村庄婴儿出生率比较低,则这个村庄附近的天鹅一定比较少
C.村庄附近的天鹅数与婴儿出生率具有相关性
D.村庄附近的天鹅数与婴儿出生率一定成正比
7.下表给出了5组数据,为选出4组数据使其线性相关程度最大,且保留第1组数据(-5,-3),则应去掉第    组数据.
第i组 1 2 3 4 5
xi -5 -4 -3 -2 4
yi -3 -2 4 -1 6
8.在一次试验中,测得变量X与Y的四组值分别为(1,2),(2,0),(4,-4),(-1,6),则Y与X的相关系数为    .
9.当且仅当线性相关系数r满足    时,数据点(xi,yi)(i=1,2,…,n)在一条直线上.
10.某农场经过观测得到水稻产量和施化肥量的统计数据如表:
施化肥量X 15 20 25 30 35 40 45
水稻产量Y 330 345 365 405 445 450 455
求水稻产量与施化肥量的样本相关系数,并判断相关性的强弱.
参考数据:=7 000,=1 132 725,xiyi=87 175.
11.下表是某城市在2023年1月份至10月份各月最低温与最高温(℃)的数据表,已知该城市各月最低温与最高温具有相关关系,根据该表,下列结论错误的是(  )
月份 1 2 3 4 5 6 7 8 9 10
最高温 5 9 9 11 17 24 27 30 31 21
最低温 -12 -3 1 -2 7 17 19 23 25 10
A.最低温与最高温为正相关
B.每月最低温与最高温的平均值在前8个月逐月增加
C.月温差(最高温减最低温)的最大值出现在1月
D.1至4月温差(最高温减最低温)相对于7至10月,波动性更大
12.某国际控股有限公司2018~2023年的年广告支出y(单位:百万元)与年利润x(单位:百万元)的统计资料如下表所示:
年份 2018 2019 2020 2021 2022 2023
支出y 0.64 0.72 0.79 0.85 0.98 1.06
利润x 11.9 13.1 15.7 17.1 19.6 21.5
根据统计资料,可知下列说法正确的是(  )
A.利润的中位数是15.7,y与x为正相关关系
B.利润的中位数是16.4,y与x为正相关关系
C.利润的中位数是17.1,y与x为负相关关系
D.利润的中位数是16.4,y与x为负相关关系
13.(多选)某同学将收集到的六组数据制作成散点图如图所示,并得到其回归直线的方程为l1:=0.68x+,计算其相关系数为r1.经过分析确定点F为“离群点”,把它去掉后,再利用剩下的5组数据计算得到的回归直线方程为l2:=x+0.68,相关系数为r2,以下结论中,正确的是(  )
A.r1>0,r2>0 B.r1>r2
C.=0.12 D.0<<0.68
14.在某地区随机抽取了8对母女的身高数据,如表:
母亲身高 X/cm 154 157 158 159 160 161 162 163
女儿身高 Y/cm 155 156 159 162 161 164 165 166
下列说法正确的序号为    .
①8个成对样本数据呈正相关;
②成对样本数据中变量X和变量Y的样本相关系数r约为0.963;
③用关于均值和为零点(,)平移后的成对样本数据(x1-,y1-),(x2-,y2-),…,(x8-,y8-)与原始成对样本数据相关性完全相同;
④用样本相关系数r可以估计总体两个变量的相关系数.
15.如图是某企业2016年至2022年的污水净化量(单位:吨)的折线图.
注:年份代码1~7分别对应年份2016~2022.
(1)由折线图看出,可用线性回归模型拟合y和t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程,预测2024年该企业的污水净化量.
参考数据:=54, (ti-)(yi-)=21,≈3.74, (yi-)2=,
参考公式:相关系数r=,线性回归方程=+t,=,=-.
16.为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:
抽取次序 1 2 3 4 5 6 7 8
零件尺寸 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04
抽取次序 9 10 11 12 13 14 15 16
零件尺寸 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95
经计算得=xi=9.97,s==≈0.212,≈18.439,(xi-)(i-8.5)=-2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.
求(xi,i)(i=1,2,…,16)的样本相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).
附:样本(xi,yi)(i=1,2,…,n)的样本相关系数r=.
2.1 相关系数
2.2 成对数据的线性相关性分析
1.D 相关系数|r|越接近于1,相关程度越高.故选D.
2.A 由相关系数与回归直线斜率之间的关系可知相关系数的取值范围是0<r≤1,故选A.
3.C 若所有样本点都在直线y=-2x+1上,则x与y是函数关系,且直线斜率为负数,所以r=-1,故A、B说法均错误;若|r|越大,则变量x与y的线性相关性越强,故C说法正确,D说法错误.故选C.
4.C 由散点图,知两个变量具有线性相关关系,所以①正确;利用统计知识进行预测,得到的结论有一定的随机性,所以②错误,③正确.所以正确结论的个数为2,故选C.
5.AD 由题图知,B、C的点呈片状分布,没有明显的线性相关关系;A中Y随X的增大而减小,各点整体呈下降趋势,X与Y负相关;D中Y随X的增大而增大,各点整体呈上升趋势,X与Y正相关.
6.ABD 从调查现象来看,村庄附近的天鹅数与婴儿出生率具有相关性,是相关关系而不是确定性的关系,因此A、B、D都是不正确的.
7.3 解析:画出散点图如图所示,
则应去掉第3组数据(-3,4).
8.-1 解析:由题得=1.5,=1,=22,=56,xiyi=-20,相关系数r==-1.
9.|r|=1 解析:当数据点(xi,yi)在一条直线上时,Y只受X的影响,即数据点完全线性相关,此时|r|=1.
10.解:由已知数据计算可知,
==30,

≈399.3,
所以样本相关系数
r=
=≈0.97,
由于0.97与1十分接近,所以水稻产量与施化肥量的相关性很强.
11.B 对于A,由题意可知该城市的各月最低温与最高温具有相关关系,由数据分析可得最低温与最高温为正相关,故A正确;对于B,由表中数据,每月最高温与最低温的平均值依次为:-3.5,3,5,4.5,12,20.5,23,26.5,28,15.5,在前8个月不是逐月增加,故B错误;对于C,由表中数据,月温差依次为:17,12,8,13,10,7,8,7,6,11.月温差的最大值出现在1月,故C正确;对于D,由C的结论,分析可得1至4月的月温差相对于7至10月,波动性更大,故D正确.故选B.
12.B 由题意得,利润的中位数是=16.4,而且随着利润的增加,支出也在增加,所以y与x为正相关关系,故选B.
13.ACD 由图可知两变量呈现正相关,故r1>0,r2>0,且r1<r2,故A正确,B错误;又回归直线l1:=0.68x+必经过样本中心点(3.5,2.5),所以=2.5-0.68×3.5=0.12,C正确;回归直线l2:=x+0.68必经过样本中心点(3,2),所以2=×3+0.68,所以=0.44,也可直接根据散点图判断0<<0.68(比较两直线的倾斜程度),故A、C、D正确.
14.①②③④ 解析:由成对样本数据可得,=(154+157+…+163)÷8=159.25,=(155+156+…+166)÷8=161,-8=59.5,-8=116,xiyi-8 =80,∴r==≈0.963,②正确;
由r≈0.963>0,8个成对样本数据呈正相关关系,①正确;
平移后的成对样本数据所对应平面直角坐标系中的散点图与原始的成对样本数据所对应的散点图形状完成一致,故相关性完全相同,③正确;
根据统计学思想,④正确.
15.解:(1)由折线图中的数据得,
=4, (ti-)2=28, (yi-)2=18,
所以r=≈0.94.
因为y与t的相关系数近似为0.94,说明y与t的线性相关程度相当大,所以可以用线性回归模型拟合y与t的关系.
(2)因为=54,===,
所以=-=54-×4=51,
所以y关于t的线性回归方程为=t+=t+51,将2024年对应的年份代码t=9代入上式,得=×9+51=57.75,
所以预测2024年该企业污水净化量约为57.75吨.
16.解:由样本数据得(xi,i)(i=1,2,…,16)的样本相关系数为
r=
≈≈-0.18.
由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
1 / 4

展开更多......

收起↑

资源列表