8.1.2样本相关系数 课件(共18张PPT)

资源下载
  1. 二一教育资源

8.1.2样本相关系数 课件(共18张PPT)

资源简介

(共18张PPT)
8.1.2样本相关系数
1.变量的相关关系
2.散点图
3.变量相关关系的分类
(1)正相关和负相关
(2)线性相关和非线性相关
复习引入
通过观察散点图中成对样本数据的分布规律,我们可以大致推断两个变量是否存在相关关系、是正相关还是负相关、是线性相关还是非线性相关等,散点图虽然直观,但无法确切地反映成对样本数据的相关程度,也就无法量化两个变量之间相关程度的大小.能否像引入平均值、方差等数字特征对单个变量数据进行分析那样,引入一个适当的“数字特征”,对成对样本数据的相关程度进行定量分析呢
对于变量x和变量y,设经过随机抽样得到的成对数据为(x1,y1),(x2,y2),
,(xn,yn),
将数据以为零点进行平移,得到平移后的成对数据为
平移
绘制散点图为
这时的散点大多数分布在第一象限、第三象限,大多数散点的横、纵坐标同号,显然,这样的规律是由人体脂肪含量与年龄正相关所决定的
探索新知
如果变量x和变量y负相关,那么关于均值平移后的大多数点将分布在第二、四象限,对应的成对数据异号居多.
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
如果变量x和变量y正相关,那么均值平移后的大多数点将分布在第一、三象限, 对应的成对数据同号居多;
思考:根据上述分析,你能利用正相关变量和负相关变量的成对样本数据平移后星现的规律,构造一个度量成对样本数据是正相关还是负相关的数字特征吗
探索新知
根据散点图特征,初步构造统计量.
利用散点 的横纵坐标是否同号,可以构造一个量
一般情形下,Lxy>0表明成对样本数据正相关; Lxy <0表明成对样本数据负相关.
思考: Lxy的大小一定能度量出成对样本数据的相关程度吗
在研究体重与身高之间的相关程度时,如果体重的单位不变,把身高单位由米改为厘米,单位的改变不会改变体重与身高之间的相关程度.
我们发现, Lxy的大小与数据的度量单位有关,所以不能直接用它度量成对样本数据相关程度的大小.
探索新知
分别
为了消除单位的影响,进一步做“标准化”处理
为简单起见,把上述“标准化”处理后的成对数据分别记为
仿照Lxy的构造,可以得到
探索新知
当r>0时,称成对样本数据正相关;当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大。
当r<0时,称成对样本数据负相关;当其中一个数据的值变小时,另一个数据的值通常会变大:当其中一个数据的值变大时,另一个数据的值通常会变小。
我们称r为变量x和变量y的样本相关系数.
样本相关系数r是一个描述成对样本数据的数字特征,
它的正负和绝对值的大小可以反映成对样本数据的变化特征:
样本相关系数
探索新知
标准化处理后的成对样本数据:
设其第一分量为
设其第二分量为
样本相关系数r的大小与成对样本数据的相关程度有什么内在联系呢
观察r的结构,联想到二维(平面)向量、三维(空间)向量数量积的坐标表示,我们将向量的维数推广到n维,n维向量,的数量积仍然定义为·=lll|cosθ,其中θ为向量,的夹角,类似于平面或空间向量的坐标表示,对于向量=(a1,a2,...,an)和=(b1,b2,...,bn),我们有·=a1b1+a2b2+···+anbn.
探索新知
样本相关系数r的取值范围
样本相关系数r的取值范围为[-1,1]
当|r|=1时,成对样本数据之间具有怎样的关系?
当|r|=1时 ,向量 与 共线。
即存在实数 ,使得
成对样本数据(xi,yi)都落在直线 上
成对样本数据的两个分量之间满足一种线性关系
探索新知
由此可见,样本相关系数r的取值范围为[-1,1],样本相关系数r的绝对值大小可以反映成对样本数据之间线性相关的程度:
当|r|越接近1时,成对样本数据的线性相关程度越强;
当|r|越接近0时,成对样本数据的线性相关程度越弱.
样本相关系数r有时也称样本线性相关系数,|r|刻画了样本点集中于某条直线的程度.当r=0时,只表明成对样本数据间没有线性相关关系,但不排除它们之间有其他相关关系.
两个随机变量的相关性可以通过散点图对成对样本数据进行分析,而样本相关系数r可以反映两个随机变量之间的线性相关程度: r 的符号反映相关关系的正负性,|r|的大小反映两个变量线性相关的程度,即散点集中于一条直线的程度.
探索新知
年龄 23 27 39 41 45 49 50
脂肪 9.5 17.8 21.2 25.9 27.5 26.3 28.2
年龄 53 54 56 57 58 60 61
脂肪 29.6 30.2 31.4 30.8 33.5 35.2 34.6
参考数据:
典型例题
例1根据下表中脂肪含量和年龄的样本数据,推断两个变量是否线性相关,计算样本相关系数,并推断它们的相关程度
解:先画出散点图,如右图所示观察散点图,可以看出样本点都集中在一条直线附近,由此推断脂肪含量和年龄线性相关.
由样本相关系数r≈0.97,可以推断脂肪含量和年龄这两个变量正线性相关,且相关程度很强。脂肪含量与年龄变化趋势相同.
参考数据:
例1根据下表中脂肪含量和年龄的样本数据,推断两个变量是否线性相关,计算样本相关系数,并推断它们的相关程度
典型例题
散点图可以从直观上判断成对样本数据的相关性,通过样本相关系数则可以从定量的角度刻画成对样本数据相关的正负性和线性相关程度.
解:
第n年 1 2 3 4 5 6 7 8 9 10
居民年收入/亿元 32.2 31.1 32.9 35.8 37.1 38 39 43 44.6 46
A商品销售额/万元 25.0 30.0 34.0 37.0 39.0 41.0 42.0 44.0 48.0 51.0
画出散点图,判断成对样本数据是否线性相关,并通过样本相关系数推断居民年收入与A商品销售额的相关程度和变化趋势的异同.
从散点图看,A商品销售额与居民年收入的样本数据呈现线性相关关系.
居民年收入/亿元
50
45
40
35
20
30
25
30
35
40
45
50
·
·
·
·
·
·
·
55
A商品销售额/万元
·
·
·
例2 有人收集了某城市居民年收入(所有居民在一年内收入的总和)与A商品销售额的10年数据,如表所示.
典型例题
例3.在某校高一年级中随机抽取25名男生,测得他们的身高、体重、臂展等数据,如下表所示.
体重与身高、臂展与身高分别具有怎样的相关性
解:
通过计算得到体重与身高、臂展与身高的样本相关系数分别约为0.34和0.78,都为正相关.其中,臂展与身高的相关程度更高.
典型例题
1.对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是(  )
A.r2C.r4A
巩固练习
2.根据统计,某蔬菜基地西红柿亩产量的增加量y(百千克)与某种液体肥料每亩使用量x(千克)之间的对应数据的散点图,如图所示.
依据数据的散点图可以看出,y与x之间有较强的线性相关关系.请计算样本相关系数r并加以说明(若|r|>0.75,则线性相关程度很高):
0
2
4
6
8
3
4
5
X(千克)
y(百千克)
5
·
·
·
·
·
∵r>0.75,∴可用线性回归模型拟合y与x的关系.
3.假设关于某种设备的使用年限x(年)与所支出的维修费用y(万元)有如下统计资料:
x 2 3 4 5 6
y 2.2 3.8 5.5 6.5 7.0
(2)对x,y进行线性相关性检验.
|r|≈0.979,所以x与y之间具有很强的线性相关关系.
样本相关系数r
(1)当r >0时,称成对样本数据正相关;当r <0时,称成对样本数据负相关.
(2)r的取值范围为[-1,1]
(3)当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.
课堂小结
获得总体中所有的成对数据往往是不容易的,因此,我们还是要用样本估计总体的思想来解决问题,也就是说,我们先要通过抽样获取两个变量的一些成对样本数据,再计算出样本相关系数,通过样本相关系数去估计总体相关系数,从而了解两个变量之间的相关程度,对于简单随机样本而言,样本具有随机性,因此样本相关系数r也具有随机性,一般地,样本容量越大,用样本相关系数估计两个变量的相关系数的效果越好。

展开更多......

收起↑

资源预览