07 相关分析课件(共43张PPT）-《管理统计学（第2版）》同步教学（电工版）

资源简介

(共43张PPT)
管理统计学
7 相关分析
7.1 相关分析
7.2 简单相关分析
7.3 偏相关分析
7.4 距离相关分析
7.1 相关分析
函数关系：一个或几个变量取一定值时，另一个变量有确定值与之相对应的确定性关系
如：某种商品的销售收入Y与该商品的销售量X以及该商品价格P之间的关系用Y=PX表示
再如：S=πR2圆的面积S与半径R是函数关系，R值发生变化，有确定的S值与之对应
相关关系/统计关系：影响一个变量的因素非常之多，造成了变量之间关系的不确定性
二者的区别与联系
区别：函数关系是指两个变量之间存在着相互依存关系，但是它们的关系值是固定的，而有相关关系的变量之间关系值是不固定的
联系：由于有观察或测量误差等原因，函数关系在实质中往往通过相关关系表现出来
7.1.1 相关分析的概念
相关分析：根据实际观察或试验取得的数据资料，来研究有关现象之间相互依存关系的形式和密切程度的统计分析方法
相关分析的主要任务：根据实际观察或试验取得的资料，分析它的不同的表现形式，用一定的数学表达式来反映这种关系
相关系数（r）
变量之间的相关的强弱程度
两个变量之间有无线性相关关系及相关关系密切程度的统计指标
相关系数
取值范围：-1≤r≤1
0＜r≤1：正相关关系
-1≤r＜0：负相关关系
｜r｜=1：一个变量的取值完全取决于另一个变量（函数关系）
r=0 ：不存在线性相关关系
说明变量间线性相关程度，可分为
｜r｜＝1：完全相关
0≤｜r｜≤1：不完全相关
｜r｜＝0：不相关
相关关系分类
7.1.3 相关关系举例
子女与父母相关性
父母身高较高时，其子女的身高通常也比较高
父母身高较低时，其子女的身高通常也较低
子女的身高并不是完全由父母身高一个因素所决定
因此二者之间属于相关关系
一个人的收入水平同他受教育程度相关性
受教育程度相同的人，他们的收入水平往往不同
收入水平相同的人，他们受教育的程度也可能不同
受教育程度并不是影响收入的惟一因素
因此二者属于相关关系
农作物的单位面积产量与施肥量相关性
施肥量越多，单位面积产量就越高
但产量并不是由施肥量一个因素决定的
两者是一种相关关系
7.2 简单相关分析
相关系数计算方法有多种，对不同类型的变量应采用不同的相关系数
Pearson简单相关系数
Spearman相关系数
Kendallτ相关系数
SPSS软件可自动计算以上三种相关系数及其检验统计量的观测值和对于的概率p值
7.2.1 相关系数的抽样分布
样本相关系数（r）作为总体相关系数（）的近似估计值
样本不同，r值不同，r是一个随机变量
显著性检验样本相关系数说明总体的相关程度
考察r抽样分布
受总体相关系数和样本容易（n）的影响
一般总假设r为正态分布
线性相关
相关系数以数值方式精确反映了两个变量间线性相关的强弱程度
利用相关系数分析变量间线性关系的步骤
计算样本相关系数（利用样本数据）
判断样本来自的两个总体是否存在显著的线性关系
提出原假设
选择检验统计量
计算检验统计量的观测值和对应的概率p值
作出决策
7.2.2 Pearson简单相关系数
Pearson简单相关系数：度量定距型变量间的线性相关关系
计算公式：
检验步骤
提出假设
H0 :ρ= 0（总体的相关系数为0）
H1：ρ≠ 0（总体的相关系数不为0）
检验的统计量：，其中（n-2）为自由度
确定显著性水平α，并作出决策
若，拒绝H0
若，接受H0
例7.1 投入与产出
10个厂家的投入与产出数据
厂家 1 2 3 4 5 6 7 8 9 10
投入 20 40 20 30 10 10 20 20 20 30
产出 30 60 40 60 30 40 40 50 30 70
厂家序号投入(x) 产出(y) x2 y2 xy
1 20 30 400 900 600
2 40 60 1600 3600 2400
3 20 40 400 1600 800
4 30 60 900 3600 1800
5 10 30 100 900 300
6 10 40 100 1600 400
7 20 40 400 1600 800
8 20 50 400 2500 1000
9 20 30 400 900 600
10 30 70 900 4900 2100
总计 220 450 5600 22100 10800
平均 22 45
计算过程表
例7.1 投入与产出 (续)
考察（x，y）构成的散点图
相关系数
对相关系数的显著性检验（设显著性水平α=0.5）
H0 ：ρ= 0 ， H1：ρ≠ 0
计算检验统计量：查表得，故3.297> ，落入拒绝域中，即拒绝H0 ，接受H1
总体上厂家的投入与产出之间的相关关系明显
7.2.3 Spearman等级相关系数
Spearman等级相关系数/秩相关系数/顺序相关系数
考察两个变量中至少有一个变量为定序变量时的相关关系
将两要素的样本值按数据的大小顺序排列位次，以各要素样本值的位次代替实际数据
计算公式：
通过t检验来确定不等于0的R是来自ρ=0的总体还是ρ≠0的总体
检验统计量t ：
给定显著性水平α，则当时，拒绝H0；当，接受H0
例7.2 计算GDP和总人口的秩相关系数
2003年中国各省（直辖市、自治区）的GDP和总人口数据
等级相关系数：
序号省份总人口 GDP 总人口位次 GDP位次
1 北京 1456 3663 26 15
2 天津 1011 2448 27 20
3 河北 6769 7099 6 5
4 山西 3314 2457 19 20
5 内蒙古 2380 2150 23 24
6 辽宁 4210 6003 14 8
7 吉林 2704 2523 21 18
8 黑龙江 3815 4430 16 13
9 上海 1711 6251 25 7
10 江苏 7406 12461 5 2
11 浙江 4680 9395 11 4
12 安徽 6410 3972 8 14
13 福建 3488 5232 18 11
14 江西 4254 2830 13 16
15 山东 9125 12436 2 3
序号省份总人口 GDP 总人口位次 GDP位次
16 河南 9667 7049 1 6
17 湖北 6002 5402 9 10
18 湖南 6663 4639 7 12
19 广东 7954 13626 4 1
20 广西 4857 2735 10 17
21 海南 811 671 28 28
22 重庆 3130 2251 20 23
23 四川 8700 5456 3 9
24 贵州 3870 1356 15 26
25 云南 4376 2465 12 19
26 西藏 270 185 31 31
27 陕西 3690 2399 17 22
28 甘肃 2603 1305 22 27
29 青海 534 390 30 29
30 宁夏 580 385 29 30
31 新疆 1934 1878 24 25
7.2.4 Kendall（肯德尔）相关系数
Kendall相关系数与Spearman等级相关系数类似
描述分类或等级变量之间、分类或等级变量与连续变量之间的相关关系
利用两组秩次测量两个变量间相关程度 (非参数统计范畴)
计算公式：
检验统计量
小样本下，Kendallτ服从Kendall分布
在大样本下，检验统计量为：
例7.3 身高和体重的关系
有一组8个人的身高和体重，根据身高的秩，按从小到大排列，在身高的每一个秩下列出相应的体重的秩
体重这一行的最左端的秩是3，记下体重行中在3右边的大于3的秩的个数，有一个就加1，体重这一行中大于3的秩是4、5、7、8、6，所以它们的贡献数是5
记下体重这一行中在3的右边的小于3的秩的个数，有一个就减1，体重这一行中小于3的秩是1、2，其贡献数为-2。把两个贡献值相加得到5-2=3
对体重这一行的其他秩也采用同样的步骤。然后将同秩的所有贡献值相加，得到总的贡献值P
经计算P=18
序号 A B C D E F G H
身高 1 2 3 4 5 6 7 8
体重 3 4 1 2 5 7 8 6
7.2.5 简单相关分析的SPSS操作
例7.4 某农场通过试验取得了部分早稻收获量、该季节的降雨量和温度等相关的数据
探索作为单位土地的产量与降雨量和温度是否存在某种关系的操作步骤
输入数据，Statistics→Correlate→Bivariate...命令项
弹出Bivariate Correlations 对话框，在对话框左侧的变量列表中选择y，x1，x2，点击钮使之进入Variables(变量)框
在Correlation Coefficients 框中选择相关系数的类型，本例选用Pearson项；在Test of Significance (显著性检验)框中可选相关系数的检验方法，本例选择双侧检验
点击OK，执行相关分析程序，获得结果表格
收获量Y（kg/公顷） 1500 2300 3000 4500 4800 5000 5500
降雨量X1（mm） 25 33 45 105 110 115 120
温度X2（℃） 6 8 10 13 14 16 17
Bivariate Correlation 对话框
候选变量框
选择要进行相
关分析的变量
选择要计算的相关系数
定义相关系数的检验方法
双侧检验
单侧检验
标出有显著性意
义的相关系数
“*”：α=0.05
“**”：α=0.01
相关分析结果
结果的表格
所要求的相关系数
以一个矩阵的形式表示
表中可看出
收获量和降雨量的相关系数为0.984，收获量与温度的相关系数为0.99，降雨量与温度之间的相关系数系数为0.965
主要关系的是收获量的问题，因此，只考虑收获量分别与降雨量和温度之间的相关性的强弱，可知，统计检验的Sig.均小于0.01，因此相关性都是非常显著的，且为正相关。
Correlations
y x1 x2
y Pearson Correlation 1 .984** .990**
Sig. (2-tailed) .000 .000
N 7 7 7
x1 Pearson Correlation .984** 1 .965**
Sig. (2-tailed) .000 .000
N 7 7 7
x2 Pearson Correlation .990** .965** 1
Sig. (2-tailed) .000 .000
N 7 7 7
**. Correlation is significant at the 0.01 level (2-tailed).
例7.5 儿童的语音意识、识字量、阅读能力之间是否存在显著相关
研究者随机选择了30个小学生，分别采用语音意识测验和阅读水平测验进行测查，并统计了每个学生的识字量，根据这一结果，能否说语音意识水平、识字量与阅读能力之间存在相关？
编号 w1 w2 w3 w4 w5 w6 w7 w8 w9 w10
识字量 2480 2810 2910 2750 2530 3140 2830 2890 2820 3230
语音意识 6.6 5.1 7.6 5.7 6.6 9.2 5.4 9.1 8.1 9.3
阅读能力 71 87 89 86 75 98 83 90 93 95
编号 w11 w12 w13 w14 w15 w16 w17 w18 w19 w20
识字量 2330 2920 2970 2800 2770 2870 2540 2930 2080 2990
语音意识 6.0 8.0 9.9 9.7 7.1 7.8 7.2 9.2 4.5 8.0
阅读能力 73 99 86 96 80 82 80 97 71 90
编号 w21 w22 w23 w24 w25 w26 w27 w28 w29 w30
识字量 2550 2470 2690 2420 2550 2650 2790 2450 2950 2400
语音意识 8.1 5.8 5.3 5.6 6.4 5.9 8.7 5.7 9.5 4.6
阅读能力 87 69 82 73 75 75 82 83 98 64
语音意识、识字量、阅读能力(续)
操作步骤
将以上数据输入SPSS数据框，单击主菜单Analyze→Correlate→Bivariate 打开对话框
把三个变量“识字量”、“语音意识”、“阅读能力”全部选入右侧Variables框中。注意在Correlation Coefficients中选中Pearson，在Test of Significance 中选中Two-tailed ，并选中对话框最下方的复选框Flag significant Correlations(标出有显著意义的相关系数)
单击Options按钮打开了子对话框。在Statistics中选中Means and standard deviations（均数和标准差），单击Continue返回主对话框
单击OK按钮，运行程序
Options 子对话框
只用于Pearson相关系数
显示每个变量的样本均值和标准差
输出各对变量的
交叉积及协方差
定义缺失值处理方式
仅当数据要分析的变量值缺失时才
剔除该数据，系统默认选中此项
只要数据中有变量值
缺失就剔除该数据
输出结果
表给出了检验变量的描述统计量，包括变量均值、标准差、包含的样本量等
这个表格输出了所有学生（n=30）的识字量的平均值（2717）、识字量的标准差（257.32242）、语言意识的平均值（7.17）、语言意识的标准差（1.65412）、阅读能力的平均值（83.6333）、阅读能力的标准差（9.72903）
Descriptive Statistics
Mean Std. Deviation N
识字量 2.7170E3 257.32242 30
语音意识 7.1900 1.65412 30
阅读能力 83.6333 9.72903 30
输出结果(续)
表是SPSS输出地相关分析表，显示了每对变量之间的皮尔逊相关系数、显著性水平值以及样本量，附有“**”的相关系数表明在0.01的水平上相关显著。右上角与左下角的输出结果完全相同
从相关分析表看，识字量、语音意识以及阅读能力三者之间存在正向的相关，而且都在0.01的水平上相关显著
检验结果显著说明相关系数为零的假设不能成立，从而接受相关系数不等于零的假设
Correlations
识字量语音意识阅读能力
识字量 Pearson Correlation 1 .730** .820**
Sig. (2-tailed) .000 .000
N 30 30 30
语音意识 Pearson Correlation .730** 1 .751**
Sig. (2-tailed) .000 .000
N 30 30 30
阅读能力 Pearson Correlation .820** .751** 1
Sig. (2-tailed) .000 .000
N 30 30 30
**. Correlation is significant at the 0.01 level (2-tailed).
例7.6 阅读能力与其他学业成绩之间是否存在相关关系
在例7-5中，研究者希望了解识字量以及语音意识跟阅读能力之间是否存在显著相关，只输出阅读能力与识字量，阅读能力与语音意识之间的相关检验结果
要想控制SPSS输出的相关矩阵的内容，需要该项相关分析的程序语句
本例中，把“语音意识”与“识字量”看作一个变量集，希望SPSS输出这两个变量与“阅读能力”之间的相关分析结果
操作步骤
单击主菜单Analyze→Correlate→Bivariate 打开对话框
把三个变量“识字量”、“语音意识”、“阅读能力”全部选入右侧Variables框中。注意在Correlation Coefficients 中选中Pearson，在Test of Significance 中选中Two-tailed ，并选中对话框最下方的复选框Flag significant Correlations
单击Options按钮打开了子对话框。在Statistics中选中Means and standard deviations ，单击Continue返回主对话框
单击对话框中的Paste 按钮，SPSS自动把操作过程转换成程序语句，并粘贴到一个新建的程序语句窗口中
在变量“阅读能力”之前插入with 。第一行语句修改成：/VARIABLES=识字量语言意识 with 阅读能力
单击主菜单Run→Current，相关分析的程序自动运行
续
with
单击对话框中的Paste 按
钮弹出的程序语句窗口
输出结果
右侧表格：控制输出地相关分析表
对比没有控制输出的相关分析表，可以看出现在的表格更加简洁，而且没有重复输出地情况
相关分析的结果表明：阅读能力与识字量、语音意识之间的正相关均非常显著，两个p值都在0.01的水平上相关显著
Correlations
阅读能力
识字量 Pearson Correlation .820**
Sig. (2-tailed) .000
N 30
语音意识 Pearson Correlation .751**
Sig. (2-tailed) .000
N 30
**. Correlation is significant at the 0.01 level (2-tailed).
7.3 偏相关分析
偏相关分析：计算的仍然是两个变量之间的相关程度，但是相关系数是排除了第三方变量效应之后的效应值
第三方变量在SPSS中成为控制变量，它可以是一个变量，也可以是多个变量
偏相关分析的过程平衡了控制变量对两个分析变量的影响，最终目的是检验偏相关系数在总体范围内是否为零
偏相关系数的数值范围也是从-1到+1之间，含义也与皮尔逊相关系数相似
7.3.1 偏相关分析步骤
步骤一：计算样本的偏相关系数
分析变量x1和y之间的相关时，当控制了变量x2的线性作用后，x1和y之间的偏相关系数定义为
偏相关系数的取值范围及大小含义与相关系数相同
步骤二：对样本来自的两总体是否存在显著的偏相关进行推断
偏相关分析步骤 (续)
偏相关分析检验的基本步骤
提出假设，即两总体的偏相关系数与零无显著差异
选择检验统计量。偏相关分析的检验统计量为t统计量：
r为偏相关系数；n为样本数；q为阶数（控制变量的个数即为阶数）
t统计量服从n-q-2个自由度的t分布
计算检验统计量的观测值和对应的概率P值
作出决策。如果检验统计量的概率P值小于给定的显著性水平α，拒绝原假设，认为两总体的偏相关系数与零有限制差异；反之，如果检验统计量的概率P值大于给定的显著性水平α，则不能拒绝原假设
7.3.2 偏相关分析的SPSS操作
例7.7 控制识字量之后，语音意识与阅读能力是否相关
偏相关分析一般步骤
对各变量进行两两相关分析，计算变量之间的皮尔逊积差相关系数
再进行偏相关分析，计算在控制其他变量的影响时，两个变量之间的相关程度
操作步骤
单击主菜单Analyze→Correlate→Partial打开Partial Correlations对话框
把变量“语音意识”、“阅读能力”、选入右侧Variables框中；把“识字量”选入右侧Controlling for框中。在Test of Significance 中选中Two-tailed，并选中对话框最下方的复选框Display actual significance level
单击Options按钮打开了子对话框。在Statistics（统计量）中选中Means and standard deviations和Zero-order correlations（零阶相关系数，现实所有变量包括控制变量的简单相关系数）。单击Continue返回主对话框
单击OK按钮，运行程序
Partial Correlations对话框
选择要进行偏
相关分析的变
量，至少选两
个变量
择偏相关分析
中控制变量
相关分析结果中
显示统计检验中具
体的显著性水平
输出结果
表上半部分是SPSS输出的变量间（包括检验变量和控制变量）的简单相关分析结果。
结果中每个单元显示了每对变量的简单相关系数，自由度以及显著性P值。
与简单相关分析表比较发现，两个表中相应的相关系数值和显著性P值是完全相同的。
表下半部分给出了当控制“识字量”这一变量时，“语音意识”和“阅读能力”之间的偏相关系数、自由度和显著性P值。
结果显示，偏相关系数为0.39，比相关系数0.75小，但统计检验显示两者的偏相关系数在0.05水平上显著，也就是说语音意识和阅读能力确实存在显著正相关。
Correlations
Control Variables 语音意识阅读能力识字量
-none-a 语音意识 Correlation 1.000 .751 .730
Significance (2-tailed) . .000 .000
df 0 28 28
阅读能力 Correlation .751 1.000 .820
Significance (2-tailed) .000 . .000
df 28 0 28
识字量 Correlation .730 .820 1.000
Significance (2-tailed) .000 .000 .
df 28 28 0
识字量语音意识 Correlation 1.000 .390
Significance (2-tailed) . .036
df 0 27
阅读能力 Correlation .390 1.000
Significance (2-tailed) .036 .
df 27 0
a. Cells contain zero-order (Pearson) correlations.
7.4 距离相关分析
距离相关分析（研究两样本近似程度）
对观察量之间或变量之间相似或不相似的程度的一种测量
用于同一变量内部各个取值之间，考察其相互接近程度
用于变量之间，以考察预测值对实际值的拟合优度
距离相关分析的结果可以用于其它分析过程
距离测度（d）
描述观测值或变量间的不相似程度
以两个矢量矢端的距离作为考虑的基础
两矢量各相应分量之差的函数
距离测度越小，说明了观测值或变量越近似
相似测度
描述观测值或变量间的相似程度
以矢量的方向是否近似作为考虑的基础，矢量的长度不重要
相似测度值越大，说明两观测值或变量越近似
距离相关分析(续)
不相似测度
对等间距（定距）数据的不相似性（距离）测度可以使用的统计量包括Euclid欧式距离、欧式距离平方等
对计数数据使用卡方
对二值（只有两种取值）数据，使用欧式距离、欧式距离平方、尺寸差异、模式差异、方差等
相似测度
等间隔数据使用统计量Pearson相关或余弦
测度二元数据的相似性使用的统计量有20余种
7.4.2 距离相关分析的SPSS操作
例7.8 已知我国六城市2004年各月的日照时数数据。请分析各城市日照数是否近似。
北京天津石家庄沈阳大连长春
1 194.7 161.70 193.80 165.40 163.50 194.10
2 213.50 185.20 219.20 180.70 195.30 165.00
3 243.60 166.80 220.90 231.70 223.10 246.70
4 248.20 214.30 240.90 245.30 276.90 266.80
5 253.30 221.00 277.80 219.30 243.40 246.20
6 202.00 182.50 213.40 230.30 190.00 265.50
7 203.20 179.50 185.40 133.00 228.50 183.50
8 187.40 149.80 152.10 198.30 174.00 282.70
9 198.90 178.70 203.40 211.10 202.70 232.70
10 225.20 194.70 220.70 229.90 228.40 236.20
11 201.40 172.80 197.50 132.20 172.90 138.70
12 144.00 119.10 97.90 114.50 167.00 144.50
SPSS操作步骤
将数据输入到SPSS数据编辑框中
在SPSS主菜单单击Analyze→Correlate→Distance…，打开Distance主对话框
在弹出的Distance对话框中，在对话框左侧的变量列表中选择变量“北京”、“天津”……，使之添加到Variables框中，对六个变量进行距离相关分析
在Compute Distance 单选框组中选择Between Variables单选框
在Measure单选框组中选择Dissmilarities单选框
单击Measure按钮，弹出Distance：Dissimilarity Measures对话框。在Interval下拉列表中选择Euclidean distance(选择计算变量间欧式距离)
单击Continue按钮，返回Distance对话框，在单击OK按钮
Distances对话框
作变量内部观察值之
间的距离相关分析
作变量之间的
距相关分析
不相似性测距
相似性测距
距离相关中不相似性距离测量对话框
单击Measure按
钮弹出该对话框
选择计算变量
间欧式距离
输出结果
距离相关分析的结果表
表格下方注释“This is a dissimilarity matrix”，表明此时距离相关分析采用的是不相似测度
表格第一行“Euclidean distance”表明表格中的不相似程度采用的是欧式距离。当两变量间的欧式距离越大，说明其差别越大。反之亦然
Proximity Matrix
Euclidean Distance
北京天津石家庄沈阳大连长春
北京 .000 122.933 71.280 122 70.542 146.479
天津 122.933 .000 111.350 126.363 121.427 205.540
石家庄 71.280 111.350 .000 125.332 110.928 178.273
沈阳 122.139 126.363 125.332 .000 133.006 121.829
大连 70.542 121.427 110.928 133.006 .000 157.159
长春 146.479 205.540 178.273 121.829 157.159 .000
This is a dissimilarity matrix

展开更多......

收起↑

请用微信扫码

07 相关分析 课件(共43张PPT）-《管理统计学（第2版）》同步教学（电工版）

07 相关分析 课件(共43张PPT）-《管理统计学（第2版）》同步教学（电工版）

07 相关分析课件(共43张PPT）-《管理统计学（第2版）》同步教学（电工版）

07 相关分析课件(共43张PPT）-《管理统计学（第2版）》同步教学（电工版）