11 主成分分析与因子分析 课件(共44张PPT)-《管理统计学(第2版)》同步教学(电工版)

资源下载
  1. 二一教育资源

11 主成分分析与因子分析 课件(共44张PPT)-《管理统计学(第2版)》同步教学(电工版)

资源简介

(共44张PPT)
管理统计学
11 主成分分析与因子分析
11.1 因子分析
11.1.1 因子分析的理论与方法
11.1.2 因子分析的SPSS应用
11.2 主成分分析
11.2.1 主成分分析的理论与方法
11.2.2 主成分分析的SPSS应用
11.1 因子分析
因子/基础变量:既能包含原来众多变量代表的信息,又能解释这些变量相互依存关系的变量
因子分析:多元统计分析技术的一个分支,用于处理多变量问题,是一种降维、简化数据的技术
因子分析的应用
寻求基本结构
数据化简
11.1.1 因子分析的理论与方法
因子分析的数学模型
因子分析的有关概念
因子负载
公共因子方差
因子的贡献
因子旋转
解释因子
因子得分
因子分析的步骤
因子分析的数学模型
F1,F2,…,Fm称为公共因子, i为Xi的特殊因子
矩阵形式X=AF
需满足:
m p
Cov(F, )=0

因子负载
联系观测变量和公共因子的桥梁
公共因子完全不相关时,因子负载aij等于第i个变量和第j个因子之间的相关系数
aij的绝对值越大,公共因子与观测变量关系越大
公共因子彼此不相关时,变量Xi与Xj的相关系数为
比较观测数据计算出的相关系数和模型导出的变量的相关系数,判断因子解是否合适
差别很小,模型很好的拟合观测数据,因子解合适
公共因子方差/共同度
观测变量的方差中由公共因子决定的比例
说明用公共因子替代观测变量后,原来每个变量信息被保留的程度
公共因子方差越大,变量能够被因子说明的程度越高
当公共因子彼此正交时,公共因子方差等于和该变量有关的因子负载的平方和
因子的贡献
用因子所能够解释的总方差衡量的每个公共因子对变量的解释能力
所有公共因子的总贡献为:
实际中,相对指标更为常用,即每个因子所解释的方差占所有变量总方差的比例Vp/k
K为观测变量的个数
因子旋转
因子结构:因子和变量之间的相关关系
因子模式:因子负载矩阵
因子旋转的条件
一个变量在多个公共因子上有较大的负荷
多个变量在同一个公共因子上有较大的负荷
因子旋转的目的
使同一个因子在各个变量上的负载尽可能的向靠近1和靠近0的两极分离
因子旋转的方式
正交旋转:使因子轴之间仍然保持90度角,因子之间仍旧不相关,因子结构与因子模式等同
斜交旋转:因子之间的夹角是任意的,因子负载不再等于因子和变量之间的相关系数
因子模式与因子结构的关系为S=BW,S为因子结构矩阵,B为因子负载矩阵,W为斜交因子之间的相关系数矩阵
解释因子
解释因子的作用
借助因子负载矩阵,找出在某个因子上有显著负载的变量
根据这些变量的意义给因子一个合适的名称
具有较高负载的变量对因子名称的影响较大
解释因子的确定
一般认为绝对值大于0.3的因子负载就是显著的
因子得分
因子得分的求解过程
用观测变量的线性组合表示因子
依据因子对应的每个变量的具体数值进行测度
因子得分的计算
在因子分析模型中,不考虑特殊因子的影响,当m=p且A可逆时,该样本在因子F上的得分F=A-1X
实际应用要求m p,只能对因子得分进行估计
因子分析的步骤
计算所有变量的相关系数矩阵
提取因子,确定因子的个数和求因子解的方法
进行因子旋转,使因子解的实际意义更容易解释
计算因子得分
11.1.2 因子分析的SPSS应用
添加分析变量
描述性统计设置
因子提取设置
因子旋转设置
因子得分设置
缺失值及因子负载矩阵设置
生育率影响因素分析
变量设置
X1: Multi-parity(%), X2: Contraception(%)
X3: J.school& above(%), X4: Average income(元), X5: Urban(%)
Id X1 X2 X3 X4 X5 Id X1 X2 X3 X4 X5
1 0.94 89.89 64.51 3577 73.08 16 9.04 88.76 39.71 880 15.52
2 2.58 92.32 55.41 2981 68.65 17 12.02 87.28 38.76 1248 28.91
3 13.46 90.71 38.2 1148 19.08 18 11.15 89.13 36.33 976 18.23
4 12.46 90.04 45.12 1124 27.68 19 22.46 87.72 38.38 1845 36.77
5 8.94 90.46 41.83 1080 36.12 20 24.34 84.86 31.07 798 15.1
6 2.8 90.17 50.64 2011 50.86 21 33.21 83.79 39.44 1193 24.05
7 8.91 91.43 46.32 1383 42.65 22 4.78 90.57 31.26 903 20.25
8 8.82 90.78 47.33 1628 47.17 23 21.56 86.0 22.38 654 18.93
9 0.8 91.47 62.36 4822 66.23 24 14.09 80.96 21.49 956 14.72
10 5.94 90.31 40.85 1696 21.24 25 32.31 87.6 7.7 865 12.59
11 2.6 92.42 35.14 1717 32.81 26 11.18 89.71 41.01 930 21.49
12 7.07 87.97 29.51 933 17.9 27 13.8 86.33 29.69 938 22.04
13 14.44 88.71 29.04 1313 21.36 28 25.34 81.56 31.3 1100 27.35
14 15.24 89.43 31.05 943 20.4 29 20.84 81.45 34.59 1024 25.72
15 3.16 91.21 37.85 1372 27.34 30 39.6 64.9 38.47 1374 31.91
添加分析变量
Analyze→Data Reduction→Factor
选择变量:选择参与分析的数据
描述性统计设置
输出原始变量的基本描述统计量
输出因子分析的初始解
简单相关系数矩阵
相关系数矩阵的逆矩阵
显著性检验
相关系数矩阵的行列式
再生相关阵
反映象相关矩阵
KMO和Bartlett球形检验
因子提取设置
7 种因子提取方法,默认为主成分分析法
标准化后因子分析
直接因子分析
相关系数矩阵
协方差矩阵
输出旋转前的因子方差贡献表和因子负载矩阵
输出因子碎石图
设置提取的因子对应的特征跟范围,默认值1
输入提取因子的个数
Principal components/主成分法:把给定的一组相关变量通过线性变换转换成另一组不相关的变量,新的变量按照方差递减的顺序排列,总方差不变
Unweighted least squares/普通最小二乘法:使因子模型计算出的相关系数和观测到的相关系数之间的离差平方和最小
Genenralized least squares/广义最小二乘法:用与Unweighted least squares同样的原则,迭代过程中,用特殊因子方差倒数调整相关系数矩阵
Maximum likelihood/最大似然法:类似广义最小二乘法,使因子解最好拟合观测数据变量的相关关系
假设样本来源于多维正态总体,构造样本似然函数使其达到极大
求解过程中相关系数用特殊因子方差倒数加权
因子提取方法
Principal axis factoring/主轴因子法:类似主成分法,用公共因子方差代替相关系数矩阵主对角线上的元素1
新的矩阵称为调整相关系数矩阵,解调整相关系数矩阵的特征方程求得因子解
Alpha factoring/因子提取法:变量是来自潜在变量空间中的样本,通过给定的总体观测,使提取的公共因子和假设存在的公共因子有最大的相关
Image analysis/映像分析法:一个变量分解为两部分
公共部分:由除该变量外的观测变量线性组合预测,即该变量的映像
特有部分:不能被其他变量线性组合预测,即变量的反像
同时考虑样本空间和变量空间,映像的平方相当于公共因子方差,反像的平方相当于特殊因子方差,采用和主成分法类似的过程求得因子解
因子提取方法(续)
因子提取方法的选择
通常各种方法产生的公共因子方差差别不大
公共因子方差为1时,主成分法和其他6种方法的实质是一样的
公共因子方差较低时,差别比较明显
主成分法
解释变量的方差,假设每个变量的方差能被完全解释,相关系数矩阵主对角线上的元素和其他元素同样重要,甚至更重要
其他方法
解释变量的相关关系,假设观测变量的相关能完全被公共因子解释,方差不一定能完全被公共因子解释
不能被解释的方差只影响相关系数矩阵主对角线上的元素
要求因子解能够拟合相关系数矩阵主对角线以外的元素
提取相同数目的因子,主成分法能够解释更多的方差
变量个数增加,主对角线上元素重要程度降低,差异不再明显
样本量很大时,最大似然法解比其他解的精度有明显提高
依据因子分析的目的和对变量方差了解程度决定的方法
要以最少的因子最大程度地解释原始数据中的方差,或已明确特殊因子和误差带来的方差很小,适合用主成分法
为了确定数据结构但并不了解变量方差的情况,适用其他6种方法
因子旋转设置
简化因子负载矩阵列,使因子负载平方的方差最大
直接斜交旋转法
因子自相关的程度
可尽量减少解释变量的因子个数
Varimax与Quartimax因子解加权平均
速度比直接旋转法快,适用于大样本
输出旋转后的因子方差贡献表和因子负载矩阵
输出旋转后因子负载散点图
因子得分设置
将因子值作为新变量保存在数据文件中
计算因子得分的方法
输出因子得分矩阵
缺失值及因子负载矩阵设置
缺失值处理方法
因子负载矩阵显示方式
观测的所有分析变量有一个有缺失值就不参与分析
只把两个变量协方差或相关系数带有缺失值的观测删除
用均值替代缺失值
按因子负载的大小排序
不显示绝对值太小的因子负载
变量共同度、KMO与Bartlett球形检验
Communalities
Initial Extraction
multi-parity % 1.000 .887
contraception % 1.000 .913
J.school & above % 1.000 .860
average income 1.000 .878
urban % 1.000 .931
Extraction Method: Principal Component Analysis.
共同度都在85%以上,因子提取效果比较理想
KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling Adequacy. .713
Bartlett's Test of Sphericity Approx. Chi-Square 106.776
df 10
Sig. .000
KMO统计量为0.713,Bartlett球形检验的值为0.000,说明案例数据比较适合因子分析
相关系数矩阵及相关显著性检验(Correlation Matrix)
multi-parity
% contraception
% J.school &
above % Average
income Urban
%
Correlation multi-parity % 1.000 -.761 -.542 -.453 -.453
contraception % -.761 1.000 .293 .253 .245
J.school & above % -.542 .293 1.000 .771 .849
average income -.453 .253 .771 1.000 .878
urban % -.453 .245 .849 .878 1.000
Sig. (1-tailed) multi-parity % .000 .001 .006 .006
contraception % .000 .058 .089 .096
J.school & above % .001 .058 .000 .000
average income .006 .089 .000 .000
urban % .006 .096 .000 .000
初始的样本相关系数矩阵或协差阵特征根
特征根与方差贡献率表
Total Variance Explained
Initial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums of Squared Loadings
Total % of Variance Cumulative
% Total % of Variance Cumulative
% Total % of Variance Cumulative %
1 3.25 65.006 65.006 3.25 65.006 65.006 2.683 53.661 53.661
2 1.22 24.396 89.401 1.22 24.396 89.401 1.787 35.740 89.401
3 .25 4.993 94.394
4 .181 3.620 98.014
5 .099 1.986 100.000
Extraction Method: Principal Component Analysis.
各因子特征根
各因子方差贡献率
各因子累计方差贡献率
旋转前的因子负载矩阵
Component Matrixa
Component
1 2
J.school & above % .892 .255
urban % .891 .370
average income .870 .347
multi-parity % -.762 .554
contraception % .568 -.768
Extraction Method: Principal Component Analysis.
a. 2 components extracted.
每个变量的因子表达式
因子碎石图
变平缓,提取两个因子
旋转后的因子负载矩阵
Rotated Component Matrixa
Component
1 2
urban % .952 .157
average income .922 .166
J.school & above % .892 .255
contraception % .076 .953
multi-parity % -.354 -.873
Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 3 iterations.
因子负载系数两级分化
因子得分系数矩阵
Component Score Coefficient Matrix
Component
1 2
multi-parity % .041 -.510
contraception % -.185 .627
J.school & above % .343 -.032
average income .378 -.100
urban % .393 -.113
Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.
因子得分表达式
因子得分表
Id FAC1_1 FAC2_1 Id FAC1_1 FAC2_1
1 2.59470 0.29548 16 -0.59815 0.52048
2 1.88821 0.62112 17 -0.08435 0.06434
3 -0.49341 0.47594 18 -0.59687 0.43722
4 -0.07107 0.37147 19 0.37363 -0.53249
5 -0.01269 0.55498 20 -0.70198 -0.67735
6 0.98289 0.60139 21 0.00308 -1.38202
7 0.37261 0.57916 22 -0.80565 0.93780
8 0.63730 0.44579 23 -0.97955 -0.38836
9 2.83557 0.40324 24 -0.83624 -0.60543
10 -0.14817 0.72628 25 -1.49137 -0.68293
11 -0.11654 1.07755 26 -0.41840 0.47342
12 -0.80231 0.53352 27 -0.61051 -0.03014
13 -0.56779 0.18239 28 -0.15355 -1.23555
14 -0.70902 0.26887 29 -0.14180 -1.01007
15 -0.26942 0.97540 30 0.92086 -4.00152
因子得分的协差阵
Component Score Covariance Matrix
Component 1 2
1 1.000 .000
2 .000 1.000
Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.
根据因子分析的数学模型,因子得分的协差阵应该是单位阵
11.2 主成分分析
Hotelling于1933年首先提出
主要思想
通过线性组合的方式从多个具有一定相关性的变量中尽可能快地提取信息
当一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个快速提取的过程,,直到所提取的信息与原指标相差不多时为止
优点
通过较少的主成分得到较多的信息量
与因子分析的区别
用各个变量的线性组合表示主成分,并非用因子表示变量
不需要类似于各个因子之间不相关等的假设条件
与因子分析的联系
都需要对指标进行正向化和标准化
都需要判断相关系数矩阵变量间的相关性
求特征值和特征向量
11.2.1 主成分分析的理论与方法
主成分分析的数学模型
主成分分析的几何意义
主成分分析的作用
主成分分析的求解步骤
主成分分析的数学模型
用原始数据矩阵的个变量作线性组合
用矩阵表示为:Y=UX
满足:
矩阵的每一行都是单位行向量
Yi与Yj之间不相关
Y1是X1,…,XP的一切组合中方差最大的,Y2是与Y1不相关的X1,…,XP的一切组合中方差最大的,Ym是与Y1,…,Ym-1都不相关的X1,…,XP的一切组合中方差最大的
主成分分析的几何意义
二维变量的情况
二维空间中的变量由横坐标和纵坐标表示
这些数据形成一个椭圆形状的点阵
椭圆短轴方向上,数据变化很少
极端情况,短轴退化成一点,只有在长轴的方向上才能解释这一点的变化,二维到一维的降维完成
坐标轴和椭圆的长、短轴平行
长轴的变量描述数据的主要变化,短轴的变量描述数据的次要变化
坐标轴不和椭圆的长、短轴平行
寻找椭圆的长、短轴,进行变换,使新变量和椭圆的长、短轴平行
多维变量的情况
表现为高维椭球,无法直观看见
找出高维椭球主轴,用代表大多数信息的最长的几个轴作为新变量
主成分分析基本上完成
二维椭圆有两个主轴,三维椭球有三个主轴,有几个变量,就有几个主成分
主成分分析的作用
主成分分析能降低所研究的数据空间维数
可通过因子负载的结论,弄清变量间的某些关系
主成分分析可以作为多维数据的一种图形表示方法
可以由主成分分析法构造回归模型
用主成分分析筛选回归变量
主成分分析的求解步骤
指标数据的标准化
指标之间的相关关系判定
确定主成分个数
确定主成分的表达式
为主成分命名
11.2.2 主成分分析的SPSS应用
利用SPSS进行因子分析
利用因子分析结果进行主成分分析
计算主成分
利用SPSS进行因子分析
Analyze→Data Reduction→Factor
使用与因子分析相同的原始数据
Component Matrixa
Component
1 2
J.school & above % .892 .255
urban % .891 .370
average income .870 .347
multi-parity % -.762 .554
contraception % .568 -.768
Extraction Method: Principal Component Analysis.
a. 2 components extracted.
作为原是变量输入SPSS数据窗口进行主成分分析
注意变量顺序
利用因子分析结果进行主成分分析
Transform→Compute
若提取的因子个数较多,以此类推
手动输入
第一个因子对应的特征根
特征向量矩阵
Id a1 a2 t1 t2
1 -0.762 0.554 -0.423 0.502
2 0.568 -0.768 0.315 -0.695
3 0.892 0.255 0.495 0.231
4 0.870 0.347 0.483 0.314
5 0.891 0.370 0.494 0.335
主成分表达式
计算主成分
标准化原始变量X1~X5
Analyze→Descriptive Statistics→Descriptives
Transform→Compute
在对话框中输入等式
标准化后变量保存在数据文件中
主成分表
Id y1 y2 Id y1 y2
1 -0.419 -0.837 16 -0.419 -0.837
2 -0.068 -0.110 17 -0.068 -0.110
3 -0.497 -0.758 18 -0.497 -0.758
4 0.064 0.718 19 0.064 0.718
5 -1.720 0.225 20 -1.720 0.225
6 -1.313 1.297 21 -1.313 1.297
7 -0.339 -1.349 22 -0.339 -1.349
8 -1.870 -0.208 23 -1.870 -0.208
9 -1.857 0.078 24 -1.857 0.078
10 -2.935 -0.230 25 -2.935 -0.230
11 -0.189 -0.688 26 -0.189 -0.688
12 -0.963 -0.328 27 -0.963 -0.328
13 -1.413 1.068 28 -1.413 1.068
14 -1.180 0.863 29 -1.180 0.863
15 -2.404 4.286 30 -2.404 4.286

展开更多......

收起↑

资源预览