资源简介 (共44张PPT)管理统计学11 主成分分析与因子分析11.1 因子分析11.1.1 因子分析的理论与方法11.1.2 因子分析的SPSS应用11.2 主成分分析11.2.1 主成分分析的理论与方法11.2.2 主成分分析的SPSS应用11.1 因子分析因子/基础变量:既能包含原来众多变量代表的信息,又能解释这些变量相互依存关系的变量因子分析:多元统计分析技术的一个分支,用于处理多变量问题,是一种降维、简化数据的技术因子分析的应用寻求基本结构数据化简11.1.1 因子分析的理论与方法因子分析的数学模型因子分析的有关概念因子负载公共因子方差因子的贡献因子旋转解释因子因子得分因子分析的步骤因子分析的数学模型F1,F2,…,Fm称为公共因子, i为Xi的特殊因子矩阵形式X=AF 需满足:m pCov(F, )=0且因子负载联系观测变量和公共因子的桥梁公共因子完全不相关时,因子负载aij等于第i个变量和第j个因子之间的相关系数aij的绝对值越大,公共因子与观测变量关系越大公共因子彼此不相关时,变量Xi与Xj的相关系数为比较观测数据计算出的相关系数和模型导出的变量的相关系数,判断因子解是否合适差别很小,模型很好的拟合观测数据,因子解合适公共因子方差/共同度观测变量的方差中由公共因子决定的比例说明用公共因子替代观测变量后,原来每个变量信息被保留的程度公共因子方差越大,变量能够被因子说明的程度越高当公共因子彼此正交时,公共因子方差等于和该变量有关的因子负载的平方和因子的贡献用因子所能够解释的总方差衡量的每个公共因子对变量的解释能力所有公共因子的总贡献为:实际中,相对指标更为常用,即每个因子所解释的方差占所有变量总方差的比例Vp/kK为观测变量的个数因子旋转因子结构:因子和变量之间的相关关系因子模式:因子负载矩阵因子旋转的条件一个变量在多个公共因子上有较大的负荷多个变量在同一个公共因子上有较大的负荷因子旋转的目的使同一个因子在各个变量上的负载尽可能的向靠近1和靠近0的两极分离因子旋转的方式正交旋转:使因子轴之间仍然保持90度角,因子之间仍旧不相关,因子结构与因子模式等同斜交旋转:因子之间的夹角是任意的,因子负载不再等于因子和变量之间的相关系数因子模式与因子结构的关系为S=BW,S为因子结构矩阵,B为因子负载矩阵,W为斜交因子之间的相关系数矩阵解释因子解释因子的作用借助因子负载矩阵,找出在某个因子上有显著负载的变量根据这些变量的意义给因子一个合适的名称具有较高负载的变量对因子名称的影响较大解释因子的确定一般认为绝对值大于0.3的因子负载就是显著的因子得分因子得分的求解过程用观测变量的线性组合表示因子依据因子对应的每个变量的具体数值进行测度因子得分的计算在因子分析模型中,不考虑特殊因子的影响,当m=p且A可逆时,该样本在因子F上的得分F=A-1X实际应用要求m p,只能对因子得分进行估计因子分析的步骤计算所有变量的相关系数矩阵提取因子,确定因子的个数和求因子解的方法进行因子旋转,使因子解的实际意义更容易解释计算因子得分11.1.2 因子分析的SPSS应用添加分析变量描述性统计设置因子提取设置因子旋转设置因子得分设置缺失值及因子负载矩阵设置生育率影响因素分析变量设置X1: Multi-parity(%), X2: Contraception(%)X3: J.school& above(%), X4: Average income(元), X5: Urban(%)Id X1 X2 X3 X4 X5 Id X1 X2 X3 X4 X51 0.94 89.89 64.51 3577 73.08 16 9.04 88.76 39.71 880 15.522 2.58 92.32 55.41 2981 68.65 17 12.02 87.28 38.76 1248 28.913 13.46 90.71 38.2 1148 19.08 18 11.15 89.13 36.33 976 18.234 12.46 90.04 45.12 1124 27.68 19 22.46 87.72 38.38 1845 36.775 8.94 90.46 41.83 1080 36.12 20 24.34 84.86 31.07 798 15.16 2.8 90.17 50.64 2011 50.86 21 33.21 83.79 39.44 1193 24.057 8.91 91.43 46.32 1383 42.65 22 4.78 90.57 31.26 903 20.258 8.82 90.78 47.33 1628 47.17 23 21.56 86.0 22.38 654 18.939 0.8 91.47 62.36 4822 66.23 24 14.09 80.96 21.49 956 14.7210 5.94 90.31 40.85 1696 21.24 25 32.31 87.6 7.7 865 12.5911 2.6 92.42 35.14 1717 32.81 26 11.18 89.71 41.01 930 21.4912 7.07 87.97 29.51 933 17.9 27 13.8 86.33 29.69 938 22.0413 14.44 88.71 29.04 1313 21.36 28 25.34 81.56 31.3 1100 27.3514 15.24 89.43 31.05 943 20.4 29 20.84 81.45 34.59 1024 25.7215 3.16 91.21 37.85 1372 27.34 30 39.6 64.9 38.47 1374 31.91添加分析变量Analyze→Data Reduction→Factor选择变量:选择参与分析的数据描述性统计设置输出原始变量的基本描述统计量输出因子分析的初始解简单相关系数矩阵相关系数矩阵的逆矩阵显著性检验相关系数矩阵的行列式再生相关阵反映象相关矩阵KMO和Bartlett球形检验因子提取设置7 种因子提取方法,默认为主成分分析法标准化后因子分析直接因子分析相关系数矩阵协方差矩阵输出旋转前的因子方差贡献表和因子负载矩阵输出因子碎石图设置提取的因子对应的特征跟范围,默认值1输入提取因子的个数Principal components/主成分法:把给定的一组相关变量通过线性变换转换成另一组不相关的变量,新的变量按照方差递减的顺序排列,总方差不变Unweighted least squares/普通最小二乘法:使因子模型计算出的相关系数和观测到的相关系数之间的离差平方和最小Genenralized least squares/广义最小二乘法:用与Unweighted least squares同样的原则,迭代过程中,用特殊因子方差倒数调整相关系数矩阵Maximum likelihood/最大似然法:类似广义最小二乘法,使因子解最好拟合观测数据变量的相关关系假设样本来源于多维正态总体,构造样本似然函数使其达到极大求解过程中相关系数用特殊因子方差倒数加权因子提取方法Principal axis factoring/主轴因子法:类似主成分法,用公共因子方差代替相关系数矩阵主对角线上的元素1新的矩阵称为调整相关系数矩阵,解调整相关系数矩阵的特征方程求得因子解Alpha factoring/因子提取法:变量是来自潜在变量空间中的样本,通过给定的总体观测,使提取的公共因子和假设存在的公共因子有最大的相关Image analysis/映像分析法:一个变量分解为两部分公共部分:由除该变量外的观测变量线性组合预测,即该变量的映像特有部分:不能被其他变量线性组合预测,即变量的反像同时考虑样本空间和变量空间,映像的平方相当于公共因子方差,反像的平方相当于特殊因子方差,采用和主成分法类似的过程求得因子解因子提取方法(续)因子提取方法的选择通常各种方法产生的公共因子方差差别不大公共因子方差为1时,主成分法和其他6种方法的实质是一样的公共因子方差较低时,差别比较明显主成分法解释变量的方差,假设每个变量的方差能被完全解释,相关系数矩阵主对角线上的元素和其他元素同样重要,甚至更重要其他方法解释变量的相关关系,假设观测变量的相关能完全被公共因子解释,方差不一定能完全被公共因子解释不能被解释的方差只影响相关系数矩阵主对角线上的元素要求因子解能够拟合相关系数矩阵主对角线以外的元素提取相同数目的因子,主成分法能够解释更多的方差变量个数增加,主对角线上元素重要程度降低,差异不再明显样本量很大时,最大似然法解比其他解的精度有明显提高依据因子分析的目的和对变量方差了解程度决定的方法要以最少的因子最大程度地解释原始数据中的方差,或已明确特殊因子和误差带来的方差很小,适合用主成分法为了确定数据结构但并不了解变量方差的情况,适用其他6种方法因子旋转设置简化因子负载矩阵列,使因子负载平方的方差最大直接斜交旋转法因子自相关的程度可尽量减少解释变量的因子个数Varimax与Quartimax因子解加权平均速度比直接旋转法快,适用于大样本输出旋转后的因子方差贡献表和因子负载矩阵输出旋转后因子负载散点图因子得分设置将因子值作为新变量保存在数据文件中计算因子得分的方法输出因子得分矩阵缺失值及因子负载矩阵设置缺失值处理方法因子负载矩阵显示方式观测的所有分析变量有一个有缺失值就不参与分析只把两个变量协方差或相关系数带有缺失值的观测删除用均值替代缺失值按因子负载的大小排序不显示绝对值太小的因子负载变量共同度、KMO与Bartlett球形检验CommunalitiesInitial Extractionmulti-parity % 1.000 .887contraception % 1.000 .913J.school & above % 1.000 .860average income 1.000 .878urban % 1.000 .931Extraction Method: Principal Component Analysis.共同度都在85%以上,因子提取效果比较理想KMO and Bartlett's TestKaiser-Meyer-Olkin Measure of Sampling Adequacy. .713Bartlett's Test of Sphericity Approx. Chi-Square 106.776df 10Sig. .000KMO统计量为0.713,Bartlett球形检验的值为0.000,说明案例数据比较适合因子分析相关系数矩阵及相关显著性检验(Correlation Matrix)multi-parity% contraception% J.school &above % Averageincome Urban%Correlation multi-parity % 1.000 -.761 -.542 -.453 -.453contraception % -.761 1.000 .293 .253 .245J.school & above % -.542 .293 1.000 .771 .849average income -.453 .253 .771 1.000 .878urban % -.453 .245 .849 .878 1.000Sig. (1-tailed) multi-parity % .000 .001 .006 .006contraception % .000 .058 .089 .096J.school & above % .001 .058 .000 .000average income .006 .089 .000 .000urban % .006 .096 .000 .000初始的样本相关系数矩阵或协差阵特征根特征根与方差贡献率表Total Variance ExplainedInitial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums of Squared LoadingsTotal % of Variance Cumulative% Total % of Variance Cumulative% Total % of Variance Cumulative %1 3.25 65.006 65.006 3.25 65.006 65.006 2.683 53.661 53.6612 1.22 24.396 89.401 1.22 24.396 89.401 1.787 35.740 89.4013 .25 4.993 94.3944 .181 3.620 98.0145 .099 1.986 100.000Extraction Method: Principal Component Analysis.各因子特征根各因子方差贡献率各因子累计方差贡献率旋转前的因子负载矩阵Component MatrixaComponent1 2J.school & above % .892 .255urban % .891 .370average income .870 .347multi-parity % -.762 .554contraception % .568 -.768Extraction Method: Principal Component Analysis.a. 2 components extracted.每个变量的因子表达式因子碎石图变平缓,提取两个因子旋转后的因子负载矩阵Rotated Component MatrixaComponent1 2urban % .952 .157average income .922 .166J.school & above % .892 .255contraception % .076 .953multi-parity % -.354 -.873Extraction Method: Principal Component Analysis.Rotation Method: Varimax with Kaiser Normalization.a. Rotation converged in 3 iterations.因子负载系数两级分化因子得分系数矩阵Component Score Coefficient MatrixComponent1 2multi-parity % .041 -.510contraception % -.185 .627J.school & above % .343 -.032average income .378 -.100urban % .393 -.113Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.因子得分表达式因子得分表Id FAC1_1 FAC2_1 Id FAC1_1 FAC2_11 2.59470 0.29548 16 -0.59815 0.520482 1.88821 0.62112 17 -0.08435 0.064343 -0.49341 0.47594 18 -0.59687 0.437224 -0.07107 0.37147 19 0.37363 -0.532495 -0.01269 0.55498 20 -0.70198 -0.677356 0.98289 0.60139 21 0.00308 -1.382027 0.37261 0.57916 22 -0.80565 0.937808 0.63730 0.44579 23 -0.97955 -0.388369 2.83557 0.40324 24 -0.83624 -0.6054310 -0.14817 0.72628 25 -1.49137 -0.6829311 -0.11654 1.07755 26 -0.41840 0.4734212 -0.80231 0.53352 27 -0.61051 -0.0301413 -0.56779 0.18239 28 -0.15355 -1.2355514 -0.70902 0.26887 29 -0.14180 -1.0100715 -0.26942 0.97540 30 0.92086 -4.00152因子得分的协差阵Component Score Covariance MatrixComponent 1 21 1.000 .0002 .000 1.000Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.根据因子分析的数学模型,因子得分的协差阵应该是单位阵11.2 主成分分析Hotelling于1933年首先提出主要思想通过线性组合的方式从多个具有一定相关性的变量中尽可能快地提取信息当一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个快速提取的过程,,直到所提取的信息与原指标相差不多时为止优点通过较少的主成分得到较多的信息量与因子分析的区别用各个变量的线性组合表示主成分,并非用因子表示变量不需要类似于各个因子之间不相关等的假设条件与因子分析的联系都需要对指标进行正向化和标准化都需要判断相关系数矩阵变量间的相关性求特征值和特征向量11.2.1 主成分分析的理论与方法主成分分析的数学模型主成分分析的几何意义主成分分析的作用主成分分析的求解步骤主成分分析的数学模型用原始数据矩阵的个变量作线性组合用矩阵表示为:Y=UX满足:矩阵的每一行都是单位行向量Yi与Yj之间不相关Y1是X1,…,XP的一切组合中方差最大的,Y2是与Y1不相关的X1,…,XP的一切组合中方差最大的,Ym是与Y1,…,Ym-1都不相关的X1,…,XP的一切组合中方差最大的主成分分析的几何意义二维变量的情况二维空间中的变量由横坐标和纵坐标表示这些数据形成一个椭圆形状的点阵椭圆短轴方向上,数据变化很少极端情况,短轴退化成一点,只有在长轴的方向上才能解释这一点的变化,二维到一维的降维完成坐标轴和椭圆的长、短轴平行长轴的变量描述数据的主要变化,短轴的变量描述数据的次要变化坐标轴不和椭圆的长、短轴平行寻找椭圆的长、短轴,进行变换,使新变量和椭圆的长、短轴平行多维变量的情况表现为高维椭球,无法直观看见找出高维椭球主轴,用代表大多数信息的最长的几个轴作为新变量主成分分析基本上完成二维椭圆有两个主轴,三维椭球有三个主轴,有几个变量,就有几个主成分主成分分析的作用主成分分析能降低所研究的数据空间维数可通过因子负载的结论,弄清变量间的某些关系主成分分析可以作为多维数据的一种图形表示方法可以由主成分分析法构造回归模型用主成分分析筛选回归变量主成分分析的求解步骤指标数据的标准化指标之间的相关关系判定确定主成分个数确定主成分的表达式为主成分命名11.2.2 主成分分析的SPSS应用利用SPSS进行因子分析利用因子分析结果进行主成分分析计算主成分利用SPSS进行因子分析Analyze→Data Reduction→Factor使用与因子分析相同的原始数据Component MatrixaComponent1 2J.school & above % .892 .255urban % .891 .370average income .870 .347multi-parity % -.762 .554contraception % .568 -.768Extraction Method: Principal Component Analysis.a. 2 components extracted.作为原是变量输入SPSS数据窗口进行主成分分析注意变量顺序利用因子分析结果进行主成分分析Transform→Compute若提取的因子个数较多,以此类推手动输入第一个因子对应的特征根特征向量矩阵Id a1 a2 t1 t21 -0.762 0.554 -0.423 0.5022 0.568 -0.768 0.315 -0.6953 0.892 0.255 0.495 0.2314 0.870 0.347 0.483 0.3145 0.891 0.370 0.494 0.335主成分表达式计算主成分标准化原始变量X1~X5Analyze→Descriptive Statistics→DescriptivesTransform→Compute在对话框中输入等式标准化后变量保存在数据文件中主成分表Id y1 y2 Id y1 y21 -0.419 -0.837 16 -0.419 -0.8372 -0.068 -0.110 17 -0.068 -0.1103 -0.497 -0.758 18 -0.497 -0.7584 0.064 0.718 19 0.064 0.7185 -1.720 0.225 20 -1.720 0.2256 -1.313 1.297 21 -1.313 1.2977 -0.339 -1.349 22 -0.339 -1.3498 -1.870 -0.208 23 -1.870 -0.2089 -1.857 0.078 24 -1.857 0.07810 -2.935 -0.230 25 -2.935 -0.23011 -0.189 -0.688 26 -0.189 -0.68812 -0.963 -0.328 27 -0.963 -0.32813 -1.413 1.068 28 -1.413 1.06814 -1.180 0.863 29 -1.180 0.86315 -2.404 4.286 30 -2.404 4.286 展开更多...... 收起↑ 资源预览