资源简介 (共103张PPT)管理统计学9 聚类分析与判别分析9.1 聚类分析9.2 判别分析9.1 聚类分析9.1.1 基本原理和方法9.1.2 系统聚类法9.1.3 系统聚类的SPSS应用9.1.4 K均值聚类法9.1.5 K均值聚类法的SPSS应用9.1.1 基本原理和方法聚类分析:采用定量数学方法,根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据分类的基本思想:把一些相似程度较大的样品(或指标)聚合为一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)聚合完毕聚类分析例如:有p个指标(变量),n个对象,依据这n个对象在p个指标下的数据,对这n个对象进行聚类。设数据为:每一个对象是p维空间中的一个点聚类问题,就是在p维空间中,对这n个点的聚类问题使用聚类分析的注意的问题变量(指标)不能太多,否则,难以判断聚类结果的实际意义指标间有一定的相关关系(不必高度相关),可以对所观察的一群个体分类,从而可以对个体进行进一步的研究变量(指标)过多,则可对指标分类,把有相近含义的指标聚到一起,把整个指标群分为若干类聚类分析的分类样本聚类/Q型聚类:对观测量(Case)进行聚类,不同的目的选用不同的指标作为分类的依据变量聚类/R型聚类:能够找出彼此独立且有代表性的自变量,而又不丢失大部分信息,主要是对研究对象的观测变量进行聚类,使得具有共同特征的变量作为一类聚类分析的步骤① 选择描述事物对象的变量(指标)② 形成数据文件,建立样品资料矩阵③ 确定数据是否需要标准化④ 确定表示对象距离或相似程度的统计量⑤ 计算对象间的距离(rij)和相似关系矩阵R(rij)对称阵:i到j的距离与j到i的距离相等⑥ 选择类与类之间的距离定义⑦ 聚类⑧ 分类度量样本之间相似程度的统计量距离:将一个样品看作P维空间的一个点,并在空间用某种度量测量点与点之间的距离,距离越近的点归为一类,距离较远的点归为不同的类以dij表示第i个样本与第j个样本间的距离,需要满足以下四个条件dij≥0,对一切i和j成立dij=0,当且仅当i=j成立dij=dji≥0,对一切i和j成立dij≤dik+dkj,对于一切i和j成立相似系数:变量或样品的关系越密切,其性质就越接近,它们的相似系数的绝对值越接近1;反之,它们的相似系数的绝对值越接近于零,即样品的关系越疏远样品之间相似系数大的样品归为一类,样品之间相似系数小的样品归为不同的类,即两点相似系数越接近1,就相当于距离越短,即相似的为一类,不相似的属于不同类常用距离的分类①欧氏距离②欧氏距离平方③偏差距离④明考夫斯基距离⑤马氏距离⑥相关系数类间距离计算方法类间距离:最基本的类:由一个点组成的类每一类都由一个点组成,点间的距离就是类间距离某一类包含不止一个点,就要确定类间距离最短距离连接法:用两类中所有样本对距离的最小值作为两类的距离,合并距离最近或相关系数最大的两类最长距离连接法:用两类中所有样本对距离的最大值作为两类的距离,合并距离最近或相关系数最大的两类类间平均距离连接法:将两个类中所有的样本的平均距离作为两个类的距离,合并距离最近或相关系数最大的两类聚类分析的类型①聚合法:每个样本自成一类计算各类之间相似程度统计量,把最相似的两类合并成一类重复上步,直到所有样本归为一类②分解法:所有样本归为一类分为两类重复上步,一直到每个样本归为一类或不能再细分为止③调优法:开始人为将样本初始分类判断该分类是否最优,如果不是则进行修改重复上述步骤,直到分类达到最优为止分类数的确定戴米尔曼(Demirmen,1972)提出的根据树状结构图来分类的准则:准则1:任何类都必须在邻近各类中是突出的,即各类重心之间距离必须大准则2:各类所包含的元素都不要过多准则3:分类的数目应该符合使用的目的准则4:若采用几种不同的聚类方法处理,则在各自的聚类图上应发现相同的类层次聚类中每次合并的类与类之间的距离也可以作为确定类数的一个辅助工具在层次聚类过程中,先把离得近的类合并,在并类过程中聚合系数呈增加趋势聚合系数小,表示合并的两类的相似程度大,两个差异很大的类合到一起,会使该系数增大聚类方法的选择影响聚类方法的使用效果的因素类的结构(主要指类的形状、规模和个数)奇异值的存在类与类之间重叠的程度相似测度的选择奇异值是指和样本中其他的观测量差异很大的观测量,它远离其它观测量,自成一类9.1.2 系统聚类法系统聚类法基本思想将所有样品看成一个类选择性质最接近(距离最小)的两类合并为一个新类计算新类与其他类的距离,将距离最近的两类合并,这样直至所有的样品合并为一类系统聚类方法分类(待续)(1)最短距离法距离最近的样品归入一类计算新类和单个样品间的距离作为单个样品和类中的样品间的最小距离,尚未合并的样品间的距离并未改变在每一步,两类之间的距离是它们两个最近点间的距离(2)最长距离法按两个最远成员间的距离进行类的归并最长距离法与最短距离法相比,类与类之间的距离定义和计算新类与其他类的距离所用的公式不同(3)重心法两类之间的距离为两类重心间的距离,对样品聚类的重心就是该类的均值缺陷是较后合并的类比较前合并的类更不相似(4)类平均法(Median clustering)两类之间的距离是以各自的中数加以度量的,这使两个正被合并的类,在均值计算中被赋予相等的权力,而不管每一类中的样品数系统聚类方法分类(续)(5)类间平均连接法按各个团体中成员间的平均距离连类,两个类间的距离为所有样品偶对间的平均距离(6)类内平均连接法按各个团体中成员间的平均距离连类,且使产生类的所有样品之平均距离尽可能小,是取产生类的所有可能样品偶对间的平均距离(7)离差平方和法如果分类正确,同类样品的离差平方和应当较小,类与类的离差平方和应当较大。具体做法是先将n个样品看成一类每次缩小一类,每缩小一类离差平方和就要增大,选择使S增加最小的两类合并直到所有的样品归为一类为止计算每一类所有变量的均值对每一个样品计算到类均值的距离平方,对所有样品求这些距离之和合并的两类是使类内距离总平方和增加最少的类9.1.3 系统聚类的SPSS应用例9.1 有关研究机构通过2008年我国部分省市的土地利用情况(单位:万公顷)进行分析,试图依据给出的数据对土地利用结构进行分类地区 园地 牧草地 居民点及工矿 交通用地 水利设施北 京 12.0 0.2 27.9 3.3 2.6天 津 3.5 0 28.1 2.2 6.5河 北 70.5 79.9 154.5 12.0 12.9山 西 29.5 65.8 77.3 6.3 3.3内蒙古 7.3 6560.9 123.9 16.0 9.3辽 宁 59.6 34.9 115.9 9.2 14.8吉 林 11.5 104.4 84.2 6.7 15.6黑龙江 6.0 220.8 116.1 11.9 21.2上 海 2.1 0 23.0 2.1 0.2江 苏 31.6 0.1 161.0 13.1 19.3浙 江 66.1 0 81.7 9.5 13.8安 徽 33.9 2.8 133.4 10.1 22.7福 建 62.9 0.3 50.7 7.9 6.1江 西 27.8 0.4 67.5 7.5 20.5山 东 100.7 3.4 209.3 16.3 25.5(数据来源:《中国统计年鉴 2009》中国统计出版社)操作及其说明Analyze → Classify → Hierarchical Cluster → {Hierarchical Cluster Analysis}Hierarchical Cluster Analysis从左侧选入参与聚类分析的变量选入标签变量选择聚类类型对观测量(样本)进行聚类,对应于样本聚类对变量(指标)进行聚类,对应于变量聚类选择输出结果统计分析统计图表Hierarchical Cluster Analysis:StatisticsStatistics → {Hierarchical Cluster Analysis:Statistics}聚集状态表各项间的距离矩阵类成员栏不显示类成员表,为系统默认值要求列出聚为一定类数的各观测量所属的类某个范围中每步各观测量所属的类Hierarchical Cluster Analysis: MethodAgglomeration schedule →continue → Method → {Hierarchical Cluster Analysis:Method}Cluster Method选择的聚类方法Between-groups linkage(组间连接):合并两类的结果使所有的两两项对之间的平均距离最小,项对的两个成员分别属于不同的类,该方法中使用各对之间的距离Within-groups linkage(组内连接):若当两类合并为一类后,合并后的类中的所有项之间的平均距离最小,两类间的距离即是合并后的类中所有可能的观测量对之间的距离平方Nearest neighbor(最近邻法):该方法首先合并最近的或最相似的两项,用两类间最近点间的距离代表两类间的距离Furthest neighbor:最远邻法/完全连接,用两类之间最远点的距离代表两类之间的距离Centroid clustering(重心法):应与欧氏距离平方法一起使用,像计算所有各项均值之间短距离那样计算两类之间的距离,该距离随聚类的进行不断减小Median clustering(中间距离法):应与欧氏平方距离一起使用Ward’s method:离差平方和法,应与欧氏平方距离一起使用距离的测度方法选择(待续)在Measure栏中选择距离计算方法Interval:应用于等间隔测度的变量。单击矩形框右侧的下箭头展开下拉,选择连续变量距离测度的方法Eucidean distance:欧式距离,即两样本间距离为其对应指标值之差的平方和的平方根Squrared Eucidean distance:欧式距离平方,即两样本间距离为其对应指标值之差的平方和;Cosine:变量矢量的余弦,这是模型相似性的度量Pearson Correalation:相关系数距离Chebychev:切比雪夫距离,即两样本间的距离为两样本对应指标值之差的绝对值中的最大值Block:City-Block或Manhattan距离,即两样本间的距离为两样本对应指标值之差的绝对值和Minkowski:两样本间的距离是一个绝对幂的度量,即两样本对应指标值之差的绝对值的p次幂之和的p次根,p由用户指定Customized:距离是一个绝对幂的度量,即两样本对应指标值之差的绝对值的p次幂之和的r次根,p与r由用户指定距离的测度方法选择(续)Counts:应用于计数变量。 单击其右侧的向下箭头,展开两种选择不相似性测度的方法:Chi-Square measure:卡方测度,用卡方值测度不相似性。该测度是根据两个集的频数相等的卡方检验,测度产生的值是卡方值的平方根,这是系统默认的Phi-Square measure:两组频数之间的Φ2 测度,试图考虑减少样本量对实际度值的实际预测频率减少的影响Binary:应用于二值变量。单击Binary右侧的向下箭头展开下拉来选择距离或不相似性测度的方法,首先应明确对二值变量,系统默认用1表示某特性出现,用0表示某特性不出现确定标准化的方法Transform Values:确定标准化的方法。单击standardize右侧向下箭头选择标准化的方法:None:不进行标准化,是系统默认值Z scores:把数值标准化到Z分数。标准化后变量均值为0,标准差为1,系统将每个值减去被标准化的变量或观测量的均值,再处以其标准差,如果标准差为0,则将所有值置为0Range -1 to 1:将数值标准化到-1到1范围内Maxinum mannitude:把数值标准化到最大值1。该方法是把标准化的变量或观测量的值用最大值去除,如果最大值为0,则用最小值的绝对值处再加1Range 0 to 1:将数值标准化到0到1范围内Mean of 1:把数值标准化到一个均值的范围内Standard deviation of 1:把数值标准化到单位标准差测度的转换方法选择Transfrom Measure:测度的转换方法选择Absolute Values:把距离取绝对值,当数值符号表示相关方向,且只对负相关关系感兴趣时才采用此方法进行交换Change Sign:把相似性值变为不相似性值或相反,用求反的方法使距离顺序颠倒Rescale to 0~1:通过首先减去最小值,然后处以范围的方法使距离标准化Hierarchical Cluster Analysis:PlotsBetween-groups linkage → squared Euclidean distance(其他为默认设置) →“Conitnue” →Plots → Hierarchical Cluster Analysis:Plots输出树形图冰柱图查看聚类的全过程指定显示的聚类范围不生成冰柱确定显示方向纵向显示水平显示Hierarchical Cluster Analysis:Save New VariablesDendrogram(树形图(其他设置采用系统默认值→ Continue按钮→{主对话框} →Save →{Hierarchical Cluster Analysis:Save New Variables }不建立新变量单一结果范围内的结果样本处理表 Case Processing Summarya,bCasesValid Missing TotalN Percent N Percent N Percent15 100.0 0 .0 15 100.0a. Squared Euclidean Distance usedb. Average Linkage (Between Groups)Single solution →设置为3 → Continue →{主对话框} →“OK” →生成聚类结果聚类过程表 Agglomeration ScheduleStage Cluster Combined Coefficients Stage Cluster First Appears NextStageCluster 1 Cluster 2 Cluster 1 Cluster 21 2 9 67.670 0 0 22 1 2 109.005 0 1 83 10 12 794.900 0 0 74 11 13 1033.180 0 0 55 11 14 1719.680 4 0 86 4 7 2013.020 0 0 117 6 10 3062.440 0 3 98 1 11 4446.491 2 5 119 3 6 6479.907 0 7 1010 3 15 9737.865 9 0 1211 1 4 10213.680 8 6 1212 1 3 16417.371 11 10 1313 1 8 46321.474 12 0 1414 1 5 4.258E7 13 0 0聚类步骤类间的距离样本号聚类步序号下一步步序号冰柱图Vertical IcicleNumberofclusters Case5内蒙古 8黑龙江 15山东 12安徽 10江苏6辽宁 3河北 7吉林 4山西 14江西 13福建 11浙江 9上海 2天津 1北京1 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X2 X X X X X X X X X X X X X X X X X X X X X X X X X X X X3 X X X X X X X X X X X X X X X X X X X X X X X X X X X4 X X X X X X X X X X X X X X X X X X X X X X X X X X5 X X X X X X X X X X X X X X X X X X X X X X X X X6 X X X X X X X X X X X X X X X X X X X X X X X X7 X X X X X X X X X X X X X X X X X X X X X X X8 X X X X X X X X X X X X X X X X X X X X X X9 X X X X X X X X X X X X X X X X X X X X X10 X X X X X X X X X X X X X X X X X X X X11 X X X X X X X X X X X X X X X X X X X12 X X X X X X X X X X X X X X X X X X13 X X X X X X X X X X X X X X X X X14 X X X X X X X X X X X X X X X X聚类的树形图系统聚类法在数据编辑窗口的输出9.1.4 K均值聚类法K均值聚类法(快速聚类法/逐步聚类法):需要用户指定类别数逐步聚类法:先把被聚对象进行初始分类,然后逐步调整,得到最终分类快速样本聚类:根据被观测的对象的各种特征,即反映被观测对象的特征的各变量进行分类,其特点是处理速度快占用计算机内存少快速样本聚类适用于大样本的聚类分析它能快速地把各观测量分到各类中去K均值聚类分析的步骤将数据进行标准化处理假设分类数目为k,确定每一类的初始中心位置,即k个凝聚点(一个最简单的方法是选取前k个样本作为初始凝聚点)按顺序计算各个样本与k个凝聚点的距离,根据最近距离准则将所有样本逐个归入k个凝聚点,得到初始分类结果重新计算类中心,将各类每个变量的平均值作为新的凝聚点;当所有样本归类后才计算各类类中心;每个样本归类后马上计算该类的类中心所有样本归类后即为一次聚类,产生了新的类中心如果满足一定的条件,如聚类次数达到指定的迭代次数,或者两次计算的最大类中心的变化小于初始类中心之间最小距离的一定比例,则停止聚类,否则到第3步9.1.5 K均值聚类法的SPSS应用Analyze → Classify → K-Means Cluster → {K-Means Cluster Analysis}K-Means Cluster Analysis从左侧选入参与聚类分析的变量选入标签变量仅按初始类别中心点分类聚类方法栏指定处室类别中心点,然后按K-Means算法做迭代分类类中心数据的输入与输出设置使用指定数据文件中的观测量作为初始类中心把聚类结果中的各类中心数据保存早指定的文件中K-Means Cluster Analysis:IterateIterate and classify →“Iterate” → {K-Means Cluster Analysis:Iterate}限定K-Means算法的迭代次数限定K-Means算法的收敛条件限定在每个观测量被分配到一类后,即刻计算新的类中心K-Means Cluster Analysis:Save New Variables"Save" → {K-Means Cluster Analysis: Save New Variables}K-Means Cluster Analysis:Options初始类中心选择要求计算和输出的统计量方差分析表每个观测量的分类信息选择处理带有缺失值观测量的方法将出现在Variables变量表中变量带有缺失值的观测量从分析中剔除当一个观测量的全部聚类变量值均缺失时,将其剔除,否则,分配到最近的一类中去Cluster membership →Continue→{主对话框} →“Options…” → {K-Means Cluster Analysis:Options}初始类中心表(Initial Cluster Center)初始类中心表(Initial Cluster Center)Cluster1 2 3 4园地 7.30 2.10 100.70 6.00牧草地 6560.90 .00 3.40 220.80居民工矿 123.90 23.00 209.30 116.10交通用地 16.00 2.10 16.30 11.90水利设施 9.30 .20 25.50 21.20Initial cluster centers → ANOVA table → Cluster information for each case → Exclude cases listwise →“Continue” →“OK” →{初始类中心表(Initial Cluster Center)}迭代历史表 Iteration History(a)迭代历史表 Iteration History(a)Iteration Change in Cluster Centers1 2 3 41 .000 40.806 71.957 60.5292 .000 .000 .000 .000a. Convergence achieved due to no or small change in cluster centers. The maximum absolute coordinate change for any center is .000. The current iteration is 2. The minimum distance between initial centers is 212.798.类别关系表 (Cluster Membership)Case Number 地区 Cluster Distance1 北京 2 30.6352 天津 2 35.7653 河北 3 57.1354 山西 2 62.3155 内蒙古 1 .0006 辽宁 3 40.6897 吉林 4 60.5298 黑龙江 4 60.5299 上海 2 40.80610 江苏 3 37.22911 浙江 2 49.61512 安徽 3 39.72813 福建 2 35.12014 江西 2 23.06715 山东 3 71.957终止聚类时中心表(Final Cluster Centers)Cluster1 2 3 4园地 7.30 29.13 59.26 8.75牧草地 6560.90 9.53 24.22 162.60居民工矿 123.90 50.89 154.82 100.15交通用地 16.00 5.54 12.14 9.30水利设施 9.30 7.57 19.04 18.40终止聚类时各中心的距离表(Distances between Final Cluster Centers)Cluster 1 2 3 41 6.552E3 6.537E3 6.398E32 6.552E3 110.005 162.4953 6.537E3 110.005 157.1554 6.398E3 162.495 157.155方差分析表 (ANOVA)Cluster Error F Sig.Mean Square df Mean Square df园地 1776.490 3 677.919 11 2.621 .103牧草地 1.326E7 3 1377.931 11 9.620E3 .000居民工矿 10781.631 3 839.746 11 12.839 .001交通用地 60.696 3 8.932 11 6.795 .007水利设施 153.557 3 39.373 11 3.900 .040The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the differences among cases in different clusters. The observed significance levels are not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.各类的观测量统计表 (Number of Cases in each Cluster)Cluster 1 1.0002 7.0003 5.0004 2.000Valid 15.000Missing .000聚类分析最终结果文件9.2 判别分析判别分析:在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类聚类分析:给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型的判别分析和聚类分析往往联合起来使用,先知道各类总体情况,判断新样品的归类,用判别分析当总体分类不清楚时,先用聚类分析对原来的一批样品进行分类,再用判别分析建立判别式以对新样品进行判别9.2.1 基本原理判别分析,就是要在水平直线上的某个位置划一条分界线,把这条分界线左边的点,都判给A类,把分界线右边的点判断给B类,同时使误判率最低这条分界线,为一个判别准则,判断一个或多个个体属于哪一个类别直线上两群点的分类问题错判率的高低的决定因素主观因素:分界线的位置要正确。否则会使误判率增大,是完全可控的因素客观因素:如果两群点举止离开的远一些,有利于判别,使错判率较低一些。如果两群点都紧紧地靠在各自的均值附近,也一定是有利于判别的,极端情况是两群点没有交互交叉的情况,此时可以做到错判率为0,是完全不可控的因素指标选择问题指标选择问题非常重要维度高一些,分界线的分辨率更高一些指标也不是越多越好,指标太多了,改变不了分辨率,却大大增加了计算量维度高一些有助于判别的示例9.2.2 常用判别法(1)距离判别法基本思想根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测若它与第i类的重心距离最近,就认为它来自第i类① 两个总体的距离判别法设有两个总体(或称两类)G1、G2,从第一个总体中抽取n1个样品,从第二个总体中抽取n2个样品,每个样品测量p个指标两个总体的距离判别法首先计算X到G1、G2总体的距离,分别记为和,按距离最近准则判别归类,则可写成:如果距离定义采用欧氏距离,则可计算出然后比较和大小,按距离最近准则判别归类设μ(1)、 μ(2), ∑(1)、 ∑(2)分别为G1、G2的均值向量和协有效期阵。如果距离定义采用马氏距离即1)当∑ (1)= ∑ (2)= ∑时(待续)判别准则可写成:当μ(1) 、 μ(2)已知时,令则显然,W(X)是的线性函数,称W(X)为线性判别函数,a为判别系数当∑ (1)= ∑ (2)= ∑时(待续)当μ(1) 、 μ(2)未知时,可通过样本来估计。设 来自Gi的样本,i=1,2其中线性判别函数为:当∑ (1)= ∑ (2)= ∑时(续)当p=1时,若两个总体的分布分别为N(μ1,σ2)和Nμ2,σ2) ,判别函数设μ1、 μ2,这时W(X)的符号取决于X> μ 或X< μ当X> μ时,判X∈G1当X< μ时,判 X∈G2用距离判别所得到的准则是合理的,但也会得出错判。错判的概率为图9-16中阴影的面积,记为P(2/1),类似有P(2/1)当两个总体的均值有显著差异时,作判别分析才有意义两个总体分布2)当∑ (1) ≠ ∑ (2)时按距离最近准则,类似地有仍然用:作为判别函数,它是X的二次函数多个总体的距离判别法类似两个总体的讨论推广到多个总体设有k个总体G1,…,Gk,它们的均值和协差阵分别为,从每个总体Gi中抽取ni个样品,i=1,…,k,每个样品测p个指标1)当∑ (1)= …∑ (k)= ∑时判别函数为:相应的判别准则为:当μ(1) ,…,μ(k),∑未知时可用其估计量代替,设从Gi中抽取的样本为 ,则 , 的估计分别为其中, 为Gi的样本离差阵2)当∑ (1), …,∑ (k)不相等时此时判别函数为:相应的判别准则为:当 未知时,可用 的估计量代替,即Fisher判别法Fisher判别法:以Fisher准则为标准来评选判别函数的所谓Fisher准则:较优的判别函数应该能根据待判对象的n个指标最大限度地将它所属的类与其他类区分开来一般应用中多采用线性判别函数基本方法:假定判别函数(线性函数)根据已知信息对判别函数进行训练和学习,根据类间距离最大、类内距离最小的原则确定线性判别函数得到函数关系式中的系数值确定判别函数经判别函数划分后,同类样品在空间上的分布集中,而不同类之间距离较远,差别明显Fisher判别法的计算步骤(待续)1)建立判别函数求 的最大值点 ,根据极值原理,需解方程组可得到 ,写出判别函数2)计算判别临界值,根据判别准则对新样品判别分类Fisher判别法的计算步骤(待续)3)检验判别效果(当两个总体协差阵相同且总体服从正态分布)检验统计量:其中Fisher判别法的计算步骤(续)给定检验水平 ,查F分布表,确定临界值F 若 F> F ,则被否定,认为判别有效若 F≤ F 否则认为判别无效注意:参与构造判别式的样品个数太少,会影响判别式的优良性判别式选用的指标过多,使用不方便,影响预报的稳定性建立判别式之前应仔细挑选出几个对分类特别有关系的指标,要使两类平均值之间的差异尽量大些贝叶斯判别法(待续)Bayes判别法:对多个总体的判别考虑计算新给样品属于各总体的条件概率p(i|x),i=1,2,…,k,再比较这k个概率的大小,然后将新样品判归为来自概率最大的总体Bayes判别法的基本思想:设有k个总体G1,G2,…,Gk,它们的先验概率分别为q1,q2,…,qk。各总体的密度函数分别为:f1(x), f2(x),…, fk(x) ,在观测到一个样品x的情况下,计算它来自第g总体的后验概率:并且当 时,则判X来自第h总体贝叶斯判别法(续)使用错判损失最小的概念作判决函数。把x错判归第h总体的平均损失定义为L(h/g)(损失函数)表示本来是第g总体的样品错判为第h总体的损失上式是对损失函数依概率加权平均或称为错判的平均损失当h=g时,有L(h/g) =0当h≠g时,有L(h/g)>0建立判别准则为如果 则判定x来自第h总体在实际应用中,在数学模型中假设各种错判的损失皆相等,即寻找h使后验概率最大和使错判的平均损失最小是等价的,即逐步判别法逐步判别法:通过引入和剔除变量来建立判别函数,最终生成的判别函数中只包括主要的变量逐步判别法的基本思想采用“有进有出”的算法,即逐步引入变量,每引入一个“最重要”的变量进入判别式同时考虑较早引入判别式的某些变量,其判别能力随新引入变量而变为不显著了,应及时从判别式中把它剔除去,直到判别式中没有不重要的变量需要剔除,而剩下来的变量也没有重要的变量可引入判别式时,逐步筛选结束这个筛选过程实质就是作假设检验,通过检验找出显著性变量,剔除不显著变量①引入变量的检验统计量假定计算l步,并且变量x1, x2,…,xL 已选入(L不一定等于l),考察第l+1步添加一个新变量xr的判别能力将变量分成两组,第一组为前L个已选入的变量第二组仅有一个变量xr此时L+1个变量的组内离差阵和总离差阵仍分别为E和T检验统计量:若 ,则x1判别能力显著,我们将判别能力显著的变量中最大的变量(即使Ar为最小的变量)作为入选变量记为xl+1② 剔除变量的检验统计量设想已计算了l步,并引入了包括xr在内的某L个为量(L不一定等于l),假设xr是在第l步引入考察第l步引入变量xr(其它l-1个变量已给定)的判别能力,此时有剔除变量的检验统计量:在已入选的所有变量中,找出具有最大(即最小)的一个变量进行检验。若F2r③ 计算步骤1)计算各总体中各变量的均值和总均值以及E=(eij)p×p和T=(tij)p×p2)规定引入变量和剔除变量的临界值F进和F出(F进≥ F出≥ 0),3)逐步计算假设已计算l步(包括l=0),在判别式中引入了某L个变量设x1,x2,…,xl,则第l+1步计算内容包括计算全部变量的“判别能力”,在已入选变量中考虑剔除可能存在的最不显著变量4)建立判别式,对样品判别分类使用Bayes判别法建立判别式,假设共计算l+1步,最终选出L个变量,设判别式为:将每一个样品x=(x1,x2,…,xp)’ 分别代入k个判别式yg中去若 ,则x∈第h总体9.2.3 判别效果的检验① 总体差异的显著性检验② 判别变量的重要性检验③ 回判法用判别函数对两总体的已知样本进行回判,计算错判率,当错判率<30%,认为判别函数有效计算错判的概率一种方法是利用建立判别函数的训练样品进行回代,用错判的样品数比上全体样品数作为错判概率的估计。这种方法估计错判概率往往偏低另外一种改进的方法即将已知类别的样品分成两部份,用其中一大部份样品(例如85%)的观测数据去建立判别函数和判别准则,用剩余的一小部份样品(15%)的观测数据进行判断,将错判的比例作为错判概率的估计9.2.4 判别分析的SPSS应用编号 组别 抽烟量(支/天) 心电图指标 脉搏(次/分) 收缩压 舒张压1 1 30 280 70 130 852 1 25 260 72 135 803 1 35 330 75 140 904 1 40 400 78 140 925 1 45 410 73 138 856 2 20 270 70 130 807 2 18 210 68 135 758 2 25 280 70 135 759 2 25 300 75 140 8010 2 23 290 72 145 8611 3 40 410 76 148 8812 3 45 420 80 145 9013 3 48 425 82 148 9214 3 50 450 85 150 9515 3 55 470 88 160 9516 25 280 78 140 9417 30 290 80 152 9818 45 400 86 150 90Discriminant AnalysisAnalyze→Classify → Discriminant → {Discriminant Analysis }对应变量作为分组变量选择多个独立变量的变量名缺省选项,表示“Independents”列表框中列出的所有变量参与判别采用逐步判别法进行分析,最后生成的判别函数中将只包含主要的变量将选定的某个变量名转移到其下面的编辑框中Discriminant Analysis:StatisticsStatistics… → {Discriminant Analysis:Statistics}生成独立变量全部和各组的均值和标准离差为每个独立变量作单因素方差分析,检验各组均值是否相等检验各组协方差矩阵是否相等设置矩阵统计量公共组内相关矩阵公共组内协方差矩阵单独的协方差矩阵所有case的协方差矩阵设置函数系数统计量Fisher分类函数系数显示非标准化判别函数的系数Discriminant Analysis:Define...group → Define Range” → {Discriminant Analysis:Define...}下界上界Discriminant Analysis:Stepwise MethodUse Stepwise Method → Method → {Discriminant Analysis:Stepwise Method}缺省选项将使组间无法解释的方差之和最小的变量作为输入变量马氏距离F比最大化来选择变量将使Rao的V值的增加量最大化的变量作为输入量缺省项设置其他显示选项缺省选择显示配对组的F比矩阵,以及组间的马氏距离的显著性检验结果Discriminant Analysis:ClassificationClassify → {Discriminant Analysis:Classification }先验概率的设置方法为缺省选项根据每一组中剔除含有缺失值的case后剩下的样本case多少的比例来计算先验概率设置采用协方差矩阵时的选项缺省选项采用单组协方差矩阵用于case分类设置显示选项显示各case的结果显示所有得到case交叉验证的判别分类结果设置有关图形输出的选项创建前两个判别函数值的包含全部组别的散点图创建前两个判别函数值的仅包含单个组的散点图创建分区图用均值代替缺失值,对含有缺失值的case进行分类参与分析的case处理汇总表 Analysis Case Processing SummaryContinue→{主对话框} →“OK” →{参与分析的case处理汇总表 Analysis Case Processing Summary}Unweighted Cases N PercentValid 15 83.3Excluded Missing or out-of-range group codes 3 16.7At least one missing discriminating variable 0 .0Both missing or out-of-range group codes and at least one missing discriminating variable 0 .0Total 3 16.7Total 18 100.0分类统计结果 Group Statistics组别 Mean Std. Deviation Valid N (listwise)Unweighted Weighted1 抽烟量(支/t天) 35.00 7.906 5 5.000心电图指标 336.00 68.044 5 5.000脉搏(次/分) 73.60 3.050 5 5.000收缩压 136.60 4.219 5 5.000舒张压 86.40 4.722 5 5.0002 抽烟量(支/t天) 22.20 3.114 5 5.000心电图指标 270.00 35.355 5 5.000脉搏(次/分) 71.00 2.646 5 5.000收缩压 137.00 5.701 5 5.000(续表)舒张压 79.20 4.550 5 5.0003 抽烟量(支/t天) 47.60 5.595 5 5.000心电图指标 435.00 24.495 5 5.000脉搏(次/分) 82.20 4.604 5 5.000收缩压 150.20 5.762 5 5.000舒张压 92.00 3.082 5 5.000Total 抽烟量(支/t天) 34.93 12.032 15 15.000心电图指标 347.00 82.328 15 15.000脉搏(次/分) 75.60 5.938 15 15.000收缩压 141.27 8.163 15 15.000舒张压 85.87 6.664 15 15.000Tests of Equality of Group MeansWilks' Lambda F df1 df2 Sig.抽烟量(支/t天) .204 23.376 2 12 .000心电图指标 .273 15.965 2 12 .000脉搏(次/分) .304 13.744 2 12 .001收缩压 .358 10.759 2 12 .002舒张压 .338 11.764 2 12 .001Pooled Within-Groups Matrices(a)抽烟量(支/t天) 心电图指标 脉搏(次/分) 收缩压 舒张压Covariance 抽烟量(支/t天) 34.500 250.000 14.700 17.867 13.483心电图指标 250.000 2160.000 108.083 136.417 120.667脉搏(次/分) 14.700 108.083 12.500 13.500 10.567收缩压 17.867 136.417 13.500 27.833 13.733舒张压 13.483 120.667 10.567 13.733 17.500Correlation 抽烟量(支/t天) 1.000 .916 .708 .577 .549心电图指标 .916 1.000 .658 .556 .621脉搏(次/分) .708 .658 1.000 .724 .714收缩压 .577 .556 .724 1.000 .622舒张压 .549 .621 .714 .622 1.000a The covariance matrix has 12 degrees of freedom.Covariance Matrices(a)组别 抽烟量(支/t天) 心电图指标 脉搏(次/分) 收缩压 舒张压1 抽烟量(支/t天) 62.500 525.000 12.500 20.000 21.250心电图指标 525.000 4630.000 138.000 198.000 199.500脉搏(次/分) 12.500 138.000 9.300 11.300 11.450收缩压 20.000 198.000 11.300 17.800 12.200舒张压 21.250 199.500 11.450 12.200 22.3002 抽烟量(支/t天) 9.700 95.000 6.000 8.250 2.950心电图指标 95.000 1250.000 77.500 87.500 92.500脉搏(次/分) 6.000 77.500 7.000 8.750 6.500收缩压 8.250 87.500 8.750 32.500 17.000舒张压 2.950 92.500 6.500 17.000 20.700(续表)3 抽烟量(支/t天) 31.300 130.000 25.600 25.350 16.250心电图指标 130.000 600.000 108.750 123.750 70.000脉搏(次/分) 25.600 108.750 21.200 20.450 13.750收缩压 25.350 123.750 20.450 33.200 12.000舒张压 16.250 70.000 13.750 12.000 9.500Total 抽烟量(支/t天) 144.781 962.286 63.329 75.019 69.633心电图指标 962.286 6777.857 434.429 533.357 477.429脉搏(次/分) 63.329 434.429 35.257 42.971 34.086收缩压 75.019 533.357 42.971 66.638 40.610舒张压 69.633 477.429 34.086 40.610 44.410Variables Entered/Removed(a,b,c,d)Step Entered Wilks' LambdaStatistic df1 df2 df3 Exact FStatistic df1 df2 Sig.1 抽烟量(支/t天) .204 1 2 12.000 23.376 2 12.000 .0002 收缩压 .117 2 2 12.000 10.569 4 22.000 .000At each step, the variable that minimizes the overall Wilks' Lambda is entered.a Maximum number of steps is 10.b Minimum partial F to enter is 3.84.c Maximum partial F to remove is 2.71.d F level, tolerance, or VIN insufficient for further computation.Variables in the AnalysisStep Tolerance F to Remove Wilks' Lambda1 抽烟量(支/t天) 1.000 23.3762 抽烟量(支/t天) .668 11.308 .358收缩压 .668 4.089 .204Variables Not in the AnalysisStep Tolerance Min.Tolerance F to Enter Wilks' Lambda0 抽烟量(支/t天) 1.000 1.000 23.376 .204心电图指标 1.000 1.000 15.965 .273脉搏(次/分) 1.000 1.000 13.744 .304收缩压 1.000 1.000 10.759 .358舒张压 1.000 1.000 11.764 .3381 心电图指标 .161 .161 1.536 .160脉搏(次/分) .499 .499 2.275 .144收缩压 .668 .668 4.089 .117舒张压 .699 .699 .229 .1962 心电图指标 .160 .155 .711 .103脉搏(次/分) .350 .350 .126 .114舒张压 .559 .534 1.073 .096Wilks' LambdaStep NumberofVariables Lambda df1 df2 df3 Exact FStatistic df1 df2 Sig.1 1 .204 1 2 12 23.376 2 12.000 .0002 2 .117 2 2 12 10.569 4 22.000 .000给出了逐步判别中Wilks‘ Lambda的统计量Wilks' Lambda统计量表达为类内离差交叉乘积矩阵行列式与总离差交叉乘积行列式的比值EigenvaluesFunction Eigenvalue % of Variance Cumulative % Canonical Correlation1 3.896a 84.0 84.0 .8922 .743a 16.0 100.0 .653a. First 2 canonical discriminant functions were used in the analysis.给出了典则判别方程的特征值以及方差贡献特征根取变量数以及类别数减1中的较小值本例分为3类,变量数为5,因此特征根数为2,其中第一个特征根为3.896,能够解释所有变异的84%Wilks' LambdaTest of Function(s) Wilks' Lambda Chi-square df Sig.1 through 2 .117 24.659 4 .0002 .574 6.392 1 .011给出了典则判别方程的有效性检验Wilks‘ Lambda统计量表达为类内离差交叉乘积矩阵行列式与总离差交叉乘积行列式的比值从表中sig栏,可以看出两个典型判别方程的判别能力都是显著的Standardized Canonical Discriminant Function CoefficientFunction1 2抽烟量(支/t天) 1.000 -.706收缩压 .001 1.224给出了2个标准化典则判别方程的系数本例中两个标准化典则判别函数为:Y1=1.000抽烟量+0.001收缩压Y1=-0.706抽烟量+1.224收缩压Canonical Discriminant Function CoefficientsFunction1 2抽烟量(支/t天) .170 -.120收缩压 .000 .232(Constant) -5.964 -28.572该表给出了2个未标准化典则判别方程的系数本例中的判别函数表达式为:Y1=0.17抽烟量+0.000收缩压-5.964Y1=-0.120抽烟量+0.232收缩压-28.572Classification Function Coefficients组别1 2 3抽烟量(支/t天) -2.288 -2.855 -2.120收缩压 6.376 6.755 6.757(Constant) -396.562 -432.098 -458.103给出了贝叶斯的Fisher线性判别方程的系数利用表中的数据可直接写出贝叶斯判别方程,有几类就有几个分类方程将某个样品代入方程计算其在各类别上的得分,并根据判别分值多少判断其所属类别不同类的判别分值较大就属于哪一类Y1=-2.288抽烟量+6.376收缩压-396.562Y2=-2.855抽烟量+6.755收缩压-432.098Y3=-2.120抽烟量+6.757收缩压-458.103CaseNum-ber Act-ualGro-up Highest Group Second Highest Group Discriminant ScoresPredict-edGroup P(D>d| G=g) P(G=g| D=d) SquaredMahala-nobisDistancetoCentroid Group P(G=g| D=d) SquaredMahala-nobisDistanceToCentroid Function1 Function2p dfOriginal1 1 1 .452 2 .966 1.590 2 .033 8.322 -.841 -2.0212 1 2(**) .648 2 .795 .868 1 .204 3.588 -1.691 -.2593 1 1 .733 2 .844 .622 3 .080 5.329 .011 -.3024 1 1 .684 2 .816 .760 3 .180 3.786 .862 -.9035 1 1 .160 2 .807 3.667 3 .192 6.536 1.713 -1.9686 2 2 .370 2 .909 1.989 1 .091 6.595 -2.543 -.8187 2 2 .774 2 .995 .513 1 .005 11.170 -2.883 .5828 2 2 .648 2 .795 .868 1 .204 3.588 -1.691 -.2599 2 2 .837 2 .962 .357 1 .037 6.859 -1.691 .90110 2 2 .211 2 .998 3.115 1 .002 15.669 -2.030 2.301CrossvalidAted(a)1 1 1 .255 2 .926 2.730 2 .073 7.8082 1 2(**) .569 2 .972 1.128 1 .028 8.2053 1 1 .621 2 .790 .953 3 .108 4.9314 1 1 .554 2 .771 1.182 3 .223 3.6675 1 3(**) .042 2 .748 6.318 1 .252 8.4996 2 2 .166 2 .777 3.593 1 .223 6.0877 2 2 .678 2 .993 .776 1 .007 10.7008 2 2 .505 2 .745 1.367 1 .254 3.5189 2 2 .767 2 .946 .530 1 .053 6.28910 2 2 .037 2 .997 6.606 1 .002 18.937Classification Results(b,c)组别 Predicted Group Membership Total1 2 3Original Count 1 4 1 0 52 0 5 0 53 0 0 5 5Ungrouped cases 0 2 1 3% 1 80.0 20.0 .0 100.02 .0 100.0 .0 100.03 .0 .0 100.0 100.0Ungrouped cases .0 66.7 33.3 100.0a 93.3% of original grouped cases correctly classified.Discriminant Analysis:ClassificationDiscriminant Analysis→ Classification →依下图选择 →Continue →主窗口Discriminant Analysis:Save New Variables保存基于判别后的case所属的分组判别函数得分变量个数领域图典型判别方程得分绘制的领域图其中横坐标为第一典型判别方程的得分,纵坐标为第二典型判别方程的得分图中将坐标平面分为3个区域,每一个区域对应某一类的分布,其中星号表示某一类的均值中心中度的典型判别得分散点图这是第一组的判别得分散点图横坐标为第一典型判别方程得分纵坐标为第二典型判别方程得分(以样本数据代入典型判别方程得分计算可得)SPSS实际上针对每一类给出一个散点图三组综合的典型判别得分散点图这是综合3种类别的判别得分散点图横坐标为第一典型判别方程得分纵坐标为第二典型判别方程得分(以样本数据代入典型判别方程得分计算可得)不同类别在图中有各自的分布区域,这样建立的典型判别方程有较好的判别精度判别分析在数据编辑窗口的输出 展开更多...... 收起↑ 资源预览