09 聚类分析 课件(共103张PPT)-《管理统计学(第2版)》同步教学(电工版)

资源下载
  1. 二一教育资源

09 聚类分析 课件(共103张PPT)-《管理统计学(第2版)》同步教学(电工版)

资源简介

(共103张PPT)
管理统计学
9 聚类分析与判别分析
9.1 聚类分析
9.2 判别分析
9.1 聚类分析
9.1.1 基本原理和方法
9.1.2 系统聚类法
9.1.3 系统聚类的SPSS应用
9.1.4 K均值聚类法
9.1.5 K均值聚类法的SPSS应用
9.1.1 基本原理和方法
聚类分析:采用定量数学方法,根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据
分类的基本思想:把一些相似程度较大的样品(或指标)聚合为一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)聚合完毕
聚类分析
例如:有p个指标(变量),n个对象,依据这n个对象在p个指标下的数据,对这n个对象进行聚类。设数据为:
每一个对象是p维空间中的一个点
聚类问题,就是在p维空间中,对这n个点的聚类问题
使用聚类分析的注意的问题
变量(指标)不能太多,否则,难以判断聚类结果的实际意义
指标间有一定的相关关系(不必高度相关),可以对所观察的一群个体分类,从而可以对个体进行进一步的研究
变量(指标)过多,则可对指标分类,把有相近含义的指标聚到一起,把整个指标群分为若干类
聚类分析的分类
样本聚类/Q型聚类:对观测量(Case)进行聚类,不同的目的选用不同的指标作为分类的依据
变量聚类/R型聚类:能够找出彼此独立且有代表性的自变量,而又不丢失大部分信息,主要是对研究对象的观测变量进行聚类,使得具有共同特征的变量作为一类
聚类分析的步骤
① 选择描述事物对象的变量(指标)
② 形成数据文件,建立样品资料矩阵
③ 确定数据是否需要标准化
④ 确定表示对象距离或相似程度的统计量
⑤ 计算对象间的距离(rij)和相似关系矩阵R(rij)
对称阵:i到j的距离与j到i的距离相等
⑥ 选择类与类之间的距离定义
⑦ 聚类
⑧ 分类
度量样本之间相似程度的统计量
距离:
将一个样品看作P维空间的一个点,并在空间用某种度量测量点与点之间的距离,距离越近的点归为一类,距离较远的点归为不同的类
以dij表示第i个样本与第j个样本间的距离,需要满足以下四个条件
dij≥0,对一切i和j成立
dij=0,当且仅当i=j成立
dij=dji≥0,对一切i和j成立
dij≤dik+dkj,对于一切i和j成立
相似系数:
变量或样品的关系越密切,其性质就越接近,它们的相似系数的绝对值越接近1;反之,它们的相似系数的绝对值越接近于零,即样品的关系越疏远
样品之间相似系数大的样品归为一类,样品之间相似系数小的样品归为不同的类,即两点相似系数越接近1,就相当于距离越短,即相似的为一类,不相似的属于不同类
常用距离的分类
①欧氏距离
②欧氏距离平方
③偏差距离
④明考夫斯基距离
⑤马氏距离
⑥相关系数
类间距离计算方法
类间距离:
最基本的类:由一个点组成的类
每一类都由一个点组成,点间的距离就是类间距离
某一类包含不止一个点,就要确定类间距离
最短距离连接法:
用两类中所有样本对距离的最小值作为两类的距离,合并距离最近或相关系数最大的两类
最长距离连接法:
用两类中所有样本对距离的最大值作为两类的距离,合并距离最近或相关系数最大的两类
类间平均距离连接法:
将两个类中所有的样本的平均距离作为两个类的距离,合并距离最近或相关系数最大的两类
聚类分析的类型
①聚合法:
每个样本自成一类
计算各类之间相似程度统计量,把最相似的两类合并成一类
重复上步,直到所有样本归为一类
②分解法:
所有样本归为一类
分为两类
重复上步,一直到每个样本归为一类或不能再细分为止
③调优法:
开始人为将样本初始分类
判断该分类是否最优,如果不是则进行修改
重复上述步骤,直到分类达到最优为止
分类数的确定
戴米尔曼(Demirmen,1972)提出的根据树状结构图来分类的准则:
准则1:任何类都必须在邻近各类中是突出的,即各类重心之间距离必须大
准则2:各类所包含的元素都不要过多
准则3:分类的数目应该符合使用的目的
准则4:若采用几种不同的聚类方法处理,则在各自的聚类图上应发现相同的类
层次聚类中每次合并的类与类之间的距离也可以作为确定类数的一个辅助工具
在层次聚类过程中,先把离得近的类合并,在并类过程中聚合系数呈增加趋势
聚合系数小,表示合并的两类的相似程度大,两个差异很大的类合到一起,会使该系数增大
聚类方法的选择
影响聚类方法的使用效果的因素
类的结构(主要指类的形状、规模和个数)
奇异值的存在
类与类之间重叠的程度
相似测度的选择
奇异值是指和样本中其他的观测量差异很大的观测量,它远离其它观测量,自成一类
9.1.2 系统聚类法
系统聚类法基本思想
将所有样品看成一个类
选择性质最接近(距离最小)的两类合并为一个新类
计算新类与其他类的距离,将距离最近的两类合并,这样直至所有的样品合并为一类
系统聚类方法分类(待续)
(1)最短距离法
距离最近的样品归入一类
计算新类和单个样品间的距离作为单个样品和类中的样品间的最小距离,尚未合并的样品间的距离并未改变
在每一步,两类之间的距离是它们两个最近点间的距离
(2)最长距离法
按两个最远成员间的距离进行类的归并
最长距离法与最短距离法相比,类与类之间的距离定义和计算新类与其他类的距离所用的公式不同
(3)重心法
两类之间的距离为两类重心间的距离,对样品聚类的重心就是该类的均值
缺陷是较后合并的类比较前合并的类更不相似
(4)类平均法(Median clustering)
两类之间的距离是以各自的中数加以度量的,这使两个正被合并的类,在均值计算中被赋予相等的权力,而不管每一类中的样品数
系统聚类方法分类(续)
(5)类间平均连接法
按各个团体中成员间的平均距离连类,两个类间的距离为所有样品偶对间的平均距离
(6)类内平均连接法
按各个团体中成员间的平均距离连类,且使产生类的所有样品之平均距离尽可能小,是取产生类的所有可能样品偶对间的平均距离
(7)离差平方和法
如果分类正确,同类样品的离差平方和应当较小,类与类的离差平方和应当较大。具体做法是
先将n个样品看成一类
每次缩小一类,每缩小一类离差平方和就要增大,选择使S增加最小的两类合并直到所有的样品归为一类为止
计算每一类所有变量的均值
对每一个样品计算到类均值的距离平方,对所有样品求这些距离之和
合并的两类是使类内距离总平方和增加最少的类
9.1.3 系统聚类的SPSS应用
例9.1 有关研究机构通过2008年我国部分省市的土地利用情况(单位:万公顷)进行分析,试图依据给出的数据对土地利用结构进行分类
地区 园地 牧草地 居民点及工矿 交通用地 水利设施
北 京 12.0 0.2 27.9 3.3 2.6
天 津 3.5 0 28.1 2.2 6.5
河 北 70.5 79.9 154.5 12.0 12.9
山 西 29.5 65.8 77.3 6.3 3.3
内蒙古 7.3 6560.9 123.9 16.0 9.3
辽 宁 59.6 34.9 115.9 9.2 14.8
吉 林 11.5 104.4 84.2 6.7 15.6
黑龙江 6.0 220.8 116.1 11.9 21.2
上 海 2.1 0 23.0 2.1 0.2
江 苏 31.6 0.1 161.0 13.1 19.3
浙 江 66.1 0 81.7 9.5 13.8
安 徽 33.9 2.8 133.4 10.1 22.7
福 建 62.9 0.3 50.7 7.9 6.1
江 西 27.8 0.4 67.5 7.5 20.5
山 东 100.7 3.4 209.3 16.3 25.5
(数据来源:《中国统计年鉴 2009》中国统计出版社)
操作及其说明
Analyze → Classify → Hierarchical Cluster → {Hierarchical Cluster Analysis}
Hierarchical Cluster Analysis
从左侧选入参与聚类分析的变量
选入标签变量
选择聚类类型
对观测量(样本)进行聚类,对应于样本聚类
对变量(指标)进行聚类,对应于变量聚类
选择输出结果
统计分析
统计图表
Hierarchical Cluster Analysis:Statistics
Statistics → {Hierarchical Cluster Analysis:Statistics}
聚集状态表
各项间的距离矩阵
类成员栏
不显示类成员表,为系统默认值
要求列出聚为一定类数的各观测量所属的类
某个范围中每步各观测量所属的类
Hierarchical Cluster Analysis: Method
Agglomeration schedule →continue → Method → {Hierarchical Cluster Analysis:Method}
Cluster Method选择的聚类方法
Between-groups linkage(组间连接):合并两类的结果使所有的两两项对之间的平均距离最小,项对的两个成员分别属于不同的类,该方法中使用各对之间的距离
Within-groups linkage(组内连接):若当两类合并为一类后,合并后的类中的所有项之间的平均距离最小,两类间的距离即是合并后的类中所有可能的观测量对之间的距离平方
Nearest neighbor(最近邻法):该方法首先合并最近的或最相似的两项,用两类间最近点间的距离代表两类间的距离
Furthest neighbor:最远邻法/完全连接,用两类之间最远点的距离代表两类之间的距离
Centroid clustering(重心法):应与欧氏距离平方法一起使用,像计算所有各项均值之间短距离那样计算两类之间的距离,该距离随聚类的进行不断减小
Median clustering(中间距离法):应与欧氏平方距离一起使用
Ward’s method:离差平方和法,应与欧氏平方距离一起使用
距离的测度方法选择(待续)
在Measure栏中选择距离计算方法
Interval:应用于等间隔测度的变量。单击矩形框右侧的下箭头展开下拉,选择连续变量距离测度的方法
Eucidean distance:欧式距离,即两样本间距离为其对应指标值之差的平方和的平方根
Squrared Eucidean distance:欧式距离平方,即两样本间距离为其对应指标值之差的平方和;Cosine:变量矢量的余弦,这是模型相似性的度量
Pearson Correalation:相关系数距离
Chebychev:切比雪夫距离,即两样本间的距离为两样本对应指标值之差的绝对值中的最大值
Block:City-Block或Manhattan距离,即两样本间的距离为两样本对应指标值之差的绝对值和
Minkowski:两样本间的距离是一个绝对幂的度量,即两样本对应指标值之差的绝对值的p次幂之和的p次根,p由用户指定
Customized:距离是一个绝对幂的度量,即两样本对应指标值之差的绝对值的p次幂之和的r次根,p与r由用户指定
距离的测度方法选择(续)
Counts:应用于计数变量。 单击其右侧的向下箭头,展开两种选择不相似性测度的方法:
Chi-Square measure:卡方测度,用卡方值测度不相似性。该测度是根据两个集的频数相等的卡方检验,测度产生的值是卡方值的平方根,这是系统默认的
Phi-Square measure:两组频数之间的Φ2 测度,试图考虑减少样本量对实际度值的实际预测频率减少的影响
Binary:应用于二值变量。单击Binary右侧的向下箭头展开下拉来选择距离或不相似性测度的方法,首先应明确对二值变量,系统默认用1表示某特性出现,用0表示某特性不出现
确定标准化的方法
Transform Values:确定标准化的方法。单击standardize右侧向下箭头选择标准化的方法:
None:不进行标准化,是系统默认值
Z scores:把数值标准化到Z分数。标准化后变量均值为0,标准差为1,系统将每个值减去被标准化的变量或观测量的均值,再处以其标准差,如果标准差为0,则将所有值置为0
Range -1 to 1:将数值标准化到-1到1范围内
Maxinum mannitude:把数值标准化到最大值1。该方法是把标准化的变量或观测量的值用最大值去除,如果最大值为0,则用最小值的绝对值处再加1
Range 0 to 1:将数值标准化到0到1范围内
Mean of 1:把数值标准化到一个均值的范围内
Standard deviation of 1:把数值标准化到单位标准差
测度的转换方法选择
Transfrom Measure:测度的转换方法选择
Absolute Values:把距离取绝对值,当数值符号表示相关方向,且只对负相关关系感兴趣时才采用此方法进行交换
Change Sign:把相似性值变为不相似性值或相反,用求反的方法使距离顺序颠倒
Rescale to 0~1:通过首先减去最小值,然后处以范围的方法使距离标准化
Hierarchical Cluster Analysis:Plots
Between-groups linkage → squared Euclidean distance(其他为默认设置) →“Conitnue” →Plots → Hierarchical Cluster Analysis:Plots
输出树形图
冰柱图
查看聚类的全过程
指定显示的聚类范围
不生成冰柱
确定显示方向
纵向显示
水平显示
Hierarchical Cluster Analysis:
Save New Variables
Dendrogram(树形图(其他设置采用系统默认值→ Continue按钮→{主对话框} →Save →{Hierarchical Cluster Analysis:Save New Variables }
不建立新变量
单一结果
范围内的结果
样本处理表 Case Processing Summarya,b
Cases
Valid Missing Total
N Percent N Percent N Percent
15 100.0 0 .0 15 100.0
a. Squared Euclidean Distance used
b. Average Linkage (Between Groups)
Single solution →设置为3 → Continue →{主对话框} →“OK” →生成聚类结果
聚类过程表 Agglomeration Schedule
Stage Cluster Combined Coefficients Stage Cluster First Appears Next
Stage
Cluster 1 Cluster 2 Cluster 1 Cluster 2
1 2 9 67.670 0 0 2
2 1 2 109.005 0 1 8
3 10 12 794.900 0 0 7
4 11 13 1033.180 0 0 5
5 11 14 1719.680 4 0 8
6 4 7 2013.020 0 0 11
7 6 10 3062.440 0 3 9
8 1 11 4446.491 2 5 11
9 3 6 6479.907 0 7 10
10 3 15 9737.865 9 0 12
11 1 4 10213.680 8 6 12
12 1 3 16417.371 11 10 13
13 1 8 46321.474 12 0 14
14 1 5 4.258E7 13 0 0
聚类步骤
类间的距离
样本号
聚类步序号
下一步步序号
冰柱图
Vertical Icicle
Number
of
clusters Case
5内蒙古 8黑龙江 15山东 12安徽 10江苏
6辽宁 3河北 7吉林 4山西 14江西 13福建 11浙江 9上海 2天津 1北京
1 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
2 X X X X X X X X X X X X X X X X X X X X X X X X X X X X
3 X X X X X X X X X X X X X X X X X X X X X X X X X X X
4 X X X X X X X X X X X X X X X X X X X X X X X X X X
5 X X X X X X X X X X X X X X X X X X X X X X X X X
6 X X X X X X X X X X X X X X X X X X X X X X X X
7 X X X X X X X X X X X X X X X X X X X X X X X
8 X X X X X X X X X X X X X X X X X X X X X X
9 X X X X X X X X X X X X X X X X X X X X X
10 X X X X X X X X X X X X X X X X X X X X
11 X X X X X X X X X X X X X X X X X X X
12 X X X X X X X X X X X X X X X X X X
13 X X X X X X X X X X X X X X X X X
14 X X X X X X X X X X X X X X X X
聚类的树形图
系统聚类法在数据编辑窗口的输出
9.1.4 K均值聚类法
K均值聚类法(快速聚类法/逐步聚类法):需要用户指定类别数
逐步聚类法:先把被聚对象进行初始分类,然后逐步调整,得到最终分类
快速样本聚类:根据被观测的对象的各种特征,即反映被观测对象的特征的各变量进行分类,其特点是
处理速度快
占用计算机内存少
快速样本聚类适用于大样本的聚类分析
它能快速地把各观测量分到各类中去
K均值聚类分析的步骤
将数据进行标准化处理
假设分类数目为k,确定每一类的初始中心位置,即k个凝聚点(一个最简单的方法是选取前k个样本作为初始凝聚点)
按顺序计算各个样本与k个凝聚点的距离,根据最近距离准则将所有样本逐个归入k个凝聚点,得到初始分类结果
重新计算类中心,将各类每个变量的平均值作为新的凝聚点;当所有样本归类后才计算各类类中心;每个样本归类后马上计算该类的类中心
所有样本归类后即为一次聚类,产生了新的类中心
如果满足一定的条件,如聚类次数达到指定的迭代次数,或者两次计算的最大类中心的变化小于初始类中心之间最小距离的一定比例,则停止聚类,否则到第3步
9.1.5 K均值聚类法的SPSS应用
Analyze → Classify → K-Means Cluster → {K-Means Cluster Analysis}
K-Means Cluster Analysis
从左侧选入参与聚类分析的变量
选入标签变量
仅按初始类别中心点分类
聚类方法栏
指定处室类别中心点,然后按K-Means算法做迭代分类
类中心数据的输入与输出设置
使用指定数据文件中的观测量作为初始类中心
把聚类结果中的各类中心数据保存早指定的文件中
K-Means Cluster Analysis:Iterate
Iterate and classify →“Iterate” → {K-Means Cluster Analysis:Iterate}
限定K-Means算法的迭代次数
限定K-Means算法的收敛条件
限定在每个观测量被分配到一类后,即刻计算新的类中心
K-Means Cluster Analysis:
Save New Variables
"Save" → {K-Means Cluster Analysis: Save New Variables}
K-Means Cluster Analysis:Options
初始类中心
选择要求计算和输出的统计量
方差分析表
每个观测量的分类信息
选择处理带有缺失值观测量的方法
将出现在Variables变量表中变量带有缺失值的观测量从分析中剔除
当一个观测量的全部聚类变量值均缺失时,将其剔除,否则,分配到最近的一类中去
Cluster membership →Continue→{主对话框} →“Options…” → {K-Means Cluster Analysis:Options}
初始类中心表(Initial Cluster Center)
初始类中心表(Initial Cluster Center)
Cluster
1 2 3 4
园地 7.30 2.10 100.70 6.00
牧草地 6560.90 .00 3.40 220.80
居民工矿 123.90 23.00 209.30 116.10
交通用地 16.00 2.10 16.30 11.90
水利设施 9.30 .20 25.50 21.20
Initial cluster centers → ANOVA table → Cluster information for each case → Exclude cases listwise →“Continue” →“OK” →{初始类中心表(Initial Cluster Center)}
迭代历史表 Iteration History(a)
迭代历史表 Iteration History(a)
Iteration Change in Cluster Centers
1 2 3 4
1 .000 40.806 71.957 60.529
2 .000 .000 .000 .000
a. Convergence achieved due to no or small change in cluster centers. The maximum absolute coordinate change for any center is .000. The current iteration is 2. The minimum distance between initial centers is 212.798.
类别关系表 (Cluster Membership)
Case Number 地区 Cluster Distance
1 北京 2 30.635
2 天津 2 35.765
3 河北 3 57.135
4 山西 2 62.315
5 内蒙古 1 .000
6 辽宁 3 40.689
7 吉林 4 60.529
8 黑龙江 4 60.529
9 上海 2 40.806
10 江苏 3 37.229
11 浙江 2 49.615
12 安徽 3 39.728
13 福建 2 35.120
14 江西 2 23.067
15 山东 3 71.957
终止聚类时中心表
(Final Cluster Centers)
Cluster
1 2 3 4
园地 7.30 29.13 59.26 8.75
牧草地 6560.90 9.53 24.22 162.60
居民工矿 123.90 50.89 154.82 100.15
交通用地 16.00 5.54 12.14 9.30
水利设施 9.30 7.57 19.04 18.40
终止聚类时各中心的距离表
(Distances between Final Cluster Centers)
Cluster 1 2 3 4
1 6.552E3 6.537E3 6.398E3
2 6.552E3 110.005 162.495
3 6.537E3 110.005 157.155
4 6.398E3 162.495 157.155
方差分析表 (ANOVA)
Cluster Error F Sig.
Mean Square df Mean Square df
园地 1776.490 3 677.919 11 2.621 .103
牧草地 1.326E7 3 1377.931 11 9.620E3 .000
居民工矿 10781.631 3 839.746 11 12.839 .001
交通用地 60.696 3 8.932 11 6.795 .007
水利设施 153.557 3 39.373 11 3.900 .040
The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the differences among cases in different clusters. The observed significance levels are not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.
各类的观测量统计表 (Number of Cases in each Cluster)
Cluster 1 1.000
2 7.000
3 5.000
4 2.000
Valid 15.000
Missing .000
聚类分析最终结果文件
9.2 判别分析
判别分析:在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类
聚类分析:给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型的
判别分析和聚类分析往往联合起来使用,
先知道各类总体情况,判断新样品的归类,用判别分析
当总体分类不清楚时,先用聚类分析对原来的一批样品进行分类,再用判别分析建立判别式以对新样品进行判别
9.2.1 基本原理
判别分析,就是要在水平直线上的某个位置划一条分界线,把这条分界线左边的点,都判给A类,把分界线右边的点判断给B类,同时使误判率最低
这条分界线,为一个判别准则,判断一个或多个个体属于哪一个类别
直线上两群点的分类问题
错判率的高低的决定因素
主观因素:分界线的位置要正确。否则会使误判率增大,是完全可控的因素
客观因素:如果两群点举止离开的远一些,有利于判别,使错判率较低一些。如果两群点都紧紧地靠在各自的均值附近,也一定是有利于判别的,极端情况是两群点没有交互交叉的情况,此时可以做到错判率为0,是完全不可控的因素
指标选择问题
指标选择问题非常重要
维度高一些,分界线的分辨率更高一些
指标也不是越多越好,指标太多了,改变不了分辨率,却大大增加了计算量
维度高一些有助于判别的示例
9.2.2 常用判别法
(1)距离判别法基本思想
根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测
若它与第i类的重心距离最近,就认为它来自第i类
① 两个总体的距离判别法
设有两个总体(或称两类)G1、G2,从第一个总体中抽取n1个样品,从第二个总体中抽取n2个样品,每个样品测量p个指标
两个总体的距离判别法
首先计算X到G1、G2总体的距离,分别记为和,按距离最近准则判别归类,则可写成:
如果距离定义采用欧氏距离,则可计算出
然后比较和大小,按距离最近准则判别归类
设μ(1)、 μ(2), ∑(1)、 ∑(2)分别为G1、G2的均值向量和协有效期阵。如果距离定义采用马氏距离即
1)当∑ (1)= ∑ (2)= ∑时(待续)
判别准则可写成:
当μ(1) 、 μ(2)已知时,令

显然,W(X)是的线性函数,称W(X)为线性判别函数,a为判别系数
当∑ (1)= ∑ (2)= ∑时(待续)
当μ(1) 、 μ(2)未知时,可通过样本来估计。设 来自Gi的样本,i=1,2
其中
线性判别函数为:
当∑ (1)= ∑ (2)= ∑时(续)
当p=1时,若两个总体的分布分别为N(μ1,σ2)和Nμ2,σ2) ,判别函数
设μ1、 μ2,这时W(X)的符号取决于X> μ 或X< μ
当X> μ时,判X∈G1
当X< μ时,判 X∈G2
用距离判别所得到的准则是合理的,但也会得出错判。错判的概率为图9-16中阴影的面积,记为P(2/1),类似有P(2/1)当两个总体的均值有显著差异时,作判别分析才有意义
两个总体分布
2)当∑ (1) ≠ ∑ (2)时
按距离最近准则,类似地有
仍然用:
作为判别函数,它是X的二次函数
多个总体的距离判别法
类似两个总体的讨论推广到多个总体
设有k个总体G1,…,Gk,它们的均值和协差阵分别为,从每个总体Gi中抽取ni个样品,i=1,…,k,每个样品测p个指标
1)当∑ (1)= …∑ (k)= ∑时
判别函数为:
相应的判别准则为:
当μ(1) ,…,μ(k),∑未知时可用其估计量代替,设从Gi中抽取的样本为 ,则 , 的估计分别为
其中, 为Gi的样本离差阵
2)当∑ (1), …,∑ (k)不相等时
此时判别函数为:
相应的判别准则为:
当 未知时,可用 的估计量代替,即
Fisher判别法
Fisher判别法:以Fisher准则为标准来评选判别函数的
所谓Fisher准则:较优的判别函数应该能根据待判对象的n个指标最大限度地将它所属的类与其他类区分开来
一般应用中多采用线性判别函数
基本方法:
假定判别函数(线性函数)
根据已知信息对判别函数进行训练和学习,根据类间距离最大、类内距离最小的原则确定线性判别函数
得到函数关系式中的系数值
确定判别函数
经判别函数划分后,同类样品在空间上的分布集中,而不同类之间距离较远,差别明显
Fisher判别法的计算步骤(待续)
1)建立判别函数
求 的最大值点 ,根据极值原理,
需解方程组
可得到 ,写出判别函数
2)计算判别临界值,根据判别准则对新样品判别分类
Fisher判别法的计算步骤(待续)
3)检验判别效果(当两个总体协差阵相同且总体服从正态分布)
检验统计量:
其中
Fisher判别法的计算步骤(续)
给定检验水平 ,查F分布表,确定临界值F
若 F> F ,则被否定,认为判别有效
若 F≤ F 否则认为判别无效
注意:
参与构造判别式的样品个数太少,会影响判别式的优良性
判别式选用的指标过多,使用不方便,影响预报的稳定性
建立判别式之前应仔细挑选出几个对分类特别有关系的指标,要使两类平均值之间的差异尽量大些
贝叶斯判别法(待续)
Bayes判别法:
对多个总体的判别考虑计算新给样品属于各总体的条件概率p(i|x),i=1,2,…,k,再比较这k个概率的大小,然后将新样品判归为来自概率最大的总体
Bayes判别法的基本思想:
设有k个总体G1,G2,…,Gk,它们的先验概率分别为q1,q2,…,qk。各总体的密度函数分别为:f1(x), f2(x),…, fk(x) ,在观测到一个样品x的情况下,计算它来自第g总体的后验概率:
并且当 时,则判X来自第h总体
贝叶斯判别法(续)
使用错判损失最小的概念作判决函数。把x错判归第h总体的平均损失定义为
L(h/g)(损失函数)表示本来是第g总体的样品错判为第h总体的损失
上式是对损失函数依概率加权平均或称为错判的平均损失
当h=g时,有L(h/g) =0
当h≠g时,有L(h/g)>0
建立判别准则为如果 则判定x来自第h总体
在实际应用中,在数学模型中假设各种错判的损失皆相等,即
寻找h使后验概率最大和使错判的平均损失最小是等价的,即
逐步判别法
逐步判别法:
通过引入和剔除变量来建立判别函数,最终生成的判别函数中只包括主要的变量
逐步判别法的基本思想
采用“有进有出”的算法,即逐步引入变量,每引入一个“最重要”的变量进入判别式
同时考虑较早引入判别式的某些变量,其判别能力随新引入变量而变为不显著了,应及时从判别式中把它剔除去,直到判别式中没有不重要的变量需要剔除,而剩下来的变量也没有重要的变量可引入判别式时,逐步筛选结束
这个筛选过程实质就是作假设检验,通过检验找出显著性变量,剔除不显著变量
①引入变量的检验统计量
假定计算l步,并且变量x1, x2,…,xL 已选入(L不一定等于l),考察第l+1步添加一个新变量xr的判别能力
将变量分成两组,
第一组为前L个已选入的变量
第二组仅有一个变量xr
此时L+1个变量的组内离差阵和总离差阵仍分别为E和T
检验统计量:
若 ,则x1判别能力显著,我们将判别能力显著的变量中最大的变量(即使Ar为最小的变量)作为入选变量记为xl+1
② 剔除变量的检验统计量
设想已计算了l步,并引入了包括xr在内的某L个为量(L不一定等于l),假设xr是在第l步引入
考察第l步引入变量xr(其它l-1个变量已给定)的判别能力,此时有
剔除变量的检验统计量:
在已入选的所有变量中,找出具有最大(即最小)的一个变量进行检验。若F2r③ 计算步骤
1)计算各总体中各变量的均值和总均值以及E=(eij)p×p和T=(tij)p×p
2)规定引入变量和剔除变量的临界值F进和F出(F进≥ F出≥ 0),
3)逐步计算
假设已计算l步(包括l=0),在判别式中引入了某L个变量
设x1,x2,…,xl,
则第l+1步计算内容包括计算全部变量的“判别能力”,在已入选变量中考虑剔除可能存在的最不显著变量
4)建立判别式,对样品判别分类
使用Bayes判别法建立判别式,假设共计算l+1步,最终选出L个变量,设判别式为:
将每一个样品x=(x1,x2,…,xp)’ 分别代入k个判别式yg中去若 ,则x∈第h总体
9.2.3 判别效果的检验
① 总体差异的显著性检验
② 判别变量的重要性检验
③ 回判法
用判别函数对两总体的已知样本进行回判,计算错判率,当错判率<30%,认为判别函数有效
计算错判的概率
一种方法是利用建立判别函数的训练样品进行回代,用错判的样品数比上全体样品数作为错判概率的估计。这种方法估计错判概率往往偏低
另外一种改进的方法即将已知类别的样品分成两部份,用其中一大部份样品(例如85%)的观测数据去建立判别函数和判别准则,用剩余的一小部份样品(15%)的观测数据进行判断,将错判的比例作为错判概率的估计
9.2.4 判别分析的SPSS应用
编号 组别 抽烟量(支/天) 心电图指标 脉搏(次/分) 收缩压 舒张压
1 1 30 280 70 130 85
2 1 25 260 72 135 80
3 1 35 330 75 140 90
4 1 40 400 78 140 92
5 1 45 410 73 138 85
6 2 20 270 70 130 80
7 2 18 210 68 135 75
8 2 25 280 70 135 75
9 2 25 300 75 140 80
10 2 23 290 72 145 86
11 3 40 410 76 148 88
12 3 45 420 80 145 90
13 3 48 425 82 148 92
14 3 50 450 85 150 95
15 3 55 470 88 160 95
16 25 280 78 140 94
17 30 290 80 152 98
18 45 400 86 150 90
Discriminant Analysis
Analyze→Classify → Discriminant → {Discriminant Analysis }
对应变量作为分组变量
选择多个独立变量的变量名
缺省选项,表示“Independents”列表框中列出的所有变量参与判别
采用逐步判别法进行分析,最后生成的判别函数中将只包含主要的变量
将选定的某个变量名转移到其下面的编辑框中
Discriminant Analysis:Statistics
Statistics… → {Discriminant Analysis:Statistics}
生成独立变量全部和各组的均值和标准离差
为每个独立变量作单因素方差分析,检验各组均值是否相等
检验各组协方差矩阵是否相等
设置矩阵统计量
公共组内相关矩阵
公共组内协方差矩阵
单独的协方差矩阵
所有case的协方差矩阵
设置函数系数统计量
Fisher分类函数系数
显示非标准化判别函数的系数
Discriminant Analysis:Define...
group → Define Range” → {Discriminant Analysis:Define...}
下界
上界
Discriminant Analysis:Stepwise Method
Use Stepwise Method → Method → {Discriminant Analysis:Stepwise Method}
缺省选项
将使组间无法解释的方差之和最小的变量作为输入变量
马氏距离
F比最大化来选择变量
将使Rao的V值的增加量最大化的变量作为输入量
缺省项
设置其他显示选项
缺省选择
显示配对组的F比矩阵,以及组间的马氏距离的显著性检验结果
Discriminant Analysis:Classification
Classify → {Discriminant Analysis:Classification }
先验概率的设置方法
为缺省选项
根据每一组中剔除含有缺失值的case后剩下的样本case多少的比例来计算先验概率
设置采用协方差矩阵时的选项
缺省选项
采用单组协方差矩阵用于case分类
设置显示选项
显示各case的结果
显示所有得到case
交叉验证的判别分类结果
设置有关图形输出的选项
创建前两个判别函数值的包含全部组别的散点图
创建前两个判别函数值的仅包含单个组的散点图
创建分区图
用均值代替缺失值,对含有缺失值的case进行分类
参与分析的case处理汇总表 Analysis Case Processing Summary
Continue→{主对话框} →“OK” →{参与分析的case处理汇总表 Analysis Case Processing Summary}
Unweighted Cases N Percent
Valid 15 83.3
Excluded Missing or out-of-range group codes 3 16.7
At least one missing discriminating variable 0 .0
Both missing or out-of-range group codes and at least one missing discriminating variable 0 .0
Total 3 16.7
Total 18 100.0
分类统计结果 Group Statistics
组别 Mean Std. Deviation Valid N (listwise)
Unweighted Weighted
1 抽烟量(支/t天) 35.00 7.906 5 5.000
心电图指标 336.00 68.044 5 5.000
脉搏(次/分) 73.60 3.050 5 5.000
收缩压 136.60 4.219 5 5.000
舒张压 86.40 4.722 5 5.000
2 抽烟量(支/t天) 22.20 3.114 5 5.000
心电图指标 270.00 35.355 5 5.000
脉搏(次/分) 71.00 2.646 5 5.000
收缩压 137.00 5.701 5 5.000
(续表)
舒张压 79.20 4.550 5 5.000
3 抽烟量(支/t天) 47.60 5.595 5 5.000
心电图指标 435.00 24.495 5 5.000
脉搏(次/分) 82.20 4.604 5 5.000
收缩压 150.20 5.762 5 5.000
舒张压 92.00 3.082 5 5.000
Total 抽烟量(支/t天) 34.93 12.032 15 15.000
心电图指标 347.00 82.328 15 15.000
脉搏(次/分) 75.60 5.938 15 15.000
收缩压 141.27 8.163 15 15.000
舒张压 85.87 6.664 15 15.000
Tests of Equality of Group Means
Wilks' Lambda F df1 df2 Sig.
抽烟量(支/t天) .204 23.376 2 12 .000
心电图指标 .273 15.965 2 12 .000
脉搏(次/分) .304 13.744 2 12 .001
收缩压 .358 10.759 2 12 .002
舒张压 .338 11.764 2 12 .001
Pooled Within-Groups Matrices(a)
抽烟量
(支/t天) 心电图
指标 脉搏
(次/分) 收缩压 舒张压
Covariance 抽烟量(支/t天) 34.500 250.000 14.700 17.867 13.483
心电图指标 250.000 2160.000 108.083 136.417 120.667
脉搏(次/分) 14.700 108.083 12.500 13.500 10.567
收缩压 17.867 136.417 13.500 27.833 13.733
舒张压 13.483 120.667 10.567 13.733 17.500
Correlation 抽烟量(支/t天) 1.000 .916 .708 .577 .549
心电图指标 .916 1.000 .658 .556 .621
脉搏(次/分) .708 .658 1.000 .724 .714
收缩压 .577 .556 .724 1.000 .622
舒张压 .549 .621 .714 .622 1.000
a The covariance matrix has 12 degrees of freedom.
Covariance Matrices(a)
组别 抽烟量
(支/t天) 心电图指标 脉搏
(次/分) 收缩压 舒张压
1 抽烟量(支/t天) 62.500 525.000 12.500 20.000 21.250
心电图指标 525.000 4630.000 138.000 198.000 199.500
脉搏(次/分) 12.500 138.000 9.300 11.300 11.450
收缩压 20.000 198.000 11.300 17.800 12.200
舒张压 21.250 199.500 11.450 12.200 22.300
2 抽烟量(支/t天) 9.700 95.000 6.000 8.250 2.950
心电图指标 95.000 1250.000 77.500 87.500 92.500
脉搏(次/分) 6.000 77.500 7.000 8.750 6.500
收缩压 8.250 87.500 8.750 32.500 17.000
舒张压 2.950 92.500 6.500 17.000 20.700
(续表)
3 抽烟量(支/t天) 31.300 130.000 25.600 25.350 16.250
心电图指标 130.000 600.000 108.750 123.750 70.000
脉搏(次/分) 25.600 108.750 21.200 20.450 13.750
收缩压 25.350 123.750 20.450 33.200 12.000
舒张压 16.250 70.000 13.750 12.000 9.500
Total 抽烟量(支/t天) 144.781 962.286 63.329 75.019 69.633
心电图指标 962.286 6777.857 434.429 533.357 477.429
脉搏(次/分) 63.329 434.429 35.257 42.971 34.086
收缩压 75.019 533.357 42.971 66.638 40.610
舒张压 69.633 477.429 34.086 40.610 44.410
Variables Entered/Removed(a,b,c,d)
Step Entered Wilks' Lambda
Statistic df1 df2 df3 Exact F
Statistic df1 df2 Sig.
1 抽烟量(支/t天) .204 1 2 12.000 23.376 2 12.000 .000
2 收缩压 .117 2 2 12.000 10.569 4 22.000 .000
At each step, the variable that minimizes the overall Wilks' Lambda is entered.
a Maximum number of steps is 10.
b Minimum partial F to enter is 3.84.
c Maximum partial F to remove is 2.71.
d F level, tolerance, or VIN insufficient for further computation.
Variables in the Analysis
Step Tolerance F to Remove Wilks' Lambda
1 抽烟量(支/t天) 1.000 23.376
2 抽烟量(支/t天) .668 11.308 .358
收缩压 .668 4.089 .204
Variables Not in the Analysis
Step Tolerance Min.
Tolerance F to Enter Wilks' Lambda
0 抽烟量(支/t天) 1.000 1.000 23.376 .204
心电图指标 1.000 1.000 15.965 .273
脉搏(次/分) 1.000 1.000 13.744 .304
收缩压 1.000 1.000 10.759 .358
舒张压 1.000 1.000 11.764 .338
1 心电图指标 .161 .161 1.536 .160
脉搏(次/分) .499 .499 2.275 .144
收缩压 .668 .668 4.089 .117
舒张压 .699 .699 .229 .196
2 心电图指标 .160 .155 .711 .103
脉搏(次/分) .350 .350 .126 .114
舒张压 .559 .534 1.073 .096
Wilks' Lambda
Step Number
of
Variables Lambda df1 df2 df3 Exact F
Statistic df1 df2 Sig.
1 1 .204 1 2 12 23.376 2 12.000 .000
2 2 .117 2 2 12 10.569 4 22.000 .000
给出了逐步判别中Wilks‘ Lambda的统计量
Wilks' Lambda统计量表达为类内离差交叉乘积矩阵行列式与总离差交叉乘积行列式的比值
Eigenvalues
Function Eigenvalue % of Variance Cumulative % Canonical Correlation
1 3.896a 84.0 84.0 .892
2 .743a 16.0 100.0 .653
a. First 2 canonical discriminant functions were used in the analysis.
给出了典则判别方程的特征值以及方差贡献
特征根取变量数以及类别数减1中的较小值
本例分为3类,变量数为5,因此特征根数为2,其中第一个特征根为3.896,能够解释所有变异的84%
Wilks' Lambda
Test of Function(s) Wilks' Lambda Chi-square df Sig.
1 through 2 .117 24.659 4 .000
2 .574 6.392 1 .011
给出了典则判别方程的有效性检验
Wilks‘ Lambda统计量表达为类内离差交叉乘积矩阵行列式与总离差交叉乘积行列式的比值
从表中sig栏,可以看出两个典型判别方程的判别能力都是显著的
Standardized Canonical Discriminant Function Coefficient
Function
1 2
抽烟量(支/t天) 1.000 -.706
收缩压 .001 1.224
给出了2个标准化典则判别方程的系数
本例中两个标准化典则判别函数为:
Y1=1.000抽烟量+0.001收缩压
Y1=-0.706抽烟量+1.224收缩压
Canonical Discriminant Function Coefficients
Function
1 2
抽烟量(支/t天) .170 -.120
收缩压 .000 .232
(Constant) -5.964 -28.572
该表给出了2个未标准化典则判别方程的系数
本例中的判别函数表达式为:
Y1=0.17抽烟量+0.000收缩压-5.964
Y1=-0.120抽烟量+0.232收缩压-28.572
Classification Function Coefficients
组别
1 2 3
抽烟量(支/t天) -2.288 -2.855 -2.120
收缩压 6.376 6.755 6.757
(Constant) -396.562 -432.098 -458.103
给出了贝叶斯的Fisher线性判别方程的系数
利用表中的数据可直接写出贝叶斯判别方程,有几类就有几个分类方程
将某个样品代入方程计算其在各类别上的得分,并根据判别分值多少判断其所属类别
不同类的判别分值较大就属于哪一类
Y1=-2.288抽烟量+6.376收缩压-396.562
Y2=-2.855抽烟量+6.755收缩压-432.098
Y3=-2.120抽烟量+6.757收缩压-458.103
Case
Num
-ber Act
-ual
Gro
-up Highest Group Second Highest Group Discriminant Scores
Predict
-ed
Group P(D>d
| G=g) P(G=g
| D=d) Squared
Mahala
-nobis
Distance
to
Centroid Group P(G=g
| D=d) Squared
Mahala
-nobis
Distance
To
Centroid Function
1 Function
2
p df
Original
1 1 1 .452 2 .966 1.590 2 .033 8.322 -.841 -2.021
2 1 2(**) .648 2 .795 .868 1 .204 3.588 -1.691 -.259
3 1 1 .733 2 .844 .622 3 .080 5.329 .011 -.302
4 1 1 .684 2 .816 .760 3 .180 3.786 .862 -.903
5 1 1 .160 2 .807 3.667 3 .192 6.536 1.713 -1.968
6 2 2 .370 2 .909 1.989 1 .091 6.595 -2.543 -.818
7 2 2 .774 2 .995 .513 1 .005 11.170 -2.883 .582
8 2 2 .648 2 .795 .868 1 .204 3.588 -1.691 -.259
9 2 2 .837 2 .962 .357 1 .037 6.859 -1.691 .901
10 2 2 .211 2 .998 3.115 1 .002 15.669 -2.030 2.301
CrossvalidAted(a)
1 1 1 .255 2 .926 2.730 2 .073 7.808
2 1 2(**) .569 2 .972 1.128 1 .028 8.205
3 1 1 .621 2 .790 .953 3 .108 4.931
4 1 1 .554 2 .771 1.182 3 .223 3.667
5 1 3(**) .042 2 .748 6.318 1 .252 8.499
6 2 2 .166 2 .777 3.593 1 .223 6.087
7 2 2 .678 2 .993 .776 1 .007 10.700
8 2 2 .505 2 .745 1.367 1 .254 3.518
9 2 2 .767 2 .946 .530 1 .053 6.289
10 2 2 .037 2 .997 6.606 1 .002 18.937
Classification Results(b,c)
组别 Predicted Group Membership Total
1 2 3
Original Count 1 4 1 0 5
2 0 5 0 5
3 0 0 5 5
Ungrouped cases 0 2 1 3
% 1 80.0 20.0 .0 100.0
2 .0 100.0 .0 100.0
3 .0 .0 100.0 100.0
Ungrouped cases .0 66.7 33.3 100.0
a 93.3% of original grouped cases correctly classified.
Discriminant Analysis:Classification
Discriminant Analysis→ Classification →依下图选择 →Continue →主窗口
Discriminant Analysis:Save New Variables
保存基于判别后的case所属的分组
判别函数得分
变量个数
领域图
典型判别方程得分绘制的领域图
其中横坐标为第一典型判别方程的得分,纵坐标为第二典型判别方程的得分
图中将坐标平面分为3个区域,每一个区域对应某一类的分布,其中星号表示某一类的均值中心
中度的典型判别得分散点图
这是第一组的判别得分散点图
横坐标为第一典型判别方程得分
纵坐标为第二典型判别方程得分(以样本数据代入典型判别方程得分计算可得)
SPSS实际上针对每一类给出一个散点图
三组综合的典型判别得分散点图
这是综合3种类别的判别得分散点图
横坐标为第一典型判别方程得分
纵坐标为第二典型判别方程得分(以样本数据代入典型判别方程得分计算可得)
不同类别在图中有各自的分布区域,这样建立的典型判别方程有较好的判别精度
判别分析在数据编辑窗口的输出

展开更多......

收起↑

资源预览