高中信息技术浙教版：2-4 决策树-教学课件(共27张PPT)

资源简介

(共27张PPT)
2.4 决策树
1
2
3
决策树分类概念
构建决策树
举例说明：鸢尾花分类
备用：深度学习：人工智能展望与挑战
未来的深度学习
【案例分析】一个游乐场经营者希望通过所收集的一系列气象参数来预测游客是否会来游乐场游玩。为了实现这样的预测，游乐场经营者希望通过天气状况(如晴、雨、多云)、温度高低、湿度大小、风力强弱四个气象特点来预测游客是否来游乐场游玩。
通过长时间的观察，游乐场经营者得到如下所示数据，记录了在不同天气、温度、湿度和风力情况下，游客是否来游乐场的情况。
2.4.1决策树分类概念
表2.4.1气象特点与游客是否来游乐场的关系
思考：从表格中可以观察到什么？可以用什么策略？有什么规律？谈谈你的想法？
[观察表格]
[观察表格,画出树形结构]
决策树是一种通过树形结构进行分类的方法。
在决策树中，树形结构中每个节点表示对分类目标在属性上的一个判断，每个分支代表基于该属性做出的一个判断，最后树形结构中每个叶子节点代表一种分类结果。
决策树
2.4.1决策树分类概念
决策树将分类问题分解为若干基于单个信息的推理任务，采用树状结构来逐步完成决策判断。
2.4.1决策树分类概念
●当天气状况的属性取值为“多云”时，样本子集为{3,7,12,13}，“多云”属性可将样本子集{3,7,12,13}划分为“前往游乐场游玩”一个类别。
图2.4.1游乐场游玩问题决策树
2.4.1决策树分类概念
●当天气状态的属性取值为“晴”时，样本子集为{1,2,8,9,11}，可知天气状况为“晴”这个属性所得到的样本子集{1,2,8,9,11}不属于同一个类别，要进一步使用其他属性对这个样本子集进行划分。经观察，通过“湿度是否>75 ”这一属性值，可以将该样本子集进一步划分成{1,2,8}(>75,不前往游乐场)和{9,11}(≤75,前往游乐场)两个样本子集。此时这两个样本子集已被划分为两类，不需要再划分。
图2.4.1游乐场游玩问题决策树
2.4.1决策树分类概念
●当天气状况的属性取值为“雨”时，样本子集为{4,5,6,10,14}，此时样本子集无法被划分为一类，需要进一步使用其他属性对这个样本子集进行划分。经观察，通过“有风否 ”这个属性值，可将该样本子集进一步划分成{4,5,10}(无风，前往游乐场)和{6,14}(有风，不前往游乐场)两个样本子集。此时这两个样本子集已被划分为两类，不需要再划分。
“温度”是多余的特点
图2.4.1游乐场游玩问题决策树
如何判断某一天游客是否会来游乐场游玩？
天气、温度、湿度
2.4.1决策树分类概念
建立决策树的过程
选择一个属性值，基于这个属性对样本集进行划分，得到子集划分结果。再选择其他属性，对得到的划分结果进行划分，直至最后所得划分结果中每个样本为同一个类别。
2.4.2构建决策树
构建决策树来解决实际生活中的问题时，需按照一定的顺序选择划分属性。通常，性能好的决策树随着划分不断进行，决策树分支节点的“纯度”会越来越高，即其所包含样本尽可能属于相同类别。为了逐次选出最优属性，可以采用信息增益(informationgain)这一指标。
信息增益被用来衡量样本集合复杂度(不确定性)所减少的程度。
香农提出了“信息熵”(entropy)的概念，用来度量信息量的大小。直觉上而言，对一个不确定的信息(很少出现)的了解需要更多的信息。相反，如果对某件事已经有了较多了解，就不需要太多信息了。从信息论的角度来看，对信息的度量等于计算信息不确定性的多少。
2.4.2构建决策树
“假设有K个信息，其组成了集合样本D，记第k个信息发生的概率为pk(1≤k≤K)”。如下定义这K个信息的信息熵:
E(D)值越小，表示D包含的信息越确定，也称D的纯度越高。需要指出，所有pk累加起来的和为1。
2.4.2构建决策树
表2.4.1中14个样本分属于“游客来游乐场’(9个样本)和“游客不来游乐场”(5个样本)两个类别，即K=2。
记“游客来游乐场”和“游客不来游乐场”的概率分别为p1和p2，显然，p1=，p2=，则这14个样本所蕴含的信息量(熵)如下计算：
2.4.2构建决策树
有天气状况、温度高低、湿度大小、风力强弱四个气象特点。
以天气状况为例，天气状况包含“雨”“晴”“多云”三个属性。这三个属性对14个样本进行划分，在决策树中产生了三个分支节点，每个分支节点所得到的样本子集就是其对应属性对数据的划分。例如，“多云”这一属性包含四个样本{3,7,12,13}。
2.4.2构建决策树
当计算天气状况所包含“雨”“晴”“多云”三个属性信息增益时，其取值情况和对应样本集情况如表2.4.2所示。这里记属性取值为a，如天气状况的三个属性记为a0=“晴”，a1=“多云”，a2=“雨”，记属性可能取值总数为n,那么用这些属性划分样本集可得到n个分支节点。属性取值为a;,对应分支节点所包含子样本集记为Di，该子样本集包含样本数量记为|Di|。
表2.4.2 天气属性样本情况统计
晴：
多云：
雨：
2.4.2构建决策树
表2.4.2 天气属性样本情况统计
2.4.2构建决策树
天气状况的信息增益计算:
其中，A=“天气状况”。于是天气状况这一气象特点的信息增益为:
通常情况下，某个分支的信息增益越大，则该分支对样本集划分所获得的“纯度”越大、信息不确定性减少的程度越大。
2.4.2构建决策树
练一练：
1.计算表2.4.1中温度高低、湿度大小、风力强弱三个气象特点的信息增益。
思考：
将天气状况、温度高低、湿度大小、风力强弱作为分支点来构造图2.4.1决策树时，是否信息增益大的气象特点离根节点越近
2.4.2构建决策树
【练一练】：
如下表所示，每朵鸢尾花有萼片长度、萼片宽度、花瓣长度、花瓣宽度四个特征。现在需要根据这四个特征将鸢尾花分为杂色鸢尾、维吉尼亚鸢尾和山鸢尾三类，试构造决策树进行分类。
例：鸢尾花数据集是常用的分类实验数据集，由Fisher1936收集整理。Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。数据集包含150个数据样本，分为3类，每类50个数据，每个数据包含4个属性。可通过花萼长度，花萼宽度，花瓣长度，花瓣宽度4个属性预测鸢尾花卉属于（Sentosa 0，Versicolor 1，Virginia 2）三个种类中的哪一类。
4个属性
4 Features
1个标签 1 Label
用来标记种类
序号 Index 0-149，一共150个样本
基于鸢尾花数据集
例：鸢尾花数据集是常用的分类实验数据集，由Fisher1936收集整理。Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。数据集包含150个数据样本，分为3类，每类50个数据，每个数据包含4个属性。可通过花萼长度，花萼宽度，花瓣长度，花瓣宽度4个属性预测鸢尾花卉属于（Sentosa 0，Versicolor 1，Virginia 2）三个种类中的哪一类。
4个属性
4 Features
1个标签 1 Label
用来标记种类
序号 Index 0-149，一共150个样本
为了使用最简单的例子说明问题：
将数据集简化
例：iris数据集 iris dataset
① 4 Features 只保留2个
② Label 在二分类时，只取0和1
基于鸢尾花数据集
第一步：收集数据
第二步：分割数据
第三步：向Python导入数据
第四步：使用Python库sklearn训练
第五步：使用Python库测试结果可视化
[拓展] 机器学习的基本流程
课堂小结
一、2017年度重点工作项目完成情况
1
2
3
决策树分类概念
构建决策树
举例说明：鸢尾花分类
备用：深度学习：人工智能展望与挑战
未来的深度学习

展开更多......

收起↑

请用微信扫码

高中信息技术浙教版：2-4 决策树-教学课件(共27张PPT)

高中信息技术浙教版：2-4 决策树-教学课件(共27张PPT)