5.3 数据的分析与可视化表达 课件(共27张PPT) 2023—2024学年粤教版(2019)高中信息技术必修1

资源下载
  1. 二一教育资源

5.3 数据的分析与可视化表达 课件(共27张PPT) 2023—2024学年粤教版(2019)高中信息技术必修1

资源简介

(共27张PPT)
数据的分析
与可视化表达
目 录CONTENT0102数据的分析数据的可视化表达目 录CONTENT0102数据的分析数据的可视化表达特征探索关联分析聚类分析数据分类数据的分析01运用数字化工具和技术,探索数据内在的结构和规律数据进行预测做出决策采集存储保护分析可视化表达数据的分析01特征探索关联分析数据分类01030204预处理分布特征描述性统计量分析并发现存在于大量数据之间的关联性或相关性从样本数据出发,自动进行分类K-平均算法基于样本数据先训练构建分类函数或者分类模型(分类器),再根据分类器具进行预测。聚类分析数据的分析01特征探索预处理分布特征描述性统计量检查数据是否缺失,是否有异常数据的分析01特征探索关联分析数据分类01030204预处理分布特征描述性统计量分析并发现存在于大量数据之间的关联性或相关性从样本数据出发,自动进行分类K-平均算法基于样本数据先训练构建分类函数或者分类模型(分类器),再根据分类器具进行预测。聚类分析数据的分析01关联分析分析并发现存在于大量数据之间的关联性或相关性全国零售业巨头沃尔玛再对消费者购物行为分析时,发现:男性顾客在购买尿布时,常常会顺便搭几瓶啤酒来犒劳自己。数据的分析01订单编号商品1商品2商品3商品4商品5商品61啤酒苹果奶酪2奶酪薯片3薯片面包苹果牛奶4薯片面包牛奶香蕉5面包6奶酪苹果牛奶薯片7牛奶奶酪香蕉面包啤酒8薯片奶酪香蕉啤酒牛奶9面包薯片奶酪苹果香蕉10薯片面包香蕉牛奶啤酒苹果数据的分析01支持度:某商品(或组合)在所有订单中出现的频率。订单编号商品1商品2商品3商品4商品5商品61啤酒苹果奶酪2奶酪薯片3薯片面包苹果牛奶4薯片面包牛奶香蕉5面包6奶酪苹果牛奶薯片7牛奶奶酪香蕉面包啤酒8薯片奶酪香蕉啤酒牛奶9面包薯片奶酪苹果香蕉10薯片面包香蕉牛奶啤酒苹果支持度(面包 牛奶) =(面包+牛奶)/记录总数= 4/10置信度:在所有包含A的订单中出现B商品的概率。置信度(面包 牛奶) =(面包+牛奶)/面包= 4/6提升度:销售A商品对B商品带来的提升率。提升度(面包 牛奶) =(面包+牛奶)/有牛奶无面包= 4/10频繁项集:支持度大于或等于某个阈值的项集。项集:包含一个或多个商品的组合。写作:A B数据的分析01支持度:某商品(或组合)在所有订单中出现的频率。支持度(面包 牛奶) =(面包+牛奶)/记录总数= 4/10置信度:在所有包含A的订单中出现B商品的概率。置信度(面包 牛奶) =(面包+牛奶)/面包= 4/6提升度:销售A商品对B商品带来的提升率。提升度(面包 牛奶) =(面包+牛奶)/有牛奶无面包= 4/10频繁项集:支持度大于或等于某个阈值的项集。项集:包含一个或多个商品的组合。写作:A B找出频繁项集(即一个商品组合):按照“支持度≥最小支持度”的标准筛选出频繁项集。找出强关联原则:在所有的销售记录中,找出所有的强关联原则。数据的分析01特征探索关联分析数据分类01030204预处理分布特征描述性统计量分析并发现存在于大量数据之间的关联性或相关性从样本数据出发,自动进行分类K-平均算法基于样本数据先训练构建分类函数或者分类模型(分类器),再根据分类器具进行预测。聚类分析数据的分析01聚类分析从样本数据出发,自动进行分类K-平均算法132456数据的分析01聚类分析从样本数据出发,自动进行分类K-平均算法132456数据的分析01聚类分析从样本数据出发,自动进行分类K-平均算法132456数据的分析01K-平均算法步骤随机选取K个点作为质心;计算每个点到K个质心的距离,分成K个簇;计算K个簇样本的平均值作为新的质心;循环 ;位置不变或者达到迭代次数,聚类完成。132456数据的分析01特征探索关联分析数据分类01030204预处理分布特征描述性统计量分析并发现存在于大量数据之间的关联性或相关性从样本数据出发,自动进行分类K-平均算法基于样本数据先训练构建分类函数或者分类模型(分类器),再根据分类器具进行预测。聚类分析数据的分析01数据分类基于样本数据先训练构建分类函数或者分类模型(分类器),再根据分类器具进行预测。待分类数据分类器某一类别样本数据训练数据的分析01贝叶斯分类垃圾邮件7封5封邮件包含“发票”4封邮件包含“便宜”正常邮件3封1封邮件包含“发票”1封邮件包含“便宜”P(正常|发票)=P(发票|正常)P(正常)P(发票)=1/3×3/106/10=1/6P(垃圾|发票)=P(发票|垃圾)P(垃圾)P(发票)=5/7×7/106/10=5/6“发票”数据的分析01贝叶斯分类垃圾邮件7封5封邮件包含“发票”4封邮件包含“便宜”正常邮件3封1封邮件包含“发票”1封邮件包含“便宜”P(正常|发票)=P(发票|正常)P(正常)P(发票)=1/3×3/106/10=1/6P(垃圾|发票)=P(发票|垃圾)P(垃圾)P(发票)=5/7×7/106/10=5/6垃圾邮件数据的可视化表达02视觉冲击力数据的可视化表达02以图形、图像、地图、动画等生动、易于理解的方式展示数据和诠释数据之间的关系、趋势和规律等,以便更好地理解数据。数据的可视化表达02有关趋势的分析数据的可视化表达02有关比例的分析数据的可视化表达02有关逻辑关系的分析数据的可视化表达02有关空间关系的分析
谢谢观赏
Thanks for watching

展开更多......

收起↑

资源预览