清华大学版(2024)(青海)八下信息科技 第1单元 第3课 用机器学习解决问题 教学设计

资源下载
  1. 二一教育资源

清华大学版(2024)(青海)八下信息科技 第1单元 第3课 用机器学习解决问题 教学设计

资源简介

课题名称 第3课 用机器学习解决问题
课时目标 1.能够熟练完成从问题分析到数据收集、整理,再到模型训练、评估和应用的全过程。 2.学会根据不同问题特点选择合适的方法,熟练使用数据处理工具对数据清洗、整理和划分。 3.能依据具体问题,准确选择合适的机器学习算法,使用BaseML工具进行模型训练与优化。 4.能将训练好的模型与其他编程语言结合,开发出简单的AI应用,提升解决实际问题的能力。
教学准备 计算机、XEdu工具、相关数据集、教学课件
导学过程 意图说明
知识探究 1.项目子任务引入 ——明确指出,本节课将深入学习如何利用机器学习技术解决真实问题,这是前面所学知识应用于实际的关键环节,也是完成项目任务的核心步骤,引导学生积极投入学习。 2.探究内容与要求 方法引导:采用案例驱动和实践操作相结合的方法,通过具体案例详细剖析每个环节的 操作要点和注意事项,让学生在实践中掌握用机器学习解决问题的方法。 (2)主要内容:   ①哪些问题适合用机器学习解决?——问题分析与数据准备 ②模型训练的关键要点有哪些?——模型训练和评估、优化 ③模型应用的常见方式有哪些?——模型应用 3.知识习得 (1)自主阅读:引导学生以教材相关章节和 XEdu工具的官方文档为主,网络资料作补充,自主阅读学习如何用机器学习解决问题的相关知识。在学生阅读过程中,教师巡视并解答疑问,引导学生关注重点内容和关键操作步骤。 (2)知识梳理:通过提问、总结、填写表格等方式,帮助学生梳理知识要点。例如,设计如下表格让学生填写: 学习内容具体要点问题分析方法判断问题是否适合机器学习的依据: 1. 问题是否存在规律,如变量之间是否有潜在关联。 2. 能否获取相关的数据,数据的可收集性是关键。 3. 问题的复杂程度,简单的线性问题更适合基础算法,复杂问题可能需要更高级的算法。数据收集方法“身高推断” 适用方法:
1. 在线调查:设计问卷收集身高、脚长、体重等相关信息。
2. 直接测量:对身边人群进行实地测量获取数据。
“预测商品销量” 适用方法:
1. 企业内部销售记录收集:获取本企业商品的历史销售数据。
2. 网络数据抓取:利用爬虫技术收集电商平台上同类商品的销售数据、价格等信息。数据整理操作数据整理的目的:
1. 保证数据完整性:识别和处理数据集中的缺失值。
2. 确保数据统一性:所有数据遵循相同的格式和标准。
3. 提高数据准确性:识别和校正数据中的错误或不合理的值。
“身高推断” 数据整理具体操作:
1. 检查体重、鞋码等数据,去除异常值(如体重过轻或过重、鞋码不符合常理的数据)。
2. 填补缺失的身高或其他特征数据,可采用均值、中位数等方法。
3. 统一数据单位,如将身高的单位统一为厘米。数据集划分工具BaseDT 工具函数:split_tab_dataset ()
函数参数含义:
1. path:指定待拆分的 CSV 数据集路径。
2. data_column:用于指定特征数据列,以范围或具体列号表示。
3. label_column:指定标签列,即预测目标所在列。
4. train_val_ratio:设定训练集和验证集的拆分比例。模型训练要点高质量数据集的要求:
1. 尽量避免错误:错误数据会严重影响模型训练效果。
2. 数据量要大:数据量过少难以训练出准确的模型。
3. 数据要尽可能扩大覆盖面:如预测身高不能仅用某一年龄段或某一地区的数据。
选择算法考虑因素:
1. 任务类型:回归任务还是分类任务。
2. 数据特点:如数据的线性关系、数据维度、数据量大小等。
3. 算法的复杂度和可解释性:复杂算法可能精度高但难以解释,简单算法则相反。模型评估指标常用评估指标:
1. 值(决定系数)
2. 均方误差(MSE)
指标含义:
1. 值:取值在 0 和 1 之间,越接近 1 说明模型对数据的拟合效果越好,模型与实际数据的相关性越高;越接近 0 说明模型效果越差,与实际数据相关性低。
2. 均方误差:衡量预测值与真实值之间的平均误差平方,值越小,说明模型预测结果越接近真实值,模型的预测精度越高。
核心素养培育 (1)学会分析:给出一些实际问题,如预测学生的考试成绩提升情况、分析客户的购买偏好等,让学生分析这些问题是否适合用机器学习解决,以及如何进行数据准备、选择合适的算法和评估模型。引导学生从问题的性质、数据的可获取性、算法的适用性等方面进行分析,培养学生分析问题的能力。 (2)学会探究:探究如何训练回归模型推断人体身高并搭建一个身高推断系统。 ①复制“身高推断系统”文件夹到XEDU教学资源目录下,使用Jupyter打开3.训练回归模型推断人体身高并搭建一个身高推断系.ipynb文件; ②读取数据并查看,拆分训练集、测试集,选择不同的算法进行模型训练和评估; ③使用不同的特征列进行模型训练的优化,优化完成后编写模型应用程序。 (3)对学科方法、工具或作品进行评价反思 组织学生讨论在使用机器学习解决问题的过程中,所运用的方法(如数据收集、模型训练、评估和优化的方法)有哪些优点和不足 二、习题测试 选择题: 在机器学习中,数据整理不包括以下哪项操作( ) A. 数据清洗 B. 数据标注 C. 数据扩充 D. 数据划分 填空题:使用 BaseDT 工具划分数据集时,函数“split_tab_dataset ()”中用于指定拆分比例的参数是__________。 简答题:简述在选择机器学习算法时需要考虑的因素。 三、小结回顾 请同学按照下列提示进行总结回顾: 1.学到了哪些知识与技能? 2.提升了哪些方面的能力? 3.生成了怎样的观点? 四、布置作业 1.项目实施作业 请各小组对项目探究的阶段成果进行整理并提交,整理内容: 项目报告 报告内容包括问题分析过程、数据处理步骤、模型训练结果(包括选择的算法、评估指标等)、模型应用的方式(如设计的智能系统界面或使用说明)以及遇到的问题和解决方法 2.课后挑战作业 选择一个新的实际问题,如预测某地区的空气质量指数、分析股票价格走势等,尝试使用机器学习方法解决该问题。要求学生记录整个过程,包括问题分析、数据收集和处理、模型选择和训练、评估和优化以及模型应用的思路和尝试,形成书面报告。在报告中,要分析所选择的方法和工具是否合适,以及还可以从哪些方面进一步改进和完善。

展开更多......

收起↑

资源预览