资源简介 (共44张PPT)第1单元 第3课用机器学习解决问题(清华大学版)八年级下1核心素养目标3新知讲解5拓展延伸7板书设计2新知导入4课堂练习6课堂总结课后作业801核心素养目标信息意识计算思维数字化学习与创新信息社会责任在机器学习应用中,在设计和应用机器学习模型时,考虑数据隐私、算法公平性、透明性等问题。能够应用机器学习模型,可以结合所学完成机器学习模型设计并训练和评估机器学习的模型,促进个性化学习和智能教育的发展。明晰机器学习原理,在解决问题时合理选择和应用机器学习算法,借助开发工具完成模型的训练、评估和应用能够识别和利用数据源,完成数据集的收集和整理,会对数据集进行制作和划分。02新知导入本课中你将学习:如何完成数据集的收集和整理如何训练和评估机器学习的模型如何应用机器学习模型02新知导入从前面的学习中,我们已经知道机器学习一般包括数据准备、模型搭建、模型训练与评估、模型应用等重要环节。接下来我们将详细探讨如何利用机器学习技术解决一个真实的问题,从问题分析开始,然后准备数据,选择算法、训练模型,最后进行评估和应用。通过这样的问题解决过程我们可以进一步感受机器学习的强大能力。02新知导入03新知讲解一、问题分析与数据准备计算机不是万能的,人工智能也不是无所不能的。在尝试用机器学习解决问题的最初阶段,要先做问题分析和数据准备。先分析这一问题属于哪一类问题,能不能用机器学习解决,再来看能不能准备相应的数据。“巧妇难为无米之炊”,没有数据显然无法进行机器学习。03新知讲解1. 问题分析哪些问题适合用机器学习解决 一般来说,预测分析和模式识别(如识别图像、声音、文字)等看起来有规律的工作,都可以用机器学习的方法试一试。以“身高推断”为例,高个子的同学往往手的长度、鞋码、步伐间距都比较大,显然这些因素之间有错综复杂的关联。如果拥有比较全面的身高和各种因素的对应表,那么就应该能训练出一个模型。这一任务就是经典的回归任务。至于各个因素之间的关系,机器可以通过特定的算法寻找。03新知讲解查找相关资料发现,与身高有关联的因素很多,除了脚长,还有脚宽、步长、体重、性别等。脚长可直接由鞋码替代,身高、步长、脚宽均可测量,如图 1.3.1所示。只要获取的数据足够多,就能创建出一个有效的数据集。图 1.3.1 与人体身高有关联的因素03新知讲解机器学习能不能从很多数据中寻找规律呢 答案是肯定的。前面使用的范例都比较简单,仅靠一个数据去预测另一个数据。机器学习的算法很强大,不仅可以找出多个数据和一个数据的关系,还能找出多个数据和多个数据之间的关系。03新知讲解2. 数据收集之前我们已经学习了很多数据收集的方法,包括通过在线调查和表单、物联网设备、自动化网络爬虫等进行收集。随着互联网的普及,使用在线调查和表单成为收集信息和数据的一种快速有效的方法。研究者可以设计调查问卷并分发给目标人群,参与者填写信息后直接通过网络提交,即可快速汇总各种信息。这种方法特别适用于市场研究、消费者偏好分析和社会科学研究等。针对身高的数据收集工作,一般而言通过在线调查的方式最为方便。03新知讲解3. 数据整理数据整理也称为数据清洗,涉及对原始数据进行错误识别、清理、修正和补全等工作,目的是为模型训练提供一个精确和完整的数据集。通常,初步采集的数据往往会因为误操作等原因夹带一些有问题的数据。这些数据也称“脏数据”。03新知讲解如图 1.3.2所示,这个通过问卷调査收集的数据集在体重、鞋码(代替脚长)等方面存在“脏数据”,需要进行数据整理。图1.3.2 收集的问卷数据注:sex—性别(-1表示女性,1表示男性)。03新知讲解数据整理的目的是保证数据的完整性、统一性和准确性。完整性涉及识别和处理数据集中的缺失值,统一性要求所有数据遵循相同的格式和标准,准确性涉及识别和校正数据中的错误或不合理的值。数据整理可能耗时较长,但它在整个机器学习项目流程中占据着不可替代的重要位置。03新知讲解4.数据集划分在数据整理完成后,下一步是将数据集划分为训练集和验证集。划分数据集可以手动完成,也可以通过编写代码自动完成。BaseDT是一个用于数据处理的 Python 库,也是 XEdu项目的子模块。借助 BaseDT 不仅可以快速完成数据集的划分,提高效率,还可以根据需求定制数据划分的比例选择特征列和标签列等,非常方便。同时,BaseDT的自动划分脚本可以被保存、重复使用和共享,确保了数据划分过程的一致性。03新知讲解BaseDT 提供的“split tab dataset()”函数能将一个表格文件一分为二。下面的代码可以将待拆分的CSV数据集按照8:2的比例划分为训练集和验证集。返回值是训练数据(tx)、训练标签(ty)、验证数据(valx)、验证标签(val y),并且会将训练集和验证集保存为CSV文件,分别命名为“原始文件名 train.csv”和“原始文件名_val.csv”。03新知讲解二、模型训练和评估、优化数据准备好之后,就进人模型训练阶段。机器学习虽然入门容易,但要训练出一个优秀的模型可不是一蹴而就的,不仅需要一定的技术,还需要保持足够的耐心,不断修改算法和调试参数。模型训练的最终目的是解决真实的问题,要看它在实际中的表现如何。准备好的验证集在模型评估时会起到至关重要的作用。03新知讲解若训练的模型在评估阶段表现不够优秀,推理不够准确,那么就要从数据集和算法等多个角度进行检查并优化,如图 1.3.3 所示。图1.3.3 模型训练的一般过程03新知讲解(1)确保有一个高质量的数据集。什么是高质量的数据集 首先,尽量避免错误。训练数据中一旦混人了有错误的数据,那么训练出的模型肯定效果很差,就好比你用错误的指令训练小动物,它自然不知道正确的指令为何。其次,数据量要大。如果仅仅提供几条数据,那么肯定训练不出好模型。03新知讲解最后,数据要尽可能扩大覆盖面。比如,仅仅用班级同学的数据训练身高推断模型,自然没有办法准确推断成人或者幼儿的身高。此外,数据集的划分也很重要。如果采用手动划分的方式,容易出现偏差,建议用 BaseDT 工具实现随机划分,确保数据的一致性。03新知讲解(2)选择合适的算法并将参数调到最优。选择一个合适的机器学习算法显然是模型训练的关键,但算法的选择不仅要考虑任务的类型,还要综合考虑其他因素。比如,解决线性问题一般首选线性回归,但是数据集较小时,支持向量机可能是更好的选择;面对众多变量时,随机森林算法能够提供强大的处理能力;而想要深人理解变量之间的关系,决策树算法可能更加直观。03新知讲解对于大数据集和复杂问题,多层感知机表现出色,因为它能够很好地适应复杂的数据环境,但如果数据量有限,自适应增强回归可能是更好的选择。03新知讲解三、模型应用模型应用是将训练好的模型结合其他编程语言,形成一个AI应用。例如,集成到网站或移动应用中,让用户输人具体信息(如鞋码大小和步伐长度)推断身高。模型的实际应用展示了机器学习技术解决实际问题的能力。我们平时使用的 AI应用,很多都是各种编程语言结合模型能力实现的,如第3单元展示的 AI绘图功能就是利用 Web 技术开发文本输人和图片输出的界面,生成图片部分的功能则由模型来实现。03新知讲解不同的人工智能模型有不同的推理框架,从模型训练到应用的一般流程如图 1.3.4 所示。一般来说,一个训练模型的工具也会自带推理功能,如在 BaseML 训练好模型并保存,下次使用时以同样的方式导人 BaseML 库并载人模型进行推理即可。图1.34 从模型训练到应用的一般流程03新知讲解还有一种方式是借助一些通用的模型推理库如 XEdu 工具中的 XEduHub 库,支持各种工具训练的模型完成模型推理此类库的安装一般比机器学习开发工具简单很多。相对来说,绝大多数的编程语言都会提供与模型推理相关的功能或者接口,让编写的程序拥有 AI能力。03新知讲解下面的代码,实现了用 BaseML, 载人一个训练好的模型,再输人一组新数据,输出模型推理结果。03新知讲解借助 XEduHub 对 BaseM, 训练的模型进行推理的核心代码如下:03新知讲解另外,可以把自己训练好的模型放到网站上,让用户可以通过各类工具库(如 PyWebl0 和 Gradio)构建应用。只要把这些工具和推理代码结合起来,就能做出一个简单的智能系统。PyWebI0的示例代码如下:03新知讲解运行结果如图 1.3.5 所示,浏览器会自动打开一个本地的网址,出现以下界面,输人名字,单击“提交”后,会输出“欢迎你+名字”。短短四行代码就实现了一个简易的 Web 页面,只需修改填加相应的代码,就可以实现一个能推断身高的智能系统。图1.3.5 PyWebl0 示例代码运行效果图03新知讲解结合学习的模型应用的相关知识,尝试自己训练模型应用。试开发一个智能系统,核心实践内容包括:(1)完善代码,载入自己训练的模型并能完成推理结果的输出。(2)增加个性化输入、输出交互设计。(3)进一步思考:如果要制作一个功能更强大的应用,应如何修改 挑战04课堂练习一、选择题1、在机器学习中,过拟合是指:A. 模型对训练数据的表现很好,但对新数据表现差B. 模型对新数据的表现很好C. 模型无法学习任何数据D. 模型的复杂度过低2、机器学习的主要目标是:A. 通过编程解决所有问题 B. 从数据中学习并进行预测C. 仅仅存储数据 D. 设计复杂的算法AB04课堂练习3、下列哪种算法属于无监督学习?A. 线性回归 B. 支持向量机C. K均值聚类 D. 决策树二、判断题1、机器学习模型的透明性与公平性是信息社会责任的一部分。 ( )2、机器学习只适用于大数据集。 ( )3、所有机器学习模型都需要进行特征工程。 ( )C√XX04课堂练习三、操作题选择一个机器学习算法(如线性回归),对某个数据集进行训练,并绘制训练集和测试集的损失曲线,分析模型的表现。05拓展延伸机器学习的分类按学习方式分类,有监督学习、无监督学习、半监督学习和强化学习等。监督学习:使用标记数据进行训练,数据集中的每个样本都有对应的标签或目标值,算法的目标是学习输入特征到输出标签的映射关系,常用于预测和分类任务,如垃圾邮件分类、疾病诊断。无监督学习:使用未标记数据进行训练,算法试图发现数据中的结构、模式或聚类,例如客户细分、异常检测。05拓展延伸机器学习的分类按学习方式分类,有监督学习、无监督学习、半监督学习和强化学习等。半监督学习:结合了少量标记数据和大量未标记数据进行学习,旨在利用未标记数据中的信息来提高模型的性能,适用于标记数据稀缺但未标记数据丰富的场景。强化学习:智能体通过与环境进行交互,根据环境反馈的奖励信号来学习最优行为策略,常用于机器人控制、游戏、自动驾驶等领域。05拓展延伸模型评估指标分类任务:常见的指标有准确率、精确率、召回率、F1 值等。以癌症诊断为例,准确率是正确预测的样本数占总样本数的比例;精确率是预测为正例的样本中实际为正例的比例,衡量预测正例的准确性;召回率是实际正例中被正确预测为正例的比例,反映模型捕捉正例的能力;F1 值是精确率和召回率的调和平均数,综合考虑了两者的平衡。05拓展延伸模型评估指标回归任务:常用均方误差(MSE)、平均绝对误差(MAE)等指标。如在房价预测中,MSE 计算的是预测值与真实值之间差值的平方的平均值,MAE 计算的是预测值与真实值之间差值的绝对值的平均值,它们反映了预测值与真实值之间的平均误差大小。05拓展延伸机器学习框架TensorFlow:由 Google 开发和维护,具有高度的灵活性和可扩展性,支持 CPU、GPU 等多种计算设备,适用于各种机器学习任务,尤其是深度学习领域。它提供了丰富的 API 和工具,方便用户构建、训练和部署模型。05拓展延伸机器学习框架PyTorch:以其简洁、灵活的设计而受到广泛欢迎,特别是在学术界和研究领域。它具有动态计算图的特性,使得模型的调试和开发更加方便,同时也支持高效的分布式训练。Scikit - learn:是用于机器学习的常用库,提供了丰富的机器学习算法和工具,包括分类、回归、聚类、降维等算法,以及数据预处理、模型评估等功能,适用于传统机器学习任务和简单的深度学习任务。06课堂总结1引入新知内容用机器学习解决问题2进行问题分析与数据准备3完成模型训练评估、优化和应用4完成课堂练习5进行知识拓展1234507板书设计用机器学习解决问题1、进行新知引入2、进行问题分析与数据准备3、完成模型训练评估、优化和应用4、完成课堂练习5、进行知识拓展课后作业。1、利用机器学习解决实际问题。08课后作业1、请同学们课后试着设计一个小型项目,利用机器学习解决一个实际问题(如房价预测、图像分类等),并撰写项目报告,包含数据来源、模型选择、结果分析等内容。https://www.21cnjy.com/recruitment/home/fine 展开更多...... 收起↑ 资源列表 【清华大学版】《信息科技》八年级下册第1单元第3课《用机器学习解决问题》.pptx 引入视频.mp4