资源简介 (共55张PPT)第1单元 第2课认识机器学习(清华大学版)八年级下1核心素养目标3新知讲解5拓展延伸7板书设计2新知导入4课堂练习6课堂总结课后作业801核心素养目标信息意识计算思维数字化学习与创新信息社会责任明确机器学习技术是实现人工智能的关键,赋予机器智能可以便捷学习和生活。通过各种在线资源、平台、工具和方法进行学习和实践,而机器学习则是提升学习效率和创新能力的重要手段。知道如何借助常用工具完成模型训练和评估,明晰机器学习的常见算法。认识机器学习,能够理解机器学习的基本流程和常见算法,了解传统编程与机器学习的区别。02新知导入本课中你将学习:什么是机器学习机器学习的基本过程是什么如何借助常用工具完成模型训练和评估机器学习的常见算法有哪些02新知导入在人工智能发展的早期阶段,科学家尝试了各种方法,用逻辑符号的推理模拟替代人脑思考,用人工总结规则的方式灌输知识,希望赋予机器“智能”,可惜困难重重,进展缓慢。在自然界无穷无尽的规律和人类数千年积累的知识面前,计算机引以为傲的运算速度和人工总结灌输知识的效率显得微不足道。兜兜转转,科学家最终回到图灵提出的“学习机器”概念:能否实现人工智能的关键,很可能取决于“如何让机器拥有学习能力”。02新知导入03新知讲解一、从学习到机器学习“学习”是一种伴随人类终生的普遍行为。它的含义可以是很广泛的,并不是非要在学校接受教育才算学习。所有的对象,如果接受外界信息的刺激之后,能形成经验反应,并影响日后的行为,这个过程就可以被称为“学习”。就这种广义的学习定义而言,不仅局限于人类,几乎所有的生命体与生俱来都拥有着不同程度的学习能力。03新知讲解1.初识机器学习正式探讨“机器学习”之前,我们需要先给它设定一个合理的期望与定位:机器学习是人工智能中的一种重要技术,做出了许多令人惊叹不已的成果。不过,机器学习并非魔法,不能把机器“教育”成智慧机械生命。这里的“学习”是取其“从经验中自我改进”的含义。03新知讲解台湾大学李宏毅博士认为机器学习就是找到一个实现特定功能的函数(function)。在小学阶段,我们已经学习过 Python 的函数,如 foat、len等。“函数”实际上就是一段支持数据输人和输出的计算机程序,类似 len函数,输人“AI”会输出“2”,输人“机器学习”会输出“4”。只不过这个程序中的核心功能--输人数据和输出数据之间的关系,不是人为固定写好的,而是通过大量的数据训练,学习总结得出的。03新知讲解我们还可以用更加通俗的方式进行类比。假设家里养了一只名字为“AI”的小狗,你需要教会这只小狗“AI”分辨出主人和陌生人。显然,一开始这只小狗谁都不认识,随着你的不断调教,它就慢慢能分辨主人和陌生人了,说明小狗“AI”具备了“学习”能力,在学习中自动改进了分辨主人和陌生人的能力。这里的“调教”,在机器学习中被称为“训练”。所谓机器学习,不过是编写一段具备学习能力的程序(类似小狗“AI”)然后通过训练使其获得某种智能的方法。而“学习”的结果,就是具备了某种“智能”的模型。03新知讲解2.传统编程和机器学习的区别机器学习的算法也需要编程,但是机器学习的编程和传统编程不一样。传统编程是基于人为设定的数据规则实现相应的功能。比如,下面的程序能够将摄氏温度转换为华氏温度。03新知讲解运行这段程序,输人“25”,这段代码会输出“77.0”(25x9/5+32=77)。这里的“fahrenheit = celsius* 9/5+ 32”是程序事先给出的转换公式如果有一段程序并不用事先给出这个公式,而是通过一组符合这个规律的数据(表 1.2.1 )输人,让程序通过“学习”这些数据的规律,“自动”得出了这样的“公式”,这就是机器学习,也就是说,机器学习是基于数据自动推导规则。表1.2.1 摄氏温度和华氏温度对应表03新知讲解阅读从图 1.2.1 可以看出,如果把输入数据(摄氏温度)和输出数据(华氏温度)绘制在平面直角坐标系中,会看到一条直线。那么给出新的输入数据(x坐标)就能在直线上找到对应的输出数据(y坐标)。“线性回归”的核心思想是找到一条能够表示数据(一个或多个输入值和输出值)之间关系的直线,然后借助这条直线预测数据。这个表示数据关系的函数就是一个人工智能模型。03新知讲解阅读那么,这个机器通过学习得到的模型是否可靠呢 数学家设计了一系列评价模型表现的指标,其中最常用的指标叫做R(R-squared)。我们把通过模型得到的输出值和理想值之间的差距,叫做“误差”。R用于评估模型的优良程度,取值在0和1之间,若数据完全准确,则R=1;数值越接近1,说明存在误差越小;反之,说明存在误差越大。当R-0时,意味着模型与实际数据之间没有相关性。有了这些评价指标后,我们就能大胆使用机器学习的方式去寻找数据背后的规律了。03新知讲解二、机器学习的基础知识“不学《诗》,无以言。”再聪明、再智慧的大脑也需要不断学习,学成后,再遇到问题时,便能从之前的学习经验中寻找到答案。机器学习也一样,需要通过已知的数据学习其中蕴含的规律,从而建立起解决问题的模型,并且借助更多的数据自动修正、优化模型,最终利用模型解决问题。从已知数据中学习规律,叫做模型训练;将新的数据输人模型中得出结果,叫做模型推理。03新知讲解1.机器学习的基本流程机器学习实际上分为两个阶段,首先是模型训练阶段,即“学习”,然后是模型推理阶段,即“应用”,如图 1.2.2 所示。图1.2.2 人工智能模型训练阶段和推理阶段03新知讲解当模型训练好之后,应用这个模型解决问题,跟传统的编程就没有什么区别了。实际上,我们在学习 Python 编程时常常会导人一些内置了人工智能模型的库,如 OpenCV(计算机视觉库)、Pyttsx3(语音合成库)等,即使我们没有学过人工智能也能使用这些模型。对学习人工智能来说,重点是训练模型。训练模型的流程,就是机器学习的过程。03新知讲解如图1.2.3所示,典型的机器学习流程可以分为数据准备、模型搭建、模型训练与评估、模型应用等环节。图1.2.3 典型的机器学习流程03新知讲解探 索通过摄氏温度和华氏温度对应表,我们知道两者之间存在一定的对应关系。假设我们并不清楚它们之间的转换公式,能否通过训练线性回归模型找出两者之间的关系 请以小组为单位,参考资源包中的代码完成模型训练,实现“输入摄氏温度,输出华氏温度”的功能。主要实践内容包括:(1)完善代码,输入数据集路径,进行模型训练和保存。(2)将训练好的模型复制到模型应用代码对应的文件夹中,然后运行模型应用代码,输入摄氏温度,测试输出的华氏温度是否正确。(3)进一步思考:如果要训练“华氏温度→摄氏温度”的模型该如何实现 03新知讲解要训练一个将华氏温度转换为摄氏温度的模型,实际上是一个简单的线性转换问题,不需要复杂的机器学习模型。华氏温度(F)和摄氏温度(C)之间的关系:以下是一个简单的Python示例,使用scikit-learn库来实现这个模型:03新知讲解2.机器学习任务:分类和回归人工智能要解决的问题,我们称为任务。使用不同机器学习的学习方式,已经能够解决很多任务,并被广泛应用于各个领域。以监督学习为例,它主要解决两类任务:分类和回归。这两类任务虽然都要提供标注过的数据集,但在应用场景上有显著的差异。03新知讲解分类任务的目标是将输人的数据分配到预定义的类别中。这种任务要求算法不仅要理解数据的特征,还要能根据这些特征将数据归人特定的类别。分类可以是二分类(如判断西瓜甜不甜),也可以是多分类(如识别图像中的物体类别 )。而回归任务是预测一个连续的数值,而非将数据分配到类别中。这类任务通常涉及预测数量,如房价、温度或销量等。以卖西瓜为例,瓜农要判断西瓜好不好属于分类任务,要给不同外表的西瓜标上不同的价格则是回归任务。03新知讲解3.数据集的划分:训练集和验证集在“温度转换”的探索中,一共使用了两个 CSV 格式的数据文件。其中用于模型训练的叫做训练集,用于模型评估的叫做验证集。用于机器学习的数据集一般需要分为训练集、验证集和测试集,以便进行模型训练、性能评估和测试。03新知讲解数据集划分的主要目的是确保模型能够在未见过的数据上也有良好的表现,实现举一反三,这种能力也叫做“泛化”。因此,训练集、验证集和测试集的数据要保持独立,尤其不能将验证集和测试集的数据加入训练集中训练,不然训练出来的模型会导致模型的评估出错,出现“过拟合”(类似学习中的“死记硬背,不会变通”)的情况,看起来得分很高,但遇到新的数据就表现很差。03新知讲解阅读机器学习的核心工作是寻找任意输入和输出的数据组合之间的数学关系。在“温度转换”这个例子中,训练的数据为两列,其中一列用于输入,另一列代表输出。在机器学习中,用于输入的数据叫做“特征”,而用于输出的数据叫做“目标”,也叫做“标签”。任务中的数据同时包含特征和目标,这类任务称为监督学习。监督学习如同教小朋友识别各种事物,我们要给他看不同物体的外观(特征),同时告诉他不同外观对应的名称(目标)。数据集中的特征和目标要-一对应,这一过程称为数据标注。03新知讲解阅读例如在“温度转换”这一例子中,就要依据摄氏温度这一特征明确对应的目标,即华氏温度,如图1.2.4所示。图 1.2.4 “温度转换”数据集范例03新知讲解阅读在机器学习中还有一类任务,给定的数据中没有相应的预测目标信息,也就是说数据集没有做人为标注,这种学习方式称为“无监督学习”。无监督学习的主要目的是发掘数据间的联系。比如,给定一批数据,将其按照特点分成不同的类别。03新知讲解三、机器学习的开发工具和算法经过数十年的发展,从简单的数据判别到图文并茂的多媒体数据生成机器学习逐步成为人工智能最重要的研究方向之一。机器学习在理论、工具和算法上不断创新,逐渐形成许多分支。大部分编程语言都支持机器学习模型的开发。仅Python语言中就有很多机器学习库,如Scikit-learn、SciPy 和 BaseML等。这些工具的功能越来越强大,使用门槛却越来越低。需要强调的是,无论使用何种工具和算法,机器学习的基本流程都是不变的,如数据准备、模型搭建、模型训练与评估、模型应用等阶段是必不可少的。03新知讲解1.用 BaseML 训练模型BaseML 是上海人工智能实验室开发的 XEdu 工具箱中的一款子工具针对 Scikit-learn 做了进一步的封装,使工具变得更加易用,只需几行代码就能实现机器学习的训练、评估和应用。“温度转换”模型的训练就可以使用 BaseML 编写,代码如下:03新知讲解从以上代码可以看出,BaseML 库文件的导人只需要一行代码即可根据机器学习的任务类型导人相应的库。“Regression”模块内置了回归任务的常见算法,“'Classi cation”模块则内置了分类任务的常见算法。“model=ree('LinearRegression' )”表示指定的算法是“LinearRegression”( 线性回归)使用load tab data”,即可加载 CSV格式的数据文件。03新知讲解这里要求数据文件每行一条记录(首行为表头,数据从第2行开始),输人数据(特征)列在前,输出数据(目标或标签)列在后,即最后一列为输出数据,其余列为输人数据,以CSV格式存储。这种格式是最常见的监督学习数据集格式,如图1.2.5所示。图 1.25 CSV格式的数据集格式03新知讲解训练好模型后,只要输人与训练数据相同类型的数据,便可以使用inference 方法对新数据进行推理。03新知讲解阅读BaseMI还支持直接载入验证数据集进行模型评估,只需数据集格式及输入、输出列数与训练数据保持一致即可。这里会输出评估指标的计算结果(可以选择R等评估指标)。还可以进一步利用可视化功能,直观地了解模型的验证效果。核心代码如下:03新知讲解阅读运行结果如图 1.2.6 所示。从下面的模型验证可视化效果图中可以看出,验证集已有的输出(y)为横坐标,通过模型推理得到的结果(i)为纵坐标,两者构成的坐标点若落在蓝绿色虚线上,则说明模型完全契合验证数据。图 1.2.6 模型验证的可视化图表03新知讲解阅读一般来说,实际构成的不会完全在蓝绿色虚线上,而是围绕黑色虚线分布两条虚线相差越大,说明模型效果越差。03新知讲解2.机器学习的算法家族机器学习要想在复杂的数据中寻找出所蕴含的规律,需要使用合适的算法。机器学习的发展,其核心还是算法的发展。如图1.2.7所示,机器学习的算法发展史大致是从基于规则走向基于数据统计,然后走向深度神经网络,即用仿生模拟的方式模拟出人的大脑,并取得很大的成功。图 1.2.7 机器学习的三大类型03新知讲解虽然图 1.2.7 中罗列的算法很多,但实际上这仅仅是机器学习算法家族中的一部分。不同的算法适合解决不同的任务。要用机器学习解决问题,首先要了解有哪些算法,并弄清楚这些算法擅长解决哪些问题。为帮助初学者了解这些算法的作用,BaseML的文档中提供了一张“机器学习典型算法一览表”,节选如表 1.2.2 所示。表 1.2.2 机器学习典型算法一览表(节选)03新知讲解续表03新知讲解BaseML支持很多任务或算法,而基本语法是一致的。如果要修改任务为分类,修改“Regression”为“Classification”即可;如果要选择决策树(CART)算法,只要将reg(LinearRegression')中的'LinearRegression”改为“CART”即可,如图 1.2.8 所示。图1.2.8 在BaseML中修改任务或算法03新知讲解投石车可以以指定角度向空中抛出石头,我们以恒定的力量,分别从不同角度抛出,测量石头落地点距投石车的距离,可以得到一个“角度-距离”对照表。请使用多种回归算法训练“投石落地距离”预测模型,对比不同算法的效果,并填写表 1.2.3。实验内容:以小组为单位,尝试编写代码,将不同算法对应的R2值填入表1.23 中,对不同算法的效果进行对比,并总结分析在该数据集上选择何种算法最合适。实验准备:投石落地距离数据集。挑战03新知讲解挑战表1.2.3 投石模型训练效果对比及总结分析注:括号中的英文表示 BaseML 中的算法名。04课堂练习一、选择题1、以下哪种算法属于监督学习中的回归算法?A.支持向量机 B.K均值算法 C.线性回归 D.决策树2、机器学习模型的“过拟合”问题是指:A.模型无法学习到足够的规律B.模型学习到了太多噪声,导致在新数据上表现差C.模型无法进行特征选择D.模型的训练时间过长3、以下哪种算法属于监督学习?A.K-means聚类 B.决策树 C.主成分分析 D.自编码器CBB04课堂练习3、 以下哪一项是机器学习的主要应用领域?A.增强现实 B.数据预测C.数字绘画 D.网络安全D. 促进文化多样性二、判断题1、在监督学习中,我们利用带标签的训练数据来训练模型。 ( )2、机器学习是一个无需人工干预的完全自动化过程。( )3、深度学习是机器学习的一个子集。( )4、支持向量机(SVM)只能用于线性分类问题。( )BXX√√04课堂练习三、操作题利用`scikit-learn`库中的`KMeans`算法,进行聚类分析,尝试对一个简单的二维数据集进行聚类,并可视化结果。05拓展延伸强化学习强化学习(Reinforcement Learning, RL)是一种机器学习的范式,智能体通过与环境的交互来学习如何执行任务,以最大化某种长期奖励。其基本概念包括:智能体(Agent):智能体是执行动作的主体,通常是一个程序或系统。它通过与环境交互来学习和优化其行为策略。环境(Environment):环境是智能体与之交互的外部世界。智能体会感知环境的状态并做出相应的动作,环境则根据智能体的动作给予反馈。05拓展延伸强化学习奖励(Reward):奖励是环境反馈给智能体的一个数值,用于指示智能体行为的好坏。奖励可以是即时的,也可以是长期的,智能体的目标是最大化累计奖励。策略(Policy):策略是智能体在给定状态下选择动作的规则。策略可以是确定性的,也可以是随机的,强化学习的目标就是学习到一个最优策略。05拓展延伸数据预处理与特征工程缺失值处理:删除法:删除包含缺失值的行或列。这种方法适用于缺失值较少的情况。填充法:通过填充缺失值来处理,常见的填充方式有:均值、中位数或众数填充。使用其他机器学习算法(如KNN)进行填充。异常值处理:识别异常值:通常使用统计方法如Z-Score或箱型图来识别异常值。处理异常值:可以删除异常值,或者用均值、中位数等值替代,甚至通过变换(如对数变换)减少异常值的影响。05拓展延伸数据预处理与特征工程数据标准化:标准化(Standardization):将数据转换为均值为0,方差为1的标准正态分布,适用于大多数机器学习模型。归一化(Normalization):将数据压缩到指定范围(如[0, 1]),适用于对数据范围敏感的模型,如神经网络。PCA(主成分分析):PCA是一种降维技术,用于将数据投影到一个新的坐标系中,使得新坐标系的每个轴(主成分)都能捕捉到数据中最大的方差。PCA常用于数据降维、去噪等。05拓展延伸机器学习的应用领域计算机视觉:图像识别、目标检测、人脸识别、图像生成等。自然语言处理(NLP):情感分析、机器翻译、文本分类、语音识别、聊天机器人等。医疗健康:疾病预测、医学影像分析、个性化治疗推荐、药物发现等。金融:信用评分、股票预测、风险管理、反欺诈检测等。自动驾驶:图像识别、路径规划、决策系统、碰撞避免等。05拓展延伸机器学习的应用领域推荐系统:电商推荐、视频推荐、社交媒体推荐等。智能制造:预测性维护、生产优化、机器人控制等。游戏和娱乐:游戏AI、虚拟角色、策略优化等。06课堂总结1引入新知内容认识机器学习2学习从学习到机器学习3认识机器学习的开发工具和算法4完成课堂练习5进行知识拓展1234507板书设计认识机器学习1、进行新知引入2、学习从学习到机器学习3、认识机器学习的开发工具和算法4、完成课堂练习5、进行知识拓展课后作业。1、机器学习算法比较训练。2、课堂总结。08课后作业1、搜集一个现实世界中的数据集,尝试用多种机器学习算法(如决策树、KNN、SVM等)进行训练,并比较各算法的准确率和运行时间。2、说一说本课的收获。https://www.21cnjy.com/recruitment/home/fine 展开更多...... 收起↑ 资源列表 【清华大学版】《信息科技》八年级下册第1单元第2课《认识机器学习》.pptx 引入视频.mp4