第六单元 第4课《强化学习》课件【清华版】人工智能通识( 中学)

资源下载
  1. 二一教育资源

第六单元 第4课《强化学习》课件【清华版】人工智能通识( 中学)

资源简介

(共33张PPT)
第六单元 第3课
强化学习
清华版(中学)

1
学习目标
3
新知讲解
5
拓展延伸
7
板书设计
2
新知导入
4
课堂练习
6
课堂总结
课后作业
8
01
教学目标
(1)理解强化学习的基本概念及其与监督学习、无监督学习的区别。
(2)理解强化学习的核心流程,包括奖励机制和策略优化等概念。
(3)认识强化学习在机器人训练、AI游戏等领域的典型应用及未来潜力。
02
新知导入
1.强化学习的定义
强化学习是一种间接的监督学习,通过奖励让机器知道应该如何行动,广泛应用在棋牌游戏、机器人动作等任务。强化学习事先没有任何数据,机器通过不断尝试学习如何做出最佳决策。
02
新知导入
2. 强化学习的核心特点
强化学习通过 环境交互 获取反馈信号(如奖励/惩罚),而非依赖预设数据,适用于动态决策任务。
03
新知讲解
1
人类的强化学习
1. 强化学习的核心机制
智能体通过与环境交互获得 奖励/惩罚 反馈,以“试错”方式逐步优化策略,追求长期累积奖励最大化。
03
新知讲解
1
人类的强化学习
2. 人类学习的类比
类比婴儿学步:通过摔倒(负反馈)和站稳(正反馈)自主调整动作,父母不直接指导,而是通过反馈间接引导,体现强化学习的 自主探索 特性。
03
新知讲解
1
人类的强化学习
3. 强化学习
强化学习是一种有别于监督学习和无监督学习的另一种学习方法。
03
新知讲解
1
人类的强化学习
4. 强化学习的反馈特征
反馈具有 延迟性 (如多步动作后获得最终得分)和 稀疏性 (仅关键节点有反馈),需通过经验积累实现策略迭代优化。
03
新知讲解
1. 强化学习的核心机制
智能体通过与环境交互获得 即时奖励/惩罚 (得分/丢分),以“试错”方式优化策略,追求 长期累积奖励最大化 。
2
强化学习方法
03
新知讲解
2.策略与状态的定义
策略 指导智能体在特定状态下选择最优动作,同时需权衡 当前奖励 与 未来潜在收益 以实现长期回报最大化。
2
强化学习方法
03
新知讲解
3. 持续学习的应用扩展
在机器人等 持续交互 场景中,智能体需实时根据反馈调整策略,实现动态环境下的渐进式优化。
2
强化学习方法
03
新知讲解
3
强化学习的应用领域
1. 机器人运动控制训练
强化学习通过设计奖励机制,使机器人从随机动作中自主学习复杂技能,大幅缩短训练周期。
03
新知讲解
3
强化学习的应用领域
2. 机器人操作技能学习
传统方法依赖手动编程,而强化学习通过反复试错,让机器人自主调整力度与角度,实现对新物体的自适应抓取,成功率超越传统规则系统。
03
新知讲解
3
强化学习的应用领域
3. 棋类游戏的策略突破
AlphaGo通过数百万局自我对弈获得奖励/惩罚信号,不断优化策略,最终在围棋等完美信息游戏中超越人类顶尖选手,展现强化学习的策略生成能力。
03
新知讲解
3
强化学习的应用领域
4. 即时战略游戏的挑战征服
AlphaStar在《星际争霸Ⅱ》等不完全信息、实时决策游戏中,通过对战与自我对战优化资源管理与军事策略,达到人类宗师水平(前0.2%),体现强化学习处理复杂动态环境的能力。
03
新知讲解
3
强化学习的应用领域
5. 多领域应用的扩展性
强化学习已拓展至自动驾驶、金融交易等领域,通过环境交互学习最优策略,解决连续决策问题。
03
新知讲解
3
强化学习的应用领域
6. 强化学习的核心优势
无需预设规则,通过环境反馈自主学习,擅长解决动态、连续决策任务,突破传统编程限制。
03
新知讲解
4
总结
1. 强化学习的核心特征与价值
强化学习通过与 环境交互试错 积累经验,自主探索最优策略,是AI在动态、未知场景中实现智能的关键方法。
03
新知讲解
4
总结
2. 当前应用的广泛性
已成熟应用于 棋牌游戏 (AlphaGo)、 机器人训练 (运动控制)、 可成长智能体 (自适应决策)等领域,解决复杂序列决策问题。
03
新知讲解
4
总结
3. 未来融合与突破方向
与 大模型(如ChatGPT)+机器人 结合:通过物理交互获取真实世界反馈,利用强化学习优化模型策略,赋予AI 探索与适应现实世界 的能力,实现具身智能突破。
03
新知讲解





(1)强化学习通过环境交互的试错反馈优化策略(动态决策),监督学习依赖标注数据训练模型(静态映射),无监督学习则从无标注数据中发现隐藏模式(结构挖掘)。
1.请比较强化学习与监督学习、无监督学习的主要区别。
04
课堂练习
一、判断题。
1. 强化学习完全依赖于预先标注好的大量数据进行训练。 ( )
2. 在强化学习中,智能体的每一个动作都能立即获得清晰的奖励或惩罚反馈。 ( )
3. 类比婴儿学步,是通过父母的直接动作指导来学会走路的。 ( )
4. 传统机器人抓取主要依靠手动编程规则,而强化学习可以让机器人通过试错自主学习。 ( )
5. 强化学习只能应用于游戏领域,无法解决现实世界的复杂问题。 ( )
×
×
×

×
04
课堂练习
二、选择题
1. 强化学习与监督学习的主要区别在于?( )
A. 是否需要训练数据 B. 学习目标是否为分类
C. 是否通过环境交互获取反馈信号 D. 是否需要人工标注数据
2. 强化学习中的核心挑战之一是平衡?( )
A. 速度与精度 B. 利用已知与探索未知 C. 成本与效益 D. 输入与输出
3. 以下哪项是强化学习反馈信号的特点?( )
A. 即时且密集 B. 预设且固定 C. 延迟且稀疏 D. 无需反馈
4. AlphaStar在哪个游戏中达到了人类宗师水平?( )
A. 围棋 B. 国际象棋
C. 星际争霸Ⅱ D. 自动驾驶
C
B
C
C
04
课堂练习
三、填空题
1. 强化学习是一种通过与环境 来获取反馈信号(如奖励或惩罚)的学习范式。
2. 强化学习中,智能体追求的目标是 最大化。
3. 在强化学习中, 指导智能体在特定状态下选择最优动作。
4. AlphaGo通过数百万局 来优化策略,最终战胜人类顶尖棋手。
5. 强化学习在机器人训练中的应用,可以使其通过 自主学习复杂技能,如行走和抓取。
交互
长期累积奖励
策略
自我对弈
试错
05
拓展延伸
1.马尔可夫决策过程 (MDP) :这是强化学习最常用的数学模型,用于描述可完全观测的环境下的决策问题,包括状态、动作、奖励和状态转移概率等核心概念。
05
拓展延伸
2. 策略梯度方法 (Policy Gradient Methods) :另一类强化学习算法,直接优化策略本身(即状态到动作的映射),而不是像Q-learning那样先学习价值函数。适合处理连续动作空间。
05
拓展延伸
3.多智能体强化学习 (Multi-Agent RL) :研究多个智能体在共享环境中同时学习并相互作用的领域,其复杂性远高于单智能体,涉及合作、竞争等关系。
06
课堂总结
1
人类的强化学习
2
强化学习方法
3
强化学习的应用领域
4
总结
5
进行相关知识拓展
1
2
3
4
5
强化学习
07
板书设计
强化学习
1、人类的强化学习
2、强化学习方法
3、强化学习的应用领域
4、总结
5、进行相关知识拓展
课后作业。
1、请简述强化学习的核心流程,并解释“奖励机制”和“策略优化”在其中所起的作用。
08
课后作业
(1)强化学习的核心流程是 智能体通过环境交互获得奖励信号,并基于此优化策略 :奖励机制提供行为评价导向(如游戏得分),策略优化则通过调整动作选择规则(如神经网络参数)逐步逼近长期收益最大化。
1.请简述强化学习的核心流程,并解释“奖励机制”和“策略优化”在其中所起的作用。
https://www.21cnjy.com/recruitment/home/fine

展开更多......

收起↑

资源预览