第3单元 第2课 《图像生成模型》 课件+素材 清华大学版 信息科技 八年级下册

资源下载
  1. 二一教育资源

第3单元 第2课 《图像生成模型》 课件+素材 清华大学版 信息科技 八年级下册

资源简介

(共41张PPT)
第3单元 第2课
图像生成模型
(清华大学版)八年级

1
核心素养目标
3
新知讲解
5
拓展延伸
7
板书设计
2
新知导入
4
课堂练习
6
课堂总结
课后作业
8
01
核心素养目标
信息意识
计算思维
数字化学习与创新
信息社会责任
意识到图像生成技术的社会责任,包括版权问题、虚假信息的生成、隐私保护等,培养负责任的技术使用意识。
鼓励利用数字工具和技术进行学习和创新,探索新的图像生成方法,生成自己需要的图像,推动艺术与科技的结合,激发创造力。
明确扩散模型生成图像的关键过程,能够通过学习图像生成模型,利用扩散模型生成自己需要的图像。
知道人工智能是如何生成图像的,了解扩散模型的起源并掌握其原理,熟悉人工智能生成图像的经典方法。
02
新知导入
本课中你将学习:
人工智能生成图像的经典方法有哪些
扩散模型生成图像的关键过程是什么
如何利用扩散模型生成自己需要的图像
02
新知导入
随着 AIGC 的爆火,人们不仅可以通过与机器聊天生成文案、创作诗歌,还能利用其进行大量的艺术创作。目前,人工智能生成的图像已经变得越来越逼真和自然,越来越具有艺术创意和独特性。这都得益于深度神经网络的快速发展,推动了众多图像生成大模型的出现,使模型的生成性能不断突破瓶颈。
02
新知导入
03
新知讲解
一、图像生成模型的原理
图像是一种特殊类型的数据,均匀分布在图像空间中。图 3.2.1 中的正方形区域代表图像所处的空间,其中每个点代表一张图像。图中“紫色”的点代表宠物猫的图像,宠物猫的图像在图像空间中呈现特殊的分布规律,如图 3.2.1 中的浅绿色阴影区域。
03
新知讲解
假设,现在希望机器能够自动生成宠物猫的图像,可以让机器在大量宠物猫的图像数据集里训练。训练过程中,机器会从提供的数据集(如图 3.2.1 中的紫色点)中学习宠物猫数据的真实分布规律,这个分布可以理解为宠物的毛发、种类、姿态等特征的统计规律。训练结束后,将得到一个模型,这个模型可以生成接近真实的宠物猫的图像(如图 3.2.1 中的红色点)。得到的这个模型就是图像生成模型。
03
新知讲解
具体来说,图像生成模型是一种深度神经网络模型,可以通过对大量图像数据的学习,找到图像数据的分布规律,然后按照规律,从图像数据空间中抽取样本,生成新的图像。生成模型学习的分布规律越接近图像的真实分布,则生成的图像质量越好。因为图像数据分布规律的复杂性,无法用经验规则或是显性的公式表达,只有通过大量数据的训练学习,才能实现图像生成模型的生成功能。目前,使用最为广泛的图像生成模型是生成对抗网络和扩散模型。
03
新知讲解
二、扩散模型的起源
扩散模型的起源可以追溯到热力学中的扩散过程,就是物质由高浓度的地方向低浓度的地方逐渐移动,最终形成一种各个方向均衡的状态。就像滴人水中的红墨水一样(见图 3.2.2),随着墨水扩散到水中,水逐渐变成了淡红色,墨水分子均匀地分布在水中。这种状态非常简单,易于描述,而墨水人水时的状态却是干姿百态的,很难描述和刻画。
03
新知讲解
假设扩散过程的每一步都可逆,只要扩散的“步子”足够小,就可以从当前的均匀分布状态,逆向推断出墨水最初人水的状态。用于图像生成的扩散模型,就是受这一原理的启发而提出来的。
03
新知讲解
以生成宠物猫的图像为例,直接给出猫的分布规律几乎是不可能的。想象一下,每次往清晰的猫的图像中随机加人噪声(与原图像无关的信息 ),随着时间的变化,加入的噪声越来越明显,图像会由清晰变模糊,最后完全变成雪花点(无法辨认原图像)的随机状态,如图 3.2.3 所示。这种随机状态就类似于墨水的均匀分布是易于描述的。然后训练一个模型学习逐渐加人的噪声,它就能逆向去除噪声,生成新的图像。
03
新知讲解
三、扩散模型的原理
扩散模型是一个先不断破坏(添加噪声),再逐步重建(去除噪声)的迭代生成的过程。
1.扩散模型的正向过程
正向加噪扩散过程如图 3.2.4 所示,图中x代表输人的真实图像,给真实图像x混人噪声会生成图像x,经过第r步加噪后可以得到图像x,,不断加噪直至第T步,图像会变成一幅没有任何含义的纯噪声图像x。7是预先定义的总的加噪步数,可以设置为 500、1000等。T值越大,消耗的算力越多。
03
新知讲解
在正向加噪扩散的过程中,从前到后每一步加的噪声都是不同的。开始时,清晰的原图上只需要稍微加点噪声,就能明显看出混入了噪点。随着加噪步数的增加,为了让每次加噪后图像都有显著的变化,噪声会加得越来越多。
03
新知讲解
2.扩散模型的训练
为了能够根据噪声图像生成新图像,需要训练一个神经网络预测正向所加的噪声。如图 3.25 所示,神经网络的输人有两项,分别是经过正向加噪的含有噪声的图像和当前的加噪步数"。
03
新知讲解
图 3.2.5 中输人的噪声图像就是通过正向加噪到第"步获得的图像。神经网络期望的输出就是正向第r步时加人的噪声,从而根据图像和噪声计算去噪,如图 3.2.6所示。扩散模型训练的目标,就是对[1,7]范围之间的任意步数的噪声图像,都能预测出其加人的噪声,从而恢复出上一时刻的图像,直至预测出第0时刻的图像,也就是生成新的图像。
03
新知讲解
3.扩散模型的反向过程
经过训练后,神经网络可以预测每一步加人图像的噪声,然后去除图像中的噪声,逐渐生成全新的图像,如图 3.2.7所示。
训练后的扩散模型学到了训练数据集的特征分布规律,而并不只是记住了数据集中的图像再进行简单复制生成,因此它会生成与数据集特征相似的全新图像。
03
新知讲解
阅读
生成对抗网络(generative adversarial network,GAN)是一类非常经典的生成模型。不同于扩散模型加噪去噪的生成原理,生成对抗网络是借助生成器和判别器间相互博弈的方式使生成器逐渐生成逼真的图像。
03
新知讲解
阅读
一个生成对抗网络包含两个基础网络:生成器(generator,简写为G,也称为生成网络)与判别器(discriminator,简写为D,也称为判别网络),两者既相互协作又相互对抗(见图3.2.8)。
03
新知讲解
阅读
其中,生成器用于生成新数据,其生成数据的基础往往是一组噪声或者随机数,这些噪声或随机数经过生成网络,变换为生成数据(比如图像),生成器的目标是生成尽量真实的数据,最好能够以假乱真,而判别器用于判断生成的数据和真实数据哪个是真的,其目标是让自己的判断准确性越来越高。
03
新知讲解
阅读
当生成器生成的数据越来越逼真时,判别器为维持准确性,就必须向判别能力越来越强的方向迭代。当判别器越来越强大时,生成器为了降低判别器的准确性,就必须生成越来越真的数据。这样不断地循环,直到生成器可以生成足够真实的数据,以至于判别器无法分辨真假。
03
新知讲解
4.扩散模型的生成示例
本册,我们借助手写数字图像数据集 MNIST,可以训练一个扩散模型,用于生成手写数字图像。MNIST 数据集的图像示例如图 3.2.9所示,该数据集共有 70000 张图像,其中训练集 60000张,测试集10000张。所有图像都是 28x28 像素的灰度图像,每张图像只包含一个手写数字。
03
新知讲解
训练生成手写数字扩散模型的过程如下:
① 声明深度神经网络模型;
②)加载数据集;
③定义模型结构为扩散模型,指定模型训练的优化器和参数;
④设置保存路径,训练扩散模型。
对应上述过程的关键程序如下:
03
新知讲解
运行上述程序,在 diffusion model-1文件夹下就会看到生成的扩散模型!basenn.pth。
应用扩散模型,反向去噪,实现图像生成的关键程序如下:
运行上述程序(接着训练生成手写数字扩散模型运行),便可看到生成的数字图像(见图 3.2.10)。
03
新知讲解
需要说明的是,在“扩散模型的原理”部分,我们仅以一张猫的图像为例,对图像的正向加噪过程和反向去噪过程进行了说明。但在这部分程序里,我们载人的数据集是包含0~9的所有数字图像,因此在训练模型开始之前,会对数据集中的所有数据进行加噪,然后在训练模型的过程中,会对所有的加噪图像如何恢复到原始图像的过程进行学习,从而得到一个生成数字图像的模型。因此,用到的这个模型推理生成的图像也是0~9的数字图像。
03
新知讲解
探 索
可以生成手写数字图像的扩散模型,在生成时能够生成指定的数字吗 如果能,为什么 如果不能,有什么方法可以生成指定的数字
扩散模型可以生成指定的手写数字图像。通过条件生成的方式,模型可以在生成过程中引入特定的条件信息(如数字标签),从而生成对应的数字图像。这是因为扩散模型在训练时学习了如何将随机噪声逐步转化为特定类别的图像,条件信息帮助模型在生成过程中引导其输出。
03
新知讲解
探 索
可以生成手写数字图像的扩散模型,在生成时能够生成指定的数字吗 如果能,为什么 如果不能,有什么方法可以生成指定的数字
如果不能直接生成指定的数字,可以考虑以下方法:
条件生成:使用条件扩散模型(如DDPM)来引入特定的数字标签。
后处理:生成后对图像进行分类和筛选,选择符合条件的图像。
使用其他模型:结合GAN(生成对抗网络)等其他生成模型,进行多模态生成。
03
新知讲解
收集感兴趣的某类图像数据,或者选用特定的图像数据集,根据扩散模型的训练过程,完成扩散模型的训练,并尝试生成新图像。观察生成的图像与真实图像数据集特征的差异,在图像的真实性、清晰度、多样性等方面评价生成的图像。具体如下:
(1)完善程序,加载图像数据集,完成扩散模型的训练;
(2)利用扩散模型,生成若干张图像,并展示其由噪声逐渐生成清晰图像的过程。
挑战
04
课堂练习
一、选择题
1、扩散模型的主要思想是:
A. 直接生成图像 B. 逐步去噪声生成图像
C. 通过对抗训练生成图像 D. 仅使用随机噪声生成图像
2、在图像生成模型中,条件生成的作用是:
A. 增加生成速度 B. 控制生成内容
C. 提高图像质量 D. 降低计算复杂度
3、下列哪种算法是常用于图像生成的模型?
A. 支持向量机 B. 生成对抗网络(GAN)
C. 决策树 D. 线性回归
B
B
B
04
课堂练习
4、在图像生成模型中,生成器的主要任务是:
A. 评估生成的图像质量 B. 提取图像特征
C. 识别图像中的对象 D.生成新的图像
. 进行激活操作
二、判断题
1、图像生成模型在艺术创作中没有实际应用。( )
2、扩散模型只能生成随机图像,无法生成特定类别的图像。 ( )
3、生成对抗网络(GAN)由生成器和判别器两个部分组成。 ( )
4、图像生成技术不会引发任何伦理和法律问题。( )
D

X
X
X
04
课堂练习
三、操作题
使用扩散模型生成手写数字图像,要求生成的数字为“3”。请记录生成过程中的参数设置和结果。
05
拓展延伸
图像生成模型的应用
医疗行业:图像生成模型可以用于生成医学影像(如MRI、CT扫描等),帮助医生进行疾病诊断和治疗规划。例如,GAN可以生成高质量的医学图像,帮助医生在缺乏真实数据的情况下进行训练和测试。
娱乐行业:在游戏和电影制作中,图像生成模型可以用于创建虚拟角色、场景和特效。比如,使用深度学习生成的角色可以在动画中实现更自然的动作和表情。
05
拓展延伸
图像生成模型的应用
广告行业:图像生成技术可以用于创建个性化的广告内容。通过分析用户数据,生成模型可以生成符合用户偏好的广告图像,提高广告的点击率和转化率。
05
拓展延伸
图像生成技术带来的伦理法律问题
版权问题:生成的图像可能会侵犯原作者的版权,尤其是在使用已有作品进行训练时。解决方案包括明确使用条款、获取授权以及建立合理的使用标准。
虚假信息生成:图像生成技术可以被用于制造虚假信息或误导性内容,例如伪造新闻图片。应对措施包括开发检测工具、提高公众的媒体素养以及制定相关法律法规。
深度伪造:深度伪造技术可以生成逼真的假视频,可能被用于恶意目的。解决方案包括加强技术监管、建立深度伪造内容的标识系统以及开展公众教育。
05
拓展延伸
图像生成的未来趋势
更高的生成质量:随着技术的进步,未来的图像生成模型将能够生成更高分辨率和更真实的图像,甚至在细节和纹理上接近真实世界。
多模态生成:未来的模型可能会结合文本、音频等多种输入,生成更丰富的多媒体内容。例如,用户可以输入一段描述,模型生成相应的图像和音频。
05
拓展延伸
图像生成的未来趋势
自适应生成:图像生成模型将能够根据用户的反馈进行自我调整和优化,提供更加个性化的生成结果。
伦理和法律框架的完善:随着技术的普及,相关的伦理和法律框架将逐步建立,以应对图像生成技术带来的挑战,确保技术的安全和合规使用。
06
课堂总结
1
引入新知内容
图像生成模型
2
学习图像生成模型的原理
3
学习扩散模型的起源和原理
4
完成课堂练习
5
进行知识拓展
1
2
3
4
5
07
板书设计
图像生成模型
1、进行新知引入
2、学习图像生成模型的原理
3、学习扩散模型的起源和原理
4、完成课堂练习
5、进行知识拓展
课后作业:
1、完成图像生成模型调查报告。
2、设计条件扩散模型。
08
课后作业
1、选择一种图像生成模型(如GAN或VAE),进行文献调研,撰写一份总结报告,分析其优缺点及应用场景。
2、设计一个简单的条件扩散模型,使用MNIST数据集进行训练,生成指定的数字图像。
https://www.21cnjy.com/recruitment/home/fine

展开更多......

收起↑

资源列表