第3单元第3课《文本与图像的多模态模型》课件＋素材清华大学版信息科技八年级下册

资源简介

(共61张PPT)
第3单元第3课
文本与图像的多模态模型
（清华大学版）八年级
下
1
核心素养目标
3
新知讲解
5
拓展延伸
7
板书设计
2
新知导入
4
课堂练习
6
课堂总结
课后作业
8
01
核心素养目标
信息意识
计算思维
数字化学习与创新
信息社会责任
合理使用多模态模型生成图像，树立信息安全意识，提高社会责任感。
通过多模态模型的学习过程，实现文本和图像的多模态数据的交互和生成，提高创新能力。
能够优化提示语创作生成符合需求的内容，掌握如何将文本和提示语转化为图像的形式，会设计和实现简单的多模态创作。
了解多模态问题的概念，明晰根据文本提示生成图像的过程，熟练掌握借助跨模态生成工具进行图像创作的过程。
02
新知导入
本课中你将学习：
什么是多模态问题
如何根据文本提示生成图像
如何优化提示语创作生成符合需求的内容
02
新知导入
人工智能生成工具如同魔术师，不仅能施展神奇的力量，将提示语瞬间变幻为鲜活生动的文本佳作，还能将文字描绘一键转化为栩如生的视觉场景。试着让我们的灵感与科技碰撞出绚烂的火花吧!
02
新知导入
03
新知讲解
一、多模态模型
人类生活在一个由多种信息构成的世界中。人类可以借助眼、耳、口、鼻、皮肤等获取外界信息，这些信息包括文字、图像、语音、视频等多种类型的数据。这些不同的数据类型可以理解为模态，不同模态的数据有着不同的表达方式和表征空间。当研究的问题需要同时处理两种或多种模态的信息时，我们将其称为多模态问题。
03
新知讲解
对于多模态问题，可以借助多模态模型解决，将来自不同模态的信息融合起来，以便在它们之间建立语义联系。以文本与图像的多模态模型为例，可以通过多种方式实现不同模态的融合。比如，可以从文本和图像中提取特征，然后将这些特征映射到一个共同的特征空间中，建立文本和图像之间的语义联系，从而实现文本和图像的多模态数据的交互和生成。
03
新知讲解
二、根据文本生成图像
建立起文本和图像的多模态模型之后，就可以实现涉及文本和图像的各种跨模态任务，比如根据文本生成图像、图文检索、看图说话、图像编辑等，这极大地延伸了生成式人工智能应用的广度。
03
新知讲解
1. 根据文本生成图像的过程
输人文字“一只在街上奔跑的柯基狗”，生成模型很快就会生成一张图像,如图 3.3.1所示，画面主角是一只柯基狗，背景是街道，姿态是在奔跑。可以发现，图像中的内容和文本的描述非常匹配，文本涉及的关键词都能满足。
03
新知讲解
采用同样的文本指令时，生成模型会源源不断地输出不同的图像，且都符合文本的描述，如图 3.3.2所示。
图3.3.2根据提示语“一只在街上奔跑的柯基狗”生成的系列图像
03
新知讲解
生成模型就好比是不同的创作者，听到相同的指令，但是会产生不同的创作表达。在创作的过程中，生成模型不但要理解指令中每一个词语的含义及其对应的影像，还要补全文本中没有涉及的可能的想象，如街道两侧是高楼林立的居民区，还是红红火火的商业街柯基狗奔跑的姿态是双蹄腾空，还是左右蹄交替奔跑这些信息在文本中都没有明确表达，但是在生成图像的那一刻需要明确。
03
新知讲解
生成模型生成的这种图像，既符合事物规律，又带有随机性，可以理解为从一个分布空间中随机抽取样本，文本“奔跑的柯基狗”对应很多不同的可能状态，它们都符合这个文本描述，在生成的时候，生成模型会随机从这个文本描述对应的图像分布空间中抽取一个样本。
03
新知讲解
2. 编写提示语生成图像
目前，文本生成图像的模型功能非常强大，通过输人文字类型的提示语描述就能得到想要的图像。提示语可以按照一定的结构给出，一般包括画面主题、主题描述词、风格修饰词、画面质感增强词，每个提示语中间用逗号间隔。表 3.3.1展示了部分根据提示语生成的图像作品。
03
新知讲解
探索
选用合适的文本生成图像工具，根据不同的图像类型，设计合适的提示语，生成相应的图像。然后，从生成的图像中挑选出最符合期待的两张，并从图像生成的真实性、多样性、创意、意境、美感、图文匹配度等不同角度进行评价，填写在表3.3.2中。
03
新知讲解
表 3.3.2 根据提示语生成不同类型的图像并作出评价
03
新知讲解
三、多模态生成的创作过程
假如想生成一张“糯香满溢，端午寄思”的端午节明信片背景图，通过输人提示语“篮子里有若干粽子，整齐排列，粽叶青翠欲滴”，选择一种风格类型(如动画)和合适的生成比例(如4:3)，即可生成一幅基本符合预想的图像，如图 3.3.3 所示。
图 3.3.3 “文生图”生成的粽子图
03
新知讲解
若想让画面中的粽子呈现更多细节，或者修改图像的风格，但是不改变整体画面的构图，应该怎么办
通过修改提示语重新生成图像，新生成的图像具有一定的随机性，画面的整体构图很难维持，图生图可以解决这个问题。
03
新知讲解
1. 图生图模型
图生图模型可以在参考图的基础上，根据提示语的描述生成新的图像，图 3.3.4 就是以图 3.3.3 中的粽子图作为参考图，并根据新的提示语“刚出炉的粽子，粽子上还有小水珠”以及新的风格类型“油画”所生成的。新生成的图像，整体构图与图 3.3.3 中的粽子图区别不大，但是呈现出了更多的细节，如新的绘图风格以及粽子上的小水珠等。
图 3.3.4 “图生图”生成的粽子图
03
新知讲解
上述过程就是图生图工具的基本使用方法。在图生图工具中，输人的内容包含两种模态的数据，分别是作为参考的参考图和指导模型生成新图像的提示语。通俗来说，模型将理解文本提示语，并以提示语中的内容作为要求去修改参考图。利用“文本提示语+参考图”的方式进行图像创作可在一定程度上减少图像生成的随机性，从而得到更符合期望的图像。
03
新知讲解
阅读
每种风格类型背后都对应一个基础模型。每个基础模型都是采用深度学习算法基于大量数据学习得到的大型神经网络模型，它能够根据提示语的描述，生成高质量的图像或完成复杂的任务。为了帮助理解，可以把各类基础模型想象成智能画家，它们都经过了大量的训练掌握了许多绘画的技巧和风格。不同的是，这些智能画家擅长的绘画风格各不相同，有的擅长写实，有的擅长素描，有的擅长油画……如果想要生成油画风格的图像，那么应选择对应的基础模型，这样得到的艺术作品才会更符合所期望的风格。
03
新知讲解
2. 图像的局部编辑
假如想改变生成的图像中的某个物体或某个局部区域，应该怎么办
图像的局部编辑功能可以解决这个问题。图像的局部编辑也是多模态生成的一个重要功能，它能根据用户选定的区域以及输人的文本提示语，同时考虑原图像的内容信息，将原图像选定区域修改成文本提示语所描述的效果。可以使用鼠标进行点选或者框选选定待修改区域或对象，选中后，编写文本提示语，描述被选中区域或对象想要生成的图像即可。利用这个功能，可以实现图像局部换物或去除、添加物品，改变细节等效果。
03
新知讲解
例如，图 3.3.5 展示了去除图像局部内容的操作。原图像中存在多余的绳结，选中多余的部分，然后使用图像编辑中的“智能清除”功能消除将画面中的选中区域消除后的图像的效果如图 3.3.6 所示。
图 3.3.5 “智能清除”消除冗余元素
图 3.3.6 继续编辑“智能清除”后的图片
03
新知讲解
如果想让画面中的某个粽子呈现被剥开的状态，可以使用“点选”选中这个粽子，并输人文本提示语“被剥开的粽子，里面是白色的糯米和红枣”，模型便会输出图 3.3.7。
图3.3.7 再次编辑选中对象生成的效果图
03
新知讲解
刚才所选中的被粽叶包裹好的粽子变成了被剥开的状态，并露出了糯米和馅料。这里涉及的原理是在原图贴上蒙版并编写提示语描述想要修改的效果。怎么理解蒙版
蒙版是一种非破坏性的编辑工具，核心作用在于通过一种灵活的方式帮助用户实现局部编辑并且这种编辑是可以随时修改和撤销的。
03
新知讲解
阅读
图像变成动图或者视频后，其表现力会明显增强。如何让生成的图像动起来
视频生成工具可以解决这个问题。视频生成工具可以根据给定的提示语、图像或视频中的单模态数据或者多模态数据，生成符合期望的视频内容。按照生成时输入的数据划分，视频生成工具可以分为文生视频、文图生视频、视频生视频等多种形式。
03
新知讲解
阅读
图 3.3.8是一个文图生视频的工具示例:利用图3.3.7作为参考图，并编写期望生成视频效果的提示语“从画面右侧至左侧，阳光逐渐照亮画面的过程，生动展现光影交错的瞬间”，选择风格模型“动画”和动效强度参数，最终能够得到一个动态效果的视频。其中，动效强度数值越大，生成的效果越夸张，与原图的相似度越低;反之，数值越小，与原图的相似度越高，动效幅度越小。
图3.3.8 文图生成动态视频过程图
03
新知讲解
四、高质量提示语的编写指南
在多模态生成任务中，输人模型的提示语是用于引导模型生成特定类型内容的一组指令及信息。这些提示语包括文本描述、参考图像、视频等多种模态，实际生成时，提示语可以是单一模态的，也可以是多模态混合的。例如，借助大语言模型助手文生文时，提示语就是文本这种单一模态:使用图像局部编辑工具时，提示语包含文本描述和参考图像，这就属于多模态混合。
03
新知讲解
不难发现，使用生成式人工智能工具创作时，基本上都需要编写文本类的提示语。因此，文本提示语编写的质量是保证生成作品效果的关键。
1.文本提示语编写指南
大语言模型聊天助手能够回答任何问题，但是有时候它给出的“案”并不是你期望的内容。实际上，大语言模型聊天助手的回往往会基于某个上下文背景，因此，上下文提示是使用此类工具的人门技巧。
03
新知讲解
上下文提示是指在提出问题前，向大模型提供背景或者情境信息，甚至为大语言模型助手分配合适的角色，引导模型根据预设的“身份”提供更相关、更有针对性的输出内容。例如，想给明信片配上与端午节相关的文案，可以将模型设定为“文创用品设计师”，从而激发它的创造力和专业性，如图 3.3.9 所示。
图3.3.9 提出清晰且明确的指令
03
新知讲解
多轮对话是使用大语言模型助手的另一个技巧。在与大语言模型助手进行对话时，很难一步到位生成令我们满意的内容。大语言模型助手具备较强的上下文理解能力，可以通过多轮对话的方法，获得更全面的答案。比如，提供具体示例，供大语言模型助手模仿。
03
新知讲解
如果想要类似于“无论咸甜，阖家团圆才是最好的馅”这样的文案，就可以告诉模型参照样例进行仿写，模型的回答如图 3.3.10 所示。
图3.3.10 提供参考示例
03
新知讲解
表 3.3.3 给出了与大语言模型助手进行多轮对话的详细记录。每轮对话重新生成的内容可能或多或少会出现字数过多、侧重点偏离、生成的示例数量不够等问题。因而，在接收到模型的回答后，需要仔细检查是否符合要求。可以在下一轮的提问中加人明确的关键字、词或短语，对上一轮生成的内容提出更加明确的要求，以确保模型能够正确理解问题。
03
新知讲解
表 3.3.3 与大语言模型助手进行多轮对话记录表
03
新知讲解
表 3.3.3 与大语言模型助手进行多轮对话记录表
03
新知讲解
续表
03
新知讲解
除了上述提问技巧以外，和大语言模型助手交流时还要留意以下几点。首先，尽量避免提出涉及主观判断的问题，因为模型不具备个人情感和价值立场，无法给出类似“你认为哪种方案更好”的主观评价。例如，在需要探讨某种观点时，可以明确询问“有哪些关于该话题的不同看法或观点”。其次，在与模型互动时，务必确保问题及潜在回答不触碰道德与法律底线。例如，不要尝试引导模型提供破解密码、侵犯他人隐私等违法违规信息。在合法、合乎道德规范的前提下使用大语言模型助手，使其在解答疑惑、辅助决策等方面发挥积极正面的作用。
03
新知讲解
2. 图像提示语编写指南
在生成图像这类视觉内容时，提示语的精心设计与构建至关重要。和大语言模型提示语不同的是，文生图的提示语更关注视觉元素的具体呈现与艺术效果。
表 3.3.4 给出了三个不同细腻度的提示语示例。对比不同细腻度的提示语所生成图像的效果，不难发现，提示语的语义信息的丰富程度不同，生成的图像在视觉表现力和细节还原度上有明显的差别。
03
新知讲解
如表 3.3.4 所示，根据提示语“端午划龙舟”生成的图像，相比后两张图像，缺少了光照、环境及艺术风格等多层次的细节呈现，而风格化的图像往往能够传达特定的情感或氛围，合适的构图和独特的视角可以提升图像的视觉表现力。丰富的语义信息能够指导大语言模型更精确地捕捉并理解用户的创作意图。例如，在提示语中给模型提供主体对象的细节描绘(如形状、颜色、纹理、光照等)和画面空间布局的细节描述。
03
新知讲解
此外，使用特定引导词，如“中国山水画风格”或“庄重且祥和的节日氛围”等，可以有效地指导模型生成特定的艺术风格、情绪氛围等。
03
新知讲解
03
新知讲解
同时，为了使模型能够更好地理解并构建出一个完整、协调且符合用户意图的视觉场景，要确保提示语之间具备逻辑关联性。例如，如果希望生成一幅以“端午划龙舟”为主题的图像，提示语不应仅以孤立的元素描述“端午划龙舟”，而应该将与这个主题相关的元素有机地联系起来，如“华美的龙舟停泊在波光粼粼的江畔，在和煦的阳光下熠熠生辉，映衬出端午节庄重且祥和的节日氛围”。
03
新知讲解
这样，模型就能够通过分析这些关联性强的提示语，理解整个画面的空间布局、时间情境及情感基调，并基于此创作出既符合描述又富有艺术感的高质量图像作品。
03
新知讲解
试着以“大美新疆”为主题，撰写一段提示语生成一幅可以充分展现“新疆地貌特色，风景如画”的高质量图像。思考一下，提示语中必须包含哪些内容对比一下各小组生成图像的效果和提供的提示语，思考并讨论:优质的作品究竟好在哪里什么样的提示语能生成优质的作品？
提示语：请生成一幅展现“大美新疆”的高质量图像，画面应包含壮丽的天山、辽阔的草原、丰富的民族文化和独特的沙漠景观，色彩鲜艳，光影交错，展现新疆的自然风光与人文魅力。
挑战
03
新知讲解
提示语内容要素：
主题（大美新疆）
地貌特色（天山、草原、沙漠）
文化元素（民族文化）
色彩与光影（鲜艳、交错）
优质的作品通常具备以下特点：
清晰的主题表达、细致的细节描绘、良好的色彩搭配与光影效果以及文化内涵的传达。
挑战
04
课堂练习
一、选择题
1、多模态模型主要是指：
A. 只处理文本数据的模型
B. 只处理图像数据的模型
C. 同时处理文本和图像数据的模型
D. 只处理音频数据的模型
2、在多模态学习中，信息融合的主要目的是：
A. 增加数据量 B. 提高模型的准确性
C. 简化模型结构 D. 降低计算复杂度
C
B
04
课堂练习
3、多模态模型的应用场景不包括以下哪项？
A. 图像描述生成
B. 情感分析
C. 语音识别
D. 视觉问答
4、多模态模型主要是指结合哪两种类型的数据进行处理？
A.文本和图像 B. 文本和音频
C. 图像和视频 D. 音频和视频
C
A
04
课堂练习
5、在多模态模型中，常用的深度学习框架是：
A. Excel B. TensorFlow C. Photoshop D. Word
二、判断题
1、多模态模型只能用于图像识别任务。（）
2、在多模态学习中，模型的性能通常会随着模态数量的增加而提高。（）
3、多模态模型只能处理文本和图像两种模态。（）
4、视觉问答（Visual Question Answering）是多模态模型的一种应用。（）
B
√
√
X
X
04
课堂练习
三、操作题
图像-文本配对任务：
任务描述：给定一组图像和描述这些图像的文本，要求学生设计一个模型来判断每个图像是否与相应的文本匹配。
操作：使用预训练的多模态模型（如 CLIP）进行图像-文本配对训练。数据集可以选择 MS-COCO 或 Flickr30k 等图像-文本数据集。
输出：根据图像和文本的相似度得分，判断文本和图像是否匹配，输出准确率和召回率。
05
拓展延伸
多模态模型在实际应用中的案例
图像字幕生成（Image Captioning）：这种技术结合了计算机视觉和自然语言处理，用于自动生成图像的描述。例如，给定一张风景照片，模型会生成描述性文字，如“这是一个阳光明媚的海滩”。
多模态情感分析：通过结合图像、语音和文本信息，分析社交媒体上的情感。例如，社交媒体上的帖子可能包括文本、图片和视频，模型可以综合所有模态的数据来分析用户的情感倾向。
05
拓展延伸
多模态模型在实际应用中的案例
视觉问答（Visual Question Answering, VQA）：结合了图像和文本的内容，用户可以向模型提出与图像相关的问题，模型会基于图像和相关文本信息提供答案。
例如，用户可能问“这张图中有什么动物？”模型则需要通过分析图像中的内容并结合语言模型给出回答。
05
拓展延伸
多模态数据预处理
分词（Tokenization）：将文本拆分成单词、子词或字符。常见的分词方法包括基于空格的分词、基于词典的分词（如中文分词）、基于子词的分词（如BPE）。
去停用词（Stopword Removal）：去除对文本分析无用的常见词汇，如“的”、“是”、“在”等。停用词的去除有助于减少计算复杂度和噪声。
词干提取和词形还原（Stemming and Lemmatization）：将词汇归一化至基础形式。例如，将“running”和“ran”都归一化为“run”。
文本编码：将文本转换为数字化形式，常用的有词袋模型、TF-IDF、Word2Vec等。
05
拓展延伸
多模态数据预处理
缩放（Resizing）：将图像的尺寸调整到统一大小，以便输入到神经网络中。常用的缩放方法有保持宽高比缩放、裁剪等。
归一化（Normalization）：将像素值映射到一个标准范围，通常是将像素值归一化到0到1之间，或者减去均值、除以标准差，使数据的分布更为稳定。
数据增强（Data Augmentation）：通过随机裁剪、旋转、翻转、改变亮度等方法增加训练数据的多样性，提高模型的泛化能力。
去噪（Denoising）：对图像进行去噪处理，消除图像中的不必要噪声，如使用滤波器去除噪点。
05
拓展延伸
模型融合方法
早期融合（Early Fusion）：
方法：将不同模态的数据在输入模型之前进行合并。例如，将图像和文本特征在输入到模型前进行拼接或联合处理。
优点：可以有效利用不同模态之间的互补信息、适用于多模态输入需要同时进行处理的任务。
缺点：需要更多的计算资源，因为要处理更多维度的数据、如果不同模态之间的特征不对齐或信息冗余较多，可能会影响模型的效果。
05
拓展延伸
模型融合方法
晚期融合（Late Fusion）：
方法：各个模态的模型分别独立处理数据，最终将每个模态模型的输出结果进行合并，如通过投票、加权平均等方法。
优点：更加灵活，可以单独优化每个模态的模型，避免过多的数据交互、适用于不同模态信息分布差异较大的情况。
缺点：可能错过模态之间的潜在关联，不能充分挖掘模态间的互补信息、融合过程可能导致信息损失，影响最终性能。
05
拓展延伸
模型融合方法
混合融合（Hybrid Fusion）：
方法：结合早期融合和晚期融合的策略，先对不同模态进行单独处理，随后在某个中间阶段进行融合。
优点：可以最大限度地利用不同模态之间的互补信息，且不会过度依赖单一模态、灵活性较高，能够平衡不同模态的权重。
缺点：实现较为复杂，需要精心设计中间层的融合策略、可能存在过拟合风险，因为要对不同模态的特征进行多次融合和处理。
06
课堂总结
1
引入新知内容
文本与图像的多模态模型
2
认识多模态模型和文本生成图像
3
学习多模态生成的创作过程
4
学习高质量提示语的编写指南
5
进行知识拓展
1
2
3
4
5
07
板书设计
文本与图像的多模态模型
1、进行新知引入
2、认识多模态模型和文本生成图像
3、学习多模态生成的创作过程
4、学习高质量提示语的编写指南
5、进行知识拓展
课后作业。
1、对比分析常见的多模态模型。
2、课堂总结。
08
课后作业
1、对比几种常见的多模态模型（如 CLIP、VisualBERT、LXMERT），分析它们的优缺点以及适用场景。
2、总结本课所学内容。
https://www.21cnjy.com/recruitment/home/fine

展开更多......

收起↑

请用微信扫码

第3单元 第3课 《文本与图像的多模态模型》 课件＋素材 清华大学版 信息科技 八年级下册

第3单元 第3课 《文本与图像的多模态模型》 课件＋素材 清华大学版 信息科技 八年级下册

第3单元第3课《文本与图像的多模态模型》课件＋素材清华大学版信息科技八年级下册

第3单元第3课《文本与图像的多模态模型》课件＋素材清华大学版信息科技八年级下册