第3单元 第3课 《文本与图像的多模态模型》 教案 清华大学版 信息科技 八年级下册

资源下载
  1. 二一教育资源

第3单元 第3课 《文本与图像的多模态模型》 教案 清华大学版 信息科技 八年级下册

资源简介

中小学教育资源及组卷应用平台
第3课教学设计
课题 文本与图像的多模态模型 单元 第三单元 学科 信息科技 年级 八年级下
核心素养目标 信息意识:了解多模态问题的概念,明晰根据文本提示生成图像的过程,熟练掌握借助跨模态生成工具进行图像创作的过程。计算思维:能够优化提示语创作生成符合需求的内容,掌握如何将文本和提示语转化为图像的形式,会设计和实现简单的多模态创作。数字化学习与创新:通过多模态模型的学习过程,实现文本和图像的多模态数据的交互和生成,提高创新能力。信息社会责任:合理使用多模态模型生成图像,树立信息安全意识,提高社会责任感。
教学重点 1、掌握文本生成图像的原理,能够设计和实现简单的多模态创作
教学难点 1、熟练掌握借助跨模态生成工具进行图像创作的过程
教学过程
教学环节 教师活动 学生活动 设计意图
导入新课 板书课题。本课中你将学习什么是多模态问题如何根据文本提示生成图像如何优化提示语创作生成符合需求的内容人工智能生成工具如同魔术师,不仅能施展神奇的力量,将提示语瞬间变幻为鲜活生动的文本佳作,还能将文字描绘一键转化为栩如生的视觉场景。试着让我们的灵感与科技碰撞出绚烂的火花吧!观看教学视频 学习新知引入,观看教学视频。 用提问的方式引入课题,增强课堂互动性。将学生的注意吸引到课堂。
讲授新课 新知讲解一、多模态模型人类生活在一个由多种信息构成的世界中。人类可以借助眼、耳、口、鼻、皮肤等获取外界信息,这些信息包括文字、图像、语音、视频等多种类型的数据。这些不同的数据类型可以理解为模态,不同模态的数据有着不同的表达方式和表征空间。当研究的问题需要同时处理两种或多种模态的信息时,我们将其称为多模态问题。对于多模态问题,可以借助多模态模型解决,将来自不同模态的信息融合起来,以便在它们之间建立语义联系。以文本与图像的多模态模型为例,可以通过多种方式实现不同模态的融合。比如,可以从文本和图像中提取特征,然后将这些特征映射到一个共同的特征空间中,建立文本和图像之间的语义联系,从而实现文本和图像的多模态数据的交互和生成。二、根据文本生成图像建立起文本和图像的多模态模型之后,就可以实现涉及文本和图像的各种跨模态任务,比如根据文本生成图像、图文检索、看图说话、图像编辑等,这极大地延伸了生成式人工智能应用的广度。1. 根据文本生成图像的过程输人文字“一只在街上奔跑的柯基狗”,生成模型很快就会生成一张图像,如图 3.3.1所示,画面主角是一只柯基狗,背景是街道,姿态是在奔跑。可以发现,图像中的内容和文本的描述非常匹配,文本涉及的关键词都能满足。采用同样的文本指令时,生成模型会源源不断地输出不同的图像,且都符合文本的描述,如图 3.3.2所示。生成模型就好比是不同的创作者,听到相同的指令,但是会产生不同的创作表达。在创作的过程中,生成模型不但要理解指令中每一个词语的含义及其对应的影像,还要补全文本中没有涉及的可能的想象,如街道两侧是高楼林立的居民区,还是红红火火的商业街 柯基狗奔跑的姿态是双蹄腾空,还是左右蹄交替奔跑 这些信息在文本中都没有明确表达,但是在生成图像的那一刻需要明确。生成模型生成的这种图像,既符合事物规律,又带有随机性,可以理解为从一个分布空间中随机抽取样本,文本“奔跑的柯基狗”对应很多不同的可能状态,它们都符合这个文本描述,在生成的时候,生成模型会随机从这个文本描述对应的图像分布空间中抽取一个样本。2. 编写提示语生成图像目前,文本生成图像的模型功能非常强大,通过输人文字类型的提示语描述就能得到想要的图像。提示语可以按照一定的结构给出,一般包括画面主题、主题描述词、风格修饰词、画面质感增强词,每个提示语中间用逗号间隔。表 3.3.1展示了部分根据提示语生成的图像作品。探索选用合适的文本生成图像工具,根据不同的图像类型,设计合适的提示语,生成相应的图像。然后,从生成的图像中挑选出最符合期待的两张,并从图像生成的真实性、多样性、创意、意境、美感、图文匹配度等不同角度进行评价,填写在表3.3.2中。三、多模态生成的创作过程假如想生成一张“糯香满溢,端午寄思”的端午节明信片背景图,通过输人提示语“篮子里有若干粽子,整齐排列,粽叶青翠欲滴”,选择一种风格类型(如动画)和合适的生成比例(如4:3),即可生成一幅基本符合预想的图像,如图 3.3.3 所示。若想让画面中的粽子呈现更多细节,或者修改图像的风格,但是不改变整体画面的构图,应该怎么办 通过修改提示语重新生成图像,新生成的图像具有一定的随机性,画面的整体构图很难维持,图生图可以解决这个问题。1. 图生图模型图生图模型可以在参考图的基础上,根据提示语的描述生成新的图像,图 3.3.4 就是以图 3.3.3 中的粽子图作为参考图,并根据新的提示语“刚出炉的粽子,粽子上还有小水珠”以及新的风格类型“油画”所生成的。新生成的图像,整体构图与图 3.3.3 中的粽子图区别不大,但是呈现出了更多的细节,如新的绘图风格以及粽子上的小水珠等。上述过程就是图生图工具的基本使用方法。在图生图工具中,输人的内容包含两种模态的数据,分别是作为参考的参考图和指导模型生成新图像的提示语。通俗来说,模型将理解文本提示语,并以提示语中的内容作为要求去修改参考图。利用“文本提示语+参考图”的方式进行图像创作可在一定程度上减少图像生成的随机性,从而得到更符合期望的图像。阅读每种风格类型背后都对应一个基础模型。每个基础模型都是采用深度学习算法基于大量数据学习得到的大型神经网络模型,它能够根据提示语的描述,生成高质量的图像或完成复杂的任务。为了帮助理解,可以把各类基础模型想象成智能画家,它们都经过了大量的训练掌握了许多绘画的技巧和风格。不同的是,这些智能画家擅长的绘画风格各不相同,有的擅长写实,有的擅长素描,有的擅长油画……如果想要生成油画风格的图像,那么应选择对应的基础模型,这样得到的艺术作品才会更符合所期望的风格。2. 图像的局部编辑假如想改变生成的图像中的某个物体或某个局部区域,应该怎么办 图像的局部编辑功能可以解决这个问题。图像的局部编辑也是多模态生成的一个重要功能,它能根据用户选定的区域以及输人的文本提示语,同时考虑原图像的内容信息,将原图像选定区域修改成文本提示语所描述的效果。可以使用鼠标进行点选或者框选选定待修改区域或对象,选中后,编写文本提示语,描述被选中区域或对象想要生成的图像即可。利用这个功能,可以实现图像局部换物或去除、添加物品,改变细节等效果。例如,图 3.3.5 展示了去除图像局部内容的操作。原图像中存在多余的绳结,选中多余的部分,然后使用图像编辑中的“智能清除”功能消除将画面中的选中区域消除后的图像的效果如图 3.3.6 所示。如果想让画面中的某个粽子呈现被剥开的状态,可以使用“点选”选中这个粽子,并输人文本提示语“被剥开的粽子,里面是白色的糯米和红枣”,模型便会输出图 3.3.7。刚才所选中的被粽叶包裹好的粽子变成了被剥开的状态,并露出了糯米和馅料。这里涉及的原理是在原图贴上蒙版并编写提示语描述想要修改的效果。怎么理解蒙版 蒙版是一种非破坏性的编辑工具,核心作用在于通过一种灵活的方式帮助用户实现局部编辑并且这种编辑是可以随时修改和撤销的。阅读图像变成动图或者视频后,其表现力会明显增强。如何让生成的图像动起来 视频生成工具可以解决这个问题。视频生成工具可以根据给定的提示语、图像或视频中的单模态数据或者多模态数据,生成符合期望的视频内容。按照生成时输入的数据划分,视频生成工具可以分为文生视频、文图生视频、视频生视频等多种形式。图 3.3.8是一个文图生视频的工具示例:利用图3.3.7作为参考图,并编写期望生成视频效果的提示语“从画面右侧至左侧,阳光逐渐照亮画面的过程,生动展现光影交错的瞬间”,选择风格模型“动画”和动效强度参数,最终能够得到一个动态效果的视频。其中,动效强度数值越大,生成的效果越夸张,与原图的相似度越低;反之,数值越小,与原图的相似度越高,动效幅度越小。四、高质量提示语的编写指南在多模态生成任务中,输人模型的提示语是用于引导模型生成特定类型内容的一组指令及信息。这些提示语包括文本描述、参考图像、视频等多种模态,实际生成时,提示语可以是单一模态的,也可以是多模态混合的。例如,借助大语言模型助手文生文时,提示语就是文本这种单一模态:使用图像局部编辑工具时,提示语包含文本描述和参考图像,这就属于多模态混合。不难发现,使用生成式人工智能工具创作时,基本上都需要编写文本类的提示语。因此,文本提示语编写的质量是保证生成作品效果的关键。1.文本提示语编写指南大语言模型聊天助手能够回答任何问题,但是有时候它给出的“案”并不是你期望的内容。实际上,大语言模型聊天助手的回往往会基于某个上下文背景,因此,上下文提示是使用此类工具的人门技巧。上下文提示是指在提出问题前,向大模型提供背景或者情境信息,甚至为大语言模型助手分配合适的角色,引导模型根据预设的“身份”提供更相关、更有针对性的输出内容。例如,想给明信片配上与端午节相关的文案,可以将模型设定为“文创用品设计师”,从而激发它的创造力和专业性,如图 3.3.9 所示。多轮对话是使用大语言模型助手的另一个技巧。在与大语言模型助手进行对话时,很难一步到位生成令我们满意的内容。大语言模型助手具备较强的上下文理解能力,可以通过多轮对话的方法,获得更全面的答案。比如,提供具体示例,供大语言模型助手模仿。如果想要类似于“无论咸甜,阖家团圆才是最好的馅”这样的文案,就可以告诉模型参照样例进行仿写,模型的回答如图 3.3.10 所示。表 3.3.3 给出了与大语言模型助手进行多轮对话的详细记录。每轮对话重新生成的内容可能或多或少会出现字数过多、侧重点偏离、生成的示例数量不够等问题。因而,在接收到模型的回答后,需要仔细检查是否符合要求。可以在下一轮的提问中加人明确的关键字、词或短语,对上一轮生成的内容提出更加明确的要求,以确保模型能够正确理解问题。除了上述提问技巧以外,和大语言模型助手交流时还要留意以下几点。首先,尽量避免提出涉及主观判断的问题,因为模型不具备个人情感和价值立场,无法给出类似“你认为哪种方案更好”的主观评价。例如,在需要探讨某种观点时,可以明确询问“有哪些关于该话题的不同看法或观点”。其次,在与模型互动时,务必确保问题及潜在回答不触碰道德与法律底线。例如,不要尝试引导模型提供破解密码、侵犯他人隐私等违法违规信息。在合法、合乎道德规范的前提下使用大语言模型助手,使其在解答疑惑、辅助决策等方面发挥积极正面的作用。2. 图像提示语编写指南在生成图像这类视觉内容时,提示语的精心设计与构建至关重要。和大语言模型提示语不同的是,文生图的提示语更关注视觉元素的具体呈现与艺术效果。表 3.3.4 给出了三个不同细腻度的提示语示例。对比不同细腻度的提示语所生成图像的效果,不难发现,提示语的语义信息的丰富程度不同,生成的图像在视觉表现力和细节还原度上有明显的差别。如表 3.3.4 所示,根据提示语“端午划龙舟”生成的图像,相比后两张图像,缺少了光照、环境及艺术风格等多层次的细节呈现,而风格化的图像往往能够传达特定的情感或氛围,合适的构图和独特的视角可以提升图像的视觉表现力。丰富的语义信息能够指导大语言模型更精确地捕捉并理解用户的创作意图。例如,在提示语中给模型提供主体对象的细节描绘(如形状、颜色、纹理、光照等)和画面空间布局的细节描述。此外,使用特定引导词,如“中国山水画风格”或“庄重且祥和的节日氛围”等,可以有效地指导模型生成特定的艺术风格、情绪氛围等。同时,为了使模型能够更好地理解并构建出一个完整、协调且符合用户意图的视觉场景,要确保提示语之间具备逻辑关联性。例如,如果希望生成一幅以“端午划龙舟”为主题的图像,提示语不应仅以孤立的元素描述“端午划龙舟”,而应该将与这个主题相关的元素有机地联系起来,如“华美的龙舟停泊在波光粼粼的江畔,在和煦的阳光下熠熠生辉,映衬出端午节庄重且祥和的节日氛围”。这样,模型就能够通过分析这些关联性强的提示语,理解整个画面的空间布局、时间情境及情感基调,并基于此创作出既符合描述又富有艺术感的高质量图像作品。挑战试着以“大美新疆”为主题,撰写一段提示语生成一幅可以充分展现“新疆地貌特色,风景如画”的高质量图像。思考一下,提示语中必须包含哪些内容 对比一下各小组生成图像的效果和提供的提示语,思考并讨论:优质的作品究竟好在哪里 什么样的提示语能生成优质的作品?提示语:请生成一幅展现“大美新疆”的高质量图像,画面应包含壮丽的天山、辽阔的草原、丰富的民族文化和独特的沙漠景观,色彩鲜艳,光影交错,展现新疆的自然风光与人文魅力。提示语内容要素:主题(大美新疆)地貌特色(天山、草原、沙漠)文化元素(民族文化)色彩与光影(鲜艳、交错)优质的作品通常具备以下特点:清晰的主题表达、细致的细节描绘、良好的色彩搭配与光影效果以及文化内涵的传达。五、课堂练习完成PPT46页——49页课堂作业。六、拓展延伸1、多模态模型在实际应用中的案例图像字幕生成(Image Captioning):这种技术结合了计算机视觉和自然语言处理,用于自动生成图像的描述。例如,给定一张风景照片,模型会生成描述性文字,如“这是一个阳光明媚的海滩”。多模态情感分析:通过结合图像、语音和文本信息,分析社交媒体上的情感。例如,社交媒体上的帖子可能包括文本、图片和视频,模型可以综合所有模态的数据来分析用户的情感倾向。视觉问答(Visual Question Answering, VQA):结合了图像和文本的内容,用户可以向模型提出与图像相关的问题,模型会基于图像和相关文本信息提供答案。例如,用户可能问“这张图中有什么动物?”模型则需要通过分析图像中的内容并结合语言模型给出回答。2、多模态数据预处理分词(Tokenization):将文本拆分成单词、子词或字符。常见的分词方法包括基于空格的分词、基于词典的分词(如中文分词)、基于子词的分词(如BPE)。去停用词(Stopword Removal):去除对文本分析无用的常见词汇,如“的”、“是”、“在”等。停用词的去除有助于减少计算复杂度和噪声。词干提取和词形还原(Stemming and Lemmatization):将词汇归一化至基础形式。例如,将“running”和“ran”都归一化为“run”。文本编码:将文本转换为数字化形式,常用的有词袋模型、TF-IDF、Word2Vec等。缩放(Resizing):将图像的尺寸调整到统一大小,以便输入到神经网络中。常用的缩放方法有保持宽高比缩放、裁剪等。归一化(Normalization):将像素值映射到一个标准范围,通常是将像素值归一化到0到1之间,或者减去均值、除以标准差,使数据的分布更为稳定。数据增强(Data Augmentation):通过随机裁剪、旋转、翻转、改变亮度等方法增加训练数据的多样性,提高模型的泛化能力。去噪(Denoising):对图像进行去噪处理,消除图像中的不必要噪声,如使用滤波器去除噪点。3、模型融合方法早期融合(Early Fusion):方法:将不同模态的数据在输入模型之前进行合并。例如,将图像和文本特征在输入到模型前进行拼接或联合处理。优点:可以有效利用不同模态之间的互补信息、适用于多模态输入需要同时进行处理的任务。缺点:需要更多的计算资源,因为要处理更多维度的数据、如果不同模态之间的特征不对齐或信息冗余较多,可能会影响模型的效果。晚期融合(Late Fusion):方法:各个模态的模型分别独立处理数据,最终将每个模态模型的输出结果进行合并,如通过投票、加权平均等方法。优点:更加灵活,可以单独优化每个模态的模型,避免过多的数据交互、适用于不同模态信息分布差异较大的情况。 缺点:可能错过模态之间的潜在关联,不能充分挖掘模态间的互补信息、融合过程可能导致信息损失,影响最终性能。混合融合(Hybrid Fusion):方法:结合早期融合和晚期融合的策略,先对不同模态进行单独处理,随后在某个中间阶段进行融合。优点:可以最大限度地利用不同模态之间的互补信息,且不会过度依赖单一模态、灵活性较高,能够平衡不同模态的权重。缺点:实现较为复杂,需要精心设计中间层的融合策略、可能存在过拟合风险,因为要对不同模态的特征进行多次融合和处理。 学习多模态模型。学习根据文本生成图像。完成探索内容。学习多模态生成的创作过程。完成阅读。学生学习如何编辑图像的局部内容。完成阅读内容。认识并学习高质量提示语的编写指南。完成课题挑战互动。完成课堂练习。进行课外知识拓展。 初步讲述多模态模型,引导学生明确本课的主要研究内容。逐步讲述根据文本生成图像内容,帮助学生更好的理解文本生成图像的过程,编写提示语等内容,培养学生思考能力和学习能力。结合具体的要求进行知识点考察,让知识点更生动形象易于理解。提高学生的学习能力。结合具体的案例进行多模态生成创作过程的讲解,强化学生所学知识。帮助学生更好的掌握本课知识点内容。引导学生学习更加细致的图像编辑办法,提高图像生成的完整性和美观性。帮助学生系统的熟知知识点内容,提高学生学习的深度和广度。引导学生优化生成语言文字的描述,以此帮助生成更好的图片。考察学生的思考能力和学以致用的能力,调动课题参与性。在课堂练习中强化所学知识内容。拓宽学生知识面。
课堂小结 文本与图像的多模态模型1、进行新知引入2、认识多模态模型和文本生成图像3、学习多模态生成的创作过程4、学习高质量提示语的编写指南5、进行知识拓展 总结回顾 对本节课内容进行总结概括。
课后作业 1、对比几种常见的多模态模型(如 CLIP、VisualBERT、LXMERT),分析它们的优缺点以及适用场景。2、总结本课所学内容。 布置作业 拓展学生的学习能力
课堂板书 观看板书 强调教学重点内容。
21世纪教育网 www.21cnjy.com 精品试卷·第 2 页 (共 2 页)
HYPERLINK "http://www.21cnjy.com/" 21世纪教育网(www.21cnjy.com)

展开更多......

收起↑

资源预览