人工智能应用基础项目四大模型赋能音视频处理课件（79张PPT）

资源简介

(共79张PPT)
项目四大模型赋能音视频处理
目录
CONTENTS
01
项目导读
02
学习目标
03
使用讯飞智作进行AI 配音
04
使用通义听悟识别声音
05
使用即梦AI 创作短视频
项目导读
01
大模型在音视频处理中的应用
音视频媒体的重要性
音视频媒体作为信息传播的重要载体，其内容丰富且传播效率高，已成为各行各业不可或缺的组成部分。
视频生成技术的突破
视频生成技术同样得益于大模型的发展，实现了从内容创作到编辑的多方面突破，提高了视频制作的效率和质量。
语音识别技术的进步
语音识别技术的飞速发展极大地便利了人们的生活，尤其在安全隐私保护和智能家居控制等领域发挥了关键作用。
安全隐私保护的新机遇
语音识别和音频处理技术的进步为安全隐私保护带来了新的机遇，通过更精准的识别技术来确保信息安全。
音频生成技术的发展
随着大模型技术的进步，音频生成技术也取得了显著的进展，为音频内容创作提供了新的可能性。
智能家居控制的创新应用
音频处理技术在智能家居控制领域中的应用创新，使得用户能够通过语音命令更便捷地管理和控制家居设备。
学习目标
02
学习目标
项目四的学习目标如表所示。
任务一使用讯飞智作进行AI配音
03
任务场景
音频生成技术应用
涵盖语音合成、语音克隆，音色转换和音乐生成，创新应用广泛。
工具学习与体验
李华将深入探索各场景工具使用，感受音频生成的独特魅力。
任务准备
小组任务分工
每组3-5人，组长负责组织，查找语音合成工具及音频克隆应用的资料。
资料收集
组员需搜索3个语音合成功能的软件，并列出3个音频克隆在实际中的应用实例。
讨论整理
对搜集的语音合成工具进行比较，整理音频克隆的应用场景，准备进行小组讨论。
任务实施
选择的文本内容
使用智能生成工具创作了一段描述春天的文本：“春天来临，万物复苏，绿草茵茵，鲜花盛开，小鸟在枝头欢快地歌唱。”
多人配音功能
可以使用多人配音功能，将文本分别用不同的声音进行配音，创造出对话或多人叙述的效果。
讯飞配音功能使用
选择了“标准女声”和“情感男声”，分别赋予文本不同的表达风格，以增加听觉效果的多样性。
声音参数
标准女声设为语速0.7，音量100，情感“正常”。情感男声设为语速0.8，音量100，情感“高兴”，体现积极。
任务评价
请各组选出一名代表展示任务实施的成果，并配合老师完成任务评价，将评价结果填入表4-2中。
知识链接：大模型在语音合成中的应用
语音合成技术原理
语音合成技术，也称为文本到语音（TTS），涉及将书面文本转换为逼真的语音输出。该过程通常包括文本分析、语音合成和后处理三个主要步骤。文本分析阶段涉及将输入文本分解为可发音的单元，如音素或音节。语音合成阶段则通过声码器将这些单元转换为音频信号。最后，后处理阶段用于调整音量、语速和音调，以生成自然流畅的语音。
大模型的优势与挑战
大模型在语音合成中的优势在于其能够生成更自然、更准确的语音。通过深度学习技术，大模型能够学习大量的语音数据，从而模仿人类的发音和语调。然而，挑战同样存在，包括需要大量的计算资源和数据来训练模型，以及对模型的可解释性和隐私问题的关注。此外，生成的语音在某些情况下可能缺乏情感表达，难以完全达到人类发音的丰富性和多样性。
应用场景与案例分析
语音合成技术广泛应用于多种场景，如虚拟助手、导航系统、有声读物、公共广播和客户服务热线。例如，苹果的Siri和亚马逊的Alexa使用先进的语音合成技术来提供流畅的交互体验。在有声读物领域，TTS技术使得视觉障碍者能够通过听觉获取信息。此外，一些公司还利用TTS技术为不同语言和方言的客户服务提供支持，从而跨越语言障碍。
未来发展趋势预测
未来，语音合成技术预计将朝着更高的自然度和更广泛的应用方向发展。随着技术的进步，合成语音将越来越难以与人类发音区分。人工智能模型将更加个性化，能够根据用户偏好调整语音风格和语调。此外，随着多模态学习的兴起，语音合成将与其他技术如面部表情和身体语言结合，为用户提供更加丰富和互动的体验。
语音合成技术概述
文语转换技术定义
文语转换技术，简称TTS，是将文本信息转换为对应的语音信号的技术，是语音合成技术的核心部分。
语音合成技术应用领域
语音合成技术已广泛应用于影视娱乐、新闻媒体、医疗健康、电子商务、智能家居、自动驾驶等多个领域，如新闻播报、叫号系统、手机语音助手等具体应用。
语音合成的主要流程
语音合成的主要流程包括文本预处理、声学模型训练和语音生成3个阶段。
人机交互中的语音通信
借助语音合成技术，机器能够具备像人一样“说话”的能力，能够有效实现人机语音通信，从而极大地提升人机交互的便捷性和效率。
语音合成技术的广泛影响
语音合成技术不仅提升了人机交互的便捷性和效率，还在多个领域产生了广泛影响，如影视娱乐、新闻媒体、医疗健康等。
以TextToSpeech为例：展示语音合成的实际应用。
步骤1 访问网址https://texttospeech.im/zh-CN,进入 TextToSpeech主页，如图所示。
步骤2 在“语言”下方的下拉列表中，选择“中文”选项。在“声音”下方，选择 “1349-az-阿泽- 通用男声v2 多情感版”选项,如图所示。
步骤4 单击“转换为语音”按钮，稍等片刻，系统将自动验证并生成语音。
步骤5 单击“下载语音文件”按钮，下载生成的语音文件，如图所示。文本框中输入“人工智能不仅在人们的生活中占有一席之地，还在现代安防、教育、医疗、交通和零售等领域中具有重要地位。人工智能在这些领域中的实际应用有人脸识别门禁、智慧课堂、手术机器人、无人驾驶汽车和自动售货机等”,如图所示。
语音克隆
语音克隆技术应用
用于人机交互、影视配音，提升个性化体验，如智能家居、自动驾驶等。
克隆流程详解
包括特征提取、模型训练和语音生成，需注意文本同步录制和同意使用麦克风。
声音复刻步骤
访问腾讯云，选择场景，按提示录制文本，输入要合成的句子，同意协议并开始复刻。
安全与注意事项
遵循系统文本录制，同意服务协议，确保音质审核通过和语音录制成功。
以腾讯云的声音复刻功能为例：展示语音克隆的实际应用。
步骤1 访问网址https://cloud./product/vrs,进入腾讯云的“声音复刻”页面。登录账号，登录成功后，将重新跳转到“声音复刻”页面。
步骤2 在“选择使用场景”下方，选择“阅读”选项，在“录制原始音色”下方的文本框中将出现系统提供的随机文本。单击左下角的“◎”按钮，朗读文本框中的文本，录制原始音色。
步骤3 在“输入合成文本”下方的文本框中，输入“床前明月光，疑是地上霜。举头望明月，低头思故乡”。
步骤4 勾选“我已阅读并同意《声音工坊音色定制服务等级协议》”复选框，单击 “开始复刻”按钮。
步骤5 稍等片刻后，将会提示“复刻完成，可点击下方播放”,单击“◎”按钮，试听生成的语音。
音色转换
01
音色转换技术概述
基于AI的深度学习算法，提取并转换声音特征，保留原音频的情感、节奏等，实现自然的变声效果。
03
变声工具与应用
包括在线开放平台如腾讯云，以及专业软件如金舟AI变声器等，QQ、快影等日常应用也整合了该功能。
02
传统变声技术对比
与传统调音器相比，音色转换技术更自然，操作简单，适用于更多非专业用户。
04
腾讯云音色转换步骤
登录官网，进入音色变换页面，通过简单操作即可实现声音的转换，适用于直播、聊天等多种场景。
以腾讯云的音色变换功能为例：展示音色转换的实际应用。
步骤1 访问网址https://cloud./product/stsc,进入腾讯云的“音色变换”页面,登录账号。
步骤2 在“产品试听”中，单击“音频文件转换”下方的“点击上传”按钮。然后，在弹出的对话框中选择一个音频文件上传，稍等片刻，在“音频文件转换”下方将显示已上传的音频文件的基本信息。
步骤3 选择“目标音色”下方的“童声”选项，单击“变换”按钮。稍等片刻，变换完成后系统会自动播放变换音色后的音频。
认识人工智能音乐创作
音乐生成技术简介
利用AI技术自动生成音乐，用户输入创意描述和参数，即可创作个性化音乐。
音乐生成工具应用
降低音乐创作门槛，如SkyMusic、天谱乐等工具，为专业制作人提供创作灵感。
深度学习音乐创作
通过深度学习模型训练，让机器掌握复杂音乐知识，生成独特音乐作品。
影响与未来发展
革新音乐创作方式，为传统音乐注入新活力，未来将在专业领域有更深入应用。
以腾讯音乐·启明星为例：展示音乐生成的实际应用。
步骤1 访问网址https://y./venus#/,进入启明星主页，登录账号。账号登录成功后，将自动跳转到启明星主站，选择“AIGC 音乐创作”→“AI作曲”选项，进入AI作曲界面。
步骤2 在“输入音乐关键词/语句”下方的文本框中输入“盛夏、怀旧、活泼、民谣”。
步骤3 在 “选择生成音乐时长”下方，将音乐时长设置为30s, 单击“开始生成” 按钮。稍等片刻，生成的音乐会在“已生成”下方显示。
生成的音乐
任务案例：使用讯飞智作为故事配音
AI配音准备
在讯飞智作选择“讯飞配音”，通过快捷键“Ctrl+V”粘贴故事文本。
设置角色配音
选中李华对话，选择“天明”角色的“叙述(标准)”。同样设置小明为“张普通”和“普通男青年”，其余内容为“聆飞泓”“叙述”。
预览配音效果
完成角色配音设置后，点击“试听”按钮，检查配音的流畅度和匹配度。
步骤1 访问网址https:/yiyan.,进入文心一言官网，登录账号。
使用讯飞智作为故事配音
步骤2 在文本框中输入“请以李华为主角、小明为配角，围绕探险和友情创作一个500字左右的故事。要求故事中必须包含主角与配角的对话”,按回车键发送内容，生成故事。
步骤3 单击生成内容下方的“口”(复制)按钮，复制生成的内容。
步骤4 访问网址https://www.,进入讯飞智作主页,登录账号。
步骤5 选择“讯飞配音”选项，进入AI配音界面，按快捷键 “Ctrl+V”将故事粘贴到文本框中。
步骤6 选中李华的对话内容，单击“多人配音”按钮，在弹出的对话框中选择“天明”选项，在“天明”的详情页中选择“叙述(标准)”选项，单击“使用”按钮。
步骤7 使用步骤6中的方法，设置小明的配音角色为“张普通”“普通男青年”,其余故事内容的配音角色为“聆飞泓”“叙述”。
步骤8 单击“试听”按钮，试听配音效果。
任务二使用通义听悟识别声音
04
任务场景
语音技术应用探索
介绍语音识别、声纹识别的创新应用，如性别、情感识别，探讨实际场景中的应用案例。
李华的学习计划
关注并研究语音识别技术，了解相关知识，深入探究其在不同场景中的应用，最终使用通义听悟实践。
任务准备
分组与任务分配
每组3-5人，各选组长，组长负责组织查找语音识别定义及3个声纹识别应用的资料。
资料收集
组员需查找语音识别基本概念，以及声纹识别在实际中的三个具体应用实例。
讨论与整理
对收集到的资料进行讨论，整理出清晰的语音识别解释和声纹识别应用点。
任务实施
01
音频来源确认
通过实时录音获取音频，确保音质清晰，无背景杂音，以便准确转写。
02
转写内容分析
单个发言人，语速适中，表达清晰，方便识别和转写。
03
转写效果评估与影响因素
转写准确率高，主要影响因素包括：音质好坏（如含噪音、口齿不清）、方言或专业术语的使用、以及说话者的语速变化。
任务评价
任务评价执行
各组选出代表，展示任务成果，配合老师完成评价，填写对应表格。
应用领域示例
语音识别广泛应用于语音输入、语音控制、翻译和交互，如智能助手、智能家居、语音搜索等。
语音识别技术详解
自动语音识别技术，将语音转为文本或命令，涉及信号处理、模式识别等多学科，主流系统包括特征提取、声学模型等四部分。
识别系统构成
包含特征提取处理语音信号，声学模型识别特定模式，语言模型理解上下文，解码和搜索算法优化识别效果。
知识链接：语音识别技术及其应用
语音识别定义
语音识别，也称为自动语音识别（ASR），是将语音信号转换为文本或命令的技术，涉及音素、音节或词的自动识别。
语音控制应用
语音控制应用使得用户可以通过语音命令来操控设备，如智能家居系统、车载系统等，实现无需手动操作的控制。
技术组成概览
语音识别技术是一门交叉学科，融合了信号处理、模式识别、概率论、信息论、发声和听觉机理以及人工智能等领域的知识。
语音翻译应用
语音翻译应用利用语音识别技术将一种语言的语音实时翻译成另一种语言的文本或语音，方便跨语言交流。
语音输入应用
在语音输入应用中，语音识别技术允许用户通过语音来输入文本信息，广泛应用于智能助手和语音输入法中。
语音交互应用
语音交互应用通过语音识别技术实现人机对话，常见于客服机器人、智能助手等，提供更加自然和便捷的交互方式。
语音识别的
主要应用
声纹识别技术在音视频处理中的应用
声纹识别的定义与原理
声纹识别（Voiceprint Recognition, VPR），也称说话人识别，是一种基于说话人独特的生理特征和声波特点进行自动识别的技术，属于生物识别技术的一种。
声纹识别的应用场景
声纹识别技术广泛应用于金融安全验证、智能家居控制、智能安防系统、客户服务自动化等多个场景，提高了系统的安全性与便捷性。
声纹识别的未来发展趋势
随着人工智能技术的进步，声纹识别将朝着更高的准确度、更快速的处理速度和更广泛的应用范围发展。
声纹识别技术的优势
声纹识别技术具有非接触性、难以伪造和易于集成到现有系统中的优点，使其在安全验证和个性化服务领域具有独特优势。
大模型技术与声纹识别的结合
结合大模型技术，声纹识别系统能够处理更复杂的声纹数据，提升识别准确率，同时更好地适应不同环境和说话人变化。
声纹识别面临的挑战与解决方案
声纹识别技术面临的挑战包括环境噪声干扰、说话人声音变化等问题。解决方案可能包括采用更先进的降噪算法和持续学习机制来适应声音变化。
语音识别扩展
歌曲识别技术
利用音频指纹匹配目标音频，实现原声识别和哼唱识别，高效准确查找歌曲信息。
高阶功能解析
高手点拨针对复杂音频环境，提升识别准确率，满足多样化识别需求。
语音年龄识别
语音年龄识别技术
利用机器学习分析语音特征，如音色、音高和语速，推测说话人的年龄，以辅助不同领域按年龄层提供精准服务。
年龄判断应用实例
在社区热线中，可实时分析用户语音，识别其年龄，以在资源紧张时优先保障老年群体的服务需求。
语音性别识别
01
技术原理
基于AI分析声音的频率和音高特征，判断说话人的性别，实现声音层面的性别识别。
02
应用场景
智能客服，识别客户性别以个性化服务；市场调研，快速获取性别分布数据；广告营销，精准定位用户群体，提高营销效率。
语音情感识别
01
语音情感识别应用
分析语音情感，辅助理解人类情绪，尤其在心理咨询和客户服务中提供客观评估数据。
02
通义听悟功能介绍
支持音视频转文本，自动总结关键内容，提高工作效率，尤其在会议管理上便捷实用。
03
转写会议录音步骤
登录通义听悟官网，上传本地音频文件，系统自动转写并生成会议概要。
步骤1 访问网址https://tingwu.aliyun.com/home,进入通义听悟首页,登录账号。
任务案例：使用通义听悟转写会议录音
使用通义听悟转写会议录音
步骤2 单击“上传音视频”按钮，然后在弹出的对话框中选择“上传本地音视频文件”选项,打开“上传本地音视频文件”对话框，单击“点击/拖拽本地音视频文件到这里”按钮,在弹出的对话框中选择需要转写的音频文件并上传。。
步骤3 上传成功的音频文件将会显示在“文件数量"下方。选择“区分发言人”下方的“多人讨论”选项，单击“开始转写”按钮。开始转写后将自动跳转至首页，并显示转写进度。
步骤4 稍等片刻，转写完成后，在“最近”下方选择刚才转写完成的项目, 自动跳转到该项目的详情页，查看全文概要和原文。
任务三使用即梦AI 创作短视频
05
任务场景
随着人工智能在图像生成、音频生成方向的深入研究，其在视频生成方向的发展也渐入佳境。人们开始尝试将视频生成应用于各个领域的视频内容创作中，以求降低人工创作视频、编辑视频的成本。
李华打算使用视频生成技术生成短视频，于是他开始了解人工智能视频生成的主要方式，同时搜集一些相关工具进行学习，最后使用即梦AI 创作短视频。
任务准备
视频生成的基本概念
视频生成是指利用计算机技术创建视频内容的过程，它包括从无到有地生成视频画面和声音，或者对现有视频进行编辑和修改。视频生成技术可以应用于电影制作、游戏开发、虚拟现实、教育和培训等多个领域。
常见AI视频生成工具介绍
当前市场上存在多种人工智能视频生成工具，例如Synthesia、Lumen5和DeepArt等。这些工具利用AI技术，允许用户通过简单的操作创建高质量的视频内容，降低了视频制作的技术门槛。
视频生成技术的发展历程
视频生成技术的发展经历了从传统模拟技术到数字技术的转变。早期的视频制作依赖于物理胶片和磁带，而随着计算机图形学和数字信号处理技术的进步，数字视频生成技术逐渐成为主流，提供了更高的灵活性和效率。
工具对比与应用场景分析
不同的AI视频生成工具在功能和适用场景上有所区别。例如，Synthesia专注于生成逼真的虚拟人物视频，适合用于虚拟演讲和教育内容；Lumen5则擅长将文章和博客内容转换成视频，适合内容营销；DeepArt则以艺术风格转换闻名，适合艺术家和设计师。
人工智能在视频生成中的作用
人工智能技术，尤其是机器学习和深度学习，为视频生成带来了革命性的变化。AI可以自动编辑视频、生成逼真的动画和特效，甚至能够根据文本描述自动生成视频内容，极大地提升了视频生成的速度和质量。
视频生成技术的未来趋势
视频生成技术的未来趋势包括进一步提高自动化水平、增强现实感和交互性，以及更深入地结合人工智能技术。随着技术的不断进步，视频生成将变得更加高效、智能和个性化。
任务实施
图像生成主题设计
结合现代艺术与自然元素，创造和谐而引人深思的视觉效果，体现创新与生态的交融。
任务执行细节
使用文心一格，输入提示词“科技森林”，生成融合科技感与自然绿色的图像，确保图像清晰，主题鲜明。
任务实施
使用即梦AI 生成一个视频，视频内容自定，然后回答下列问题
问题1 :你使用的视频生成方式是什么
问题2 :你输入的提示词是什么你有上传图片作为参考吗
问题3: 生成的视频内容是否符合你的预期若与预期偏差较大，请简述改进方式。
任务评价
请各组选出一名代表展示任务实施的成果，并配合老师完成任务评价，将评价结果填入表中。
知识链接：人工智能视频生成工具介绍
常用视频生成工具概览
当前市场上存在多种人工智能视频生成工具，如Synthesia、Deepfake、Lumen5等，它们利用深度学习和机器学习技术，能够将文本、图像或音频转换成视频内容。
技术发展趋势与挑战
随着技术的不断进步，人工智能视频生成工具正变得越来越智能和高效。然而，它们也面临着版权、伦理和真实性等方面的挑战，需要相关企业和研究机构共同探讨解决方案。
工具特点与优势分析
这些工具通常具备高度的自动化和个性化特点，能够快速生成高质量视频，减少传统视频制作所需的时间和成本。例如，Synthesia可以创建逼真的虚拟人物演讲视频，而Deepfake则以换脸技术闻名。
企业与研究机构案例
一些知名企业和研究机构，如Google的DeepMind和IBM Research，正在积极研发更先进的视频生成技术。他们的研究不仅推动了行业的发展，也促进了人工智能在视频内容创作领域的应用。
应用场景与案例展示
人工智能视频生成工具广泛应用于教育、娱乐、广告和新闻等行业。例如，Lumen5被用于将博客文章自动转换成视频内容，而Deepfake技术则在电影制作中用于创建逼真的历史人物角色。
未来展望与市场潜力
预计未来人工智能视频生成工具将更加普及，市场潜力巨大。随着技术的成熟和应用的拓展，这些工具将为内容创作者提供更多的可能性，同时也可能改变我们观看和消费视频内容的方式。
即梦AI( 网址https:/jimeng.)是字节跳动公司旗下的一站式AI 创作平台，它提供的功能主要有文生图、视频生成、智能画布等，其中视频生成又包括文本生视频、图片生视频和对口型功能。
Vidu(网址https://www.)是基于U-ViT架构开发的视频大模型，由北京生数科技有限公司联合清华大学发布。Vidu 主要用于生成视频，它提供的功能主要有参考生视频、图生视频和文生视频，其支持每次生成4s 或8s的视频，且生成的视频具有高逼真度、高一致性、高动态性等特点。
可灵(网址https:/kling.)是快手公司自主研发的视频大模型，它提供的功能主要有AI图片、AI视频等，其中AI视频又包括文生视频、图生视频和对口型功能。目前，可灵的AI视频功能支持每次生成5s或10s的视频，并支持在原视频的基础上再延长5s视频内容。同时，可灵还支持用户通过设置首尾帧、运动笔刷、运镜控制等参数实现对生成视频的精细控制。
腾讯智影(网址https://zenvideo.)是腾讯公司发布的在线智能视频创作平台。它提供了与图像处理、视频处理相关的多种小工具，包括视频剪辑、文本配音、动态漫画、智能抹除、文章转视频、数字人播报、字幕识别、AI 绘画、视频解说等。其中，数字人播报支持用户设置数字人主播形象及播报文本，然后自动生成播报视频。
Wink(网址https://wink.)是美图公司发布的人工智能视频编辑工具，它能够利用视频生成技术对视频进行智能编辑。 Wink 提供的视频编辑工具主要有AI 动漫、水印消除、超分辨率、AI美容、画质修复、AI消除笔、AI调色、AI马赛克、智能抠像、噪点消除、视频补帧等。
文本生成视频技术概述
01
技术原理与核心组成
文本生成视频技术利用自然语言处理理解文本内容，并结合计算机视觉和深度学习技术，将文本描述转换为相应的视频画面。核心组成包括文本分析模块、视频生成引擎和视频编辑优化工具。
03
技术优势与创新点
文本生成视频技术的优势在于能够快速、高效地将文字信息转化为视觉内容，极大地降低了视频制作的门槛。创新点在于其能够理解复杂文本并生成连贯、符合逻辑的视频序列。
02
应用场景与实际案例
这项技术广泛应用于教育、娱乐、广告和社交媒体等领域。例如，可以根据新闻报道自动生成新闻视频，或者根据用户描述的场景创建个性化视频内容。
04
面临的挑战与未来展望
尽管文本生成视频技术取得了显著进展，但仍面临诸如提高视频质量、增强场景逼真度以及处理复杂文本描述等挑战。未来，随着技术的进一步发展，预计将实现更加智能化和自动化的视频内容创作。
以可灵为例：展示文本生成视频的流程，具体操作步骤如下。
步骤1 在可灵主页单击 “Web端体验”按钮，选择“AI视频”选项，根据提示登录账号。登录成功后即可进入其视频生成界面，选择“文生视频”选项进入相应界面。
步骤 2 在 “创意描述”下方的文本框中输入“两个女孩挽着手背对着镜头走在石板路上，路的两边开满了鲜花，花瓣被风吹起，油画风格，近景”。
步骤3 在“运镜控制”下方选择运镜方式为“水平运镜”。
步骤4 在"不希望呈现的内容”下方的文本框中输入“变形的手指，变形的躯体，多余的肢体，扭曲的面部”。单击“立即生成”按钮，稍等片刻，即可生成视频。
“两个女孩散步”视频效果
图像生成视频的技术实现
图像生成视频的定义
图像生成视频是一种人工智能技术，它通过分析用户提供的图像和文本描述，自动生成与之相匹配的视频内容。
基本操作流程
图像生成视频的基本操作流程包括上传图片、输入提示词、设置参数和生成视频等步骤。
输入提示词的重要性
输入提示词对于指导人工智能生成视频内容至关重要，它帮助确定视频的风格、动作和场景变化等细节。
技术优势分析
相比于文本生成视频，图像生成视频在视频质量控制方面更具优势，因为用户提供的图像已经设定了视频的主体和背景等关键元素。
上传图片的作用
上传图片是图像生成视频过程中的核心步骤，它确定了视频的主体和背景，为人工智能生成匹配度高的视频内容提供了基础。
参数设置与视频质量关系
参数设置在图像生成视频中扮演着关键角色，不同的参数设置会影响视频的分辨率、帧率、时长等质量因素。
以Vidu为例：展示图像生成视频的流程，具体操作步骤如下。
步骤1 在 Vidu 主页登录账号，登录成功后即可跳转到视频生成界面，选择“图生视频”选项进入相应界面。
步骤2 单击“图生视频”下方的“上传图片”按钮，选择一张图片上传，上传成功后会显示该图片。
步骤3 在图片下方的文本框中输入“麦田里的麦穗在风中摇摆，一个农夫正在收割麦子"。
步骤4 在“设置”下的“运动幅度”中，选择“小”单选按钮，单击“创作”按钮。稍等片刻，即可得到生成的视频。
“农夫收割麦子”视频效果
可任务案例灵(网址https:/kling.)是快手公司自主研发的视频大模型，它提供的功能主要有AI图片、AI视频等，其中AI视频又包括文生视频、图生视频和对口型功能。目前，可灵的AI视频功能支持每次生成5s或10s的视频，并支持在原视频的基础上再延长5s视频内容。同时，可灵还支持用户通过设置首尾帧、运动笔刷、运镜控制等参数实现对生成视频的精细控制。
任务案例：使用即梦AI 生成动漫风格的视频
即梦AI技术简介
即梦AI是一种先进的人工智能技术，能够根据用户需求生成动漫风格的视频内容，通过模拟动漫场景和角色，为用户提供生动的视觉体验。
成语教学案例展示
李华计划通过即梦AI制作一个动漫视频，以帮助小学一年级学生理解“画龙点睛”这个成语。视频中将展示一个画师在画龙时最后点上眼睛的场景，生动地解释成语的由来和意义。
动漫风格视频的教育优势
动漫风格的视频能够吸引学生的注意力，提高他们的学习兴趣。通过生动的故事情节和角色互动，学生可以更容易理解和记忆成语的含义。
技术挑战与解决方案
在制作过程中，即梦AI可能会遇到如何准确表达成语深层含义的挑战。解决方案包括优化AI算法，增加文化背景知识库，以及引入专业教育人员的审核和指导。
制作流程概述
利用即梦AI生成动漫风格视频的流程包括输入教学内容、选择合适的动漫风格模板、AI自动生成视频片段以及后期的编辑和调整。
使用即梦AI生成
动漫风格的视频
步骤1 访问网址https://tongyi.aliyun.com/qianwen,进入通义官网。
步骤2 在文本框中输入“从视频创作角度，描述‘根深叶茂’的场景，50字”,按回车键发送内容。
步骤3 访问网址 https:/jimeng.,进入即梦 AI 主页，登录账号，然后选择“视频生成”选项，进入“视频生成”界面。
步骤4 选择“文本生视频”选项，在其下方的文本框中根据通义的回答输入提示词，此处输入“在视频中，古老的树根深植大地，稳固而有力，象征根基扎实；繁茂的枝叶随风摇曳，生机勃勃，展现繁荣与成长，寓意事业或生命的蓬勃发展，动漫风格”。
步骤5 单击“视频模型”下方的按钮，弹出“视频模型”对话框，选择“视频1.2”选项。
步骤6 单击“运镜控制”下方的按钮，弹出“运镜控制” 对话框。在该对话框中，设置“摇镜”为口(向上摇镜),“幅度” 为中，然后单击“应用”按钮。
步骤7 单在“运动速度”下方选择“适中”选项；在“基础设置”下方，设置“生成时长”为6s,“视频比例”为3:4 。
步骤 8 在生成视频之后，将鼠标移至视频画面中，单击其右上角的“巴”(下载) 按钮，下载生成的视频。
“根深叶茂”视频效果
实训内容
访问Vidu网站并登录
首先，打开浏览器并输入网址https://www.，访问Vidu网站。接着，使用自己的账号登录，成功登录后，用户将进入视频生成界面。
访问海绵音乐网站并登录
接下来，用户需要访问网址https://www.haimian.com/featured，进入海绵音乐主页，并使用账号登录。登录成功后，选择“创作”模块，进入音乐创作界面。
输入提示词生成视频
在视频生成界面的“文生视频”下方文本框中，用户需要输入一个包含视频主体、主体描述、主体动作、背景等元素的提示词。例如，可以输入“一个穿着大红袄子的女孩儿正提着一个红色的中式灯笼玩耍，春节装饰的后院，插画风格”。
输入提示词生成音乐
在音乐创作界面的“灵感创作”下方文本框中，用户应输入与之前生成视频主题相匹配的提示词。例如，输入“庆祝春节，中国风，欢快、活泼、幸福的音乐”，并打开“纯音乐”开关，以生成相应的背景音乐。
下载生成的视频内容
视频生成后，用户需在视频列表中选中自己生成的视频，并点击视频右下角的下载按钮。这样，用户就可以下载到刚刚生成的视频内容。
下载生成的音乐内容
音乐生成完成后，用户应在音乐列表中选中刚刚创作的音乐，并点击下载按钮，从而下载到与视频主题相匹配的纯音乐内容。
谢谢
THE END

展开更多......

收起↑

请用微信扫码

人工智能应用基础 项目四 大模型赋能音视频处理 课件（79张PPT）

人工智能应用基础 项目四 大模型赋能音视频处理 课件（79张PPT）

人工智能应用基础项目四大模型赋能音视频处理课件（79张PPT）

人工智能应用基础项目四大模型赋能音视频处理课件（79张PPT）