项目4:语音唤醒:让端侧机器人苏醒 课件(共32张PPT)-《智能语音应用开发》同步教学(电子工业版)

资源下载
  1. 二一教育资源

项目4:语音唤醒:让端侧机器人苏醒 课件(共32张PPT)-《智能语音应用开发》同步教学(电子工业版)

资源简介

(共32张PPT)
项目4
语音唤醒:让端侧机器人苏醒
项目背景
随着科技的不断进步,计算机、手机等智能设备已经融入人们的生活。早期人们与智能设备进行信息传递的方式主要通过鼠标、按键、触摸屏等,而现在,单一的交互方式已不能满足人们的需求,人们更期待通过语音进行人机交互。随着语音识别技术的发展,语音成为人机交互最自然的方式,而语音唤醒技术是实现语音交互的第一步。
语音唤醒技术使人们的双手得到了解放,让计算机、手机等智能设备真正做到随叫随到,同时避免设备长时间处于在线状态,降低功耗。本项目将使用目前主流的AI开放平台,实现对智能设备的唤醒。
教学目标
(1)了解语音唤醒的定义。
(2)了解语音唤醒的应用。
(3)了解语音唤醒技术的发展阶段。
(4)理解语音唤醒的评价指标。
(5)能够利用AI开放平台获取唤醒词资源。
(6)能够部署SDK实现语音唤醒。
项目分析
(1)从语音唤醒的概念、应用场景、技术发展角度,认识语音唤醒。
(2)学习语音唤醒的评价指标。
(3)在讯飞开放平台上,创建语音唤醒应用,评估语音唤醒词质量。
(4)制作唤醒词,下载语音唤醒SDK。
(5)部署和测试语音唤醒SDK。
知识准备
知识点1:什么是语音唤醒
语音唤醒,也被称为语音关键词检测(Keyword Spotting,KWS),作用是在连续的语音流中实时检测一组特定的关键词,而特定的关键词被称为唤醒词。
知识点2:语音唤醒的应用
知识点3:语音唤醒技术的发展
语音唤醒技术主要依赖于语音唤醒模型的发展,语音唤醒模型主要负责实时检测,当检测到唤醒词后马上切换为工作状态。语音唤醒模型主要经历了模板匹配、隐马尔可夫模型、神经网络3个发展阶段。
1.基于模板匹配的语音唤醒
于模板匹配的语音唤醒就是用模板匹配的方法来制作唤醒模型,一般先登记3遍唤醒词,然后将语音特征提取出来,组成特征序列,作为标准模板。
2.基于隐马尔可夫模型的语音唤醒
隐马尔可夫模型,一般会先为唤醒词和其他声音分别建立一个模型,然后将输入的语音信号切割成固定长度的段落,并分别传入两个模型进行打分,最后对比两个模型的分值,决定唤醒还是保持休眠。简单
3.基于神经网络的语音唤醒
神经网络是非线性函数,是扩展的感知机模型。凡是用到神经网络原理的唤醒模型,都可以说是基于神经网络的模型。
3种语音唤醒技术的对比
知识点4:语音唤醒的评价指标
在介绍语音唤醒评价指标前,先要对测试场景进行简单的准备。语音唤醒测试最好可以模拟用户实际的使用场景,因为在不同的环境中,实现的效果可能不同,一般在准备场景时主要考虑周围噪声环境、说话人声音响度、说话距离等。
1.同一语音唤醒系统评价指标
1)唤醒率
唤醒率就是用户说唤醒词成功唤醒设备的概率,在相同的环境下,设备的唤醒率越高,唤醒效果越好。
2)误唤醒率
误唤醒率就是设备在用户说非唤醒词时被唤醒的概率。设备的误唤醒率越高,唤醒效果越差,误唤醒率常用24小时内被误唤醒的次数表示。
3)响应时间
响应时间是指说完唤醒词后,设备给出反馈的时间,反应设备的灵敏度。响应时间越快越好,随叫随到能够大大提高用户体验。
4)功耗
功耗是指唤醒系统的耗电情况。
2.不同语音唤醒系统评价指标
1)错误拒绝率
2)错误接受率
3)等错误率
等错误率(Equal Error Rate,EER)通过对唤醒阈值的调整,使错误拒绝率等于错误接受率,此时的值就是等错误率。等错误率越低,系统模型性能越好。
项目实施:
语音唤醒应用——智能音箱唤醒
任务1 登录讯飞开放平台
任务2 评估语音唤醒词质量
高质量的唤醒词有助于智能音箱被更好的唤醒,减少唤醒出错的概率。在设置唤醒词之前,为了得到高质量的唤醒词,可以使用唤醒词评估小工具对设置的唤醒词进行打分,从而选择高质量的唤醒词。
步骤1:创建应用
(1)登录讯飞开放平台,单击右上角“控制台”按钮进入控制台。
(2)单击“创建新应用”按钮创建应用
应用页面
步骤2:唤醒词质量评估
(1)选择应用页面左侧的“语音识别”选项
任务3 获取唤醒词资源
步骤1:制作唤醒词资源
步骤2:下载语音唤醒sdk
任务4 部署sdk实现语音唤醒
一个完整的SDK应该包括以下内容。
(1)接口文件和库文件。
(2)帮助文档。
(3)开发示例。
(4)实用工具。
步骤1:新建项目
语音唤醒SDK采用C++编写,这里使用Microsoft Visual Studio对语音唤醒的SDK进行编译。
Microsoft Visual Studio(简称VS)是美国微软公司的开发工具包系列产品。VS是一个基本完整的开发工具集,它包括整个软件生命周期中需要的大部分工具。VS是非常流行的Windows平台应用程序的集成开发环境。通过在微软官网下载VS的安装包进行安装和使用。
新建项目
步骤2:配置项目属性
使用VS新建的空项目包括项目的头文件、源文件和资源文件。此时所有的项目文件都为空。头文件的扩展名为.h,主要用于定义和声明,如类的定义、常量的定义等。源文件的扩展名为.cpp,主要用于方法的实现。
步骤3:导入头文件
步骤4:导入动态链接库
动态链接库(Dynamic Link Library,DLL)是实现共享函数库概念的一种方式。这些库函数的扩展名是.dll、.ocx或.drv。
将语音唤醒SDK中语音示例awaken_sample.c的所有代码复制到新建的main.c文件中,在main.c文件的代码中修改include文件夹和bin文件夹的路径
步骤5:配置命令行
运行创建的main.c应用程序,需要对应用的环境进行配置,通过编写命令将目标可执行main.c文件复制到动态链接库msc.dll的目录下完成配置。
步骤6:启动sdk实现语音唤醒
过对语音唤醒SDK的部署,接下来执行启动main.c文件进行语音唤醒。双击“main.c”选项打开代码文件,选择“调试”→“启动调试”命令调试main.c文件。
步骤7:语音唤醒性能评估
成功进行语音唤醒后,使用错误拒绝率和错误接受率对语音唤醒的性能进行评估。在语音唤醒程序启动期间,使用唤醒词和与唤醒词类似的发音,来测试语音唤醒的识别结果。
例如,在语音唤醒程序启动期间,对着麦克风说“小飞小飞”,观察语音唤醒的返回结果。如果返回结果中的“keyword”为“xiao3-fei1-xiao3-fei1”,则说明唤醒成功;如果没有返回结果或返回结果中的“keyword”不为“xiao3-fei1-xiao3-fei1”,则说明唤醒错误。通过多次实验,计算得到错误拒绝率,如唤醒的次数为20,使用唤醒词没有成功唤醒设备的次数为3,则错误拒绝率为15%。

展开更多......

收起↑

资源预览