项目4：语音唤醒：让端侧机器人苏醒课件(共32张PPT）-《智能语音应用开发》同步教学（电子工业版）

资源简介

(共32张PPT)
项目4
语音唤醒：让端侧机器人苏醒
项目背景
随着科技的不断进步，计算机、手机等智能设备已经融入人们的生活。早期人们与智能设备进行信息传递的方式主要通过鼠标、按键、触摸屏等，而现在，单一的交互方式已不能满足人们的需求，人们更期待通过语音进行人机交互。随着语音识别技术的发展，语音成为人机交互最自然的方式，而语音唤醒技术是实现语音交互的第一步。
语音唤醒技术使人们的双手得到了解放，让计算机、手机等智能设备真正做到随叫随到，同时避免设备长时间处于在线状态，降低功耗。本项目将使用目前主流的AI开放平台，实现对智能设备的唤醒。
教学目标
（1）了解语音唤醒的定义。
（2）了解语音唤醒的应用。
（3）了解语音唤醒技术的发展阶段。
（4）理解语音唤醒的评价指标。
（5）能够利用AI开放平台获取唤醒词资源。
（6）能够部署SDK实现语音唤醒。
项目分析
（1）从语音唤醒的概念、应用场景、技术发展角度，认识语音唤醒。
（2）学习语音唤醒的评价指标。
（3）在讯飞开放平台上，创建语音唤醒应用，评估语音唤醒词质量。
（4）制作唤醒词，下载语音唤醒SDK。
（5）部署和测试语音唤醒SDK。
知识准备
知识点1：什么是语音唤醒
语音唤醒，也被称为语音关键词检测（Keyword Spotting，KWS），作用是在连续的语音流中实时检测一组特定的关键词，而特定的关键词被称为唤醒词。
知识点2：语音唤醒的应用
知识点3：语音唤醒技术的发展
语音唤醒技术主要依赖于语音唤醒模型的发展，语音唤醒模型主要负责实时检测，当检测到唤醒词后马上切换为工作状态。语音唤醒模型主要经历了模板匹配、隐马尔可夫模型、神经网络3个发展阶段。
1．基于模板匹配的语音唤醒
于模板匹配的语音唤醒就是用模板匹配的方法来制作唤醒模型，一般先登记3遍唤醒词，然后将语音特征提取出来，组成特征序列，作为标准模板。
2．基于隐马尔可夫模型的语音唤醒
隐马尔可夫模型，一般会先为唤醒词和其他声音分别建立一个模型，然后将输入的语音信号切割成固定长度的段落，并分别传入两个模型进行打分，最后对比两个模型的分值，决定唤醒还是保持休眠。简单
3．基于神经网络的语音唤醒
神经网络是非线性函数，是扩展的感知机模型。凡是用到神经网络原理的唤醒模型，都可以说是基于神经网络的模型。
3种语音唤醒技术的对比
知识点4：语音唤醒的评价指标
在介绍语音唤醒评价指标前，先要对测试场景进行简单的准备。语音唤醒测试最好可以模拟用户实际的使用场景，因为在不同的环境中，实现的效果可能不同，一般在准备场景时主要考虑周围噪声环境、说话人声音响度、说话距离等。
1．同一语音唤醒系统评价指标
1）唤醒率
唤醒率就是用户说唤醒词成功唤醒设备的概率，在相同的环境下，设备的唤醒率越高，唤醒效果越好。
2）误唤醒率
误唤醒率就是设备在用户说非唤醒词时被唤醒的概率。设备的误唤醒率越高，唤醒效果越差，误唤醒率常用24小时内被误唤醒的次数表示。
3）响应时间
响应时间是指说完唤醒词后，设备给出反馈的时间，反应设备的灵敏度。响应时间越快越好，随叫随到能够大大提高用户体验。
4）功耗
功耗是指唤醒系统的耗电情况。
2．不同语音唤醒系统评价指标
1）错误拒绝率
2）错误接受率
3）等错误率
等错误率（Equal Error Rate，EER）通过对唤醒阈值的调整，使错误拒绝率等于错误接受率，此时的值就是等错误率。等错误率越低，系统模型性能越好。
项目实施：
语音唤醒应用——智能音箱唤醒
任务1 登录讯飞开放平台
任务2 评估语音唤醒词质量
高质量的唤醒词有助于智能音箱被更好的唤醒，减少唤醒出错的概率。在设置唤醒词之前，为了得到高质量的唤醒词，可以使用唤醒词评估小工具对设置的唤醒词进行打分，从而选择高质量的唤醒词。
步骤1：创建应用
（1）登录讯飞开放平台，单击右上角“控制台”按钮进入控制台。
（2）单击“创建新应用”按钮创建应用
应用页面
步骤2：唤醒词质量评估
（1）选择应用页面左侧的“语音识别”选项
任务3 获取唤醒词资源
步骤1：制作唤醒词资源
步骤2：下载语音唤醒sdk
任务4 部署sdk实现语音唤醒
一个完整的SDK应该包括以下内容。
（1）接口文件和库文件。
（2）帮助文档。
（3）开发示例。
（4）实用工具。
步骤1：新建项目
语音唤醒SDK采用C++编写，这里使用Microsoft Visual Studio对语音唤醒的SDK进行编译。
Microsoft Visual Studio（简称VS）是美国微软公司的开发工具包系列产品。VS是一个基本完整的开发工具集，它包括整个软件生命周期中需要的大部分工具。VS是非常流行的Windows平台应用程序的集成开发环境。通过在微软官网下载VS的安装包进行安装和使用。
新建项目
步骤2：配置项目属性
使用VS新建的空项目包括项目的头文件、源文件和资源文件。此时所有的项目文件都为空。头文件的扩展名为.h，主要用于定义和声明，如类的定义、常量的定义等。源文件的扩展名为.cpp，主要用于方法的实现。
步骤3：导入头文件
步骤4：导入动态链接库
动态链接库（Dynamic Link Library，DLL）是实现共享函数库概念的一种方式。这些库函数的扩展名是.dll、.ocx或.drv。
将语音唤醒SDK中语音示例awaken_sample.c的所有代码复制到新建的main.c文件中，在main.c文件的代码中修改include文件夹和bin文件夹的路径
步骤5：配置命令行
运行创建的main.c应用程序，需要对应用的环境进行配置，通过编写命令将目标可执行main.c文件复制到动态链接库msc.dll的目录下完成配置。
步骤6：启动sdk实现语音唤醒
过对语音唤醒SDK的部署，接下来执行启动main.c文件进行语音唤醒。双击“main.c”选项打开代码文件，选择“调试”→“启动调试”命令调试main.c文件。
步骤7：语音唤醒性能评估
成功进行语音唤醒后，使用错误拒绝率和错误接受率对语音唤醒的性能进行评估。在语音唤醒程序启动期间，使用唤醒词和与唤醒词类似的发音，来测试语音唤醒的识别结果。
例如，在语音唤醒程序启动期间，对着麦克风说“小飞小飞”，观察语音唤醒的返回结果。如果返回结果中的“keyword”为“xiao3-fei1-xiao3-fei1”，则说明唤醒成功；如果没有返回结果或返回结果中的“keyword”不为“xiao3-fei1-xiao3-fei1”，则说明唤醒错误。通过多次实验，计算得到错误拒绝率，如唤醒的次数为20，使用唤醒词没有成功唤醒设备的次数为3，则错误拒绝率为15%。

展开更多......

收起↑

请用微信扫码

项目4：语音唤醒：让端侧机器人苏醒 课件(共32张PPT）-《智能语音应用开发》同步教学（电子工业版）

项目4：语音唤醒：让端侧机器人苏醒 课件(共32张PPT）-《智能语音应用开发》同步教学（电子工业版）

项目4：语音唤醒：让端侧机器人苏醒课件(共32张PPT）-《智能语音应用开发》同步教学（电子工业版）

项目4：语音唤醒：让端侧机器人苏醒课件(共32张PPT）-《智能语音应用开发》同步教学（电子工业版）