资源简介 中小学教育资源及组卷应用平台第3.2课《语音识别的实现——体验语音特征提取、训练识别全过程》教学设计课题 语音识别的实现——体验语音特征提取、训练识别全过程 单元 第三单元 学科 信息科技 年级 六年级核心素养目标 信息意识:能够了解人识别语音的过程和机器识别语音的过程,了解语音特征提取,训练语音识别模型,新语音的匹配与识别和输出结果。计算思维:学习人类分辨声音的过程,其可以概括为采集与分频大脑进行识记、新语音的匹配与识别、输出结果。数字化学习与创新:利用语音识别了解人、机器识别语音的过程,学会演示一语音自训练平台。信息社会责任:理解并尊重同学的隐私,学会安全地收集和处理敏感数据(如语音),避免不当分享。教学重点 能够了解人识别语音的过程和机器识别语音的过程,了解语音特征提取,训练语音识别模型,新语音的匹配与识别和输出结果。教学难点 利用语音识别了解人、机器识别语音的过程,学会演示一语音自训练平台。教学过程教学环节 教师活动 学生活动 设计意图导入新课 第3.2课 《语音识别的实现——体验语音特征提取、训练识别全过程》1.板书课题:机器实现智能的过程从某种角度上可以看成是模拟人类智能的过程,要想机器实现语音识别,不妨先从“人如何分辨声音”来一探究竟。这节课就让我们依照人听到并分辨声音的过程,来理解机器是如何识别声音的!思考:同学们,请思考一下,你们认为机器是靠什么听到声音并能分辨出人们说的是什么话呢 和同学们讨论交流一下。机器能够听到声音并分辨出人们说的话,主要依赖于以下几个技术和步骤:麦克风:机器通过麦克风捕捉声音波。这些麦克风可以将声波转换为电信号。信号处理:捕捉到的声音信号会经过数字信号处理(DSP),包括去噪、增强和特征提取等步骤,以提高声音的清晰度和可辨识度。特征提取:机器会从处理后的信号中提取特征这些特征能够有效地表示声音的特性。语音识别算法:使用机器学习和深度学习算法(如神经网络),机器可以将提取的特征与已知的语言模型进行比对,从而识别出说话的内容。常见的模型包括循环神经网络(RNN)、长短期记忆网络(LSTM)和变换器(Transformer)等。语言模型:机器还会利用语言模型来理解上下文和语法,从而提高识别的准确性。例如,基于统计的方法或深度学习的方法可以帮助机器预测下一个可能出现的词。输出:最后,机器将识别出的文本输出,可能还会进行进一步的处理,如语义理解或对话生成。2.播放视频。 学习新知引入完成思考。观看教学视频。 用生活中的常见现象引入课堂。用提问的方式引入课题,增强课堂互动性。将学生的注意吸引到课堂。新知讲解:板书课题:人识别语音的过程人类智慧相当复杂,仅靠一种感觉器官往往无法实现,通常需要信息的感知器官、信息的处理中枢等相互配合才能实现智能。人们听到声音的过程也是如此。耳朵与大脑的协同作用 “风声雨声读书声,声声人耳。”当外界有物体发出声音时,人耳进行声音的采集,耳蜗会将不同声音的频率区分开,转化为大脑可以理解的神经信号再传递到大脑进行分析和存储,这时人才听到声音。当再次听到类似的声音时,人就能分辨出来。所以人类的听觉系统并不仅指耳朵,还包括能够记住和分辨声音的大脑等。整体而言,人类分辨声音的过程可以概括为采集与分频、大脑进行识记、新语音的匹配与识别、输出结果,如图3.2.1所示。课堂活动想一想:人类的听觉系统哪一部分是不可或缺的?对于听力缺失的人来说,怎样才能“听到”声音?人类的听觉系统中,耳朵的结构是不可或缺的,尤其是内耳的耳蜗。耳蜗内的毛细胞负责将声波转化为神经信号,并通过听神经传递到大脑,从而使我们能够感知声音。对于听力缺失的人来说,有几种方法可以帮助他们“听到”声音:助听器:助听器是一种放大声音的设备,可以帮助听力受损的人更好地听到周围的声音。人工耳蜗:对于重度听力损失的人,人工耳蜗是一种植入式设备,可以直接刺激听神经,绕过受损的耳蜗,从而使人能够感知声音。视觉辅助:一些人可能会使用手语或唇读等方式来“听到”声音的内容,通过视觉信息来理解交流。振动设备:一些设备可以将声音转化为振动,通过身体的触觉感知声音,例如音乐振动器。这些方法可以帮助听力缺失的人更好地与外界交流和感知声音。二、机器识别语音的过程类比人类识别语音的过程,可以把机器识别语音的过程概括为语音特征提取、训练语音识别模型、新语音的匹配与识别、输出结果,如图 3.2.2 所示。语音提取特征当人们说话时,机器会用自身的传感器采集语音,之后将语音转化为计算机能够处理的数据串。人们发出的每个字的语音几乎都不相同,机器需要将描述每个语音特点的特征参数提取出来,如图3.2.3 所示。训练语音识别模型机器将每个语音的特征提取出来以后会形成语音数据集。训练语音识别模型的过程就好比机器将这些语音进行分类记忆的过程,先把有相同特点的语音归为一类,并将这些相同语音的特征参数总结归纳为一个算法公式即模型,再准备一些相同语音的特征参数输入模型中不断优化模型,像这种根据语音特征参数进行训练的模型称为声学模型,将语音识别需要的文字进行训练的模型称为语言模型,如图 3.2.4 所示。得益于移动互联网的迅速发展,人工智能使用的大量数据都来自网络和大型互联网平台,它们为人们提供了优良的数据和算法来支持人工智能的应用。课堂活动请同学们结合上节课的语音识别体验活动,说一说网络对于人工智能的作用,并想一想如果不用互联网,实现语音识别需要什么样的条件。网络对于人工智能的作用非常重要,尤其是在语音识别领域。首先,互联网提供了大量的数据支持,语音识别系统需要通过海量的语音数据进行训练,以提高其识别准确率。通过网络,开发者可以获取不同口音、语速和环境下的语音样本,从而使系统更加智能和灵活。其次,互联网使得实时更新和迭代成为可能。语音识别技术需要不断学习和适应新的语言习惯和用词,借助网络,系统可以快速获取最新的语言数据和用户反馈,进行优化和改进。此外,云计算的出现也为语音识别提供了强大的计算能力。许多语音识别服务依赖于云端的强大服务器进行数据处理和分析,这样可以减轻终端设备的负担,提高识别效率。如果没有互联网,实现语音识别将面临一些挑战。首先,需要在本地存储大量的语音数据和模型,这对存储空间和计算能力要求较高。其次,缺乏实时更新的能力,系统可能无法适应新的语言变化和用户需求,导致识别效果下降。此外,语音识别的训练和优化过程将变得更加复杂,需要更多的时间和资源来进行本地计算和调整。输出结果语音识别最终输出的结果是文字或指令,它得到的并不是确定的识别结果,而是出现概率最高的字词或指令,所以在干扰因素小的环境下结合优秀的算法模型,语音识别的准确率会更高。三、实践演示一语音自训练平台1.登录某AI平台;2.选择语音自训练平台,如图3.2.6所示;3.播放语音模型训练的视频介绍;4.描述语音识别模型训练的过程。1.登录某AI平台;2.选择语音自训练平台,如图3.2.6所示;3.播放语音模型训练的视频介绍;4.描述语音识别模型训练的过程。答:语音识别模型的训练过程通常包括以下几个主要步骤:1. 数据收集:收集大量的语音数据,这些数据可以来自不同的说话者、口音、环境噪声等,以确保模型的泛化能力。数据通常包括音频文件和对应的文本转录。2. 数据预处理:对音频数据进行处理,包括去噪、归一化、分帧等;将音频信号转换为特征表示,常用的特征包括梅尔频率倒谱系数(MFCC)、梅尔谱(Mel-spectrogram)等。3. 数据标注:确保音频数据的文本转录准确无误,可能需要人工校对。对于某些任务,可能还需要进行音素标注或其他类型的标注。4. 模型选择:选择合适的模型架构,常见的有循环神经网络(RNN)、长短期记忆网络(LSTM)、卷积神经网络(CNN)以及近年来流行的变换器(Transformer)模型。5. 模型训练:使用标注好的数据集对模型进行训练,通常采用监督学习的方法。训练过程中,模型会通过反向传播算法不断调整参数,以最小化预测结果与真实标签之间的损失。6. 验证与调优:在训练过程中,使用验证集监控模型的性能,防止过拟合。 根据验证结果调整超参数,如学习率、批量大小等。7. 测试与评估:使用独立的测试集评估模型的性能,常用的评估指标包括字错误率(WER)、句子错误率(SER)等。分析模型在不同条件下的表现,如不同口音、噪声环境等。8. 部署与优化:将训练好的模型部署到实际应用中,可能需要进行进一步的优化以提高实时性和准确性。根据用户反馈和新数据进行持续的模型更新和再训练。9. 持续学习: 随着新数据的不断产生,定期更新和再训练模型,以提高其适应性和准确性。通过以上步骤,可以训练出一个有效的语音识别模型,能够在多种环境和条件下进行准确的语音识别。五、拓展延伸无声语音识别技术问:你知道吗 许多科技公司正在争夺无声语音识别的专利权,你能猜出是怎么实现的吗 答:是不是跟特工一样,不用听取语音,通过识别唇形就能辨别说的是什么 答:之前的确有过尝试,但识别率都不高。常见无声的语音识别技术有两种,一种是在终端上添加传感器,通过感知用户说话时的气流来判断用户说话的内容;另一种通过对面部肌肉信号的采集,来学习人类说话时面部肌肉信号的特征,并通过神经网络的训练将面部肌肉信号和文字对应起来。问:在什么样的场景下需要用到这样的技术呢 答:在声音无法传播的地方,或者是在一些特别嘈杂的地方如灾害现场、舱外探索、水下作业等会用到。明天天气怎么样 ”“我想听周杰伦的歌”,诸如这样的指令每天有几亿次发生,哪怕是牙牙学语的孩子也可以和智能音箱进行流畅的对话。但在50年前,就职于贝尔实验室的约翰·皮尔斯却在一封公开信中为语音识别下了“死亡诊断书”:就像是把水转化为汽油、从海里提取金子、彻底治疗癌症,让机器识别语音几乎是不可能实现的事情。彼时距离首个能够处理合成语音的机器出现已经过去30年的时间,距离发明出能够听懂从0到9语音数字的机器也过去了17个年头。这两项创造性的发明均出自贝尔实验室,但语音识别技术的缓慢进展,几乎消磨掉了所有人的耐心。在20世纪的大部分时间里,语音识别技术就像一场不知方向的长征,时间刻度被拉长到了10年之久:20世纪60年代,时间规整机制、动态时间规整和音素动态跟踪三个关键技术奠定了语音识别发展的基础;20世纪70年代,语音识别进入了快速发展的阶段,模式识别思想、动态规划算法、线性预测编码等开始应用;20纪80年代,语音识别开始从孤立词识别系统向大词汇量连续语音识别系统发展,基于GMM-HMM的框架成为语音识别系统的主导框架;20纪90年代,出现了很多产品化的语音识别系统,比如IBM的Via-vioce系统、微软的Whisper系统、英国剑桥大学的HTK系统;但在进入21世纪后,语音识别系统的错误率依然很高,再次陷到漫长的瓶颈期。直到2006年Hiton提出用深度置信网络初始化神经网络,使得训练深层的神经网络变得容易,从而掀起了深度学习的浪潮。六、活动日志 活动目标 班级:XX姓名:XX活动名称语音识别的实现——体验语音特征提取、训练识别全过程活动环节1口 2口 3口 4口(在对应环节画V)活动完成内容实现语音识别技术活动完成度口口口口口口口口口(100%)活动小结问题与反思:项目做得不完善改进的方法:多练习或者询问老师和同学诀窍 学习人识别语音的过程学习耳朵与大脑的协同作用完成课堂活动。完成课堂活动。同学们进行实践学习无声语音识别技术完成活动日志记录。 通常需要信息的感知器官、信息的处理中枢等相互配合才能实现智能培养协同能力,引导学生们在生活的不同场景中都能感受到其带来的便利,加深对本课知识内容的理解和掌握。进行课题练习,引导学生进行举一反三和实际问题的解决,考查学生的知识学习落地能力。进行课题练习,引导学生进行举一反三和实际问题的解决,考查学生的知识学习落地能力。培养人脸识别设计能力,引导学生们在生活中能规范使用人脸识别技术,加深对本课知识内容的理解和掌握。语音识别技术可以分为特定人语音识别和非特定人语音识别将本课学习情况进行总结。课堂小结 语音识别的实现——体验语音特征提取、训练识别全过程1、引入新知内容2、学习人类分辨声音的过程3、学会演示一语音自训练平台4、完成课题练习5、进行相关知识拓展 总结回顾 对本节课内容进行总结概括。课后作业 在本节课完成后,想一想,当你依照人听到并分辨声音的过程时,你是如何理解机器是如何识别声音的?请同学们在小组内讨论一下,你在演示一语音自训练平台时,有遇到哪些困难呢? 布置作业 拓展学生的学习能力课堂板书 观看板书 强调教学重点内容。21世纪教育网 www.21cnjy.com 精品试卷·第 2 页 (共 2 页)HYPERLINK "http://www.21cnjy.com/" 21世纪教育网(www.21cnjy.com) 展开更多...... 收起↑ 资源预览