企业资讯-弈桔

荐读丨为您全方位解读语音识别理论与技术

发布时间：2020/08/07

返回列表

自然界的声音有很多种，，，，包括风声、、、雨声、、、、鸟叫声等，，，，而语音特指人类发出的声音。。。。语音是语言的声学表现，，是人类交流信息最直接、、、有效的方式，，，，语音的产生及感知应用，，，代表的就是人与人之间双向的交互过程。。

随着物联网、、、、智能设备等技术的快速发展，，，人与机器的交互，，，，逐步从对鼠标和键盘的依赖转移到语音方式，，其中的关键技术就是自动语音识别（Automatic Speech Recognition，，，简称“ASR”）。。语音识别，，，，简单地说，，就是在人与机器通过语音交流时，，，，让机器能够听懂你在说什么。。。自20世纪50年代以来，，，对语音识别的研究已有近70年的历史，，，，技术理论获得多方突破，，，，越来越多的应用也出现在我们生活中，，，，如语音输入法、、、、语音搜索、、、、智能音箱等。。。。这些成果的成功落地激励着更多的企业和科研机构参与进来，，，，对人才储备的需求也不断扩大。。。。

语音识别技术的发展日新月异，，，，新的理论和方案不断涌现，，，，除了基本原理，，，，相关从业人员也亟须了解语音识别的前沿技术，，，例如加权有限状态转换器（WFST）、、、、端到端（E2E）语音识别等。。。。

今天就为大家推荐一本全方位解读语音识别的新书：

《语音识别：原理与应用》

作者：洪青阳，，李琳

封吗.jpg

本书围绕语音识别的原理和应用讲解，，理论结合实际，，采用大量插图，，，，并辅以实例，，，力求深入浅出让读者能较快地理解语音识别的基础理论和关键技术。。。为帮助读者动手操作，，，，提高实战技能，，本书最后还结合Kaldi和Espnet等开源工具，，介绍了具体的工程实践方法。。。。

第一作者洪青阳承担过大量的语音识别项目研究和开发工作，，，有丰富的工业应用经验。。另外，，，，作者从事本科生、、、、研究生的语音识别教学十多年，，从最早的动态时间规整（DTW）、、隐马尔可夫模型（HMM）到最新的E2E语音识别框架，，积累了丰富的教学经验，，深感理论知识讲解的困难，，特别是语音识别原理比较复杂，，，，从声学特征提取到HMM建模和解码过程，，，，涉及信号处理、、概率模型和神经网络等多个领域知识，，，，要做到浅显易懂尤为不易，，，因此作者希望通过本书弥补高校人工智能等专业语音教材的匮乏，，同时也为产业界工程师的语音识别入门提供经验参考。。。。

全书共包含15个章节：

1	语音识别概论，，，介绍人类语音的产生和感知过程、、语音识别的关键技术、、发展历史等。。
2	语音信号基础，，，，介绍声音的采集和量化过程，，以及编码和存储格式。。
3	语音特征提取，，介绍语音信号的频域分析、、倒谱分析、、、、声学特征提取过程等。。。
4	HMM，，，，介绍双重随机过程，，，，以及HMM的三大问题。。。。
5	GMM-HMM，，，介绍高斯混合模型的定义和重估计公式，，并结合例子讲解GMM如何与HMM结合，，以及对应的具体参数形式。。。
6	基于HMM的语音识别，，，，介绍单音子声学模型和Viterbi解码过程。。。
7	音素的上下文建模，，，，介绍双音子和三音子模型，，，，并基于问题集和决策树讲述三音子的训练过程。。。
8	语言模型，，，，介绍语言模型训练过程及在语音识别中的作用。。。。
9	WFST 解码器，，，介绍动态和静态解码网络，，以及WFST、、、、HCLG等关键技术。。。。
10	DNN-HMM，，，介绍深度学习在语音识别中的应用，，，包括CNN、、LSTM、、、TDNN等网络。。。
11	序列区分性训练，，，介绍 MMI/BMMI、、、MPE/sMBR等准则，，，，以及Lattice-free MMI训练方法。。。
12	端到端语音识别，，，介绍CTC、、、、RNN-T、、、Attention和Transformer等端到端语音识别系统。。
13	Kaldi实践，，，首先介绍Kaldi的下载安装步骤，，然后以aishell-1中文数据库为例，，介绍如何训练和测试模型。。
14	Espnet实践，，介绍使用Espnet进行目前主流的端到端语音识别模型的训练和解码过程。。
15	工业应用实践，，，介绍如何封装语音识别动态库，，如何调用和调优。。。

内页.jpg

（内页展示）

本书理论知识充沛，，并兼顾工程实践，，是高校学生和初级技术人员的绝佳选择，，欢迎大家阅读。。

赠书福利

为感谢大家长期以来对弈桔的支持，，我们现举办限时赠书活动，，，扫描下方二维码阅读微信文章，，在文章底部留言并获得前三名点赞数量的小伙伴即可免费得到《语音识别：原理与应用》一本，，，，活动有效期至8月14日18:00。。。欢迎大家踊跃留言。。。。

上一篇：第五届东方语种识别竞赛（OLR Challenge）报名启动下一篇：弈桔多模态数据解决方案让数字人真正“活”起来