镁佳科技语音论文入选国际知名会议ISCSLP,针对ASR和VAD联合建模提出更优解决方案
中文口语语言处理国际会议ISCSLP为中文语音处理领域的知名国际会议,由国际语音交流协会中文口语处理专业委员会ISCA SIG-CSLP 主办,会上发布成果对中文智能语音的发展具有重要指导意义。
镁佳科技在智能语音方面针对自动化语音识别(ASR)和语音端点检测(VAD)联合建模的研究论文,被ISCSLP 2022以长文形式录用发表
题目:Incorporating VAD into ASR System by Multi-task Learning
1
研究背景
在线连续语音识别是一项具有挑战性的任务。一般语音识别模型是在人工切分的短音频上训练,当遇到较长输入时,性能会大幅下降, 因此在实际使用中一般会依赖一个独立的VAD系统来减少不必要的计算资源消耗及防止性能大幅下降。但是独立VAD系统的开发需要额外的时间和资源投入,虽然过去有些方法通过将VAD与ASR联合训练的方式节省了该项投入,但因ASR与VAD共享整个模型,仍给VAD带来了很多不必要的计算量。
本篇论文对该问题提出了创新性的解决方法,VAD仅共享模型底层的一部分参数,且在ASR中经过VAD计算的部分无需再重复计算,极大降低了VAD的计算量。
为了弥补在线长语音识别中的性能下降,论文中提出一种专用于VAD+ASR联合训练的跨任务注意力机制,在模型的浅层特征学习到VAD的信息之后,深层特征会将这些信息做进一步利用,从而在ASR任务上得到更好的表现。
此外,为了更好支持在线语音识别,该篇论文还提出了一种VAD+ASR在线解码策略,能够将模型用于在线流式的语音识别,相比人工切分离线识别结果,能够将字错误率(CER)的损耗控制在5%以内。
2
方法介绍
我们的目标是将VAD和ASR两个任务联合建模,在保证ASR性能的同时,尽可能减小VAD的计算量。
为达到这个目标,我们首先基于语音预训练模型wav2vec2.0进行初始化,其中模型底层CNN编码器的加上一层1维卷积用于学习VAD任务,这样的设计能够避免完全共享参数导致的VAD计算量过大的问题。且由于VAD模块和ASR模块共享底层CNN编码器的参数,ASR模块在进行识别时能够省去这一部分的计算量。
为了进一步提升ASR识别的性能,我们使用跨任务注意力机制使ASR模块能够进一步利用VAD的信息,模型设计如下图所示:
为了支持将模型用于线语音识别,我们提出了一种VAD+ASR在线解码策略。我们为ASR准备一个缓存模块,首先使用滑窗的形式进行VAD检测,将语音帧对应的CNN输出特征存放在ASR缓存模块中,当缓存模块的长度大于设定的阈值后或者VAD检测到语音结束端点,将ASR缓存模块中的特征继续用于计算ASR识别结果。整个在线解码过程如下所示:
3
实验及结果
为了验证论文中提出的方法的在ASR上
的效果,我们分别在中文数据集HKUST和英文数据集Librispeech-100h上进行了实验。
我们将基于预训练wav2vec2.0的ASR方案作为基线进行了对比,实验结果表明在HKUST测试集上我们的方法能够降低7.3%的字错误率,在Librispeech的dev-clean和test-clean数据集上能够降低8.7%和6.9%的词错误率。
实验结果如下表所示:
HKUST实验结果
Librispeech-100h实验结果
为了验证VAD+ASR在线解码策略,我们在在HKUST未切分的长语音测试集上进行了实验,分别与基于人工切分的离线ASR、基于GMM的VAD切分的离线ASR、基于DNN的VAD切分的离线ASR进行了对比,结果表明在HKUST测试集上我们的方法相比人工切分的ASR方案字错误率仅上升了不到3%,相比预计GMM和DNN的VAD切分的ASR方案字错误率分别降低了7.5%和5%。
实验结果如下表所示:
HKUST长音频实验结果
相关文章
- 游戏3d模型如何放到计算机中,三维建模技术在三维游戏中的应用
- ICML 2022 | 游戏AI学会见招拆招,腾讯AI Lab提出「对手建模」算法框架GSCU
- 影视3D建模和游戏3D建模差异,哪个更有前景?
- 大数据建模流程之任务分析
- 数学建模算法学习——各类模型算法汇总[通俗易懂]
- 齿轮减速器建模
- mac(逼真音色建模插件)IK Multimedia TONEX MAX
- Bert不完全手册9. 长文本建模 BigBird & Longformer & Reformer & Performer
- 软件方法(下)第9章分析类图案例篇Part05-案例二-智能建模工具
- Mac好用的3d建模软件 Rhinoceros 7 for Mac(犀牛7 mac版) 完美激活版
- Revit三维建模软件下载 3D建模Revit2023安装绿色版
- Rhino犀牛软件中文版下载-专业的3D建模软件安装教程
- 三维动画建模 C4D软件安装包下载 C4D安装激活
- amos软件是干嘛的?结构方程建模Amos软件安装包下载及安装激活
- Linux C 实现二维数组建模(linuxc二维数组)
- MongoDB下的数据建模实践(mongodb数据建模)