zl程序教程

您现在的位置是:首页 >  工具

当前栏目

镁佳科技语音论文入选国际知名会议ISCSLP,针对ASR和VAD联合建模提出更优解决方案

建模论文解决方案 科技 联合 语音 针对 国际
2023-06-13 09:17:39 时间

中文口语语言处理国际会议ISCSLP为中文语音处理领域的知名国际会议,由国际语音交流协会中文口语处理专业委员会ISCA SIG-CSLP 主办,会上发布成果对中文智能语音的发展具有重要指导意义。

镁佳科技在智能语音方面针对自动化语音识别(ASR)和语音端点检测(VAD)联合建模的研究论文,被ISCSLP 2022以长文形式录用发表

题目:Incorporating VAD into ASR System by Multi-task Learning

1

研究背景

在线连续语音识别是一项具有挑战性的任务。一般语音识别模型是在人工切分的短音频上训练,当遇到较长输入时,性能会大幅下降, 因此在实际使用中一般会依赖一个独立的VAD系统来减少不必要的计算资源消耗及防止性能大幅下降。但是独立VAD系统的开发需要额外的时间和资源投入,虽然过去有些方法通过将VAD与ASR联合训练的方式节省了该项投入,但因ASR与VAD共享整个模型,仍给VAD带来了很多不必要的计算量。

本篇论文对该问题提出了创新性的解决方法,VAD仅共享模型底层的一部分参数,且在ASR中经过VAD计算的部分无需再重复计算,极大降低了VAD的计算量。

为了弥补在线长语音识别中的性能下降,论文中提出一种专用于VAD+ASR联合训练的跨任务注意力机制,在模型的浅层特征学习到VAD的信息之后,深层特征会将这些信息做进一步利用,从而在ASR任务上得到更好的表现。

此外,为了更好支持在线语音识别,该篇论文还提出了一种VAD+ASR在线解码策略,能够将模型用于在线流式的语音识别,相比人工切分离线识别结果,能够将字错误率(CER)的损耗控制在5%以内。

2

方法介绍

我们的目标是将VAD和ASR两个任务联合建模,在保证ASR性能的同时,尽可能减小VAD的计算量。

为达到这个目标,我们首先基于语音预训练模型wav2vec2.0进行初始化,其中模型底层CNN编码器的加上一层1维卷积用于学习VAD任务,这样的设计能够避免完全共享参数导致的VAD计算量过大的问题。且由于VAD模块和ASR模块共享底层CNN编码器的参数,ASR模块在进行识别时能够省去这一部分的计算量。

为了进一步提升ASR识别的性能,我们使用跨任务注意力机制使ASR模块能够进一步利用VAD的信息,模型设计如下图所示:

为了支持将模型用于线语音识别,我们提出了一种VAD+ASR在线解码策略。我们为ASR准备一个缓存模块,首先使用滑窗的形式进行VAD检测,将语音帧对应的CNN输出特征存放在ASR缓存模块中,当缓存模块的长度大于设定的阈值后或者VAD检测到语音结束端点,将ASR缓存模块中的特征继续用于计算ASR识别结果。整个在线解码过程如下所示:

3

实验及结果

为了验证论文中提出的方法的在ASR上

的效果,我们分别在中文数据集HKUST和英文数据集Librispeech-100h上进行了实验。

我们将基于预训练wav2vec2.0的ASR方案作为基线进行了对比,实验结果表明在HKUST测试集上我们的方法能够降低7.3%的字错误率,在Librispeech的dev-clean和test-clean数据集上能够降低8.7%和6.9%的词错误率。

实验结果如下表所示:

HKUST实验结果

Librispeech-100h实验结果

为了验证VAD+ASR在线解码策略,我们在在HKUST未切分的长语音测试集上进行了实验,分别与基于人工切分的离线ASR、基于GMM的VAD切分的离线ASR、基于DNN的VAD切分的离线ASR进行了对比,结果表明在HKUST测试集上我们的方法相比人工切分的ASR方案字错误率仅上升了不到3%,相比预计GMM和DNN的VAD切分的ASR方案字错误率分别降低了7.5%和5%。

实验结果如下表所示:

HKUST长音频实验结果