您现在的位置是：首页 > 工具

当前栏目

镁佳科技语音论文入选国际知名会议ISCSLP，针对ASR和VAD联合建模提出更优解决方案

建模论文解决方案科技联合语音针对国际

2023-06-13 09:17:39 时间

中文口语语言处理国际会议ISCSLP为中文语音处理领域的知名国际会议，由国际语音交流协会中文口语处理专业委员会ISCA SIG-CSLP 主办，会上发布成果对中文智能语音的发展具有重要指导意义。

镁佳科技在智能语音方面针对自动化语音识别(ASR)和语音端点检测(VAD)联合建模的研究论文，被ISCSLP 2022以长文形式录用发表

题目：Incorporating VAD into ASR System by Multi-task Learning

研究背景

在线连续语音识别是一项具有挑战性的任务。一般语音识别模型是在人工切分的短音频上训练，当遇到较长输入时，性能会大幅下降，因此在实际使用中一般会依赖一个独立的VAD系统来减少不必要的计算资源消耗及防止性能大幅下降。但是独立VAD系统的开发需要额外的时间和资源投入，虽然过去有些方法通过将VAD与ASR联合训练的方式节省了该项投入，但因ASR与VAD共享整个模型，仍给VAD带来了很多不必要的计算量。

本篇论文对该问题提出了创新性的解决方法，VAD仅共享模型底层的一部分参数，且在ASR中经过VAD计算的部分无需再重复计算，极大降低了VAD的计算量。

为了弥补在线长语音识别中的性能下降，论文中提出一种专用于VAD+ASR联合训练的跨任务注意力机制，在模型的浅层特征学习到VAD的信息之后，深层特征会将这些信息做进一步利用，从而在ASR任务上得到更好的表现。

此外，为了更好支持在线语音识别，该篇论文还提出了一种VAD+ASR在线解码策略，能够将模型用于在线流式的语音识别，相比人工切分离线识别结果，能够将字错误率(CER)的损耗控制在5%以内。

方法介绍

我们的目标是将VAD和ASR两个任务联合建模，在保证ASR性能的同时，尽可能减小VAD的计算量。

为达到这个目标，我们首先基于语音预训练模型wav2vec2.0进行初始化，其中模型底层CNN编码器的加上一层1维卷积用于学习VAD任务，这样的设计能够避免完全共享参数导致的VAD计算量过大的问题。且由于VAD模块和ASR模块共享底层CNN编码器的参数，ASR模块在进行识别时能够省去这一部分的计算量。

为了进一步提升ASR识别的性能，我们使用跨任务注意力机制使ASR模块能够进一步利用VAD的信息，模型设计如下图所示：

为了支持将模型用于线语音识别，我们提出了一种VAD+ASR在线解码策略。我们为ASR准备一个缓存模块，首先使用滑窗的形式进行VAD检测，将语音帧对应的CNN输出特征存放在ASR缓存模块中，当缓存模块的长度大于设定的阈值后或者VAD检测到语音结束端点，将ASR缓存模块中的特征继续用于计算ASR识别结果。整个在线解码过程如下所示：

实验及结果

为了验证论文中提出的方法的在ASR上

的效果，我们分别在中文数据集HKUST和英文数据集Librispeech-100h上进行了实验。

我们将基于预训练wav2vec2.0的ASR方案作为基线进行了对比，实验结果表明在HKUST测试集上我们的方法能够降低7.3%的字错误率，在Librispeech的dev-clean和test-clean数据集上能够降低8.7%和6.9%的词错误率。

实验结果如下表所示：

HKUST实验结果

Librispeech-100h实验结果

为了验证VAD+ASR在线解码策略，我们在在HKUST未切分的长语音测试集上进行了实验，分别与基于人工切分的离线ASR、基于GMM的VAD切分的离线ASR、基于DNN的VAD切分的离线ASR进行了对比，结果表明在HKUST测试集上我们的方法相比人工切分的ASR方案字错误率仅上升了不到3%，相比预计GMM和DNN的VAD切分的ASR方案字错误率分别降低了7.5%和5%。

实验结果如下表所示：

HKUST长音频实验结果

猜你喜欢

Mastering Network Scanning: How to Use Nmap on Linux for Advanced Security Testing（nmaplinux）
FDA 为首个肾脏疾病诊断 AI 产品授予突破性设备称号
DELL服务器基础运维操作与错误处理
Linux下轻松运行软件（linux上运行软件）
使用 Linux 前缀实现更强大的IT架构（linuxprefix）
三维动画制作 Maya 2019三维建模和动画设计！+maya全版本安装包
php仿QQ验证码的实例分析
消息队列
Go语言网络爬虫中的基本数据结构
python3 与 MySQL 之间的交互
PHP面向对象编程快速入门
ORA-21500: internal error code, arguments: [string], [string], [string], [string], [string], [string], [string], [string] ORACLE 报错故障修复远程处理
bolin深入探索Linux系统下的符号解析（linuxsum）
Redis中奥秘之谜研究令人惊奇的处理方法（redis里面的方法）
浮出水面的新安防巨头：科大讯飞
深入理解Oracle灵活的关键字排序机制（oracle关键字排序）
MySQL表格比较实用技巧：两表对比（mysql两表比较）
聚焦元宇宙 “共话元宇宙底层技术”分享会精彩观点集锦
Patterns | 自监督图预训练模型整合大规模分子网络以探寻疾病相关基因的内在互作机制
JavaScript类型的包装对象(TypedWrappers)
springbean的生命周期详细_fragment生命周期详解
acle性能优势SQLServer与Oracle: 哪个更具性能优势？（sqlserver中or）
美国防部大动作，或造成我国内网数据泄露
身陷台风、三伏天的外卖骑手大多没有社保

zl程序教程

当前栏目

镁佳科技语音论文入选国际知名会议ISCSLP，针对ASR和VAD联合建模提出更优解决方案

相关文章