技术实操丨SoundNet迁移学习之由声音分类到语音情感识别
2023-02-18 15:32:12 时间
摘要:声音也是识别对象的一种重要数据源。其中根据声音来识别声音所处的环境也是语音识别的研究内容之一。
一、思路
1、SoundNet模型在视频数据中先预训练,视频任务可能是场景识别,可参考这篇文章SoundNet: Learning Sound Representations from Unlabeled Video。
2、迁移学习:5层的soundnet只取前3层作为迁移层,在新数据集中训练时保持着三层不变,其余两层随机初始化,再训练。
3、在新数据如IEMOCAP中fine-tuning
二、实验数据
三、实验结果
评价指标:AUC
Scratch表示随机初始化的SoundNet。
四、总结
1、面对音频数据稀缺,给出了很好的解决思路,可根据SoundNet文章中的思路,先从视频数据入手,学习SoundNet参数,然后应用到自己的场景中;
2、跨语言迁移学习:文章中从英语场景迁移到汉语场景,效果比单一数据训练提升很大;
3、YFCC100m 、Google AudioSet可用于预训练模型。
参考文献:
[1] ElShaer M E A, Wisdom S, Mishra T. Transfer Learning From Sound Representations For Anger Detection in Speech[J]. arXiv preprint arXiv:1902.02120, 2019.
相关文章
- [android] 安卓消息推送的几种实现方式
- [android] 安卓进程优先级&为什么使用服务
- Mysql join left查询无法命中索引一例
- 2022-12-11:行程和用户。以下为输出结果,请问sql语句如何写? +------------+-------------------+ | Day |
- Valentina Studio Pro mac/win(数据库管理器)最新版
- 10个人9个答错,另外1个只对一半:数据库的锁,到底锁的是什么?
- (一)Mysql基础
- (二)Mysql基本操作
- (三)SQL语言基础
- (五)SQL运算符
- 数据库运维 | 携程分布式图数据库NebulaGraph运维治理实践
- Oracle连接工具PLSQL登录时提示初始化失败,无法锁定OCI.dll错误解决
- SQL 入门篇之什么是别名?
- SQL ALTER TABLE 语句
- SQL AND & OR 运算符
- SQL BETWEEN 操作符
- MYSQL 不同的表格式,导致不同的存储空间消耗和性能差异 横向评测
- POSTGRESQL AUTO_EXPLAIN 记录慢语句的执行计划
- 一个好的数据库产品,除了本身好,细节请麻烦也注意一下
- POSTGRESQL COPY 命令导入数据,你还另一个更快的方案!