猛男把400+条猫咪叫声做成数据集,可识别猫的3种不同状态
本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。
这年头,就连喵星人也有自己的语音数据集了。
没错,来自米兰大学计算机系的几位猛男,和生物系、兽医系的小伙伴们一起,收集了21只猫咪的400+条语音数据,做了个猫叫声数据集。
这21只猫咪中,包括10只成年缅因猫和11只成年欧洲短毛猫,是长毛和短毛猫咪中的代表类型。
![猛男把400+条猫咪叫声做成数据集,可识别猫的3种不同状态丨开源](https://s3.51cto.com/oss/202106/25/4d79df97dbf78ac24ce72f016661e15c.jpg)
△缅因猫vs欧洲短毛猫
不少网友下载后表示:
![猛男把400+条猫咪叫声做成数据集,可识别猫的3种不同状态丨开源](https://s6.51cto.com/oss/202106/25/df230cbf6e71dc02224faa1421e1d644.jpg)
痴汉笑半小时了,根本干不了活啊!
3种猫咪叫声,总长21分钟
制作这个数据集的初衷,是为了人类能更好地理解猫咪叫声的含义,为以后的人-猫沟通作准备。
因此,在制作数据集时,研究者们选择了3种让猫发出不同叫声的场景:
- 等待投喂:主人喂食前的猫叫声。
- 被放到陌生环境下隔离:将猫运送到一个陌生环境,车程不超过半小时,被隔离前会与主人先相处半小时。隔离时的猫会发出叫声。
- 刷牙:主人给猫刷牙时的猫叫声。
在这些场景中,每次收集猫叫的时间不超过5分钟(例如,5分钟后就会给猫喂食)。
为了让语音数据更清晰、且不影响猫的日常行动,研究者们采用了一个不到50g的小型麦克风,挂在猫脖子上。
![猛男把400+条猫咪叫声做成数据集,可识别猫的3种不同状态丨开源](https://s3.51cto.com/oss/202106/25/d0f19d5be17dc7f2cbd60da0198a4ef2.jpg)
在清除了不包含猫叫声的片段后,研究者们将这些叫声录音剪切成平均长度1.82s、方差0.37s左右的录音文件,共448个片段,其中缅因猫196个,欧洲短毛猫是252个,总时长约21分钟。
这是收集到的3种类型的叫声,从左至右依次为等待投喂、被隔离和刷牙:
![猛男把400+条猫咪叫声做成数据集,可识别猫的3种不同状态丨开源](https://s6.51cto.com/oss/202106/25/08795dba4e27335da0e64f91a3752471.jpg)
为了准确识别猫咪在这3种情况下的叫声,研究者们还做了一个机器学习模型。
无关猫咪种类,识别效果90%以上
研究者们采用了模式识别的方法,算法框架是一个有向无环图。
简单来说,先区分猫叫声是否属于“等投喂”和“被隔离”两种状态,再识别它们是否属于“刷牙”的状态。
![猛男把400+条猫咪叫声做成数据集,可识别猫的3种不同状态丨开源](https://s5.51cto.com/oss/202106/25/1ea2823308f765b8a78b146748e2360f.jpg)
为了验证哪种模型对于识别3种猫咪语音状态更有效,研究者们采用了不同的模型进行实验,最后确定了有向无环图中的隐马尔科夫模型,识别率最高能达到95.94%。
![猛男把400+条猫咪叫声做成数据集,可识别猫的3种不同状态丨开源](https://s3.51cto.com/oss/202106/25/60fee7ad3f35505fea25a6b1b90ec92b.jpg)
经过实验,“等待投喂”的猫咪叫声能被完美识别,达到了100%;“刷牙”的猫咪叫声识别率达到了第二,平均在95.24%,有一定概率被识别成“等待投喂”;“被隔离”的猫咪叫声识别率在92.59%,有一定概率被识别成“刷牙”。
![猛男把400+条猫咪叫声做成数据集,可识别猫的3种不同状态丨开源](https://s3.51cto.com/oss/202106/25/2890e62d6256c6ba2b040c161d74c277.jpg)
三种状态的识别效果都在90%以上,也算是一个不错的模型了。
这项研究、以及猫叫数据集的制作,来自米兰大学计算机系的3位猛男,以及生物学系和兽医系的小伙伴们,所有人在这项研究中的贡献相同。
![猛男把400+条猫咪叫声做成数据集,可识别猫的3种不同状态丨开源](https://s4.51cto.com/oss/202106/25/dd118017d95d772e0bb45594d7b1d842.jpg)
网友:哪有心思搞科研
发现这个数据集后,不少网友第一反应:居然连这都有?
![猛男把400+条猫咪叫声做成数据集,可识别猫的3种不同状态丨开源](https://s4.51cto.com/oss/202106/25/93c93901f1e0515b77e95a15d3eba4d3.jpg)
已经有网友,开始试图搞懂、甚至已经听懂数据集的“详细内容”了:
![猛男把400+条猫咪叫声做成数据集,可识别猫的3种不同状态丨开源](https://s4.51cto.com/oss/202106/25/6c9f08a2ddcc4f7f6844bd39d193b254.jpg)
有网友嗅到了里面的商机:
![猛男把400+条猫咪叫声做成数据集,可识别猫的3种不同状态丨开源](https://s2.51cto.com/oss/202106/25/eedc1a6212a4f4365ca39091cac9cf0f.jpg)
还有网友调侃,根本没心情搞科研,只剩开心了。
当然,除了猫咪叫声,也有不少网友提出,想要其他的声音数据集:
![猛男把400+条猫咪叫声做成数据集,可识别猫的3种不同状态丨开源](https://s2.51cto.com/oss/202106/25/e4fea5a4d0dcbe7358370eed7dce5517.jpg)
对猫咪叫声有兴趣的朋友,戳下方地址即可获取~
猫叫数据集传送门:
https://zenodo.org/record/4008297#.YNFSEhMzaPf
相关文章
- 直接在代码里面对list集合进行分页
- .NET Framework 4.5新特性详解
- 大数据的简要介绍
- 大数据的由来
- 高斯混合模型的自然梯度变量推理
- timing-wheel 仿Kafka实现的时间轮算法
- 使用Navicat软件连接自建数据库(Linux系统)
- 那一天,我被Redis主从架构支配的恐惧
- Redis 深入了解键的过期时间
- C#使用委托调用实现用户端等待闪屏
- 基于流计算 Oceanus 和 Elasticsearch Service 构建百亿级实时监控系统
- GRAND | 转录调控网络预测数据库
- JFreeChart API中文文档
- 临床相关突变查询数据库
- TIGER | 人类胰岛基因变化查询数据库
- 视频边缘计算网关EasyNVR在视频整体监控解决方案中的应用分析
- Apache Arrow - 大数据在数据湖后的下一个风向标
- 常见的电商数据指标体系
- AKShare-艺人数据-艺人流量价值
- MySQL中多表联合查询与子查询的这些区别,你可能不知道!