实战案例丨ModelArts在数据标注、数据过滤上的应用技巧:自动分组
大量复杂、乱序的图片依次标注效率极低,如果一次可以标注一大片的图片将极大地提升标注效率。
自动分组识别并提取图像特征,通过ModelArts先进的聚类算法可以将所有图片分组:将特征相似的图片归为一类,将特征差别大的图片群分离。
在花朵识别项目中,需对大量无标注的花朵图片进行标注,依次乱序标注蒲公英、郁金香、向日葵等将耗费大量宝贵时间
分组标注场景
启动自动分组,我们事先知道花朵数据集中存在5个类别,为他们分组6类(聚类算法不能保证一定将5类别完全区分出来,需更细化地分组,于是往往分组数需大于实际类别数):
过约3分钟后,通过筛选条件,我们可以得到自动分组的结果,如第1类几乎都是郁金香的图片,第3类几乎都是蒲公英的图片。
第1类
第3类
于是选择当前页 -> 输入蒲公英 ,即可直接对他们一次性进行标注。
当然并不是每个组都是完美的,如一个组中大多都是向日葵,但还夹杂着非洲菊 。此时选择当前页后,去掉相应非向日葵图片左上角的勾即可:
数据过滤场景
现实中的真实图像数据量少,往往无法满足深度学习网络训练数据量的要求,于是开发者们一般选择网络爬取需要的图片,但爬取下来的图片风格迥异、噪声杂多,想要从中提取需要的图片工作量是巨大的。
ModelArts提供的自动分组算法除了在分组标注上功能强大,在数据过滤场景上也是奇技淫巧 。
在安全帽项目中,由于实际安全帽图像过少,从谷歌爬取了大量安全帽相关图像(约3000张):
但是这些并不全是我们想要的“安全帽”,我们需要工地为背景,且工人类型的安全帽。
于是在自动分组中我们对这些图像细分为10个组(越大的分组数对数据集分组越细,能分离出更多噪声图像),以下为部分组的展示:
第0组
第1组
第4组
第9组
显然类似第1组和第9组的图片才是我们需要的结果,第1组和第4组浏览大致后可以全部删除,选择当前页并删除:
删掉噪声图像后,只剩下约1600张,过滤了快50%的图像:
当然如果还存在很多噪声,我们继续进行分组,对剩下的1640张图再自动分组10个类
可以看到,依旧有许多与安全帽不相干的图像如:
再一次浏览所有分组,对数据进行清洗,最终只剩下1008张图像,过滤了约65%的噪声图像,极大地降低了标注的压力。
相关文章
- Google Earth Engine(GEE)——MODIS计算NDFSI(归一化差值林地积雪指数)案例
- Google Earth Engine(GEE)—Julia Landsat 8 去云案例
- 【MATLAB教程案例64】深度学习网络建模1,通过matlab编程实现
- 【MATLAB教程案例12】基于GA遗传优化算法的函数极值计算matlab仿真及其他应用
- 方块跟着鼠标移动的案例
- MySQL性能分析案例-慢查询
- 大数据与机器学习:实践方法与行业案例.1.1 数据的基本形态
- PgSQL · 应用案例 · "写入、共享、存储、计算" 最佳实践
- IT众包Web网站服务案例:江苏保税店
- 线程高级应用-心得8-java5线程并发库中同步集合Collections工具类的应用及案例分析
- 《Android 应用案例开发大全(第二版)》——6.1节Android系统的信使:Intent
- 《Android 应用案例开发大全(第二版)》——6.6节Android源代码与过滤器
- MSSQL - 应用案例 - Event Notification + Service Broker构建死锁自动收集系统
- 《Android 应用案例开发大全(第3版)》——第2.3节壁纸的基本框架
- 《Android 应用案例开发大全(第3版)》——第2.9节壁纸的优化与改进
- 《Android 应用案例开发大全(第3版)》——导读
- Flink应用案例:How Trackunit leverages Flink to process real-time data from industrial IoT devices
- 应用案例 | 从Storm到Flink,有赞五年实时计算效率提升实践
- 《Mahout算法解析与案例实战》一一1.1 Mahout应用背景
- 《Mahout算法解析与案例实战》一一第2章 Mahout安装配置
- 软考高级之信息系统案例分析七重奏-《4》
- 【两周快速入门pr】一、电子相册案例——快速带你走进剪辑的世界
- Java案例 | 学籍管理系统(超详解 )