ImageNet决定给人脸打码,却让哈士奇图片识别率猛增
本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。
315晚会让大家意识到人脸识别有多可怕。在大洋彼岸,全球最具影响力的AI数据集也开始行动了。
近日,ImageNet数据集决定:给所有人脸打码,保护被收录者隐私。
![ImageNet决定给人脸打码,却让哈士奇图片识别率猛增](https://s5.51cto.com/oss/202103/17/1994c84ccc8411cd8841dc80928378bc.jpg)
ImageNet管理者之一Olga Russakovsky与李飞飞团队合作,一起“纠察”数据集中所有包含人脸的图像。
ImageNet总共有1000多个标签,其中只有3个标签与人相关,而很多看似与人脸无关的标签下,反而可能有大量人脸照片。
因此,研究团队通过亚马逊Rekognition的自动人脸识别以及众包方式,在150万张图片中,找出了243198张包含人脸的图片。
这些图片中的562626张人脸都已被模糊处理。
给人脸打码会影响AI模型效果吗?这恐怕是“炼丹”人士最关心的问题了。
在修改数据集之后,普林斯顿大学的博士生杨凯峪对这个问题进行了一番研究。
偏差不大,但结果微妙
研究者使用模糊处理后的数据集进行目标检测和场景检测基准测试。
在AlexNet、VGG、ResNet等15种主流网络模型上测试后发现,Top-1准确率最多下降1%,平均仅下降0.66%,Top-5准确率平均下降0.42%。
![ImageNet决定给人脸打码,却让哈士奇图片识别率猛增](https://s4.51cto.com/oss/202103/17/d57bfde02345d0af259261282527660f.jpg)
根据图片中模糊区域比例的不同,Top-1准确率下降程度随着模糊比例的增大,最高超过4%。
![ImageNet决定给人脸打码,却让哈士奇图片识别率猛增](https://s5.51cto.com/oss/202103/17/f2856564e44c5c16f6107d0d19d09e30.jpg)
某些类别中离模糊人脸更近的目标,例如口琴或面具,会导致更高的分类错误率。
![ImageNet决定给人脸打码,却让哈士奇图片识别率猛增](https://s6.51cto.com/oss/202103/17/89875c4392c39299fa1e361c70bc0303.jpg)
令人费解的是,一些没有人脸的照片反而会有很大的准确率波动,比如“哈士奇”、“爱斯基摩犬”分类。
![ImageNet决定给人脸打码,却让哈士奇图片识别率猛增](https://s4.51cto.com/oss/202103/17/3ce8df0ea282d47b0cac083ea4cbc92c.jpg)
其中,爱斯基摩犬的识别准确率出现大幅下降,而哈士奇的识别准确率反而大幅上升。
![ImageNet决定给人脸打码,却让哈士奇图片识别率猛增](https://s6.51cto.com/oss/202103/17/da84d6f46fdc85e13901867f060a8f1d.jpg)
连作者也觉得很奇怪,因为这两个类别中的大多数图像都没有人脸。具体原因如何只有等待后续研究了。
MIT科学家Aleksander Madry认为,模糊人脸的数据集训练的AI有时候很奇怪,数据中的偏差非常微妙,但可能会带来严重的后果。
向隐私和偏见说不
2020年,在计算机科学道德伦理学术会议FAccT上,ImageNet数据集删除了“人”子树中2702个同义集,因为这些类别中含有令人反感、贬义或污秽的表述。例如一些种族和性别歧视的内容。
虽然ImageNet此次对隐私问题做出了重大改变,但来自UnifyID的首席科学家Vinay Prabhu指出该数据集还有许多严重问题。
去年7月,Prabhu发表的一篇论文指出,ImageNet、Tiny Images等图片数据集中不仅存在危害隐私的状况,甚至还有一些不可描述的图片。
![ImageNet决定给人脸打码,却让哈士奇图片识别率猛增](https://s2.51cto.com/oss/202103/17/e54617a944d63c88a82ce64284a9f31f.jpg)
在那篇论文中,Prabhu建议,对数据集中的人脸做模糊处理,并且要做到在参与者明确同意后才能收集图片,不要为这类数据集创建数据共享许可证。
他曾给连续10个月给ImageNet团队发送邮件反馈此问题,直到去年4月才收到李飞飞的回复。
而此次ImageNet团队的论文并没有引用他,在接受《连线》杂志采访时,Prabhu表示对ImageNet团队没有承认他所做的工作感到失望。
Russakovsky回复称,论文的更新版本将会把Prabhu的研究加入引文中。
2019年,微软悄悄删除了包含1000万张图片的人脸数据集MS Celeb,这些照片都未征得本人同意。
![ImageNet决定给人脸打码,却让哈士奇图片识别率猛增](https://s4.51cto.com/oss/202103/17/33d954d23fb70e017a0e0774aac1e8ba.jpg)
此前用公共摄像头搜集的数据集,如杜克大学的MTMC、斯坦福大学的Brainwash,近年来都被悉数删除。
在公众隐私意识觉醒、法律逐渐完善的背景下,AI数据集到了必须要保护用户隐私的时候了。
相关文章
- 我的Vue之旅 09 数据数据库表的存储与获取实现 Mysql + Golang
- 使用jmx exporter采集kafka指标
- python format如何实现格式化输出列表?
- python plotly库如何使用?
- 如何使用Python timeit模块?
- python concat函数有何用法?
- 如何实现SQL语句的优化?
- 脑子这个好东西,我们模仿得怎么样了?类脑计算报告
- pandas中Series常见属性有哪些?
- pandas中index索引功能是什么
- pandas的连接函数concat()函数如何使用
- 在位6年,谷歌GO语言负责人突然宣布离职!曾带领MongoDB、Docker走向辉煌
- T资讯 | 华为HarmonyOS 3.0正式官宣、抖音下线“圈子”功能、首款国产科学计算软件研发成功:源代码自主编写
- Python find()函数是什么
- 开源!港中文、MIT、复旦提出首个RNA基石模型
- Python write()和writelines():向文件中写入数据
- 英伟达正将其在AI领域的成功经验复制到量子计算
- Python seek()和tell()函数详解
- 互联网公司都怎么实现分页的,拿 MySQL 使劲Limit?
- mysql 与Oracle 常见的启动报错