首次超越人类!“读图会意”这件事,AI比你眼睛更毒辣
本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。
在超越人类这件事上,AI 又拿下一分。
就在最近,国际权威机器视觉问答榜单VQA Leaderboard,更新了一项数据:
AI在“读图会意”任务中,准确率达到了81.26%。
![<span><span><span><i style=](https://s4.51cto.com/oss/202108/16/7ca94d16ac8f86cf4f98689be9d9eadd.jpg)
要知道,我们人类在这个任务中的基准线,也才80.83%。
而解锁这一成就的,是来自阿里巴巴达摩院团队的AliceMind-MMU。
而此举也就意味着,AI 于2015年、2018年分别在视觉识别和文本理解超越人类之后,在多模态技术方面也取得了突破!
AI比你更会看图
这个AI有多会看图?
来看下面几个例子就知道了。
当你问AI:“这些玩具用来做什么的?”
它就会根据小熊穿的礼服,回答道:
婚礼。
![<span><span><span><i style=](https://s3.51cto.com/oss/202108/16/2138a061842dca0af6e3a6981108fbae.jpg)
给AI再提一个问题:“男人的橄榄球帽代表哪只球队?”
它会根据帽子中的“B”字母回答:
波士顿球队。
![<span><span><span><i style=](https://s5.51cto.com/oss/202108/16/dbd47e32d10bd2c107bbb98327b000a1.jpg)
加大挑战难度再来一个。
“图中玩具人的IP出自哪部电影?”
这时候,AI 就会根据图中的玩具,还有战斗场景等信息,做一个推理。
不过最后还是精准的给出了答案:
星球大战。
![<span><span><span><i style=](https://s2.51cto.com/oss/202108/16/9b7793fe33deb3abd15c97cee6e6da34.jpg)
再例如下面这些例子中,AI都会捕捉图片中的细节信息,来精准回答提出的问题。
![<span><span><span><i style=](https://s2.51cto.com/oss/202108/16/35fa6875e28e9adf44cf666401392ebf.jpg)
嗯,可以说是细致入微了。
怎么做到的?
可能上面的这些案例,对于人类来说并不是很困难。
但对于AI来说,可不是件容易的事情。
一个核心难点就是:
需要在单模态精准理解的基础上,整合多模态的信息进行联合推理认知,最终实现跨模态理解。
怎么破?
阿里达摩院的做法是,对AI视觉-文本推理体系进行了系统性的设计,融合了大量的创新算法。
![<span><span><span><i style=](https://s4.51cto.com/oss/202108/16/81eb3470ad8fa93c72c1c3acfc2ebbe2.jpg)
具体来看,大致可以分为四个内容:
- 多样性的视觉特征表示:从各方面刻画图片的局部和全局语义信息,同时使用Region,Grid,Patch等视觉特征表示,可以更精准地进行单模态理解;
- 基于海量图文数据和多粒度视觉特征的多模态预训练:用于更好地进行多模态信息融合和语义映射,提出了SemVLP、Grid-VLP、E2E-VLP和Fusion-VLP等预训练模型。
- 自适应的跨模态语义融合和对齐技术:在多模态预训练模型中加入Learning to Attend机制,来进行跨模态信息地高效深度融合。
- Mixture of Experts (MOE)技术:进行知识驱动的多技能AI集成。
![<span><span><span><i style=](https://s3.51cto.com/oss/202108/16/e7a3cd685793d07e24ba1d9ab1bd6172.jpg)
据了解,模型中涉及技术还得到了专业的认可。
例如多模态预训练模型E2E-VLP,已经被国际顶级会议ACL2021接受。
![<span><span><span><i style=](https://s6.51cto.com/oss/202108/16/3b5b270552d94c58666bd0928d76318a.jpg)
关于VQA
VQA,可以说是AI领域难度最高的挑战之一。
而对于单一AI模型来说,VQA考卷难度堪称“变态”。
在测试中,AI需要根据给定图片及自然语言问题,生成正确的自然语言回答。
这意味着单个AI模型,需要融合复杂的计算机视觉及自然语言技术:
- 首先对所有图像信息进行扫描。
- 再结合对文本问题的理解,利用多模态技术学习图文的关联性、精准定位相关图像信息。
- 最后根据常识及推理回答问题。
![<span><span><span><i style=](https://s5.51cto.com/oss/202108/16/7b7ef52cbe79ff7580b2dc0fb130d800.jpg)
但解决VQA的挑战,对研发通用人工智能具有重要意义。
因此,全球计算机视觉顶会CVPR从2015年起连续6年举办VQA挑战赛。
吸引了包括微软、Facebook、斯坦福大学、阿里巴巴、百度等众多顶尖机构参与。
同时,也形成了国际上规模最大、认可度最高的VQA数据集,其包含超20万张真实照片、110万道考题。
![<span><span><span><i style=](https://s5.51cto.com/oss/202108/16/f237d6d843a3da3278e7c3c8f65c1cb8.jpg)
据了解,今年6月,阿里达摩院在VQA 2021 Challenge的55支提交队伍中夺冠,成绩领先第二名约1个百分点、去年冠军3.4个百分点。
而仅仅在2个月后的今天,达摩院再次以81.26%的准确率创造VQA Leaderboard全球纪录。
达摩院对此评价道:
这一结果意味着,AI在封闭数据集内的VQA表现已媲美人类。
相关论文链接:
[1]https://aclanthology.org/2021.acl-long.42/
[2]https://aclanthology.org/2021.acl-long.493/
[3]https://openreview.net/forum?id=Wg2PSpLZiH
VQA示例链接:
https://nlp.aliyun.com/portal#/multi_modal
达摩院AliceMind开源链接:
https://github.com/alibaba/AliceMind
相关文章
- 金融服务领域的大数据:即时分析
- 影响大数据、机器学习和人工智能未来发展的8个因素
- 从0开始构建一个属于你自己的PHP框架
- 如何将Hadoop集成到工作流程中?这6个优秀实践必看
- SEO公司使用大数据优化其模型的5种方法
- 关于Web Workers你需要了解的七件事
- 深入理解HTTPS原理、过程与实践
- 增强分析:数据和分析的未来
- PHP协程实现过程详解
- AI专家:大数据知识图谱——实战经验总结
- 关于PHP的错误机制总结
- 利用数据分析量化协同过滤算法的两大常见难题
- 怎么做大数据工作流调度系统?大厂架构师一语点破!
- 2019大数据处理必备的十大工具,从Linux到架构师必修
- OpenCV中的KMeans算法介绍与应用
- 教大家如果搭建一套phpstorm+wamp+xdebug调试PHP的环境
- CentOS下三种PHP拓展安装方法
- Go语言HTTP Server源码分析
- Go语言HTTP Server源码分析
- 2017年4月编程语言排行榜:Hack首次进入前五十