zl程序教程

您现在的位置是:首页 >  其他

当前栏目

Facebook介绍ICCV2017收录论文,其中五分之一都有何恺明的名字

论文 介绍 Facebook 名字 其中 收录
2023-09-27 14:27:57 时间

本周,全球的计算机视觉专家们即将齐聚威尼斯参加 ICCV (International Conference on Computer Vision)2017,展示计算机视觉和相关领域的最新研究进展。ICCV由IEEE主办,与计算机视觉模式识别会议(CVPR)和欧洲计算机视觉会议(ECCV)并称计算机视觉方向的三大顶级会议。CVPR每年召开一次,而ECCV和ICCV在世界范围内每年间隔召开。ICCV论文录用率很低,也符合它顶级会议的地位。

今年ICCV中,Facebook有15篇论文被收录,同时Facebook的研究员们也会参与多个workshop和tutotial。总体情况而言,ICCV 2017 共收到2143篇论文投稿,其中621篇被选为大会论文,录用比例29%。下面是Facebook此次收录的论文列表,按照不同的研究主题分组。(雷锋网 AI 科技评论发现,何恺明有多达三篇论文被收录;而谷歌的李飞飞也参与了一篇Facebook的论文)

语义和图像分割

Mask R-CNN


论文简介:这篇论文介绍了一个新型系统,它可以预测图像中的每一个像素属于哪一类中的哪一个物体。也就是说,这个系统不仅可以勾画出图中羊的轮廓并告诉你它们是羊(这一步属于语义分割),同时还能告诉你图像中的哪些部分对应着哪一只羊(实例分割)。Mask R-CNN是最早成功达到这类目标的系统之一。Facebook CTO Mike Schroepfer今年早些时候就在 F8 的主题演讲中展示了几个Mask R-CNN的应用例子。


论文简介:这篇论文中,作者们开发了一个深度学习模型,它可以从给定的一帧来自视频的画面尝试预测下一帧会发生什么。换句话说,它在尝试猜测视频中的未来会如何。这篇论文表明,得到的模型可以提升计算机视觉系统在语义分割之类的任务中的表现。


论文简介:随着卷积层不断向后推进,卷积神经网络中的单个神经元要观察的图像区域也越来越大。这会带来局部性非常差、并且模糊的响应,就是因为神经元要观察的图像范围太大了。在这篇论文中,作者们让每个神经元只关注部分感兴趣的区域,从而让神经元的响应变得更明确。


论文简介:虽然卷积神经网络可以准确地把图像中的像素分为不同的类别(比如汽车,飞机等等),但临近区域的分类结果却经常不一致,一个物体的一半可能会被识别为“床”,另一半则可能被识别为“沙发”。这篇论文提出了一种方法,连接了所有像素的分类结果,形成连续一致的预测结果,同时还保持了很高的效率。


论文简介:这篇论文中介绍了一个用于物体识别的新系统。它和现有顶尖的物体识别方案采用了不同的技术路径。目前多数其它系统都由多个阶段组成,每个阶段都由不同的模型实现,这篇论文中设计了一个模型在一个阶段中解决整个物体识别问题。这种方法的简单性极其诱人,因为这让这个系统的实现和使用都简单了许多。


论文简介:一般来说,物体检测系统都要先用需要识别物体的照片进行训练,每个类别都需要数以千计的照片。这篇论文针对的问题是如何在仅仅看过一种新物体的很少几张样本后就能对它进行识别。它使用的方法是产生更多的要学习的物体的样本(缩放和变幻)。


论文简介:这篇论文的目标是为物体检测学习更好的模型,途径是观察视频中的物体外观如何变化。比如,视频中一辆汽车开过,在不同的帧中展示了汽车不同的侧面。由于已知视频中的每一帧都展示的是同一辆车,用这些信息学习的模型就可以更好地理解同一个物体在不同视角下的样子。然后就可以用得到的模型改善物体检测的效果。


Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization


作者:Ramprasaath R. Selvaraju, Michael Cogswell, Abhishek Das, Ramakrishna Vedantam, Devi Parikh, Dhruv Batra


论文简介:多数现代图像分类系统都基于卷积神经网络的结构。这些网络的表现当然很不错,但是它们也还在很大程度上是“黑盒子”。这篇论文介绍了一种新的方法可以揭开这个黑盒子,把图片中能够让系统识别出结果的区域用特定的方式进行可视化。


论文简介:多数图像识别系统都是用人工标注的大规模图像数据库训练的,当中这个标注过程又枯燥又无法扩展。这篇论文中开发了一个图像识别系统,它是用5千万张图像和对应的用户评论训练的,不需要人工标注。这个系统可以识别物体、地标,以及数个单词长的场景,比如“金门大桥”或者“自由女神像”。


作者:Justin Johnson, Bharath Hariharan, Laurens van der Maaten, Judy Hoffman, 李飞飞, C. Lawrence Zitnick, Ross Girshick


论文简介:这篇论文讨论了这样一个视觉推理任务:给定一张图像,要让模型回答“绿色盒子前面的那个东西是什么形状?”模型的工作方式是使用一个“模块化网络”,这个网络会把问题转换成一个简单的计算机程序,然后用神经网络实现其中的每一个指令。这篇论文还展示了一个新的数据集用于视觉推理,名为“CLEVR-Humans”


论文简介:这篇论文中,作者们开发了一个聊天机器人,它能回答关于图像的问题。你可以问它“那个女人的伞是什么颜色的”这样的问题。如果图像中有两个女人,这个聊天机器人会问你:“哪个女人?”你答复它:“黑色头发的那个”,然后聊天机器人会告诉你:“伞是蓝色的。”离真正解决这类问题还有很远的距离,但这是这个领域的首项研究,对这个问题做出努力。


论文简介:这篇论文介绍了一种用于回答“紫色的圆柱体左侧的球是什么颜色”这类问题的新方法。在新方法中,问题会首先被转换为一个小型计算机程序;然后程序中的每个指令都会由一个神经网络来执行。程序生成器和程序执行器都是从成对的图像和问题中学习的。


Speaking the Same Language: Matching Machine to Human Captions by Adversarial Training


作者:Rakshith Shetty, Marcus Rohrbach, Lisa Anne Hendricks, Mario Fritz, Bernt Schiele


论文简介:这篇论文要处理的问题是图像标题的自动生成,也就是说,用自然语言描述一副图像。主要的技术创新是,它尝试让系统生成的标题更像是人类生成的。


论文简介:这篇论文中开发了一个新的系统,它可以基于一张正常的脸部照片,生成一个看起来很像你的漫画照片。主要的技术创新是,系统是以一种无监督的方法训练的。这意味着它并不是用成对的脸部照片和对应的漫画照片训练的,它拿到的只有整整一组人脸照片和另一组漫画的照片。系统会自动学习如何找到人脸照片和漫画照片之间的对应关系。


论文简介:物体的三维模型在很多场景下都会用到,比如虚拟显示VR中。在一个圆顶一样的空间内布置上百个相机,让它们同时拍一张照片,就可以建立出一个三维模型。这些相机都需要先进行校准,这样如果系统知道所有相机的确切位置,它就可以把所有的照片都进行合并,生成这个物体的三维模型。在过去的几十年中,相机的校准工作都是通过拍一张标准标定板完成的。这篇文章中的成果表明,如果拍摄一张带有三角形区域的标定板,相机可以被校准得更加准确。


为了方便国内的小伙伴们阅读,我们已经把这15篇论文从Facebook官网搬运并打包,下载地址 https://pan.baidu.com/s/1missH9e 

其它ICCV活动

除了以上的收录论文外,Facebook还会参加以下的多个Tutorial和Workshop


Instance-Level Visual Recognition Tutorial(何恺明会去这个,有同学想要去现场堵他的吗?)


深入Facebook机器学习部门:服务、模型、框架和硬件(贾扬清等HPCA论文) 近日 Facebook 研究团队公开一篇 HPCA 2018 论文,作者包括 Caffe 作者贾扬清等人,深度揭示了 Facebook 内部支持机器学习的硬件和软件基础架构。Facebook 的几乎所有的服务都广泛应用机器学习,其中计算机视觉只占资源需求的一小部分。
【NIPS2017】大会议程最全盘点,7位重磅嘉宾报告,DeepMind、Facebook论文汇总 新智元NIPS 2017系列报道第一篇,为你带来全景式的会议概览,包括大会主席构成、Tutorial和Workshop情况,7场受邀报告,以及DeepMind、Facebook研究院的工作。新智元智库专家、CMU计算机学院副教授马坚老师将在美国长滩带来现场直播,关注新智元小程序或加入直播群,参与直播互动,第一时间了解NIPS前沿资讯。
详解Facebook田渊栋NIPS2017论文:让大家都能做得起深度强化学习研究的ELF平台 作者们在测试中发现,组合训练对AI训练非常重要。他们的做法是,在训练AI模型的时候,先让内置AI玩一定的时间,然后交给要训练的AI接着玩。这就降低了游戏初始时的难度,而且给游戏带来了更多的变化,避免掉进局部最小值里。
开源多年后,Facebook这个调试工具,再登Github热门榜 让许多工程师合作开发大型应用大多会面临一个挑战,通常没有一个人知道每个模块是如何工作的,这种技能会让开发新功能、调查Bug或优化性能变得困难,为了解决这个问题,Facebook创建并开源了Flipper,一个可扩展的跨平台的调试工具,用来调试 iOS 和 Android 应用。近日又双叒登上了Github热榜。
Facebook开源静态代码分析工具Infer介绍 Infer是Facebook公司的一个开源的静态分析工具。Infer 可以分析 Objective-C, Java 或者 C 代码,用于发现潜在的问题。其作用类似于sonar和fortify。Infer更倾向于发现代码中的空指针异常、资源泄露以及内存泄漏的问题。
图神经网络版本的PyTorch来了,Facebook开源GTN框架,还可对图自动微分 近日,Facebook的AI研究院发表了一篇论文「DIFFERENTIABLE WEIGHTED FINITE-STATE TRANSDUCERS」,开源了用于图网络建模的GTN框架,操作类似于PyTorch这种传统的框架,也可以进行自动微分等操作,大大提高了对图模型建模的效率。