谷歌最新视频抠图术:影子烟雾都能抠,添加水印更顺滑
本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。
如何更顺滑的添加水印?
谷歌的这项新技术,让文本简直就像贴在地面上,哪怕是在沙尘横飞的场景里。
![谷歌<span><span><span><i style=](https://s4.51cto.com/oss/202109/02/27600fcfad888f12fe3ee78713b8e353.jpg)
方法也很简单。
只需输入一段视频,和指定对象的粗略蒙版。
![谷歌<span><span><span><i style=](https://s5.51cto.com/oss/202109/02/6f0e819e8ad73b62d56d36c082d208ad.jpg)
那这个对象的所有相关场景元素,都能解锁!
比如人和狗的影子。
![谷歌<span><span><span><i style=](https://s5.51cto.com/oss/202109/02/442f1ed00130783f78e34b5023033ea0.jpg)
还有黑天鹅缓缓拂过的涟漪~
![谷歌<span><span><span><i style=](https://s3.51cto.com/oss/202109/02/61936c897276d2fa11887b7536bd247e.jpg)
以及上述那个赛车疾驰过后激起的沙尘。
不管是任意对象和主体,不论怎么移动,所有元素都能抠出来。
这就是谷歌最新的视频分层技术——omnimatte,入选CVPR 2021 Oral。
目前这项技术都已开源。
如何实现
计算机视觉在分割图像或视频中的对象方面越来越有效,然而与对象相关的场景效果。
比如阴影、反射、产生的烟雾等场景效果常常被忽略。
而识别这些场景效果,对提高AI的视觉理解很重要,那谷歌这项新技术又是如何实现的呢?
简单来说,用分层神经网络渲染方法自监督训练CNN,来将主体与背景图像分割开来。
由于CNN的特有结构,会有倾向性地学习图像效果之间的相关性,且相关性却强,CNN越容易学习。
![谷歌<span><span><span><i style=](https://s5.51cto.com/oss/202109/02/98ffb9e082c4912e3c35dc92ec8a6fc3.jpg)
输入一段有移动物体的视频,以及一个或者多个标记主体的粗略分割蒙版。
首先,使用现成的分割网络比如Mask RCNN,来讲这些主体分成多个遮罩层和背景噪声图层,并按照某种规则进行排序。
比如,在一个骑手、一辆自行车以及几个路人的场景中,就会把骑手和自行车归入一个层,把人群归入第二层。
omnimatte模型是一个二维UNet,逐帧处理视频。每一帧都用现成的技术来计算物体掩码,来标记运动中的主体,并寻找和关联蒙版中未捕捉到的效果,比如阴影、反射或者烟雾,重建输入帧。
为了保证其他静止的背景元素不被捕获,研究人员引入了稀疏损失。
此外,还计算了视频中每一帧和连续帧之间的密集光流场,为网络提供与该层对象相关的流信息。
最终生成Alpha图像(不透明度图)和RGBA彩色图像,尤其RGBA图像,简直可以说是视频/图像剪辑法宝!
![谷歌<span><span><span><i style=](https://s6.51cto.com/oss/202109/02/db4bb807da748fcfb8f2da4e5d75be80.jpg)
目前这一技术已经开源,配置环境如下:
- Linux
- Python 3.6+
- NVIDIA GPU + CUDA CuDNN
有什么用途
技术效果如此,那有什么样的用途呢?
首先就可以复制或者删除图像。
![谷歌<span><span><span><i style=](https://s2.51cto.com/oss/202109/02/de174e76fb4931f93c39dd306f80d729.jpg)
还有顺滑地切换背景。
![谷歌<span><span><span><i style=](https://s2.51cto.com/oss/202109/02/d0d33fbbd7ba76c920111cf95ad995bc.jpg)
还可以实现这一经典操作,让原本依次掉水的小孩一起入水~
背后的团队
最后再来说一下背后的团队。
![谷歌<span><span><span><i style=](https://s5.51cto.com/oss/202109/02/6f03990279fe6bb39475270fb279efd6.jpg)
这项研究由谷歌研究院、牛津大学以及魏茨曼科学研究所共同完成。
其中,论文一作是牛津大学四年级博士生Erika Lu,曾是谷歌实习生,在麻省理工学院获得了计算机科学与工程学士学位。
![谷歌<span><span><span><i style=](https://s5.51cto.com/oss/202109/02/642bd5652948b1b7d3932f0b64222a31.jpg)
论文链接:
https://arxiv.org/pdf/2105.06993.pdf
相关文章
- 搞定这个日志智能分析设计,大小故障都无处可逃
- 面向开发人员的镜像和容器实践指南
- 如何使用PHP优雅地开发应用
- 看看面包超人的 '招牌线程池' 用得可还行?
- Dubbo 同步调用太慢,也许你可以试试异步处理
- 创业失败后,我决定开源所有产品代码
- SpringCloud Alibaba微服务实战之 禁止直接访问后端服务
- 独家报道 lock.lock() 写在 try 外面?
- 中台之后,微服务是否也会被玩死?
- 高性能Nginx HTTPS调优!为HTTPS提速30%
- Go 命令行工具项目结构最佳实践
- Mattermost+Jira集成加速DevOps工作流程
- 开发者值得关注的9大流行PHP框架
- 谁再把IDEA的Project比作Eclipse的Workspace,我就跟谁急
- Consul实战:术语和命令解释
- 「平淡无奇小天才」:两块C++代码结合ASCII码,即可实现Nvidia光线追踪技术
- 探讨:Redux这么有名,只是我们不合适
- Github上看到的4个超级好玩的开源项目
- 前端开发者的现状:岂是一个乱字了得?
- 面试官问我 InnoDB 的物理存储结构!