英伟达「一句话生成3D模型」碾压谷歌:分辨率清晰八倍,速度快两倍,编辑文本还可直接修改
本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。
一句话生成3D模型,英伟达也来“秀肌肉”了~
来看它最新捣鼓出的Magic3D AI,效果是这样儿的。
输入“坐在睡莲上的蓝色箭毒蛙”,就能得到这样一个细节丰富的3D模型:
“摆满了水果的银盘”也难不倒它:
还有诸如“鸟瞰角度的城堡”、“用寿司做的汽车”、“装着蛋的鸟巢”、“用垃圾袋做的裙子”……
精准程度可见一斑。
除了这个主要本领,它还可以通过编辑文本完成模型的修改:
或者在输入中携带一些图片,最终成果就可以保留图中的风格或者主要“人物”。
不知道这把有没有打到你的心巴上?
反正建模师看了都要喊失业了……
如何做到?
据介绍,Magic3D快速、高质量地得到结果所采用的策略是“从粗到细”,一共经过两阶段:
低分辨率优化和高分辨率优化。
它使用eDiff-l作为模型的低分辨率文本到图像扩散先验(diffusion prior)。
首先,第一阶段,采用英伟达今年推出的3D重建模型Instant NGP,并对其优化,生成初始3D模型。
具体来说,就是通过重复采样和渲染低分辨率图像,计算出SDS损失,让Instant NGP给出结果。
注:SDS全称得分蒸馏采样(Score Distillation Sampling),是谷歌提出的一种新的采样方法,它无需对扩散模型进行反向传播更新。
这步完成后,就使用DMTet提取出初始3D mesh,作为第二阶段的输入。
第二阶段采用高分辨率文本到图像潜(latent)扩散先验。
还是使用同样的方法,对高分辨率图像进行采样和渲染,并使用相同的步骤进行更新,得到最终结果。
唯一的不同,就是本阶段的操作都是在第一阶段得出的初始“糙”模型上进行的。
比DreamFusion分辨率高8倍,速度快2倍
关注这一领域的朋友知道,一句话生成3D模型的AI中,目前最受关注的当属谷歌今年9月刚发布的DreamFusion。
它通过一个预先训练的二维文本到图像扩散模型来完成最终的文本到三维合成,效果惊艳。
那么,英伟达刚推出的这个Magic3D,与之相比如何?
经实验对比发现,后来者显然更胜一筹,主要表现在分辨率和速度上:
Magic3D的分辨率比DreamFusion高8倍,速度快2倍——只需在40分钟之内即可完成一次渲染。
而在具体效果上,Magic3D的生成结果也更细节一些,比如下面的“仙人掌”、“房子”和“草莓”等(左为Magic3D,右为DreamFusion)。
不过,遗憾的是,Magic3D还并未像DreamFusion一样已开源。
关于作者
一共有10位。
前5位都具有同等贡献,包括:
现英伟达研究科学家、博士毕业于CMU机器人专业的Lin Chen-Hsuan,他曾在Facebook人工智能研究部和Adobe实习;
正在多伦多大学读博士的Gao Jun,北大计算机本科毕业;
正在多伦多读博士的Zeng Xiaohui,香港科技大学毕业;
以及同样来自该大学的Towaki Takikawa;
最后是正在康奈尔大学读博士的唐路明,清华大学物理和数学专业本科毕业。
论文地址:https://arxiv.org/abs/2211.10440
项目主页:https://deepimagination.cc/Magic3D/
相关文章
- 程序员学习编程需要攻克的8个障碍
- 程序员跳槽的10个建议
- 学习编程的七个阶段
- 如何成为一个通晓多种编程语言的程序员
- 如何提升你的能力?给年轻程序员的几条建议
- 我是如何在12周内成为一名程序员的
- 到了50岁你还愿意做编程工作吗?
- 一场成功的技术面试的几个关键点
- 年轻程序员需要学习的5大经验
- 当心!程序员在职业生涯中最易犯的7个错误
- 为什么要学习和使用 C 语言?
- 编程还是被编程?这是个问题
- Visual Studio 2015 RC 发布,支持通用应用程序
- 你用过这种奇葩的C#注释吗?如何看待
- 一个程序员的四年经历反思 有助程序员成长
- 跳槽季:分享从事C#开发人员面试经验
- 从“拖拽”编程开始到一个合格的程序员
- 50条大牛C++编程开发学习建议
- 微软发布开源版ASP.NET 5:支持在Windows/Mac/Linux上运行
- 为什么每个程序员都应该学习代码编译器知识