英伟达推出GAN“超级缝合体”,输入文字草图都能生成逼真照片
本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。
继GauGAN2之后,英伟达推出了一个GAN的“超级缝合体”——PoE GAN。
PoE GAN可以接受多种模态的输入,文字描述、图像分割、草图、风格都可以转化为图片。
![英伟达推出GAN“超级缝合体”,输入文字草图都能生成逼真照片](https://s5.51cto.com/oss/202112/13/fe6cda59d74a77a6474a93f907f636b7.jpg)
而且它可以同时接受以上几种输入模态的任意两种组合,这便是PoE的含义。
![英伟达推出GAN“超级缝合体”,输入文字草图都能生成逼真照片](https://s3.51cto.com/oss/202112/13/537e1472689c16a6ebfe38ed67b95061.jpg)
所谓PoE是Hinton在2002年提出的“专家乘积”(product of experts)概念,每个专家(单独模型)被定义为输入空间上的一个概率模型。
而每种单独的输入模态都是合成图像必须满足的约束条件,因此满足所有约束的一组图像是满足每个约束集合的交集。
![英伟达推出GAN“超级缝合体”,输入文字草图都能生成逼真照片](https://s3.51cto.com/oss/202112/13/b3330f25eb078318c201c9d68a3df023.jpg)
假设每种约束的联合条件概率分布都服从高斯分布,就用单条件概率分布的乘积来表述交集的分布。
![英伟达推出GAN“超级缝合体”,输入文字草图都能生成逼真照片](https://s4.51cto.com/oss/202112/13/fe9049f4757070144984e0fd1e54b84c.jpg)
在此条件下,为了使乘积分布在一个区域具有高密度,每个单独的分布需要在该区域具有高密度,从而满足每个约束。
而PoE GAN的重点是如何将每种输入混合在一起。
PoE GAN的设计
PoE GAN的生成器使用全局PoE-Net将不同类型输入的变化混合起来。
我们将每个模态输入编码为特征向量,然后使用PoE汇总到全局PoE-Net中。解码器不仅使用全局PoE-Net的输出,还直接连接分割和草图编码器,以此来输出图像。
![英伟达推出GAN“超级缝合体”,输入文字草图都能生成逼真照片](https://s4.51cto.com/oss/202112/13/60f1154f3eb63d356bd65af9f845daf8.jpg)
全局PoE-Net的结构如下,这里使用一个潜在的特征矢量z0作为样本使用PoE,然后由MLP处理以输出特征向量w。
![英伟达推出GAN“超级缝合体”,输入文字草图都能生成逼真照片](https://s5.51cto.com/oss/202112/13/5b3412710ec8794d2ffa0b3365888c03.jpg)
在鉴别器部分,作者提出了一种多模态投影鉴别器,将投影鉴别器推广到处理多个条件输入。
与计算图像嵌入和条件嵌入之间单个内积的标准投影鉴别器不同,这里要计算每个输入模态的内积,并将其相加以获得最终损失。
![英伟达推出GAN“超级缝合体”,输入文字草图都能生成逼真照片](https://s6.51cto.com/oss/202112/13/a1e43cad6d87f9a482cd4e7cba696c62.jpg)
随意变换输入的GAN
PoE可以在单模态输入、多模态输入甚至无输入时生成图片。
当使用单个输入模态进行测试时,PoE-GAN的表现优于之前专门为该模态设计的SOTA方法。
例如在分割输入模态中,PoE-GAN优于此前的SPADE和OASIS。
![英伟达推出GAN“超级缝合体”,输入文字草图都能生成逼真照片](https://s6.51cto.com/oss/202112/13/8ebd941eab48a6c5f63bb16a7cba923e.jpg)
在文本输入模态中,PoE-GAN优于文本到图像模型DF-GAN、DM-GAN+CL。
![英伟达推出GAN“超级缝合体”,输入文字草图都能生成逼真照片](https://s3.51cto.com/oss/202112/13/e16a77448c4b582fc9e8af395d2351a0.jpg)
当以模式的任意子集为条件时,PoE-GAN可以生成不同的输出图像。下面展示了PoE-GAN的随机样本,条件是两种模式(文本+分割、文本+草图、分割+草图)在景观图像数据集上。
![英伟达推出GAN“超级缝合体”,输入文字草图都能生成逼真照片](https://s2.51cto.com/oss/202112/13/dc52f9003df15506d75701718127d2fe.jpg)
PoE-GAN甚至还能没有输入,此时PoE-GAN就会成为一个无条件的生成模型。以下是PoE-GAN无条件生成的样本。
![英伟达推出GAN“超级缝合体”,输入文字草图都能生成逼真照片](https://s2.51cto.com/oss/202112/13/f1f85453aad687ab7720bac12d5f8098.jpg)
团队介绍
论文通讯作者是英伟达著名工程师刘洺堉,他的研究重点是深度生成模型及其应用。英伟达Canvas和GauGAN等有趣的产品均出自他手。
![英伟达推出GAN“超级缝合体”,输入文字草图都能生成逼真照片](https://s4.51cto.com/oss/202112/13/bd726e72058be446aaec1cee2ea732c4.jpg)
论文一作是黄勋,北京航空航天大学本科毕业,康奈尔大学博士,现在在英伟达工作。
![英伟达推出GAN“超级缝合体”,输入文字草图都能生成逼真照片](https://s6.51cto.com/oss/202112/13/1642439369db5fc28bc4029062a971fb.jpg)
论文地址:
https://arxiv.org/abs/2112.05130
PoE:
https://www.cs.toronto.edu/~hinton/absps/icann-99.pdf
投影鉴别器:
https://arxiv.org/abs/1802.05637
相关文章
- 一篇运维老司机的大数据平台监控宝典(2)-联通大数据集群平台监控体系详解
- 一篇运维老司机的大数据平台监控宝典(1)-联通大数据集群平台监控体系进程详解
- 空中换引擎 博时基金数字化转型经验谈
- 如何高效地学习编程语言
- 作为一名阿里巴巴数据分析大牛,送给学弟学妹的经验积分
- 为什么要学习R语言
- Hadoop大数据分析平台的介绍性讨论
- 最全面的Spring学习笔记
- 16个用于数据科学和机器学习的顶级平台
- 给有抱负的数据科学家的六条建议
- 如何做一枚合格的数据产品经理
- 除Kaggle外,还有哪些顶级数据科学竞赛平台
- 一个鲜为人知却可以保护隐私的训练方法:联合学习
- 干货 :送你12个关于数据科学学习的关键提示(附链接)
- 大数据行业有多少种工作岗位,各自的技能需求是什么?
- 中国移动研究院常耀斌:商用大数据平台的研发之路
- 这些数据科学家必备的技能,你拥有哪些?
- 自学成才的开发者有何优势和劣势?
- Gartner报告:正处于数据科学与机器学习工具 “大爆炸”的时代
- Ready Computing借助InterSystems IRIS医疗版为医疗机构提供具有高度互操作性和可扩展性的解决方案