zl程序教程

您现在的位置是:首页 >  其他

当前栏目

论文阅读笔记large scale gan training for high fidelity natural image synthesis(biggan)

论文笔记 for 阅读 Image GAN large Training
2023-09-11 14:22:51 时间

 主要包括谱归一化(Spectral Normalization)、截断技巧(Truncation Trick)和正交正则化(orthogonal regularization

创新点:

(一) 本文对网络结构进行了两个修改,改善了可扩展性(scalability);修改了正则化方法(regularization)提高了条件化性能(conditioning)。结果证明了扩大GAN模型的规模(多2-4倍参数,8batchsize)能够大幅度提高性能。

(二)本文对模型的修改使得模型可以使用一种截断技巧(truncation trick),即使用简单的采样技术实现对采样多样性(variety)和保真度(fidelity)之间的权衡的精确控制。

(三)本文发现了大规模GAN所特有的不稳定性,证明了结合已有的和新的技术能够降低这些不稳定性,但是要以性能的代价来实现整个的训练过程的稳定性。

 

Truncation Trick

之前GAN的生成的输入噪声采样自某个先验分布z zz,一般情况下都是选用标准正态分布N ( 0 , I ) N(0,I)N(0,I) 或者均匀分布U [ − 1 , 1 ] U[−1,1]U[−1,1]。所谓的截断技巧就是通过对从先验分布 z zz 采样,通过设置阈值的方式来截断 z 的采样,其中超出范围的值被重新采样以落入该范围内。这个阈值可以根据生成质量指标 IS FID 决定。

 

我们可以根据实验的结果好坏来对阈值进行设定,当阈值的下降时,生成的质量会越来越好,但是由于阈值的下降、采样的范围变窄,就会造成生成上取向单一化,造成生成的多样性不足的问题。往往 IS 可以反应图像的生成质量,FID 则会更假注重生成的多样性。

例如在文中作者也给出了使用截断技巧的实验结果图,其中从左到右,阈值=21.510.50.04

从结果可以看出,随着截断的阈值下降,生成的质量在提高,但是生成也趋近于单一化。所以根据实验的生成要求,权衡生成质量和生成多样性是一个抉择,往往阈值的下降会带来 IS 的一路上涨,但是 FID 会先变好后一路变差。

 

 

orthogonal regularization

同时作者还发现,在一些较大的模型中嵌入截断噪声会产生饱和伪影saturation artifacts