论文阅读笔记large scale gan training for high fidelity natural image synthesis(biggan)
主要包括谱归一化(Spectral Normalization)、截断技巧(Truncation Trick)和正交正则化(orthogonal regularization)
一、创新点:
(一) 本文对网络结构进行了两个修改,改善了可扩展性(scalability);修改了正则化方法(regularization)提高了条件化性能(conditioning)。结果证明了扩大GAN模型的规模(多2-4倍参数,8倍batchsize)能够大幅度提高性能。
(二)本文对模型的修改使得模型可以使用一种截断技巧(truncation trick),即使用简单的采样技术实现对采样多样性(variety)和保真度(fidelity)之间的权衡的精确控制。
(三)本文发现了大规模GAN所特有的不稳定性,证明了结合已有的和新的技术能够降低这些不稳定性,但是要以性能的代价来实现整个的训练过程的稳定性。
Truncation Trick
之前GAN的生成的输入噪声采样自某个先验分布z zz,一般情况下都是选用标准正态分布N ( 0 , I ) N(0,I)N(0,I) 或者均匀分布U [ − 1 , 1 ] U[−1,1]U[−1,1]。所谓的“截断技巧”就是通过对从先验分布 z zz 采样,通过设置阈值的方式来截断 z 的采样,其中超出范围的值被重新采样以落入该范围内。这个阈值可以根据生成质量指标 IS 和 FID 决定。
我们可以根据实验的结果好坏来对阈值进行设定,当阈值的下降时,生成的质量会越来越好,但是由于阈值的下降、采样的范围变窄,就会造成生成上取向单一化,造成生成的多样性不足的问题。往往 IS 可以反应图像的生成质量,FID 则会更假注重生成的多样性。
例如在文中作者也给出了使用截断技巧的实验结果图,其中从左到右,阈值=2,1.5,1,0.5,0.04
从结果可以看出,随着截断的阈值下降,生成的质量在提高,但是生成也趋近于单一化。所以根据实验的生成要求,权衡生成质量和生成多样性是一个抉择,往往阈值的下降会带来 IS 的一路上涨,但是 FID 会先变好后一路变差。
orthogonal regularization
同时作者还发现,在一些较大的模型中嵌入截断噪声会产生饱和伪影saturation artifacts
相关文章
- 《NeW CRFs:Neural Window Fully-connected CRFs for Monocular Depth Estimation》论文笔记
- 《PWC-Net:CNNs for Optical Flow Using Pyramid,Warping,and Cost Volume》论文笔记
- 《CTDNet:Complementary Trilateral Decoder for Fast and Accurate Salient Object Detection》论文笔记
- 《Real-time 2D Multi-Person Pose Estimation on CPU:Lightweight OpenPose》论文笔记
- 《DARTS+:Improved Differentiable Architecture Search with Early Stopping》论文笔记
- 《RON: Reverse Connection with Objectness Prior Networks for Object Detection》论文笔记
- 《RCLane:Relay Chain Prediction for Lane Detection》论文笔记
- 《CLRNet:Cross Layer Refinement Network for Lane Detection》论文笔记
- 《CondInst:Conditional Convolutions for Instance Segmentation》论文笔记
- 《Bounding Box Regression with Uncertainty for Accurate Object Detection》论文笔记
- 《Matrix Nets:A New Deep Architecture for Object Detection》论文笔记
- 《GIoU: A Metric and A Loss for Bounding Box Regression》论文笔记
- 《Imbalance Problems in Object Detection:A Review》论文笔记
- 《GoogleNet-Going deeper with convolutions》论文笔记
- 《ResNeXt: Aggregated Residual Transformations for Deep Neural Networks》论文笔记
- 《IoU-Net: Acquisition of Localization Confidence for Accurate Object Detection》论文笔记
- 《MGMatting:Mask Guided Matting via Progressive Refinement Network》论文笔记
- 《Indices Matter(IndexNet):Learning to Index for Deep Image Matting》论文笔记
- 《LEDNet:A Lightweight Encoder-Decoder Network For Real-Time Semantic Segmentation》论文笔记
- 《To prune, or not to prune:exploring the efficacy of pruning for model compression》论文笔记
- 论文阅读笔记stargan
- 论文阅读笔记exploiting spatial dimensions of latenr in GAN for real-time image editing