论文阅读笔记exploiting spatial dimensions of latenr in GAN for real-time image editing
所提出网络框架: 目标是使用编码器将图像实时准确地投影到潜在空间,并在潜在空间上局部操作图像
用GAN编辑真实图像的缺点是:i)耗时的优化,无法将真实图像投影到潜矢量; ii)或通过编码器嵌入不准确。
我们提出StyleMapGAN:中间潜在空间具有空间维度,而空间变异调制取代了AdaIN。与现有的基于优化的方法相比,它可通过编码器进行嵌入,同时保持GAN的属性。
实验结果表明,在各种图像处理任务(例如本地编辑和图像插值)中,我们的方法明显优于最新模型。最后但并非最不重要的一点是,GAN上的常规编辑方法在我们的StyleMapGAN上仍然有效
一、contributions
1、我们提出了StyleMapGAN,它利用了stylemap(一种潜在空间的新颖表示形式)。我们的关键思想很简单,不是学习基于矢量的潜在表示,我们使用具有显式空间尺寸的张量。我们提出的表示法得益于其空间维度,使GAN可以轻松地将图像的局部语义编码到潜在空间中。此属性使编码器可以将图像有效地投影到潜在空间中,从而提供高保真度和实时投影。
2、我们的方法还提供了一种新功能,可通过操纵样式图的匹配位置来编辑图像的特定区域。
二、method
generator
传统的映射网络生成样式向量来控制特征图,而我们创建了具有空间维度的样式图,这不仅使真实图像的投影在推理方面更有效,而且还可以进行局部编辑。映射网络的最后有一个重塑层来产生样式映射,该样式映射形成对空间变化的仿射参数的输入。由于合成网络中的特征图随着距离输出图像越近而增大,我们引入了一个由卷积和上采样组成的样式图调整器来匹配样式图的分辨率和特征图的分辨率。样式映射调整器通过学习到的卷积来调整和转换样式映射,以传达更详细和结构化的样式。
要使用生成模型处理图像,首先需要将图像准确地投影到其潜在空间。
我们改变了StyleMap的空间分辨率,并比较了重建和生成的性能。为了公平比较,我们在培训StyleGAN2生成器之后培训了编码器模型。随着空间分辨率的增加,重建精度显著提高。这表明我们的空间维度样式图对于图像投影是非常有效的。FID在不同的数据集上变化不同,这可能是由于一代人中不同位置之间的上下文关系不同。请注意,我们的空间分辨率方法准确地保留了小细节,例如眼睛不模糊。
三、evaluation metrics
(1)Frechet inception distance (FID)
为了评估图像生成的性能,我们计算了从高斯分布和训练集生成的图像之间的FID [18]。我们将生成的样本数设置为等于训练样本数。 我们使用ImageNet预训练的Inception-V3 [54]进行特征提取。
(2)FIDlerp
为了评估全局操纵性能,我们计算插值样本和训练样本(FIDlerp)之间的FID。为了生成内插样本,我们首先将500张测试图像投影到潜在空间中,然后随机选择成对的潜在向量。然后,我们使用线性内插的潜在向量生成图像,该向量的内插系数在0和1之间随机选择。我们将插值样本的数量设置为等于训练样本的数量。低FIDlerp表示该模型提供了高保真度和各种插值样本。
(3)MSE & LPIPS
为了评估投影质量,我们估计目标图像和重建图像之间的像素级和感知级差异,分别是均方差(MSE)和学习的感知图像斑块相似度(LPIPS)。
(4)Average precision (AP)
为了评估本地编辑图像的质量,我们遵循先前工作的惯例,使用在真实图像和伪图像上训练的二进制分类器来测量平均精度。我们使用Blur + JPEG(0.5)模型和完整图像进行评估。较低的AP表示已处理的图像与真实图像更加难以区分。
(5)MSEsrc & MSEref
为了混合特定的语义,我们通过合并原始图像和参考图像的目标语义蒙版来制作合并的蒙版。MSEsrc和MSEref分别从蒙版外部的原始图像和蒙版内部的参考图像测量均方误差。为了自然地组合它们,图像与目标语义掩码相似度进行配对。为了在CelebA-HQ上进行本地编辑比较,每种语义(例如背景,头发)配对了250组测试图像,总共产生了2500张图像。为了在AFHQ上进行本地编辑,将250组测试图像随机配对,并在水平和垂直半掩膜之间选择掩膜,从而产生250幅图像。
https://zhuanlan.zhihu.com/p/370719891
https://blog.csdn.net/studyeboy/article/details/116455998
相关文章
- 【论文笔记】一种有效攻击BERT等模型的方法
- 2018年5月5日论文阅读
- 论文笔记(7):Constrained Convolutional Neural Networks for Weakly Supervised Segmentation
- 论文笔记:Support vector domain description(Tax,Duin1999)
- 论文笔记:Support Vector Method For Novelty Detection(Schölkopf)
- 机器学习笔记 - JigsawNet论文解读
- 机器学习笔记 - Transformer/Attention论文解读
- DL之PSPNet:PSPNet算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略
- Paper之ACL&EMNLP:2009年~2019年ACL计算语言学协会年会&EMNLP自然语言处理的经验方法会议历年最佳论文简介及其解读
- 论文笔记:目标追踪-CVPR2014-Adaptive Color Attributes for Real-time Visual Tracking
- 【人工智能 Open AI】写一篇介绍 聊天GPT 背后的实现原理的论文,题目叫《聊天GPT算法实现原理》,分5个章节,每个章节细化到三级目录,用不少于2000字。用markdown格式输出。
- 毕业设计 Spring Boot的中药店商城系统(含源码+论文)
- 论文解读(CDTrans)《CDTrans: Cross-domain Transformer for Unsupervised Domain Adaptation》
- NLP模型笔记2022-18:GCN/GNN模型在nlp中的使用【论文+源码】
- NLP模型笔记2022-12:Deep Biaffine Attention for Neural Dependency Parsing【论文+源码】
- 知识图谱:知识表示学习(KRL)/知识嵌入(KE)必读论文
- 论文投稿指南——中文核心期刊推荐(地质学 2)
- 论文阅读《TPLinker: Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking》
- GAN全套学习笔记/论文
- 论文笔记:高精度室内定位研究评述及未来演进展望
- 论文笔记:A Low-Complexity I/Q Imbalance compensation Algorithm