您现在的位置是：首页 > 其他

当前栏目

论文阅读笔记exploiting spatial dimensions of latenr in GAN for real-time image editing

论文笔记 for in of 阅读 Time Image

2023-09-11 14:22:51 时间

所提出网络框架：目标是使用编码器将图像实时准确地投影到潜在空间，并在潜在空间上局部操作图像

用GAN编辑真实图像的缺点是：i）耗时的优化，无法将真实图像投影到潜矢量； ii）或通过编码器嵌入不准确。

我们提出StyleMapGAN：中间潜在空间具有空间维度，而空间变异调制取代了AdaIN。与现有的基于优化的方法相比，它可通过编码器进行嵌入，同时保持GAN的属性。

实验结果表明，在各种图像处理任务（例如本地编辑和图像插值）中，我们的方法明显优于最新模型。最后但并非最不重要的一点是，GAN上的常规编辑方法在我们的StyleMapGAN上仍然有效
一、contributions

1、我们提出了StyleMapGAN，它利用了stylemap（一种潜在空间的新颖表示形式）。我们的关键思想很简单,不是学习基于矢量的潜在表示，我们使用具有显式空间尺寸的张量。我们提出的表示法得益于其空间维度，使GAN可以轻松地将图像的局部语义编码到潜在空间中。此属性使编码器可以将图像有效地投影到潜在空间中，从而提供高保真度和实时投影。

2、我们的方法还提供了一种新功能，可通过操纵样式图的匹配位置来编辑图像的特定区域。

二、method

generator

传统的映射网络生成样式向量来控制特征图，而我们创建了具有空间维度的样式图，这不仅使真实图像的投影在推理方面更有效，而且还可以进行局部编辑。映射网络的最后有一个重塑层来产生样式映射，该样式映射形成对空间变化的仿射参数的输入。由于合成网络中的特征图随着距离输出图像越近而增大，我们引入了一个由卷积和上采样组成的样式图调整器来匹配样式图的分辨率和特征图的分辨率。样式映射调整器通过学习到的卷积来调整和转换样式映射，以传达更详细和结构化的样式。

要使用生成模型处理图像，首先需要将图像准确地投影到其潜在空间。

我们改变了StyleMap的空间分辨率，并比较了重建和生成的性能。为了公平比较，我们在培训StyleGAN2生成器之后培训了编码器模型。随着空间分辨率的增加，重建精度显著提高。这表明我们的空间维度样式图对于图像投影是非常有效的。FID在不同的数据集上变化不同，这可能是由于一代人中不同位置之间的上下文关系不同。请注意，我们的空间分辨率方法准确地保留了小细节，例如眼睛不模糊。

三、evaluation metrics

(1)Frechet inception distance (FID)
为了评估图像生成的性能，我们计算了从高斯分布和训练集生成的图像之间的FID [18]。我们将生成的样本数设置为等于训练样本数。我们使用ImageNet预训练的Inception-V3 [54]进行特征提取。

(2)FIDlerp

为了评估全局操纵性能，我们计算插值样本和训练样本（FIDlerp）之间的FID。为了生成内插样本，我们首先将500张测试图像投影到潜在空间中，然后随机选择成对的潜在向量。然后，我们使用线性内插的潜在向量生成图像，该向量的内插系数在0和1之间随机选择。我们将插值样本的数量设置为等于训练样本的数量。低FIDlerp表示该模型提供了高保真度和各种插值样本。

(3)MSE & LPIPS
为了评估投影质量，我们估计目标图像和重建图像之间的像素级和感知级差异，分别是均方差（MSE）和学习的感知图像斑块相似度（LPIPS）。

(4)Average precision (AP)
为了评估本地编辑图像的质量，我们遵循先前工作的惯例，使用在真实图像和伪图像上训练的二进制分类器来测量平均精度。我们使用Blur + JPEG（0.5）模型和完整图像进行评估。较低的AP表示已处理的图像与真实图像更加难以区分。

(5)MSEsrc & MSEref
为了混合特定的语义，我们通过合并原始图像和参考图像的目标语义蒙版来制作合并的蒙版。MSEsrc和MSEref分别从蒙版外部的原始图像和蒙版内部的参考图像测量均方误差。为了自然地组合它们，图像与目标语义掩码相似度进行配对。为了在CelebA-HQ上进行本地编辑比较，每种语义（例如背景，头发）配对了250组测试图像，总共产生了2500张图像。为了在AFHQ上进行本地编辑，将250组测试图像随机配对，并在水平和垂直半掩膜之间选择掩膜，从而产生250幅图像。

https://zhuanlan.zhihu.com/p/370719891
https://blog.csdn.net/studyeboy/article/details/116455998

猜你喜欢

[手游新项目历程]第8天-websocket打包
native react 代码智能提示
切图崽的自我修养－[ES6] 迭代器Iterator浅析
国产操作系统之深度deepin安装
目前阻碍大数据成功的常见问题有哪些
[ IOS ] 视图控制对象ViewController的生命周期
最新作的关于指针，函数指针，线性表的练习存档
CHMOD命令怎么用？
Flask中的session ,自定义实现 session机制, 和 flask-session组件
用过的gdb命令
redis打开非英文存储显示问题
C# Winform频繁刷新导致界面闪烁解决方法
标注工具
maven 添加jar到中央/远程仓库
centos 字体安装
FPGA | 深入理解复位（补充）
linux shell 脚本攻略学习15--如何只列出目录,如何快速切换目录
MySQL Profiling 的使用
Python深入学习之特殊方法与多范式

相关主题

ICLR论文2
写论文的笔记
论文阅读笔记
笔记笔记笔记
论文笔记
笔记笔记
ChatGPT写小论文
U-Net论文笔记

zl程序教程

当前栏目

论文阅读笔记exploiting spatial dimensions of latenr in GAN for real-time image editing

相关文章