zl程序教程

您现在的位置是:首页 >  其他

当前栏目

SIGGRAPH 2022 | Palette: 针对图像转换的扩散模型

2023-03-07 09:01:53 时间

来源:SIGGRAPH 2022 作者:Chitwan Saharia 等 论文题目:Palette: Image-to-Image Diffusion Models 论文链接:https://dl.acm.org/doi/pdf/10.1145/3528233.3530757 内容整理:汪奕文 本文开发了一个基于条件扩散模型的图像-图像转换网络,并在四个具有挑战性的任务上评估了这个框架,分别为着色、填充、反剪切和 JPEG 压缩修复。本文揭示了去噪扩散目标中的 L2 与 L1 损失对样本多样性的影响,并通过实证研究证明了神经架构中自注意力层的重要性。

目录

  • 引言
  • 方法
    • 扩散模型
    • 损失函数
  • 评估指标
  • 实验
    • 着色
    • 填充
    • 去裁剪
    • JEPG 压缩修复
    • 消融性实验

引言

视觉和图像处理中的许多问题可以被表述为图像到图像的转换。这方面的例子包括图像修复任务,如超分辨率、上色和填充,以及像素级图像理解任务,如语义分割和深度估计。实现图像到图像转换的一种方法是学习输出图像的条件分布,使用深度生成模型,该模型可以捕获在图像的高维空间中的多模态分布。本文研究了 Palette 模型对一系列具有挑战性的任务的普遍适用性,包括了分别为着色、填充、反剪切和 JPEG 压缩修复。在没有特定任务的架构定制,也没有改变超参数或损失函数的情况下,Palette 在所有四个任务中产生了高保真的输出,甚至性能超过了特定任务 baseline。本文还研究了Palette的关键部分,包括去噪损失函数和神经网络架构。虽然去噪目标中的L2和L1损失产生类似的样本质量分数,但L2导致模型样本的多样性程度更高,而L1产生更保守的输出。从Palette的U-Net架构中移除自注意力层,从而建立一个全卷积模型会损害模型的性能。

方法

扩散模型通过迭代去噪过程将标准高斯分布的样本转换成经验数据分布的样本。条件扩散模型使去噪过程以输入信号为条件。图像到图像的扩散模型是条件性扩散模型

p(y | x)

的形式,其中

x

y

都是图像,例如,

x

是一个灰度图像,

y

是一个彩色图像。我们研究了图像-图像的扩散模型在一系列广泛任务上的普遍适用性。Palette使用了256×256条件U-Net模型架构,并做出了以下修改:(i)不使用类条件;(ii)通过串联对源图像进行额外的调节。

扩散模型

去噪模型包括一个前向扩散过程和一个反向去噪过程。前向去噪过程是一个马尔科夫过程,它迭代地将高斯噪声添加到数据点

y_0=y

上。

q(y_{t+1}|y_{t})=\mathcal{N}(y_{t-1};\sqrt{\alpha_t}y_{t-1},(1-\alpha_t)\textbf{I})\\q(y_{1:T}|y_{0})=\prod_{t=1}^{T}q(y_{t}|y_{t-1})

我们也可以在每一步对前向过程进行边际化处理。

q(y_{t}|y_{0})=\mathcal{N}(y_{t};\sqrt{\gamma_t}y_{0},(1-\gamma_t)\textbf{I})

其中,

\gamma_t=\prod_{t'}^t \alpha_t'

Plaette学习了一个逆转前向加噪过程的反向去噪过程,对于噪声图像

\tilde{y}
\tilde{y}=\sqrt{\gamma}y_{0}+(1-\gamma)\epsilon,\epsilon \sim \mathcal{N}(0,I)

我们将我们的神经网络模型

f_{\theta}(x,\tilde{y},\gamma)

参数化,加入了条件信息

x

、噪声图像

\tilde{y}

和当前的噪声水平

\gamma

进行学习,预测噪声向量

\epsilon

的优化目标为

\mathbb{E}_{(x,y)} \mathbb{E}_{\epsilon,\gamma}||f_{\theta}(x,\sqrt{\gamma}~y_0+\sqrt{1-\gamma}~\epsilon,\gamma)-\epsilon||_p^p

这个目标函数等价于最大化加权变分下限。

损失函数

给定一个训练输出图像

y

,生成一个噪声版本

\tilde{y}

,并训练一个神经网络

f_θ

,在给定

x

和噪声水平指标

\gamma

的情况下对

\tilde{y}

进行去噪。对于该损失函数,本文讨论了使用

L_1

范数(即

p=1

)和基于标准的

L_2

范数,并进行了详细的消融性实验,分析了其影响。

\mathbb{E}_{(x,y)} \mathbb{E}_{\epsilon \sim \mathcal{N}(0,I)} \mathbb{E}_{\gamma}||f_{\theta}(x,\sqrt{\gamma}~y+\sqrt{1-\gamma}~\epsilon,\gamma)-\epsilon||_p^p

L_2

相比,

L_1

产生的样本多样性明显较低。虽然

L_1

可能是有用的,但为了减少某些应用中的潜在幻觉,模型依然采用

L_2

范数作为损失函数来更忠实地捕捉输出的分布。

评估指标

评估图像-图像的转换模型是一个挑战。之前关于着色的工作依赖于 FID 分数和人类对模型的评估。像填充和去裁剪这样的任务往往严重依赖于定性评价。对于其他任务,如 JPEG 修复,通常使用像素级相似度分数,如 PSNR 和 SSIM 。同样值得注意的是,许多任务缺乏一个标准化的数据集进行评估。由于 ImageNet 的规模、多样性和公共性,本文提出了一个统一的基于ImageNet的评估指标,用于评价着色、填充、反剪切和 JPEG 压缩修复任务。本文采用了四种定量的样本质量测量方法,分别为Inception Score (IS)、Fréchet Inception Distance (FID); Classification 预训练的 ResNet-50 分类器的 Classification Accuracy(CA)以及 Perceptual Distance(PD)。对于人类主观质量评价指标,本文采用了 2-alternative forced choice (2AFC) 试验来评估模型输出与自然图像的感知质量。

实验

本文将Plaette模型应用于以下四个任务:

  • 着色:将输入的灰度图像转换为合理的彩色图像;
  • 填充:用真实的内容填入用户指定的图像遮盖区域;
  • 去裁剪:将输入的图像沿一个或多个方向扩展,以放大图像;
  • JPEG压缩恢复:纠正了JPEG压缩的伪影,恢复合理的图像细节。

着色

在着色任务中,本文使用RGB色彩空间来保持跨任务的通用性。初步实验表明,Palette在YCbCr空间和RGB空间中有相同效果。

性能指标(FID、IS和CA)表明,Palette 输出几乎与用于创建测试灰度输入的原始图像没有区别。在在人类评估方面,Palette 比人类评测者对 ColTran 的 fool rate 提高了10%以上。

填充

本文在自由形状的 mask 上训练填充模型,并以简单的矩形 mask 作为补充。为了保持 Palette 在不同任务中的通用性,本文使用标准的高斯噪声来填充遮蔽区域,从而与去噪扩散模型兼容。训练损失只考虑被遮挡的像素,而不是整个图像,以加快训练速度。

去裁剪

本文在四个方向中的任何一个方向上对 Palette 进行去裁剪训练,或者在所有四边的整个图像边界周围进行去裁剪。在所有情况下,将遮蔽区域的面积保持在图像的 50% 用高斯噪声填充遮蔽区域,并在推理过程中保持未遮蔽区域不变。

我们进一步评估了 Palette 的鲁棒性,通过反复应用左右去裁剪来生成全景图。Palette 出乎意料地鲁棒,即使在重复应用了8次去剪裁后,仍能生成真实、连贯的输出。

JEPG 压缩修复

本文以各种 Quailty Factor(QF)压缩的输入上训练 Palette,并增加了任务的难度,在 QF 低至5时进行训练,这通常会产生严重的压缩伪影。

Palette在所有的 QF 上都表现出了强大的性能,能够产生更清晰的图像。

消融性实验

  • 自注意力模块

自注意力层是最近用于扩散模型的 U-Net 架构中的一个重要组成部分。虽然自注意力层提供了一种直接的全局依赖形式,但它也妨碍了模型泛化到未知的图像分辨率。为了使 Palette 的输入分辨率泛化,本文探索了用不同的替代方案取代全局自注意力层,分别为:局部自注意力层、使用更多 ResNet Blocks 以及空洞卷积。

实验表明,全局性的自注意力层比完全卷积的替代方案产生了更好的性能,再次证实了自注意力层对此类任务的重要性。

  • 损失函数

本文分析了 Palette 在着色和填充这两个任务上的样本多样性,并分析了改变扩散损失函数

L_{simple}

的影响,比较了

L_1

L_2

对样本多样性的影响。

实验结果表明,用

L_2

损失训练的模型比用

L_1

损失训练的模型具有更高的样本多样性。

L_1

L_2

模型产生了相似的FID分数(即相当的感知质量),但

L_1

的 PD 分数比

L_2

低一些。我们可以推测,

L_1

模型可能比

L_2

模型放弃了更多的模式,从而增加了

L_1

模型的单个样本来自包含相应原始图像的模式的可能性,因此感知距离较小。