在基于学习的图像编解码器压缩域实现超分
来源:SPIE 2021 主讲人:Evgeniy Upenik 内容整理:付一兵 本文来自SPIE 2021,评估了压缩工作流场景中可用的最先进的超分方法,并提出了一个超分网络的改进版本,对其进行重新训练以处理压缩域中的图像,最后与基线进行基准测试来评估其性能。
目录
- 介绍
- 动机
- 背景
- 基于学习的图像编码方案
- 超分
- SOTA 的评估
- 压缩域的超分
- 流程
- 结果
- 结论
介绍
近年来,基于学习的图像编码已经显示出很好的效果。在我们的工作中,我们将只考虑单一图像的超分。与视频超分不同,视频可以利用后续帧之间的关联性来获得额外的性能和质量。
对于单图像超分,现今基于学习的方法明显优于所有经典的方法。
传统重采样方法,包括 Bilinear、Bicubic 和 lanczos 重采样等
下图来源于Papers With Code网站,是关于图像超分的最新成果。过去几年,基于学习的图像超分在视觉质量方面获得了相当多的性能。
图像超分的最新成果
动机
那么,我们工作背后的动机是什么呢?
- 首先,基于学习的压缩在未来会被大量使用,因为结果显示,在许多情况下,基于学习的图像压缩优于人类工程的解决方案;
- 其次,最好超分方法也是基于学习的。
因此,我们可以尝试将它们结合起来,这看起来很自然。
那么,这可能会有什么应用呢?
- 云存储;
- 图像集存储和管理。这意味着如果我们想处理在云中存储的压缩图片,我们可以在压缩域中以超分辨率进行处理;
- 媒体分发;
- 电视广播分发和编辑。
值得一提的是,有一些标准化活动,其目的是使基于学习的编码解决方案标准化。而他们自然包括压缩领域的图像处理任务,以及用例和要求。
下图可以看到基于学习的压缩的研究和发展时间表。尽管它始于 2006 年的 Hinton 等人,但直到 2016、2017 年,我们才看到良好的性能。而最近的论文从 2019、2020 年开始,与前几年相比,仍然获得了更好的性能。所以可以认为我们还没饱和到能够超越经典方法。
基于学习的压缩研究和发展的时间表
背景
基于学习的图像编码方案
在我们的工作中,我们决定选择 "Variational image compression with a scale hyperprior" 作为编码器框架。这个框架非常有名,易于使用。在我们的案例中,我们使用的是 Compress AI 的实现。
超分
关于超分方法,我们比较了其中的四种,分别是 EDSR、WDSR、SRGAN 和 ESRGAN,下图中为相应的参考资料。我们不打算详细介绍它们的架构,因为这并不是我们论文的目标。
四种超分方法的参考文献
SOTA 的评估
如今,几乎所有由现代相机拍摄的、通过通信网络传播的或存储的图像都是用有损编解码器压缩的,其代价是降低视觉质量。此外,为了在这些图像上执行图像处理任务,例如超分,通常需要额外的解压缩步骤。
因此,尽管我们的目标是研究压缩域的超分,在本节中,我们建立并准备了一个基准,用于评估有损压缩是像素级图像处理流程的一部分的情况下的超分的性能。
我们尝试在基于端到端学习的编解码器解码之后应用超分,然后将得到的图像与下采样后送入压缩算法的原始高分辨率图像进行比较。流程图如下图所示。
流程图
下图是不同的超分方法的评估图。我们从 DIV2K 数据集中压缩了五幅图像,选择了八个不同的比特率用于编解码器。之后,我们将不同的超分方法应用于这些解码的图像。
不同超分方法的评估图
结果有两张图,一张是 PSNR 对比特率的图,另一张是 MS-SSIM 对比特率的图。
- 这里的点是五张图像的平均值。
- 垂直误差条代表这两种情况下的平均值的标准偏差。
- 而水平误差条则代表比特率的标准偏差。这是因为我们有目标比特率,但实际并不总是能够非常接近目标比特率,所以有一个偏差。
结果显示,WDSR 是表现最好的超分网络之一。但无论在哪种情况下,误差条都是重叠的。因此,我们不能真正得出结论,哪个一定更好。
压缩域的超分
流程
与人类设计的算法不同,例如 JPEG,它使用线性变换,基于学习的编解码器使用自动编码器架构,可以被解释为非线性变换。在数据的维度降低后应用熵编码,以得到一个数据流。同样,在解码端,我们应用熵解码器和反变换,也就是自动编码器的解码器部分。
上图中,
- 熵编码器和解码器之间的数据是比特流。比特流是实际传输或存储的信息。
- 变换和熵编码步骤之间的蓝色圆圈表示图像的潜空间。如果我们想在压缩域中做任何类型的图像处理,这将在这两点上完成。
下图是JPEG AI 提出的架构,作为一个例子。这是标准化的活动,所以在这个图中,除了标准的图像重建,它被建议使用一个解码器,它可以在解码后的潜空间中执行图像处理任务或计算机视觉任务,而超分是图像处理任务的一种。
最后,是我们在评估中使用的架构。下图显示了基于学习的编解码器 bmshj2018-hyperprior12 和超分网络 ESRGAN6 的耦合。在熵编码之前,超分网络的输入直接连接到压缩网络的输出。
耦合系统的训练与 ESRGAN 的训练过程相同,不同的是,在将训练图像送入ESRGAN之前,它们通过预先训练的 bmshj2018-hyperprior 模型进行前向传播,以获得相应的质量,而没有熵编码步骤。
结果
为了比较我们的解决方案,我们使用了两个基线,
- 其中一个是在任何压缩之前应用于原始图像的超分。
- 结果显示,在大多数情况下,WDSR 在原始基线中显示出最佳性能。这里还可以看到来自 JPEG AI 数据集的四个不同图像的 PSNR 与比特率的关系。
- 第二个基线是一个解码基线,其中超分被应用于完全解码的 RGB 图像,该图像最初被下采样了 4 倍。
- 在解码的基线中,同样,WDSR,这里唯一的基于学习的解决方案,比任何经典的解决方案要好得多。
就 PSNR 而言,我们的解决方案实际上优于基线。在四幅图像中,有三幅图像的 PSNR 相对高于其他图像。只有其中一张非常接近。但并不是每一种情况都能胜过应用于未压缩图像的超分。所以仍有改进的余地。
下图是计算了 MS-SSIM 的结果。MS-SSIM 的结果与之前的不一致,它可能受到了损失函数的影响,因为损失函数与 PSNR 关联更大。
下图一些定性的结果。CDSR 代表压缩域超级分辨率。它是在所选编解码器的质量为 Q6 的情况下,以 4 的比例使用的。可以看到它在视觉上比任何经典的解决方案要好得多。
结论
- 在压缩的情况下评估了可用的超分方法。
- 选择了 ESRGAN 网络,并对其进行了训练,以处理压缩域的图像。
- 结果显示,在视觉质量方面,超分网络的性能非常好。
- 接下来要做什么?
- 研究一些不同的损失函数,以尝试与不同的衡量标准更加一致。
- 研究在压缩域中应用其他超分模型。
- 研究其他基于学习的编解码器。
最后附上演讲视频:
相关文章
- 一篇运维老司机的大数据平台监控宝典(2)-联通大数据集群平台监控体系详解
- 一篇运维老司机的大数据平台监控宝典(1)-联通大数据集群平台监控体系进程详解
- 空中换引擎 博时基金数字化转型经验谈
- 如何高效地学习编程语言
- 作为一名阿里巴巴数据分析大牛,送给学弟学妹的经验积分
- 为什么要学习R语言
- Hadoop大数据分析平台的介绍性讨论
- 最全面的Spring学习笔记
- 16个用于数据科学和机器学习的顶级平台
- 给有抱负的数据科学家的六条建议
- 如何做一枚合格的数据产品经理
- 除Kaggle外,还有哪些顶级数据科学竞赛平台
- 一个鲜为人知却可以保护隐私的训练方法:联合学习
- 干货 :送你12个关于数据科学学习的关键提示(附链接)
- 大数据行业有多少种工作岗位,各自的技能需求是什么?
- 中国移动研究院常耀斌:商用大数据平台的研发之路
- 这些数据科学家必备的技能,你拥有哪些?
- 自学成才的开发者有何优势和劣势?
- Gartner报告:正处于数据科学与机器学习工具 “大爆炸”的时代
- Ready Computing借助InterSystems IRIS医疗版为医疗机构提供具有高度互操作性和可扩展性的解决方案