您现在的位置是：首页 > 其它

当前栏目

TTSR再次理解，主要是针对Texture Transformer TT的全部过程的一个梳理

一个理解过程主要全部针对 transformer 梳理

2023-09-14 09:14:43 时间

Proposed Method

因此，文章基于注意力机制，提出了一个纹理 Transformer 网络（TTSR），最大程度地利用了参考图像的信息，它可以有效地搜索与迁移高分辨率的纹理特征到低分辨率图像中，解决纹理模糊和纹理失真的问题。网络的主要两个部分：

纹理转换器（Texture Transformer ）TT ：把Ref图像中的HR纹理迁移到LR图像中
跨尺度特征集成模块（Cross-Scale Feature Integration） CSFI：融合不同尺度的纹理特征，提高SR图像质量

1.Texture Transformer TT

下面这幅图展示了TT的结构，它有四个输入图像，LR↑ 通过bicubic x4上采样，Ref↑↓先经过bicubic x4下采样再通过bicubic x4上采样，以和LR↑保持domain-consistent 域一致性，这样做将有利于纹理搜索。为啥先下采样再上采样？因为K起的作用就是建立参考图和LR图的关联关系，评估哪些地方像，相似的地方借鉴Ref的纹理。

1）learnable texture extractor (LTE)：

用于提取纹理特征，用VGG预训练模型的前几层作为网络结构，但是它是可学习的，随着 Transformer 的训练不断更新自己的参数。LR上采样、Ref上下采样、Ref经过LTE得到纹理信息定义为Q、K、V ，Q、K用来进行纹理搜索，V用来进行纹理迁移。

在这里插入图片描述

2）relevance embedding module：

用来估计Q和K之间的相似性从而建立LR和Ref图像的相关性，把Q和K unfold 为特征块，表示为qi和kj，以内积的方式计算 Q 和 K 中的特征块两两之间的相关性。内积越大的地方代表两个特征块之间的相关性越强，可迁移的高频纹理信息越多，反之则相反。

在这里插入图片描述

3）Hard-Attention：

利用上面计算得到的相关性信息，计算硬注意力图，它记录了对 Q 中的每一个特征块，K 中对应的最相关的特征块的位置。接下来，就可以利用硬注意力图中所记录的位置，从 V 中迁移对应位置的HR纹理特征，得到纹理特征图 T，T 的每个位置包含了参考图像中最相似的位置的高频纹理特征。

在这里插入图片描述

4）Soft-Attention：

同理，利用相关性信息，计算软注意力图S，和硬注意力图H不同的是，它记录的不是位置而是，K中最相关的特征块的具体相关性，即内积大小，它表示T中每个位置已迁移纹理特征的置信度，置信度越高即相关性强的texture赋予的权重越大，使得迁移的高频纹理特征得到更准确的利用。

在这里插入图片描述

最后将骨干网络中得到的特征F和纹理特征图T在通道上进行级联，通过一个卷积层和软注意力图进行内积，在加回到F中，得到最终的融合特征。

在这里插入图片描述

2.Cross-Scale Feature Integration （CSFI）

为了进一步提高生成图像的质量，将texture transformer进行堆叠，输出三种尺度（1×，2×和4×）的特征，不同尺度的参考纹理特征从不同深度的LTE中提取得到，通过CSFI进行特征融合。每次将LR特征上采样到下一个尺度时，会应用CSFI模块。在模块的内部中，每个尺度层接收其它尺度层经过上/下采样的特征，如下图所示，Upsample和Downsample用的是bicubic.

https://www.daimajiaoliu.com/daima/7b7439a370be804

猜你喜欢

Python中针对函数处理的特殊方法
利用redis的bitmap实现用户签到功能
CentOS 8 ARM 源码编译libreoffice并生成rpm包 —— 筑梦之路
Haskell 差点儿无痛苦上手指南
破解三大安防视频痛点，看华为4大硬核视频上云技术
python 单下划线/双下划线使用总结
SAP UI5 FlexBox Layout 布局的概念和具体使用案例介绍试读版
seo框架图
【t044】弗洛伊德

相关主题

创建一个服务
一个exception
写一个学生类
最后一个单词
一个神奇的词
一个activity
一个空指针
一个宏实现
我有一个想法
来一个总结吧

zl程序教程

当前栏目

TTSR再次理解，主要是针对Texture Transformer TT的全部过程的一个梳理

Proposed Method

1.Texture Transformer TT

1）learnable texture extractor (LTE)：

2）relevance embedding module：

3）Hard-Attention：

2.Cross-Scale Feature Integration （CSFI）

相关文章