使用Domain Adaption提升小场景时间序列预测效果的方法
解决时间序列预测任务时,训练数据太少怎么办?在机器学习场景中,Domain Adaptation是一种解决数据稀疏的常用方法。其核心思路是利用数据充足的source domain样本进行充分学习,再将这些知识迁移泛化到target domain上,两个domain的数据分布往往具有比较大的差异,一般是不同场景的数据。
但是以往的Domain Adaptation更多的应用在分类问题,例如图像分类、文本分类、ctr预估等。在时间序列预测中应用Domain Adaptation的方法相对较少。今天就给大家介绍一篇使用Domain Adaptation解决小样本场景下时间序列预测问题的最新论文,是加利福尼亚大学&亚马逊 AI Lab在ICML 2022中的一篇工作:Domain Adaptation for Time Series Forecasting via Attention Sharing。
1
核心思路
先概括一下本文的核心思路,如何将Domain Adaptation技术应用到时间序列预测领域呢?Domain Adaptation成功应用的一个前提是,两个domain的数据虽然分布差异很大,但是却有某些内在规律信息是一致的。比如图像分类能够应用Domain Adaptation技术,是因为不论图像来自哪个领域,图像的一些特性,如平移不变性等是不变的。那么不同domain的时间序列数据,有哪些内在联系呢?
本文的一个核心假设是:在基于attention的时间序列预测模型中(如Transformer),不同域的时间序列数据在预测当前值时,计算历史序列attention的key和query是可迁移的。这个假设的确非常合理,比如两个域的数据周期性不同,但是计算attention score时都是去寻找局部信息和历史序列的哪些pattern最相似,这个规律在不同域是可迁移的,也正是本文所利用的核心点。因此,本文后续就围绕着在基于attention的时序预估模型中,如何对齐source domain和target domain的query和key展开。
作者在文中用模拟数据举了个例子,对比了两种模型,AttF是普通的基于attention的时间序列预测模型,DAF是文中提出得到基于Domain Adaptation模型。左图上面是两个domain的时间序列,下面是不同方法计算出的在target domain的attention score分布。使用本文提出方法进行source domain与target domain的query和key对齐后,能够将在source domain学到的对齐知识迁移到target domain,进而帮助模型在target domain数据集上学到更合理的attention score,从而提升小样本上的预测效果。
2
实现方法
理解了上述核心思路,基本就掌握了本文的精髓。下面我们具体看一下模型的实现方式。
整体模型架构如下图,两个domain的数据一起训练,使用独立的Encoder和Decoder,以及两个domain共享的attention模块。Encoder对输入序列进行编码,然后利用attention+Decoder预测未来,是典型的基于attention的时间序列预测架构。同时Decoder也会重构历史序列,来增强表示的学习。最后在两个domain的attention表示中会增加一个对抗学习模块,实现target domain和source domain中key与query的对齐,进而达成知识迁移的目标。
模型的损失函数如下,由两部分组成,采用了Domain Adaptation中比较常用的min-max对抗学习方法。前两个损失函数是两个domain时间序列的预测损失(对未来的预测损失,外加对历史序列重构的损失);最后一项是利用对抗学习的方法,判断attention模块生成query和key是否来自两个domain。我们希望模型能够得到让Discriminator区分不出来domain的query和key的表示,以此达到两个domain中query和key对齐的目标。
接下来,在具体的模型结构实现上如下图。主要是在Encoder处会生成两个表示,V是原始时间序列过MLP得到value表示,这部分不同domain不同,并不是我们希望迁移的信息。另外,通过不同尺寸的卷积提取不同的pattern,融合到一起得到表示P。这个表示P会进一步映射成query和key,这正是我们希望迁移的信息。
最终,通过上述模型结构的设计,实现了利用value进行domain个性化,并利用pattern生成的query和key,结合对抗学习方法,实现不同domain的知识迁移。
3
实验效果
下表为一些真实数据集上的效果对比,本文提出的方法在各个数据集上都取得最优的效果。
此外,本文也进一步进行了消融实验,并通过可视化的方式验证了DAF学习到的attention map其实是更加合理的,证明了DAF确实能通过source domain海量数据学习到pattern的对齐关系,并迁移到target domain。
4
总结
这篇文章很巧妙的将Domain Adaptation技术应用到了时间序列预测上,其取得成功的核心原因是对问题深入的理解,能够准确捕捉到时间序列中哪些因素在不同domain是不变的,并通过模型上的设计达成既定的目标。
END
相关文章
- PDF编辑处理软件Acrobat Pro DC 2020.006特别版PDF编辑器全版本下载
- 干货 | 数字经济创新创业——软件研究
- PDF阅读器 Adobe Acrobat Reader DC 2020 v2020.009.20063pdf编辑器下载
- 「Docker学习系列教程」基础篇小总结及高级篇预告
- 多数据源事务处理-涉及分布式事务
- PDF编辑无会员限制“神器”来了~解锁全部功能,太香了~pdf编辑器全版本下载
- Java并发之原子变量及CAS算法原理-合
- Adobe发布针对Acrobat、Reader和Photoshop CC的重要更新PDF编辑器全版本下载
- Adobe Acrobat Reader DC 2019 软件安装教程PDF编辑器全版本下载
- 《有什么用》第三期成功发布,Cube助力全球客户抢占智能时代新商机
- 记录IT笔记的工具
- Adobe Acrobat Dc 2021最新直装版Acrobat v2021.007.20091 下载及安装
- 查看Java编译后class文件的汇编指令时候提示:解决 Could not load hsdis-amd64.dll
- JDK1.8中CountDownLatch 源码(注释已经翻译成中文)
- 利用 ALV 实现增删改查系列之一:让 ALV 报表进入可编辑状态试读版
- 【数据预处理&机器学习】对于薪资数据的倾斜情况以及盒图离群点的探究
- Java 中图片与二进制之间如何相互转换?
- uni-app 中图片转 base64 以及 base64 转图片方式,超简单,超好用的图片转换工具,你值得拥有它。
- 【路由器外网映射】腾达A63路由器设置虚拟服务器
- Java并发编程学习前期知识下篇