zl程序教程

您现在的位置是:首页 >  Java

当前栏目

使用Domain Adaption提升小场景时间序列预测效果的方法

2023-02-18 16:34:16 时间

解决时间序列预测任务时,训练数据太少怎么办?在机器学习场景中,Domain Adaptation是一种解决数据稀疏的常用方法。其核心思路是利用数据充足的source domain样本进行充分学习,再将这些知识迁移泛化到target domain上,两个domain的数据分布往往具有比较大的差异,一般是不同场景的数据。

但是以往的Domain Adaptation更多的应用在分类问题,例如图像分类、文本分类、ctr预估等。在时间序列预测中应用Domain Adaptation的方法相对较少。今天就给大家介绍一篇使用Domain Adaptation解决小样本场景下时间序列预测问题的最新论文,是加利福尼亚大学&亚马逊 AI Lab在ICML 2022中的一篇工作:Domain Adaptation for Time Series Forecasting via Attention Sharing

1

核心思路

先概括一下本文的核心思路,如何将Domain Adaptation技术应用到时间序列预测领域呢?Domain Adaptation成功应用的一个前提是,两个domain的数据虽然分布差异很大,但是却有某些内在规律信息是一致的。比如图像分类能够应用Domain Adaptation技术,是因为不论图像来自哪个领域,图像的一些特性,如平移不变性等是不变的。那么不同domain的时间序列数据,有哪些内在联系呢?

本文的一个核心假设是:在基于attention的时间序列预测模型中(如Transformer),不同域的时间序列数据在预测当前值时,计算历史序列attention的key和query是可迁移的。这个假设的确非常合理,比如两个域的数据周期性不同,但是计算attention score时都是去寻找局部信息和历史序列的哪些pattern最相似,这个规律在不同域是可迁移的,也正是本文所利用的核心点。因此,本文后续就围绕着在基于attention的时序预估模型中,如何对齐source domain和target domain的query和key展开。

作者在文中用模拟数据举了个例子,对比了两种模型,AttF是普通的基于attention的时间序列预测模型,DAF是文中提出得到基于Domain Adaptation模型。左图上面是两个domain的时间序列,下面是不同方法计算出的在target domain的attention score分布。使用本文提出方法进行source domain与target domain的query和key对齐后,能够将在source domain学到的对齐知识迁移到target domain,进而帮助模型在target domain数据集上学到更合理的attention score,从而提升小样本上的预测效果。

2

实现方法

理解了上述核心思路,基本就掌握了本文的精髓。下面我们具体看一下模型的实现方式。

整体模型架构如下图,两个domain的数据一起训练,使用独立的Encoder和Decoder,以及两个domain共享的attention模块。Encoder对输入序列进行编码,然后利用attention+Decoder预测未来,是典型的基于attention的时间序列预测架构。同时Decoder也会重构历史序列,来增强表示的学习。最后在两个domain的attention表示中会增加一个对抗学习模块,实现target domain和source domain中key与query的对齐,进而达成知识迁移的目标。

模型的损失函数如下,由两部分组成,采用了Domain Adaptation中比较常用的min-max对抗学习方法。前两个损失函数是两个domain时间序列的预测损失(对未来的预测损失,外加对历史序列重构的损失);最后一项是利用对抗学习的方法,判断attention模块生成query和key是否来自两个domain。我们希望模型能够得到让Discriminator区分不出来domain的query和key的表示,以此达到两个domain中query和key对齐的目标。

接下来,在具体的模型结构实现上如下图。主要是在Encoder处会生成两个表示,V是原始时间序列过MLP得到value表示,这部分不同domain不同,并不是我们希望迁移的信息。另外,通过不同尺寸的卷积提取不同的pattern,融合到一起得到表示P。这个表示P会进一步映射成query和key,这正是我们希望迁移的信息。

最终,通过上述模型结构的设计,实现了利用value进行domain个性化,并利用pattern生成的query和key,结合对抗学习方法,实现不同domain的知识迁移。

3

实验效果

下表为一些真实数据集上的效果对比,本文提出的方法在各个数据集上都取得最优的效果。

此外,本文也进一步进行了消融实验,并通过可视化的方式验证了DAF学习到的attention map其实是更加合理的,证明了DAF确实能通过source domain海量数据学习到pattern的对齐关系,并迁移到target domain。

4

总结

这篇文章很巧妙的将Domain Adaptation技术应用到了时间序列预测上,其取得成功的核心原因是对问题深入的理解,能够准确捕捉到时间序列中哪些因素在不同domain是不变的,并通过模型上的设计达成既定的目标。

END