您现在的位置是：首页 > 数据库

当前栏目

数据仓库(10)数仓拉链表开发实例

数据

2023-02-25 18:21:15 时间

拉链表是数据仓库中特别重要的一种方式，它可以保留数据历史变化的过程，这里分享一下拉链表具体的开发过程。

维护历史状态，以及最新状态数据的一种表，拉链表根据拉链粒度的不同，实际上相当于快照，只不过做了优化，去除了一部分不变的记录，通过拉链表可以很方便的还原出拉链时点的客户记录。

这里用商品价格的变化作为例子，具体的开发过程要按实际的来，不能照搬代码，编程重要的是了解背后的思路和原理，而不是ctrl+c和ctrl+v。那对我们学习提升的帮助有限，虽然可能对完成工作的效率帮助很大。

在开始介绍之前，这里的数据仓库的环境是HIVE。

首先看看原始的数据:

商品价格原始数据

可以看到，原始的数据是每一个商品，一条记录，每一个商品，只保留最新的价格信息。这里的拉链表，我们做到天粒度的。

我们这里的思路是这样的，将最新的商品记录插入历史拉链表中，然后我们通过HIVE的窗口行数，按照end_date排序，然后分别取下一条的sale_price和end_date，然后再判断本条的价格和下一条的价格是否相等，如果是一样的，那么就把end_date改为下一条的end_date,最后做去重处理，然后就得到我们想要的数据了。

说了这么多，我觉得还是把sql贴出来会好一些，代码是最好的语言。

talk is cheap,show me the code。

-- 商品原始表这里取名goods_table
select spu_id,
       min(start_date) as start_date,
       end_date as end_date,
       sale_price
from
  (select spu_id,
          start_date,
          if(sale_price = lead_sale_price,lead_end_date,end_date) as end_date,
          sale_price
   from
     ( select spu_id,
              start_date,
              end_date,
              sale_price,
              lead(sale_price,1,null) over(partition by spu_id order by end_date) as lead_sale_price,
              lead(end_date) over(partition by spu_id order by end_date) as lead_end_date
      from goods_table ) t) t
group by spu_id,
         end_date,
         sale_price ;

根据上面的代码，跑出来的，就是我们想要的拉链表的数据了，看看最后的效果。

商品价格拉链表数据

使用这种方式即可以记录历史，可以最大程度的节省存储，不会产生过多的冗余。

需要数据仓库资料可以点击这个领取数据仓库(13)大数据数仓经典最值得阅读书籍推荐

参考资料：

猜你喜欢

对中国半导体「卡脖子」，美国从芯片供应链开始下手
11 个很酷的 Chrome Devtools 技巧
前端基于husky通过eslint检测提交代码
ECCV 2022开奖！清华、浙大校友斩获最佳论文奖
Vue 和 React 有什么不同？
19个解决常见JavaScript问题的实用ES6代码段
Netty、Kafka中的零拷贝技术到底有多牛？
低代码平台能提升开发效率吗？
不容错过的九个冷门css属性
CSS-in-JS 的库是如何工作的？
什么是低代码和无代码？而且，他们的未来是什么？
你真的知道 JavaScript 中的“this”吗？
真·核弹！老黄的4090发售刚两周，就烧了俩
Adobe Acrobat XI Pro软件安装教程pdf编辑器全版本下载
清华提出首个退化可感知的展开式Transformer｜NeurIPS 2022
首次突破30FPS！天大、清华和卡迪夫联合提出基于单RGB相机的全新三维表示方法FOF｜NeurIPS 2022
美出口禁令连友军一起打？SK海力士或卖掉在华工厂，全面撤出中国
Java中容器设计的进化史：从白盒到黑盒，再到跻身为设计模式之一的迭代器
一款超级强大的PDF编辑工具pdf编辑器全版本下载
手把手教你实现一个常用的 antd form 组件

zl程序教程

当前栏目

数据仓库(10)数仓拉链表开发实例

相关文章