您现在的位置是：首页 > 数据库

当前栏目

数仓采集通道的设计

数据

2023-02-26 09:48:09 时间

数仓采集通道的设计

写在前面
方案一：
方案二：
方案三：
最终方案

写在前面

离线和实时数仓共用一套数据采集通道系统
数据采集存储到HDFS上
完全分布式（三台节点）

方案一：

❝(node01)Flume（TailDir Source） + Kafka Channel + HDFS Sink + Kafka --> Kafka(node02) ❞

架构图：

Kafka Channel有一个参数：parseAsFlumeAgent = true，即数据以Event的方式发送给Kafka

Event 格式：Header + Body

数据发送到HDFS Sink，下游可以解析出Body数据，Event数据存储在node02节点的kafka主题TopicA中，离线数仓这样设计没有问题

但是对于实时数仓那个来说，header的数据是不需要的，这样就导致多存储了一些无用的数据

如果将参数parseAsFlumeAgent设置为false，这样实时数仓就可以只读取到body的数据，看起来似乎就完美解决了这个问题，其实不然。

因为我们需要实现Flume中拦截器的功能，而拦截器的实现需要结合header来使用，故此种实时和离线共用的数据采集系统不合适，会丢失header数据。

方案二：

❝(node01)FLume（TailDir Source） + Kafka Channel + Kafka --> Kafka(node02) ❞

架构图：

参数parseAsFlumeAgent设置为false

此方案数仓采集过程一共4个链路（数据传输环节）如下图：

方案三：

❝(node01)FLume（TailDir Source） + Kafka Channel + Kafka Sink + Kafka --> Kafka(node02) ❞

架构图：

参数parseAsFlumeAgent设置为false

上游：数据通过node01的Kafka Channel存储到node02的Kafka主题（只有body数据）中，再从Kafak主题中读取数据

下游：拦截器处理，利用Kafka Channel将数据从Kafak主题中读取出来，

此方案数仓采集过程一共3个链路（数据传输环节）如下图：

❝与方案二相比，该方案节省一个Sink，节省一个数据传输环节，相应地提高了性能 ❞

最终方案

方案三的采集设计通道更符合本项目的需求，架构图：

❝结束！ ❞

猜你喜欢

如何两天时间上线一款AI应用？
深度 | IDM的进阶使用， IDM多个版本下载（电脑、手机、浏览器插件都有）
不使用 Javascript 也可以和浏览器进行交互？
Windows电脑申请iOS证书教程及工具分享
30岁的Ruby：单挑Java后，为何再难出头？
Redis-基础篇
从全局角度，如何设计一个秒杀系统？
C语言内联函数，提升C技巧必备
腾讯前端一面常考vue面试题汇总2
Whoosh：Python 的轻量级搜索工具
面试官：熔断和降级有什么区别？
面试必问：@Autowired 和 @Resource 有什么区别？
R 语言绘制数据：图表篇
分享12款我常用的开源免费软件
腾讯前端vue面试题合集2
五个节约生命的Python小技巧
浅谈电商搜索数据指标体系建设
IDM 6.38安装包（附安装教程）IDM多个版本（电脑、手机、浏览器插件
99%的Java程序员会踩的六个坑
IDM v6.37 电脑上高速下载idm多个版本（电脑、手机、浏览器插件都有）

zl程序教程

当前栏目

数仓采集通道的设计

数仓采集通道的设计

写在前面

方案一：

方案二：

方案三：

最终方案

相关文章