zl程序教程

您现在的位置是:首页 >  工具

当前栏目

基于Apache doris怎么构建数据中台(二)-数据中台建设内容

Apache建设数据 基于 怎么 构建 内容 Doris
2023-09-27 14:25:57 时间

这次主要是将基于Doris的数据中台建设内容及系统架构设计


围绕着上次将的我们要解决的五个问题 找数 理解数据 问题评估 取数及数据可视化 给出一个概要的设计及框架

数据中台建设内容


数据规范统一 采用维度事实建模理论进行严格的 规范化、标准化的定义 保障数据质量 避免数据指标的二义性。


一站式研发体验 从数据接入、建模、研发、运维、数据查找及探查等过程提供高效一站式统一的研发立案率。


系统化构建数据体系 以标准的技术框架 系统地构建规范可读的业务化数据体系 形成数据资产 方便业务查找及应用。


可视化数据资产 系统化构建业务数据资产大图 还原业务系统 提取业务知识 快速提取业务关键环节及业务。


数据使用简单可依赖 定义及服务 研发构建的业务主题式数据逻辑表可被直接 快速查询及访问 简化查询代码。


数据中台架构


数据中台系统架构

image.png

image-20210327145957837


数据中台技术架构


对用户来说 Doris 的优点是功能强大 易用性好。 功能强大指可以满足我们用户的需求 易用性好主要指 兼容 Mysql 协议和语法 以及 Online Schema Change。 兼容 Mysql 协议和语法让用户的学习成本和开发成本很低 Online Schema Change 也是一个很吸引人的 feature 因为在业务快速发展和频繁迭代的情况下 Schema 变更会是一个高频的操作。


对平台侧来说 Doris 的优点是易运维 易扩展和高可用


易运维指 Doris 无外部系统依赖 部署和配置都很简单。


易扩展指 Doris 可以一键加减节点 并自动均衡数据。


高可用值 Dors 的 FE 和 BE 都可以容忍少数节点挂掉。


所以这里数仓是使用Doris作为核心组件来构建


image.png

image-20210327145957837


架构说明


数仓整体以Doris为核心构建公司企业级数据仓库 后期会根据实际需要还可能会引进Hive、ClickHouse等其他组件


通过统一的数据采集系统 多种数据采集手段 包括Mysql binlog解析 Cannal 日志采集Flume Doris审计日志 、埋点接口等实现多种异构数据的采集 针对Mysql Kafka数据源我们封装了零代码入仓 可视化完成


将采集的数据统一通过消息队列 Kafka 完成高并发的数据吞吐 同时实现数仓及计算引擎的解耦


Flink计算引擎完成数据的ETL处理及实时数据的统计 并将数据推送到Kafka及Doris Stream Load


对外通过doris和消息队列对外提供数据服务


数据质量管理是实现对从数据采集到数据ETL处理 数据存储及数据服务全生命周期的数据管理 包括元数据 数据质量 数据规范、数据安全


血缘关系的构建是基于Doris的审计日志 这块我会在后面数据资产的元数据管理里讲解


系统架构数据管理及数据流向

image.png


image-20210327145957837


数据中台功能整体规划


数据中台功能整体规划

这是我们数据中台的整体功能规划 我会在后续展开每个功能

image.png

image-20210327145957837





Apache Doris 整合 FLINK CDC + Iceberg 构建实时湖仓一体的联邦查询 这篇教程将展示如何使用 Flink CDC + Iceberg + Doris 构建实时湖仓一体的联邦查询分析,Doris 1.1版本提供了Iceberg的支持,本文主要展示Doris和Iceberg怎么使用,同时本教程整个环境是都基于伪分布式环境搭建,大家按照步骤可以一步步完成。完整体验整个搭建操作的过程。
基于Apache doris怎么构建数据中台(六)-数据服务管理 上次讲数据质量的控制,那么针对据仓的数据及各种数据指标怎么快捷的对外提供数据服务,怎么快速的完成数据服务接口的开发,这次我们重点围绕这个进行展开。怎么实现接口开发零代码实现
基于Apache doris怎么构建数据中台(四)-数据接入系统 在开发数据模型时,我们必须有一个统一的平台,能够像流水线一样,把数据一步步加工成数据模型。这其中涉及到数据萃取、数据聚合、作业调度等。
基于 Apache Hudi 构建增量和无限回放事件流的 OLAP 平台 我们将讨论在构建流数据平台时如何利用 Hudi 的两个最令人难以置信的能力。 增量消费--每 30 分钟处理一次数据,并在我们的组织内构建每小时级别的OLAP平台 事件流的无限回放--利用 Hudi 的提交时间线在超级便宜的云对象存储(如 AWS S3)中存储 10 天的事件流(想象一个具有 10 天保留期的 kafka 主题) 具有部分记录更新的自定义 Hudi Payload 类