大数据必知必会系列——数仓分层架构及三层架构流程[新星计划]
2023-04-18 12:46:20 时间
文章目录
数据仓库典型分层结构:3层结构【ODS层、DW层和DA层】
- 1)、ODS层数据:原始数据,往往来源于业务系统产生的数据,比如RDBMS表数据、日志文件数据或爬虫获取数据及第三方购买的数据等
- 2)、DW层:数据仓库层,数据来源ODS成数据,整合拉宽和分析数据
- 3)、DA层:数据应用层,数据来源DW层数据分析处理,按照需要业务分析
有时,将业务数据中维度数据,单独放到一层:DIM层(维度层)
,存储都是维度表的数据。
主题指标开发,按照数据仓库分层结构进行存储数据,分为典型数仓三层架构:ODS 层、DW层和APP层
,更加有效的数据组织和管理,使得数据体系更加有序。
数据分层的好处:
1.清晰数据结构,每一个数据分层都有它的作用域和职责,在使用表的时候能更方便的定位和理解 2.减少重复开发,规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算。 3.统一数据口径,通过数据分层,提供统一的数据出口,统一对外输出的数据口径。 4.复杂问题简单化,将一个复杂的任务分解成多个步骤完成,每一层解决特定的问题。
通用的数据分层设计:
- ODS:存放原始数据
- DW:存放数仓中间层数据
- APP:面向业务定制的应用数据
电商网站的数据体系设计,只关注用户访问日志
这部分数据:
各层会用到的计算引擎和存储系统:
京东的数据仓库分层模式
,是根据标准的模型演化而来。
数据仓库分层:
BDM:缓冲数据,源数据的直接映像,缓冲:Buffer
FDM:基础数据层,数据拉链处理、分区处理,基础:Foundation
GDM:通用聚合,通用:Generic
ADM:高度聚合,聚合:Aggregation,应用层:Application
相关文章
- 【技术种草】cdn+轻量服务器+hugo=让博客“云原生”一下
- CLB运维&运营最佳实践 ---访问日志大洞察
- vnc方式登陆服务器
- 轻松学排序算法:眼睛直观感受几种常用排序算法
- 十二个经典的大数据项目
- 为什么使用 CDN 内容分发网络?
- 大数据——大数据默认端口号列表
- Weld 1.1.5.Final,JSR-299 的框架
- JavaFX 2012:彻底开源
- 提升as3程序性能的十大要点
- 通过凸面几何学进行独立于边际的在线多类学习
- 利用行动影响的规律性和部分已知的模型进行离线强化学习
- ModelLight:基于模型的交通信号控制的元强化学习
- 浅谈Visual Source Safe项目分支
- 基于先验知识的递归卡尔曼滤波的代理人联合状态和输入估计
- 结合网络结构和非线性恢复来提高声誉评估的性能
- 最佳实践丨云开发CloudBase多环境管理实践
- TimeVAE:用于生成多变量时间序列的变异自动编码器
- 具有线性阈值激活的神经网络:结构和算法
- 内网渗透之横向移动 -- 从域外向域内进行密码喷洒攻击