基于Apache doris的元数据管理系统
这里我们要先搞懂什么是元数据 元数据和数据的区别是什么 元数据有什么作用
1.什么是元数据举几个例子
元数据用来描述数据的数据 通过描述数据的产生、存储、使用情况、业务含义等信息 以及数据管理人员相关信息。让人们能够清楚拥有什么数据、代表什么、源自何处、如何在系统中移动 以及哪些人可以使用源数据 如何使用
元数据可分为技术元数据和业务元数据
技术元数据是存储关于数据仓库系统技术细节的数据 是用于开发和管理数据仓库使用的数据 主要包括
为管理层和业务分析人员服务 从业务角度描述数据 包括商务术语、数据仓库中有什么数据、数据的位置和数据的可用性等 帮助业务人员更好地理解数据仓库中哪些数据是可用的以及如何使用。
数据地图展现是以拓扑图的形式对数据系统的各类数据实体、数据处理过程元数据进行分层次的图形化展现 并通过不同层次的图形展现粒度控制 满足开发、运维或者业务上不同应用场景的图形查询和辅助分析需要。
血缘分析 我们可以大致理解为是一个表的生成过程。它依赖了哪些表 怎么生成的。同时加上它依赖的表又是怎么生成的。
血缘分析的作用
数据血缘分析是元数据管理的重要应用之一 梳理系统、表、视图、存储过程、ETL、程序代码、字段等之间的关系 并采用图数据库进行可视化展现。总之就是通过可视化展示数据是怎么来的 经过了哪些过程、阶段及计算逻辑。
基于元数据存储的数据定义、去向、转换关系、依赖关系等 提供影响分析管理 向上分析 功能
影响图 某实体表向上用于生成哪些实体 直接和间接 影响哪些数据汇总程序 直接和间接 。由当前数据节点向上树形扩散
提供表级关联关系分析功能 实现对数据流向分析 通过选定指定表操作对指定表进行数据流向分析 以实现对数据源数据具体流向的分析与统计
指标一致性分析是指用图形化的方式来分析比较两个指标的数据流图是否一致 从而了解指标计算过程是否一致。该功能是指标血缘分析的一种具体应用。指标一致性分析可以帮助用户清楚地了解到将要比较的两个指标在经营分析数据流图中各阶段所涉及的数据对象和转换关系是否一致 帮助用户更好地了解指标的来龙去脉 清楚理解分布在不同部门且名称相同的指标之间的差异 从而提高用户对指标值的信任。
企业数据平台所存储的数据和提供的各类分析应用 涉及到公司经营方面的各类敏感信息。因此在数据系统建设过程中 须采用全面的安全管理机制和措施来保障系统的数据安全。
数据系统安全管理模块负责数据系统的数据敏感度、客户隐私信息和各环节审计日志记录管理 对数据系统的数据访问和功能使用进行有效监控。为实现数据系统对敏感数据和客户隐私信息的访问控制 进一步实现权限细化 安全管理模块应以元数据为依据 由元数据管理模块提供敏感数据定义和客户隐私信息定义 辅助安全管理模块完成相关安全管控操作。
可以通过元数据设置表及字段的安全等级 加密 脱敏 授权等 然后结合相应的规则对数据表及字段访问进行控制 确保数据安全
统一元数据服务 主要提供查询表、指标、维度基本信息的基础元数据服务以及查询表级血缘、字段级血缘的血缘服务。
找到数据之后 通过数据详情功能可以快速了解数据表的基础信息 字段信息、分区信息、产出信息、数据血缘、数据预览 表关联信息、知识问答等
元数据采集分为人工录入和自动抽取 通过人工录入的方式实现物理表的准确归属 包括该表属于仓库哪一层、对应的主题、业务过程、星型模型关系等 以及指标的采集 从而完成技术元数据和业务元数据的采集 通过自动抽取的方式完成生产元数据的采集和使用元数据的采集 主要包括 物理模型的依赖关系、存储占用、热度、等信息。
实现对业务数据库数据表的元数据自动采集同步 包括建表语句中的中文备注信息 并将中文备注信息填写到对应的中文字段名称中 界面提供元数据修改功能 主要修改是添加业务技术负责人、修改表的中文名称、备注说明等信息 表的字段名称 类型、长度等信息不允许修改
实现对数仓数据库数据表的元数据自动采集同步 包括建表语句中的中文备注信息 并将中文备注信息填写到对应的中文字段名称中 界面提供元数据修改功能 主要修改是添加数仓表对应技术负责人、修改表的中文名称、备注说明等信息 表的字段名称 类型、长度等信息不允许修改
元数据要提供版本管理功能 以便进行业务追溯 业务系统数据库表会因为业务的变化数据结构也需要变化 需要提供元数据多的历史版本管理 可以查询元数据历史版本信息
这里的元模型分为以物理表为核心的物理元模型构建 以及以血缘为中心的血缘元模型。
物理元模型 构建以物理表为中心 打通其与技术元数据 主题、业务过程、Schema 的关系 实现了物理表的清晰归属 打通其与生产元数据的关系 要加上物理表查询热度、资源消耗、查询密级等生产使用信息 打通其与指标、维度和应用的对应关系 为上层的取数应用建立了完备的元数据。
血缘元模型 以血缘为中心 通过监控Doris审计日志或者 如果是其他数据库可以通过埋点或者拦截的方式获取SQL 通过sql解析完成自动的血缘关系构建 不仅要构建从上游业务表到仓库表的物理血缘 而且要打通仓库表到下游对应报表的血缘 为后续的影响评估构建了完备的元数据基础
应用实践 | 数仓体系效率全面提升!同程数科基于 Apache Doris 的数据仓库建设 同程数科成立于 2015 年,是同程集团旗下的旅游产业金融服务平台。2020 年,同程数科基于 Apache Doris 丰富的数据接入方式、优异的并行运算能力、极简运维等特性,引入 Apache Doris 进行数仓架构2.0 的搭建。本文详细讲述了架构1.0 到 2.0 的演进过程及 Doris 的应用实践,希望对大家有所帮助
Apache Doris 整合 FLINK CDC + Iceberg 构建实时湖仓一体的联邦查询 这篇教程将展示如何使用 Flink CDC + Iceberg + Doris 构建实时湖仓一体的联邦查询分析,Doris 1.1版本提供了Iceberg的支持,本文主要展示Doris和Iceberg怎么使用,同时本教程整个环境是都基于伪分布式环境搭建,大家按照步骤可以一步步完成。完整体验整个搭建操作的过程。
应用实践 | 10 亿数据秒级关联,货拉拉基于 Apache Doris 的 OLAP 体系演进 货拉拉成立于 2013 年,成长于粤港澳大湾区,是一家从事同城、跨城货运、企业版物流服务、搬家、汽车销售及车后市场服务的互联网物流公司。截至 2022 年 4 月,货拉拉的业务范围已经覆盖了国内 352 座城市,月活司机达到 58 万,月活用户达到 760 万,包含 8 条以上的业务线。 货拉拉大数据体系为支撑公司业务,现在已经成立三个 IDC 集群、拥有上千台规模的机器数量,存储量达到了 20PB、日均任务数达到了 20k 以上,并且还处在快速增长的过程中
知乎基于 Apache Doris 的 DMP 平台架构建设实践|万字长文详解 知乎基于业务需求搭建了 DMP 平台,本文详细的介绍了 DMP 的工作原理及架构演进过程,同时介绍了 Apache Doris 在 DMP 平台的应用实践,本文对大家了解 DMP 工作方式很有帮助,欢迎阅读。 作者|用户理解 & 数据赋能研发 Leader 侯容
Apache Doris 查询分析功能使用 Doris提供了一个图形化的命令帮助用户方便分析一个具体的查询或者导入操作,在使用过程中的性能问题,本文主要介绍如何使用改功能.
使用 Apache Doris HyperLogLog 实现近似去重 在实际的业务场景中,随着业务数据量越来越大,对数据去重的压力也越来越大,当数据达到一定规模之后,使用精准去重的成本也越来越高,在业务可以接受的情况下,通过近似算法来实现快速去重降低计算压力是一个非常好的方式,本文主要介绍 Doris 提供的 HyperLogLog(简称 HLL)是一种近似去重算法。
基于Ansible实现Apache Doris快速部署运维指南 Apache Doris是一个现代化的MPP分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。Apache Doris的分布式架构非常简洁,易于运维,并且可以支持10PB以上的超大数据集。
通过Nginx TCP反向代理实现Apache Doris负载均衡 Nginx能够实现HTTP、HTTPS协议的负载均衡,也能够实现TCP协议的负载均衡。那么,问题来了,可不可以通过Nginx实现Apache Doris数据库的负载均衡呢?答案是:可以。接下来,就让我们一起探讨下如何使用Nginx实现Apache Doris的负载均衡。
相关文章
- Apache POI 实现对 Excel 文件读写
- Apache APISIX 2.8 正式发布,带来更多新功能!
- java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z
- apache netbeans不再集成tomcat
- Apache Shiro 使用手册(三)Shiro 授权
- Web服务器父与子 Apache和Tomcat区别
- Apache Shiro权限框架在SpringMVC+Hibernate中的应用
- KLOOK客路旅行基于Apache Hudi的数据湖实践
- Apache Hudi在医疗大数据中的应用
- Apache 虚拟主机概念介绍
- org.apache.ibatis.binding.BindingException: Invalid bound statement (not found): com【我】
- java.lang.NoClassDefFoundError: org/apache/curator/RetryPolicy解决方法
- airflow - Apache Airflow
- 使用Apache Bench对网站性能进行测试
- SpringMVC + Apache POI 实现WEB中Excel下载功能