现代元数据平台
构建端到端的开源现代数据平台
在过去的几年里,数据工程领域的重要性突飞猛进,为加速创新和进步打开了大门——从今天开始,越来越多的人开始思考数据资源以及如何更好地利用它们。这一进步反过来又导致了数据技术的“第三次浪潮”。“第一次浪潮”包括 ETL、OLAP 和关系数据仓库,它们是商业智能 (BI) 生态系统的基石,无法应对大数据的4V[1]的指数增长。由于面向 BI 的栈的潜力有限,我们随后见证了“第二次浪潮”:由于 Hadoo
日期 2023-06-12 10:48:40现代数据平台要实现自助用数,要解决的三个问题
摘要:华为云FusionInsight MRS HetuEngine持续提升自助用数分析平台的可服务、易运维能力,基于AI技术持续提升对数据分析平台的智能化赋能水平,引领现代数据分析平台向专业化、智能化、易运维、高性能方向演进。 本文分享自华为云社区《现代数据平台要实现自助用数还要解决的三大问题》
日期 2023-06-12 10:48:40DataHub: 现代数据栈的元数据平台--如何与spark集成,自动产生spark作业的数据血缘关系?
DataHub如何集成spark? DataHub通过如下方式集成spark: 提供了一个轻量级的Java代理,它侦听Spark应用程序和作业事件,并实时将数据血缘元数据推送到DataHub Java代理侦听应用程
日期 2023-06-12 10:48:40DataHub: 现代数据栈的元数据平台--如何删除元数据?
为了保证DataHub中的元数据的有效性、正确性,需要及时将不正确的、废弃的元数据进行删除。 本文主要讲解在DataHub中如何删除元数据? 1.DataHub如何删除元数据 1.1.通过Rest.li API 删除
日期 2023-06-12 10:48:40DataHub: 现代数据栈的元数据平台--如何处理同一平台类型的多个实例?
产生问题的原因? 在DataHub v0.8.24 之前,元数据模型不支持同一平台类型的多个实例,原因详见下面的描述。 DataHub的元数据模型针对数据集【Dataset】的唯一标识URN由如下三个部分级成: Da
日期 2023-06-12 10:48:40DataHub: 现代数据栈的元数据平台--如何配置DataHub作为Airflow的数据血缘后端存储,自动将工作流DAG写入DataHub作为数据血缘?
1. Airflow 如何支持数据血缘? Airflow 1.10.15+ and 2.0.2+ 已经支持lineage backend,但只是实验性的。 Airflow 通过任务的入口和出口【 inlets and o
日期 2023-06-12 10:48:40DataHub: 现代数据栈的元数据平台--如何从DataHub容器中提取日志?
DataHub容器、DataHub GMS(backend server)和DataHub前端(UI server)将日志文件写入本地容器文件系统。 要提取这些日志,需要从运行服务的容器中获取。 当DataHub某一个功能
日期 2023-06-12 10:48:40DataHub: 现代数据栈的元数据平台--组件日志时间早8个小时,怎么办?
背景 DataHub通常使用docker-compose安装部署,但安装好后,查看访问日志,发现日志的时间早了8个小时,怎么办? 本文针对此问题,提供解决方案。 解决方案 解决步骤 在 docker-compo
日期 2023-06-12 10:48:40DataHub: 现代数据栈的元数据平台--如何使用数据领域Domain?
Data Domain 数据域 Data Domain是什么? DataHub从v0.8.25开始支持针对数据资产进行数据域管理 Data Domain是数据资产的逻辑分组集合,目前一个数据资产一次只能属于一个Data
日期 2023-06-12 10:48:40DataHub: 现代数据栈的元数据平台--如何针对DataHub UI 前端展示进行汉化
为什么针对DataHub UI 前端展示进行汉化? DataHub的组件datahub-frontend-react是DataHub UI的React版本,也是DataHub客户端体验的生产版本。 前端是完全独立的。
日期 2023-06-12 10:48:40DataHub: 现代数据栈的元数据平台--如何快速验证所有组件容器都在正确的运行?
databub中的组件较多,并且都在docker 容器中运行,那么如何快速验证所有组件容器都在正确的运行呢? 本文提供如下3类检查方式 使用datahub内置工具检查 使用docker 命令检查 检查组件数据初始
日期 2023-06-12 10:48:40DataHub: 现代数据栈的元数据平台--如何监控DataHub
1. 监控DataHub 监控DataHub的系统组件对于运行和改进DataHub至关重要。 DataHub中的组件较多,需要使用监控工具监控DataHub的组件,随时查看组件状态,确定系统的性能瓶颈。 DataHub使
日期 2023-06-12 10:48:40DataHub: 现代数据栈的元数据平台--如何搭建本地开发环境
在使用datahub时,业务上可能需要针对源代码进行修改,这就需要搭建一个本地的开发环境。 1.如何搭建本地开发环境? 1.1.搭建步骤 fork 并且 clone github上的datahub项目,需要将{us
日期 2023-06-12 10:48:40DataHub: 现代数据栈的元数据平台--如何添加自定义数据平台
1.什么是Data Platform? 数据平台代表了一个第三方系统,DataHub从数据平台获取元数据实体。 每个被摄取的数据集都与一个平台相关联,例如MySQL、OpenGauss、Hive或HDFS。 在某些情况下
日期 2023-06-12 10:48:40DataHub: 现代数据栈的元数据平台--如何将数据血缘关系写入DataHub
什么是Data lineage? 在大数据时代,系统的数据来源广泛,各种类型的数据快速产生且爆发性增长。从数据的产生、ETL 、数据融合分析、数据应用直至最终消亡,在数据流转过程中数据之间的关联关系称为数据血缘关系。 数
日期 2023-06-12 10:48:40DataHub: 现代数据栈的元数据平台--如何将自定义的元数据事件发送到DataHub
在某些情况下,业务上需要程序直接构造自定义的元数据事件【MetadataEvent】,然后将该元数据发送到DataHub。 DataHub分别针对python和java提供了emitter 库,如下: Python
日期 2023-06-12 10:48:40DataHub: 现代数据栈的元数据平台--如何安装指定版本的datahub
默认情况下,使用datahub docker quickstart 会部署最新版本的datahub,但实际使用时,需要部署指定版本的Datahub,如何做呢? 有如下两种方式可以实现此目标: 使用docker-com
日期 2023-06-12 10:48:40DataHub: 现代数据栈的元数据平台--如何基于acryl-datahub摄取元数据
什么是acryl-datahub? acryl-datahub是基于python开发的、可扩展的元数据系统 支持使用Kafka或通过REST API向DataHub发送数据 支持通过CLI工具使用 支持通过任务调
日期 2023-06-12 10:48:40DataHub: 现代数据栈的元数据平台--如何针对元数据建模?
元数据建模概念 DataHub采用模式优先【schema-first】的方法对元数据进行建模: 使用开源的Pegasus模式语言(PDL)'扩展了一组定制的注释来针对元数据建模。 DataHub存储、服务、索引和摄取层直
日期 2023-06-12 10:48:40DataHub: 现代数据栈的元数据平台的Metadata Ingestion Architecture【元数据摄取架构】讲解
数据治理平台系统文章: DataHub: 现代数据栈的元数据平台的入门体验及填坑记录 DataHub: 现代数据栈的元数据平台的Serving Architecture【服务体系架构】讲解 DataHub: 现代数
日期 2023-06-12 10:48:40DataHub: 现代数据栈的元数据平台的Serving Architecture【服务体系架构】讲解
数据治理平台系统文章: DataHub: 现代数据栈的元数据平台的入门体验及填坑记录 DataHub: 现代数据栈的元数据平台的Serving Architecture【服务体系架构】讲解 DataHub: 现代数
日期 2023-06-12 10:48:40DataHub: 现代数据栈的元数据平台的入门体验及填坑记录
数据治理平台系统文章: DataHub: 现代数据栈的元数据平台系列之一 什么是datahub DataHub是为现代数据栈【Modern Data Stack】构建的第三代元数据平台,支持数据发现、协作、治理和端到端可
日期 2023-06-12 10:48:40《大规模Java平台虚拟化与调优》——第2章 现代化可扩展的数据平台
本节书摘来自华章计算机《大规模Java平台虚拟化与调优》一书中的第2章,第2.1节,作者:(美)Emad BenjaminLiang) 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 第2章 现代化可扩展的数据平台 尽管你可以采用多种方式现代化应用的架构,但是核心的趋势如下:-围绕Spring框架所提供的灵活性现代化应用架构;-现代化数据。 就数据现代化来说,现在有很多不同的方式。本
日期 2023-06-12 10:48:40《大规模Java平台虚拟化与调优》——2.3 Active-Active架构与现代化数据平台
本节书摘来自华章计算机《大规模Java平台虚拟化与调优》一书中的第2章,第2.3节,作者:(美)Emad BenjaminLiang) 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.3 Active-Active架构与现代化数据平台 图2-25展现了位于两个数据中心中的4个active-active端。在数据中心-1中,有Active-1A和Active-1B端,在数据中心-2中
日期 2023-06-12 10:48:40