zl程序教程

数仓架构

  • 离线数仓和实时数仓架构与设计

    离线数仓和实时数仓架构与设计

    大家好,又见面了,我是你们的朋友全栈君。 前言:离线数仓和实时数仓架构与设计讲解离线数仓和实时数仓架构与设计一、数仓架构演变(场景驱动)二、离线大数据架构三、离线数仓分层四、离线大数据架构典型案例1、Lambda架构1.Lambda架构2.Lambda架构进一步了解3.Lambda架构典型案例4.Lambda架构典型案例(有赞广告团,基于Druid)5.Lambda架构存在的问题2、Kappa

    日期 2023-06-12 10:48:40     
  • 数据仓库(04)基于维度建模的数仓KimBall架构

    数据仓库(04)基于维度建模的数仓KimBall架构

    基于维度建模的KimBall架构,将数据仓库划分为4个不同的部分。分别是操作型源系统、ETL系统、数据展现和商业智能应用,如下图。 数据仓库-4-001KimBall架构  操作型源系统,指的就是面向用户的各类系统,如app、网站、ERP、CRM等系统。这一块就是我们数据仓库的数据来源,并且这类数据往往有各自的格式和内容,我们同步过来之后,需要对数据进行清洗和规范化。   ETL系统,指的就是

    日期 2023-06-12 10:48:40     
  • 数据仓库(05)数仓Kimball与Inmon架构的对比

    数据仓库(05)数仓Kimball与Inmon架构的对比

    数据仓库主要有四种架构,Kimball的DW/BI架构、独立数据集市架构、辐射状企业信息工厂Inmon架构、混合Inmon与Kimball架构。不过不管是那种架构,基本上都会使用到维度建模。 Kimball的DW/BI架构,可以参考这篇文章 数据仓库(4)基于维度建模的KimBall架构。 独立数据集市架构,采用这种架构的数据仓库,数据以部门为基础来部署,不考虑企业级别的信息共享和集成。也就是

    日期 2023-06-12 10:48:40     
  • 数据仓库建设之数仓架构

    数据仓库建设之数仓架构

    大家好,不管是离线数仓与实时数仓,建设的时候都少不了架构设计,今天来学习一下常见的架构及发展演变过程。 一、离线数仓大数据架构1.数仓架构 下面详细说明图中的各个组件及其所起的作用。 图中显示的整个数据仓库环境包括操作型系统和数据仓库系统两大部分。ETL过程分成了抽取和转换装载两个部分。抽取过程负责从操作型系统获取数据,该过程一般不做数据聚合和汇总,但是会按照主题进行集成,物理上

    日期 2023-06-12 10:48:40     
  • 干货 | 携程酒店实时数仓架构和案例

    干货 | 携程酒店实时数仓架构和案例

    作者简介秋石,携程数据仓库专家,关注大数据、数据仓库、数据治理等领域;九号,携程数据技术专家,关注数据仓库架构、数据湖、数据治理;魁伟,携程资深数据工程师,关注实时&离线大数据产品及技术。一、实时数仓当前,企业对于数据实时性的需求越来越迫切,因此需要实时数仓来满足这些需求。传统的离线数仓的数据时效性通常为 T+1,并且调度频率以天为单位,无法支持实时场景的数据需求。即使将调度频率设置为每小

    日期 2023-06-12 10:48:40     
  • 实时数仓架构的演进与对比

    实时数仓架构的演进与对比

    1991年,比尔·恩门(Bill Inmon)出版了他的第一本关于数据仓库的书《Building the Data Warehouse》,标志着数据仓库概念的确立。我们所常说的企业数据仓库Enterprise Data Warehouse (EDW) ,就是一个用于聚合不同来源的数据(比如事务系统、关系数据库和操作数据库),然后方便进行数据访问、分析和报告的系统(例如销售交易数据、移动应用数据和C

    日期 2023-06-12 10:48:40     
  • Apache Doris 在橙联的应用实践:数仓架构全面革新,千万数据计算时间从 2 小时变成 3 分钟

    Apache Doris 在橙联的应用实践:数仓架构全面革新,千万数据计算时间从 2 小时变成 3 分钟

    作者 | 付帅 策划 | 凌敏 业务背景 橙联股份是一家服务全球跨境电商的科技公司,致力于通过市场分析、系统研发及资源整合,为客户提供物流、金融、大数据等多方面的服务产品,为全球跨境电商提供高品质、全方位的服务解决方案。随着公司业务的发展和数据的不断增长,早期基于 MySQL 的传统数仓架构已经无法应对公司数据的快速增长。业务的需求和运营的决策对于数据时效性的要求越来越高,对数仓准实时能力的需求

    日期 2023-06-12 10:48:40     
  • ML:阿里云计算平台之搜索推荐演讲分享《多场景智能推荐助力业务增长》、《阿里云智能推荐应用实践:PAI-EasyRec Framework》、《新一代数仓架构漫谈》

    ML:阿里云计算平台之搜索推荐演讲分享《多场景智能推荐助力业务增长》、《阿里云智能推荐应用实践:PAI-EasyRec Framework》、《新一代数仓架构漫谈》

    ML:阿里云计算平台之搜索推荐演讲分享《多场景智能推荐助力业务增长》、《阿里云智能推荐应用实践:PAI-EasyRec Framework》、《新一代数仓架构漫谈》 目录 《多场景智能推荐助力业务增长》 开箱即用+推荐精准+灵活适配 实时的互动式推荐功能 新商品冷启动 物品圈选、人群圈选、流量策略

    日期 2023-06-12 10:48:40     
  • 离线数仓(2):数据仓库相关架构和规范

    离线数仓(2):数据仓库相关架构和规范

    目录 0. 相关文章链接 1. 数据仓库在整个应用中的位置 2. 此次重构的数据仓库具体分层架构 3. 数据仓库为什么要分层 4. 此次重构的数据仓库命名规范 4.1. 表命名 4.2. 表字段类型 0. 相关文章链接  离线数仓文章汇总  1. 数据仓库在整个应用中的位置         数据仓库在企业是处于非常重要的位置&

    日期 2023-06-12 10:48:40     
  • 数仓建模—IOTA架构

    数仓建模—IOTA架构

    IOTA架构 经过这么多年的发展,已经从大数据1.0的BI/Datawarehouse时代,经过大数据2.0的Web/APP过渡,进入到了IOT的大数据3.0时代,而随之而来的是数据架构的变化。 其实我们在前面的文章中介

    日期 2023-06-12 10:48:40     
  • 数仓建模—美团DB数据同步到数据仓库的架构与实践

    数仓建模—美团DB数据同步到数据仓库的架构与实践

    美团DB数据同步到数据仓库的架构与实践 前面我们介绍了数据同步方案的设计,你可以参考数仓建模—数据同步方案设计,前面我们也说了,我们基于binlog 实现的数据同步方案,基本是都是基于下面架构的改造实现 这里我们就看一下

    日期 2023-06-12 10:48:40     
  • 数仓建模—实时数仓架构发展史

    数仓建模—实时数仓架构发展史

    实时数仓架构发展史 当前基于Hive的离线数据仓库已经非常成熟,数据中台体系也基本上是围绕离线数仓进行建设。 但是随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀,业界最近几年就一直聚焦并探索于两个相关的

    日期 2023-06-12 10:48:40     
  • 数仓建模—数仓架构发展史(02)

    数仓建模—数仓架构发展史(02)

    发展史 时代的变迁,生死的轮回,历史长河滔滔,没有什么是永恒的,只有变化才是不变的,技术亦是如此,当你选择互联网的那一刻,你

    日期 2023-06-12 10:48:40     
  • 数仓工具—Hive架构之MetaStore的standalone模式和高可用(16)

    数仓工具—Hive架构之MetaStore的standalone模式和高可用(16)

    MetaStore standalone 和 高可用 前面我们学习了Hive MetaStore 的三种部署模式,今天我们再介绍一种部署模式standalone 模式,但是需要注意的是standalone 模式 和高可用其

    日期 2023-06-12 10:48:40     
  • 数仓工具—Hive架构之Metastore(16)

    数仓工具—Hive架构之Metastore(16)

    文章目录 Metastore Metadata Metastore作用 Metastore 服务 Meta

    日期 2023-06-12 10:48:40     
  • 数仓工具—Hive架构服务(16)

    数仓工具—Hive架构服务(16)

    Hive 服务详解 前面我们学习数仓工具—Hive的架构设计 的时候学到了很多概念,像元数据服务什么的,其实架构设计里的每一项都对应的是一种服务或者是一个进程,这节我们就学习一下它 元数据服务(MetaStore) M

    日期 2023-06-12 10:48:40     
  • 数仓工具—Hive架构之HiveServer2(14)

    数仓工具—Hive架构之HiveServer2(14)

    HiveServer 简介 今天我们学习一下Hive 架构中的重要一员HiveServer2或者是HiveServer1,HiveServer2使得其他语言访问Hive 成为了可能,其他语言通过连接HiveServer2服

    日期 2023-06-12 10:48:40     
  • 数仓工具—Hive的架构设计(13)

    数仓工具—Hive的架构设计(13)

    Hive的架构 我们知道MapReduce和Spark它们提供了高度抽象的编程接口便于用户编写分布式程序,它们具有极好的扩展性和容错性,能够处理超大规模的数据集。这些计算引擎提供了面向高级语言(比如Java,Python等

    日期 2023-06-12 10:48:40     
  • 实时数仓 | 京东计算架构演进之路

    实时数仓 | 京东计算架构演进之路

    一、背景: 从2004年开始,京东进军互联网线上化开始到至今,随着京东的高速发展,京东商城的订单量从万级到百万级、最终到达亿级。而对于实时的数据需求也是层出不穷,实时数仓、实时计算架构随着数据量的增长,不断进行革新与演进优化。 二、京东实时计算架构演

    日期 2023-06-12 10:48:40     
  • Apache Flink X Apache Doris 构建极速易用的实时数仓架构

    Apache Flink X Apache Doris 构建极速易用的实时数仓架构

    摘要:本文整理自 SelectDB 资深大数据研发专家王磊,在 FFA 2022 实时湖仓专场的分享。本篇内容主要分为四个部分: 实时数仓需求和挑战基于 Apache Doris 和 Apache Flink 构建实时数仓用户案例与最佳实践分享新版本特性 点击查看直播回放和演讲

    日期 2023-06-12 10:48:40     
  • 用Flink取代Spark Streaming!知乎实时数仓架构演进

    用Flink取代Spark Streaming!知乎实时数仓架构演进

    作者 | 知乎数据工程团队 “数据智能” (Data Intelligence) 有一个必须且基础的环节,就是数据仓库的建设,同时,数据仓库也是公司数据发展到一定规模后必然会提供的

    日期 2023-06-12 10:48:40