zl程序教程

数据仓库-维度

  • 数据仓库(03)数仓建模之星型模型与维度建模

    数据仓库(03)数仓建模之星型模型与维度建模

    维度建模是一种将数据结构化的逻辑设计方法,也是一种广泛应用的数仓建模方式,它将客观世界划分为度量和上下文。度量是常常是以数值形式出现,事实周围有上下文包围着,这种上下文被直观地分成独立的逻辑块,称之为维度。它与实体-关系建模有很大的区别,实体-关系建模是面向应用,遵循第三范式,以消除数据冗余为目标的设计技术。维度建模是面向分析,为了提高查询性能可以增加数据冗余,反规范化的设计技术。 上面的解释看

    日期 2023-06-12 10:48:40     
  • 数据仓库(04)基于维度建模的数仓KimBall架构

    数据仓库(04)基于维度建模的数仓KimBall架构

    基于维度建模的KimBall架构,将数据仓库划分为4个不同的部分。分别是操作型源系统、ETL系统、数据展现和商业智能应用,如下图。 数据仓库-4-001KimBall架构  操作型源系统,指的就是面向用户的各类系统,如app、网站、ERP、CRM等系统。这一块就是我们数据仓库的数据来源,并且这类数据往往有各自的格式和内容,我们同步过来之后,需要对数据进行清洗和规范化。   ETL系统,指的就是

    日期 2023-06-12 10:48:40     
  • 数据仓库(08)数仓事实表和维度表技术

    数据仓库(08)数仓事实表和维度表技术

    所谓的事实表和维度表技术,指的就是如何和构造一张事实表和维度表,是的事实表和维度表,可以涵盖现在目前的需要和方便后续下游数据应用的开发。 事实表,就是一个事实的集合。事实来自业务过程的度量,基本上以数量值表示。事实表行对应一个事实,一个事实对应一个物理可以观察的事件,例如,再零售事件中,销售数量与总额是数据事实,与销售事件不相关的度量不可以放在同一个事实表里面,如员工的工资。 事实表是实际发生

    日期 2023-06-12 10:48:40     
  • 数据仓库(09)数仓缓慢变化维度数据的处理

    数据仓库(09)数仓缓慢变化维度数据的处理

      数据仓库的重要特点之一是反映历史变化,所以如何处理维度的变化是维度设计的重要工作之一。缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流逝发生缓慢的变化,与数据增长较为快速的事实表相比,维度变化相对缓慢。阴齿这个就叫做缓慢变化维。   这里介绍的就是这些维度变化的处理,这边整理了一下目前主流的缓慢变化维的处理方式。 原样保留或者重写,这种方式理论上都是取最新的值作

    日期 2023-06-12 10:48:40     
  • 数据仓库:详解维度建模之事实表

    数据仓库:详解维度建模之事实表

    本文目录如下:一、事实表基础 二、事实表设计规则 三、事实表设计方法 四、有事实的事实表 五、无事实的事实表 六、聚集型事实表正文开始:每个数据仓库都包含一个或者多个事实数据表。其中可能包含业务销售数据,如现金登记事务所产生的数据,通常包含大量的行。事实数据表的主要特点是包含数字数据(事实),并且这些数字信息可以汇总,以提供有关单位作为历史的数据,每个事实数据表包含一个由多个部分组成的索引,该索引

    日期 2023-06-12 10:48:40     
  • 数据仓库中的维度详解程序员

    数据仓库中的维度详解程序员

    维度 维度在数据仓库中主要对事实指标进行过滤和重新组织提供指导。可以将用户对事实的查询结果按照维度指标进行筛选,只允许与维度指标相关的数据返回给用户。维度一般具有如下特性:可以形成一个维度体系,具备访问和过滤事实的能力,能够提供相关的非标准实体,包括一个完整的维度体系编码、关键词以及相关的表示,可以映射到用户所需要信息的列。在物理数据仓库中是较小的表,可以对前台用户的应用程序进行数据填充,或

    日期 2023-06-12 10:48:40     
  • 数据仓库专题(2)-Kimball维度建模四步骤

    数据仓库专题(2)-Kimball维度建模四步骤

    一、前言 四步过程维度建模由Kimball提出,可以做为业务梳理、数据梳理后进行多维数据模型设计的指导流程,但是不能作为数据仓库系统建设的指导流程。本文就相关流程及核心问题进行解读。 二、数据仓库建设流程 以下流程是根据业务系统、组织结构、团队结构现状设定的数据仓库系统建设流程,适合系统结构复杂,团队协作复杂,人员结构复杂的情况,并且数据仓库建设团队和业务系统建设团队不同的情况。具体流程

    日期 2023-06-12 10:48:40     
  • 数据仓库专题(8)-维度属性选择之维护历史是否应该保留

    数据仓库专题(8)-维度属性选择之维护历史是否应该保留

    一、背景 数据仓库建模过程中,针对事务型事实表设计,经常会遇到维度属性选择的问题,比如客户维度,在操作型系统中,为了跟踪客户状态的变化,往往会附加客户记录的四个属性:       1.add time:添加时间; 2.add user:添加用户; 3.mod time:修改时间; 4.mod user:修改用户; 问题在于,当我们进行维度建模的时候,如果以客户作为维度,是否应

    日期 2023-06-12 10:48:40     
  • 数据仓库专题(7)-维度建模10大基本原则

    数据仓库专题(7)-维度建模10大基本原则

          特别声明:本文整理自互联网。        遵循这些原则进行维度建模可以保证数据粒度合理,模型灵活,能够适应未来的信息资源,违反这些原则你将会把用户弄糊涂,并且会遇到数据仓库障碍。 二、正文 原则1、载入详细的原子数据到维度结构中 维度建模应该使用最基础的原子数据进行填充,以支持不可预知的来自用户查询的过滤和分组请求,用户通常不希望每次只看到一个单一的记录,但是你无法预测

    日期 2023-06-12 10:48:40     
  • 数据仓库专题(10)-文本事实和杂项维度

    数据仓库专题(10)-文本事实和杂项维度

    一、杂项维度 在维度建模的数据仓库中,有一种维度叫Junk Dimension,中文一般翻译为“杂项维度”。杂项维度是由操作系统中的指示符或者标志字段组合而成,一般不在一致性维度之列。 在操作系统中,我们定义好各种维度后,通常还会剩下一些在小范围内取离散值的指示符或者标志字段。例如:支付类型字段,包括现金和信用卡两种类型,在源系统中它们可能是维护在类型表中,也可能直接保存在交易表中。 一张事

    日期 2023-06-12 10:48:40     
  • 数据仓库专题(11)-可以作为维度表使用的事实表

    数据仓库专题(11)-可以作为维度表使用的事实表

    事实表从粒度的角度分为三种,分别是交易粒度事实表、周期快照事实表和累计快照事实表。 交易粒度事实表能提供某个确切时刻的描述信息。以银行帐户中保存的客户信息为例来说,代理机构会周期的更新客户的名称、地址、电话号码、客户分类、信用等级、风险等级及其他描述性信息。建立的交易粒度事实表如下所示: 变更日期(FK)帐户号(SK) 代理(FK) 客户信息变更类型(FK) 帐户号(NK) 名称(文本

    日期 2023-06-12 10:48:40     
  • 数据仓库专题(22):总线架构和维度建模优势-杂项

    数据仓库专题(22):总线架构和维度建模优势-杂项

    维度建模的数据仓库中,有一个概念叫Bus Architecture,中文一般翻译为“总线架构”。总线架构是Kimball的多维体系结构(MD)中的三个关键性概念之一,另两个是一致性维度(Conformed Dimension)和一致性事实(Conformed Fact)。 在多维体系结构(MD) 的数据仓库架构中,主导思想是分步建立数据仓库,由数据集市组合成企业的数据仓库。但是,在建立第一个数据

    日期 2023-06-12 10:48:40     
  • 数据仓库中的维度(原创)

    数据仓库中的维度(原创)

    维度 维度在数据仓库中主要对事实指标进行过滤和重新组织提供指导。可以将用户对事实的查询结果按照维度指标进行筛选,只允许与维度指标相关的数据返回给用户。维度一般具有如下特性:可以形成一个维度体系,具备访问和过滤事实的能力,能够提供相关的非标准实体,包括一个完整的维度体系编码、关键词以及相关的表示,可以映射到用户所需要信息的列。在物理数据仓库中是较小的表,可以对前台用户的应用程序进行数据填充,或引用

    日期 2023-06-12 10:48:40     
  • 数据仓库-维度模型(模型类型、建模过程)

    数据仓库-维度模型(模型类型、建模过程)

    数据仓库-维度模型 描述 Dimensional Modeling,简称DM,是一套技术和概念的集合,用于数据仓库设计 核心概念 事实 表示对业务数据的度量 通常是数字类型的,可以进行聚合和计算 维度 对观察数据的角度 一组层次关系或描述信息,用来定义事实 举例:销售金额是一个事实,而销售时间、销售的产品、购买的顾客、商店等都是销售事实的维度。 维度模型按照业务流程领域即主题域简历,例如进货、销

    日期 2023-06-12 10:48:40     
  • 数据仓库-维度

    数据仓库-维度

    各维度类型 渐变维 描述 渐变维(SCD. Slowly Change Dimension),是一种在多维数据仓库中实现维度历史的技术 类型 SCD1 通过更新维度记录直接覆盖已存在的值,它不维护记录的历史 一般用于修改错误的数据 SCD2 在源数据发生变化时,给维度记录建立一个新的版本记录,从而维护维度历史。 不删除、修改已存在的数据,新增一条数据 SCD3 通常用作保持维度记录的

    日期 2023-06-12 10:48:40