ETL学习笔记之二:ETL与BI
2023-09-11 14:20:31 时间
ETL为数据仓库服务,数据仓库用于数据分析,数据分析属于BI系统的要干的事儿。
一般中/小型ERP系统都会有不成熟的BI系统,为啥叫做不成熟? 因为它们或者有报表分析功能,但不具有OLAP(在线分析),或者有OLAP,但却没有数据挖掘和深度分析。或者干脆,来个大集成,直接利用第三方工具来达到相应的目的。 为什么会这样,究其原因,很多情况是因为没有自主的数据仓库,没有数据仓库,其它的做起来也就有些四不象了。而要建立数据仓库,首要的是:ETL。 于是,需求就应运而生了。 对了,BI是什么?OLAP是啥?什么又是数据挖掘?鉴于我只能解释其表面含义,我就不多说了。各位不妨找本数据仓库的书,翻翻前几页,一般就明白了。或者Google一把。 我们捡当下最流行的BI应用:OLAP来说说它与ETL的关系。 了解OLAP的人都知道,它的分析模型由事实表和维表组成。但往往OLTP系统中的数据库是为事务而建,而并不为分析而建,而为了BI去改动OLTP数据库是不现实,并且,很多情况下也基本上是不可能的(当然,有些公司把不可能的任务变成可能的,但这显然是一种很僵硬的做法)。 这时候,ETL的作用就显出来了,它可以为OLAP服务,按业务主题提取分析模型进行数据抽取。
联机分析处理(OLAP)
:联机事务处理OLTP(On-Line Transaction Processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"维"这个概念。
(OLAP分析需要什么样的数据支持?可以参看一下OLAP的星型模型)。
{天面试有一个问题是:星型模型与雪花模型的比较,何时用星型模型,何时需要用雪花模型
星型模式:是一种使用关系数据库实现多维分析空间的模式,用星型模型可以通过关系数据库来模拟OLAP模式。 使用关系数据库+星型模型能够优化存储并且保持数据结构的灵活性。 OLAP多维数据模型对数据做预先计算,建成多维数据立方体,它需要很大的内存以存储所有事实。无论是稠密纬合适稀疏维,无论数据块否包含事实,都必须要预留单元。星型模式的基本思想就是保持立方体的多维功能,同时也增加了小规模数据存储的灵活性。
雪花模式
有时候,需要对星型模式的维度需要进行规范化,这时,星型模式就演进为雪花模式。
原因是基本的星型模式并不能满足数据挖掘的所有需要。
(1)我们需要更复杂的维度,例如时间。分析员希望根据周、月、季度等识别模式。
(2)维度必须进行规范化。我们不需要冗余的维度表,这只会使数据切片变得更加复杂。这种过程中我们得到的模式被称为雪花模式。
(3)另外一个原因需要把星型模型变成雪花模型:就是当存在多对多的关联时,无法在关系数据库中实现,需要使用雪花模式。雪花模式中可以存在切片,切块。
}
再说说数据挖掘: 这个课题实在太大,相关的书藉有很多很多,我还得花时间慢慢去学习。简单的说,这涉及ERP业务和统计学的知识。现在我暂时还没开始相关学习,但它与ETL的关系却很明显。因为数据挖掘所要求的数据大都是高聚合的已处理的数据,所以,不管从获取难度和效率上来说,都不适合直接从OLTP中获取。 同样,需要ETL来帮忙。 因此,按本人粗浅的理解: ETL实在是: BI系统 设计开发,项目实施 之必备良药! 有句名言讲得好:成为巨人不如站在巨人的肩膀上。 如果想对ETL有详尽的了解,不妨先了解一下现有流行的ETL工具。
本文出自seven的测试人生公众号最新内容请见作者的GitHub页:http://qaseven.github.io/
BI系统概述(上)-- BI价值及核心模块 文章从三个问题入手, 什么是BI系统?为什么要建设BI系统?BI系统有哪些功能? 通过对BI价值以及核心功能介绍,希望让读者对BI系统有初步了解
BI系统概述(下)--BI功能规划及设计 本文为《浅谈BI系统设计》第2篇原创文章。 在上篇《BI系统概述(上)——BI价值及核心能力》我们对BI建设的必要性有所了解。 那么如何着手建设自助式BI系统呢? 接下来将从这三个方面阐述需求调研、功能规划、产品设计。
加速查询MaxCompute再对接Quick BI,选交互式分析就对了! 典型离线大数据场景上,MaxCompute一直占据着不可撼动的地位,但由于其架构原因,当数据量很大时,查询速度较慢,不满足业务场景的ad-hoc查询。目前常用的加速方案是使用其他数据库来将MaxCompute数据加速查询,于是,选择一个怎样的数据库成为业务关注的重点。
Quick-BI实现海量数据实时分析 Quick-BI的特性: 1、无缝集成云上数据 2、快速搭建数据门户 3、灵活嵌入第三方系统 4、安全管控数据权限Quick-BI中提供了一个监控指标的操作 用于监控指标看板中的指标,提供小时、日、月粒度的实时监控。
Tableau BI工具对接 AnalyticDB for PostgreSQL数据源 AnalyticDB for PostgreSQL(原HybridDB for PostgreSQL)作为高性能分析型数据库,可以支持用户对其业务数据进行实时分析,能够让企业敏锐感知市场动态,做出必要决策。
当移动数据分析需求遇到Quick BI 我叫洞幺,是一名大型婚恋网站“我在这等你”的资深老员工,虽然在公司五六年,还处于一线干活。“我在这等你”成立15年,目前积累注册用户高达2亿多,在我们网站成功牵手的用户达2千多万。目前我们的公司在CEO的英名带领下,稳步发展着。
Quick BI 支持多种数据源进行多维分析 随着互联网的高速发展,数据量爆发式增长的同时,数据的存储形式也开始呈现出多样性,有结构化存储,如 Mysql, Oracle, SQLServer 等,半结构化甚至非结构化存储,如HBase,OSS 等。
相关文章
- 《区域经理》笔记
- 机器学习笔记之生成模型综述(一)生成模型介绍
- SpringMVC学习笔记
- Memcached 笔记与总结(1)Linux(CentOS 6.6) 和 Windows(7)下安装与配置 Memcached (1.4.24)与 Memcached 基础命令
- PHP 设计模式 笔记与总结(1)命名空间 与 类的自动载入
- 吴恩达机器学习笔记 —— 10 神经网络参数的反向传播算法
- iptables 学习笔记
- spring cloud学习填坑笔记
- Deep Learning(深度学习)学习笔记整理系列
- Java编程思想(第4版本)1-15章笔记
- 《一线架构师实践指南》导图笔记
- YOLOv7学习笔记(一)——概述+环境+训练
- SwiftUI进阶之 15 软件的本意是什么? (《SICP》学习笔记)
- SwiftUI进阶之 06 编程高手该如何看待语言 (《代码大全》学习笔记)
- opencv学习笔记——Scalar数据结构的理解
- oracle创建用户与权限操作(oracle学习笔记一)
- nginx学习笔记
- Java里的IO基础知识笔记:IO流、字节流/字符流、File对象读取、输入流/输出流(使用过后及时关闭、缓冲区)、Filter模式、ZIP操作、读取classpath资源的意义、序列化/反序列化、Reader/Writer、使用Files工具类及其局限性
- Tensorflow入门与实战学习笔记(九)-Tensorboard可视化
- 刷题笔记之十一 (计算字符串的编辑距离+微信红包+年终奖+迷宫问题+星际密码+数根)
- 【C++快速上手】二、const学习笔记
- 第七周-GD32F4XX的测试笔记(1)
- 小波说雨燕 第三季 构建 swift UI 之 UI组件集-视图集(五)Image View视图 学习笔记
- 传感器技术-电阻式传感器(学习笔记二)
- C语言学习笔记 ——格式化IO(二)
- 学习笔记(28):Python网络编程&并发编程-死锁与递归锁
- 【学习笔记】zip和mis的区别
- Linux下汇编语言学习笔记35 ---
- JavaScript高级程序设计学习笔记--高级技巧