数据湖之Hudi(1):什么是数据湖
目录
3. 数据仓库Data Warehouse与数据湖DataLake 区别
0. 相关文章链接
1. 什么是数据仓库
-
数据仓库(英语:Data Warehouse,简称数仓、DW),是一个用于存储、分析、报告的数据系统。
-
数据仓库的目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持(Decision Support)。
-
数据仓库的特点是本身不生产数据,也不最终消费数据。
-
每个企业根据自己的业务需求可以分成不同的层次。但是最基础的分层思想,理论上分为三个层:操作型数据层(ODS)、数据仓库层(DW)和数据应用层(DA)。
2. 什么是数据湖
-
数据湖(Data Lake)和数据库、数据仓库一样,都是数据存储的设计模式,现在企业的数据仓库都会通过分层的方式将数据存储在文件夹、文件中。
-
数据湖是一个集中式数据存储库,用来存储大量的原始数据,使用平面架构来存储数据。
-
定义:一个以原始格式(通常是对象块或文件)存储数据的系统或存储库,通常是所有企业数据的单一存储。
-
数据湖可以包括来自关系数据库的结构化数据(行和列)、半结构化数据(CSV、日志、XML、JSON)、非结构化数据(电子邮件、文档、pdf)和二进制数据(图像、音频、视频)。
-
数据湖越来越多的用于描述任何的大型数据池,数据都是以原始数据方式存储,知道需要查询应用数据的时候才会开始分析数据需求和应用架构。
-
数据湖中数据,用于报告、可视化、高级分析和机器学习等任务。
3. 数据仓库Data Warehouse与数据湖DataLake 区别
- 数据仓库是一个优化的数据库,用于分析来自事务系统和业务线应用程序的关系数据。
- 数据湖存储来自业务线应用程序的关系数据,以及来自移动应用程序、IoT 设备和社交媒体的非关系数据。
- 数据湖并不能替代数据仓库,数据仓库在高效的报表和可视化分析中仍有优势。
- 数据仓库:使用良好范式规范数据,无法生成数据所需的洞察。
- 数据湖:新的原始数据存储和处理范式,缺乏结构和治理,会迅速沦为“数据沼泽”。
4. 湖仓一体DataLake House
-
Data Lakehouse(湖仓一体)是新出现的一种数据架构,它同时吸收了数据仓库和数据湖的优势,数据分析师和数据科学家可以在同一个数据存储中对数据进行操作,同时它也能为公司进行数据治理带来更多的便利性。
-
LakeHouse使用新的系统设计:直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。
- 湖仓一体LakeHouse:是一种结合数据湖和数据仓库优势的新范式,从根本上简化企业数据基础架构,并且有望在机器学习已渗透到每个行业的时代加速创新。
5. 数据湖总结
数据湖技术本质上:实现全量数据单一存储的高级架构,可以存储任意规模、任意类型、需求各种速度的数据。需任何预处理,消除数据采集和存储的复杂性,加速应用数据。
注:Hudi系列博文为通过对Hudi官网学习记录所写,其中有加入个人理解,如有不足,请各位读者谅解☺☺☺
注:其他相关文章链接由此进(包括Hudi在内的各数据湖相关博文) -> 数据湖 文章汇总
相关文章
- 大数据开发主要做什么?
- 流数据_数据回流是什么意思
- 【说站】python XML数据是什么
- 【说站】百度统计后台百度索引量没有数据是什么原因
- 改造BeanUtils 优雅实现List数据拷贝
- 中国数据复制第一股:英方软件做对了什么?
- 【视频】什么是非线性模型与R语言多项式回归、局部平滑样条、 广义相加GAM分析工资数据|数据分享|附代码数据
- 虹科分享 | 网络流量监控 | 你的数据能告诉你什么:解读网络可见性的4种数据类型
- 【Android RTMP】Android Camera 视频数据采集预览 ( 视频采集相关概念 | 摄像头预览参数设置 | 摄像头预览数据回调接口 )
- 一文搞懂:什么是数据追踪计划表?
- 用Oracle数据卫士守护您的信息安全(oracle数据卫士)
- 数据清理实现Redis Java中过期数据的清理(redisjava过期)
- 为什么 SQL 正在击败 NoSQL,数据的未来是什么?
- Mysql实现排名并列:让数据更公正、合理(mysql排名并列)
- MySQL事务管理:保障数据一致性(mysql事务 语句)
- MySQL数据库同步软件——轻松实现数据迁移(mysql同步软件)
- 监测Redis数据失效情况,保障服务可靠性(监听redis数据失效)
- 数据用Redis存储大量数据极大提高效率(用redis存什么)
- JS技术连接Oracle数据库实现数据交互(js连接oracle实例)
- 管理何种数据最适合Redis(什么数据需要放redis)
- 利用Redis实现数据排重技术(利用redis 数据排重)
- Redis高可用架构如何解决数据丢失问题(redis高可用什么意思)
- Oracle RDBA在企业中实现数据可操作性(oracle rdba)