一文读懂:本地数据湖丨数据仓库丨云数据湖的利与弊
数据湖指的是一个中心位置,大量数据以原始的、非结构化的格式存储,其中包含有关数据和惟一标识符的信息。它们存储的数据可以稍后进行处理,以提取有价值的业务见解并推动业务向前发展。
这种类型的灵活组织允许存储结构化和半结构化数据,而无需担心被锁定在数据仓库等专有系统中。虽然数据湖需要专家的眼光来有效地管理和处理数据,但这最终会更加持久和划算。
如何打造数据湖?
如果你想为自己的企业建立一个数据湖,你需要考虑以下步骤:
1.选择灵活的云存储解决方案:您可以在Amazon Web Services和Microsoft Azure等平台上设置数据湖。使用其中一种服务可以让你避免巨额的前期成本,因为这些云服务只会根据你使用每项服务的数量收费。
2.找出数据的来源:识别数据的来源和添加新数据的频率是有帮助的。您可以选择按原样添加数据,也可以选择根据组织的要求清理数据。
3.建立流程:数据来自不同的来源,您可以与各个部门进行沟通,以确定发布数据的最佳过程、工作流和时间表。
4.测试数据湖:经常测试数据湖是很重要的,以确保您能够成功地检索和使用数据湖中的数据。这对于确保业务需求增长和变化时的连续性尤其重要。
5.使用数据:完成上述步骤后,您将拥有一个有效收集数据的系统。然后,您将需要使用各种提取、转换和加载过程从数据中获得价值。您可以使用数据仓库和可视化工具来实现这一点。Microsoft Power BI和Tableau等解决方案对于处理数据和从原始数据中得出意义非常有用。
数据仓库 vs 数据湖
虽然数据仓库和数据湖具有相同的目的,因为它们是数据的存储位置,但也有一些关键的区别。
首先,数据仓库在读取数据之前已经有了预期的数据布局。另一方面,数据湖可以接受任何格式的数据。对于数据湖,在读取数据之后对数据进行组织。
数据湖还要求用户具有不同数据类型的专家知识,因为数据是无组织的,格式不同。更广泛的用户更容易访问数据仓库,因为其结构本身就定义良好。
但是,数据仓库的结构化性质意味着设置一个数据仓库需要更多的时间来配置和调整。相比之下,数据湖可以更快速、更容易地进行调整。
数据湖的好处
使用数据湖有很多好处:如,增加对商业趋势和机会的洞察力;使用开源技术(如Hadoop和Spark)降低了实现成本;处理前不需要对数据进行组织;更灵活的分析方法。
数据湖的挑战
虽然数据湖有很多好处,但也要注意以下挑战:如,有成为数据垃圾场的风险,这些数据会阻碍有价值的分析;需要更有经验和知识的用户;如果数据湖环境不受控制,成本可能会不断上升。
云 vs 本地数据湖
在本地方面,内部数据湖通常提供强大的性能,这也意味着机密数据在您的控制之下,访问数据时延迟问题更少,然而,这里有一些内部设置的挑战:如,物理服务器会占用大量的物理空间;安装可能是一个昂贵和耗时的过程;很难添加更多的物理服务器,这限制了可伸缩性。
在云方面,云中的数据湖更划算,因为你只需要为你在任何给定时间使用的数据付费。它们也不需要你建立物理服务器,这意味着云数据湖更容易扩展,因为你不需要增加更多的物理服务器容量。然而,我们也必须意识到基于云的数据湖所带来的挑战:如,敏感数据的安全性较低;对数据治理和可访问性的控制更少。
数据湖的实际案例分享
Sisense的数据湖利用了AWS的生态系统。该公司拥有超过700亿条记录,并使用其数据湖架构有效地管理这些数据。它能够通过各种可视化工具从数据中提取价值,包括Sisense自己的可视化软件。
Depop是一款总部位于伦敦的社交购物应用。数千名使用该应用发送消息和购买商品的客户创建了一个持续不断的事件和数据流。反过来,该公司使用Amazon S3来处理这个庞大的数据流,并使用它来通知他们的业务决策。
ironSource是一个应用内盈利和视频广告平台。它处理来自数百万终端设备的流数据,因此需要一个解决方案来处理这些大量涌入的数据。该公司选择了Upsolver,它可以处理每秒高达50万个事件流。
Peer39是广告和数字营销行业的领导者。它分析了超过4.5亿个网页,以获得它们所包含文本的真正含义。这给了广告商更准确的信息,所以他们可以最大化他们的广告费用。Peer39使用Upsolver来处理这大量的数据。
SimilarWeb是一家提供数字世界洞察力的营销情报公司。它能够通过从各种来源收集大量数据来实现这一点。SimilarWeb需要分析数千TB的数据,因此它使用Amazon S3、Amazon Athena和Upsolver的组合来实现这一点。
编译:IT168 陶然
原文链接:https://www.serverwatch.com/storage/data-lake/
相关文章
- Android本地数据存储: ASimpleCache
- H5 - 本地数据存储 - localStorage.setItem
- python开发应用-本地数据获取方法
- Mybatis+mysql动态分页查询数据案例——工具类(MybatisUtil.java)
- 本地读取通达信数据
- 大数据揭秘华尔街如何从金融危机中赚钱
- 数据分析师、数据科学家常见的77个面试问题
- 86. 动手开发一个最简单的 SAP UI5 本地 Mock 数据服务器
- SAP UI5 应用开发教程之八十六 - 动手开发一个最简单的本地 Mock 数据服务器试读版
- 如何使用 mock 数据在本地运行 SAP Fiori Elements
- 用 ABAP 新建本地 Excel 文件并写入数据试读版
- Atitit 存储方法大总结 目录 1. 存储方式分类2 1.1. 按照数据分类为 结构化 半结构化 非结构化2 1.2. 按照内外部可分类 内部存储和外部存储持久化2 1.3. 按照本地远
- Atitit. 二进制数据ascii表示法,与base64编码解码api 设计标准化总结java php c#.net
- Angular 如何根据一个 class 的定义和数据,动态创建一个该类的实例
- DL之NN:利用(本地数据集50000张数据集)调用自定义神经网络network.py实现手写数字图片识别94%准确率
- 基于MATLAB中雷达和视觉合成数据的目标级传感器融合(Matlab代码实现)
- 华为云数据治理生产线DataArts,让“数据‘慧’说话”
- 【华为云技术分享】云小课 | 搬迁本地数据至OBS,多种方式任你选
- 华为云提供多场景本地数据上云方案,数据上云不再愁
- 如何将全国各省份人口数据绘制成地域分布图?Python 轻松解决
- 基于Bi-LSTM深度学习网络的遥感数据分类matlab仿真
- js读取本地txt文件中的json数据
- pyhton 从web获取json数据 保存到本地然后再读取
- 【Neo4j构建知识图谱】cypher操作import导入本地 CSV电影人数据集
- leaflet 实现极地标线地图,加载tileLayer.wms数据(088)
- dailykt爬取tushare 数据存入本地mysql
- 阿里资深数据分析师回答那些关于数据分析师的最常见的几个问题
- 读书笔记:《大数据时代 BIG DATA》
- 训练深度学习网络时候,出现Nan是什么原因,怎么才能避免?——我自己是因为data有nan的坏数据,clear下解决
- 将mnist数据集存储到本地文件
- 大数据Hadoop之——搭建本地flink开发环境详解(window10)