您现在的位置是：首页 > 大数据

当前栏目

一文读懂：本地数据湖丨数据仓库丨云数据湖的利与弊

数据本地一文读懂数据仓库

2023-09-14 09:14:54 时间

数据湖指的是一个中心位置，大量数据以原始的、非结构化的格式存储，其中包含有关数据和惟一标识符的信息。它们存储的数据可以稍后进行处理，以提取有价值的业务见解并推动业务向前发展。

这种类型的灵活组织允许存储结构化和半结构化数据，而无需担心被锁定在数据仓库等专有系统中。虽然数据湖需要专家的眼光来有效地管理和处理数据，但这最终会更加持久和划算。

如何打造数据湖？

如果你想为自己的企业建立一个数据湖，你需要考虑以下步骤：

1.选择灵活的云存储解决方案：您可以在Amazon Web Services和Microsoft Azure等平台上设置数据湖。使用其中一种服务可以让你避免巨额的前期成本，因为这些云服务只会根据你使用每项服务的数量收费。

2.找出数据的来源：识别数据的来源和添加新数据的频率是有帮助的。您可以选择按原样添加数据，也可以选择根据组织的要求清理数据。

3.建立流程：数据来自不同的来源，您可以与各个部门进行沟通，以确定发布数据的最佳过程、工作流和时间表。

4.测试数据湖：经常测试数据湖是很重要的，以确保您能够成功地检索和使用数据湖中的数据。这对于确保业务需求增长和变化时的连续性尤其重要。

5.使用数据：完成上述步骤后，您将拥有一个有效收集数据的系统。然后，您将需要使用各种提取、转换和加载过程从数据中获得价值。您可以使用数据仓库和可视化工具来实现这一点。Microsoft Power BI和Tableau等解决方案对于处理数据和从原始数据中得出意义非常有用。

数据仓库 vs 数据湖

虽然数据仓库和数据湖具有相同的目的，因为它们是数据的存储位置，但也有一些关键的区别。

首先，数据仓库在读取数据之前已经有了预期的数据布局。另一方面，数据湖可以接受任何格式的数据。对于数据湖，在读取数据之后对数据进行组织。

数据湖还要求用户具有不同数据类型的专家知识，因为数据是无组织的，格式不同。更广泛的用户更容易访问数据仓库，因为其结构本身就定义良好。

但是，数据仓库的结构化性质意味着设置一个数据仓库需要更多的时间来配置和调整。相比之下，数据湖可以更快速、更容易地进行调整。

数据湖的好处

使用数据湖有很多好处：如，增加对商业趋势和机会的洞察力；使用开源技术(如Hadoop和Spark)降低了实现成本；处理前不需要对数据进行组织；更灵活的分析方法。

数据湖的挑战

虽然数据湖有很多好处，但也要注意以下挑战：如，有成为数据垃圾场的风险，这些数据会阻碍有价值的分析；需要更有经验和知识的用户；如果数据湖环境不受控制，成本可能会不断上升。

云 vs 本地数据湖

在本地方面，内部数据湖通常提供强大的性能，这也意味着机密数据在您的控制之下，访问数据时延迟问题更少，然而，这里有一些内部设置的挑战：如，物理服务器会占用大量的物理空间；安装可能是一个昂贵和耗时的过程；很难添加更多的物理服务器，这限制了可伸缩性。

在云方面，云中的数据湖更划算，因为你只需要为你在任何给定时间使用的数据付费。它们也不需要你建立物理服务器，这意味着云数据湖更容易扩展，因为你不需要增加更多的物理服务器容量。然而，我们也必须意识到基于云的数据湖所带来的挑战：如，敏感数据的安全性较低；对数据治理和可访问性的控制更少。

数据湖的实际案例分享

Sisense的数据湖利用了AWS的生态系统。该公司拥有超过700亿条记录，并使用其数据湖架构有效地管理这些数据。它能够通过各种可视化工具从数据中提取价值，包括Sisense自己的可视化软件。

Depop是一款总部位于伦敦的社交购物应用。数千名使用该应用发送消息和购买商品的客户创建了一个持续不断的事件和数据流。反过来，该公司使用Amazon S3来处理这个庞大的数据流，并使用它来通知他们的业务决策。

ironSource是一个应用内盈利和视频广告平台。它处理来自数百万终端设备的流数据，因此需要一个解决方案来处理这些大量涌入的数据。该公司选择了Upsolver，它可以处理每秒高达50万个事件流。

Peer39是广告和数字营销行业的领导者。它分析了超过4.5亿个网页，以获得它们所包含文本的真正含义。这给了广告商更准确的信息，所以他们可以最大化他们的广告费用。Peer39使用Upsolver来处理这大量的数据。

SimilarWeb是一家提供数字世界洞察力的营销情报公司。它能够通过从各种来源收集大量数据来实现这一点。SimilarWeb需要分析数千TB的数据，因此它使用Amazon S3、Amazon Athena和Upsolver的组合来实现这一点。

编译：IT168 陶然

译文链接：一文读懂：本地数据湖丨数据仓库丨云数据湖的利与弊

原文链接：https://www.serverwatch.com/storage/data-lake/

猜你喜欢

SQL Server中出现的重复项问题及解决方案（sqlserver重复项）
MySQL Error number: MY-013637; Symbol: ER_IB_MSG_1373; SQLSTATE: HY000 报错故障修复远程处理
解析Linux中间件的能力（查看linux中间件）
什么深入理解Linux目录结构及其命令（linux目录结构命令是）
sql server2005配置管理器打不开无法连接到WMI提供程序 [0x80041003] windows2008 R2 64位
使用MySQL API快速封装程序（mysqlapi封装）
苹果MacBook思维导图软件Xmind 2022 for Mac 自带激活版
JS实现简单的jQuery框架（非常详细）
服务器构建Redis集群三台服务器的优势（redis集群采用三台）
CHERRY宣布DW 9100 SLIM键鼠套装：机身纤薄做工出色多项创新功能
【说站】java内部类的两种类型
Oracle 视图 ALL_DIM_LEVELS 官方解释，作用，如何使用详细说明

相关主题

数据治理 0215-2
合并数据

zl程序教程

当前栏目

一文读懂：本地数据湖丨数据仓库丨云数据湖的利与弊

相关文章