您现在的位置是：首页 > 数据库

当前栏目

Google Dremel vs. Apache Hadoop

开源数据

2023-04-18 14:44:01 时间

Naresh Kumar在介绍两者之间的区别之前，首先针对Google Dremel进行简单的描述：

什么是Google Dremel?

Google Dremel是个可扩展的、交互式的即时查询系统，专注于只读嵌套(nested)数据的分析。通过集合不同层次的执行树和柱状的数据布局，他能够在几秒内完成在万亿张表上的聚合查询。系统可以扩展到成千上万的CPU上，满足Google上万用户操作PB及的数据。

Apache Hadoop vs Google Dremel：两者之间的不同

Dremel是个数据分析工具，经专门设计用于完成大规模查询结构化数据集(如日志和事件文件)。它支持类SQL语法，区别在于它是只读的。不支持修改或者建立功能，也没有表索引。数据被列式存储，这样有助于提升查询的速度。Google的BigQuery就是Dremel通过RESTful API的一种实现。

Hadoop(MapReduce的一种开源实现)集合了“Hive”数据仓库软件，同样允许使用SQL语句对大量的数据集进行数据分析。Hive本质上是把查询转换成MapReduce运算。对比使用ColumIO格式，Hive则是使用表索引的思想去优化查询。

Hadoop更多的则是用于批处理，这就意味着数据是运行在你已经拥有的数据集上。有数据流入时，流引擎会进行处理。“流”和“实时”通常被互换使用，这也是导致Dremel和Drill混淆的原因，通常都会把它们归类成延时。

值得注意的是Google只是打算将Dremel作为MapReduce的一种补充，而不是替换。通过论文也可以得知，Dremel被频繁的用于分析MapReduce的结果或者是作为大规模计算的测试。Dremel可以做那些通常需要一系列MapReduce才可以完成的查询，但是花费的时间只是使用MapReduce的一小部分。如前所述，Dremel从速度上完全超越MapReduce。

Google Dremel vs Apache Drill

Apache Drill更像是Google Drill的开原版本。OpenDremel，另一个创建Dremel开源版本的项目。当然还有一些其他支持大数据快速查询的项目，比如：Apache CouchDB和Cloudant的演变版本BigCouch。

其他一些大数据分析工具和技术

1. Storm —— Backtype开发并被Twitter开源。

2. Apache S4 —— Yahoo!开源。

而流引擎就是这些实时大数据处理系统(比如Storm和S4)与Dremel的最大区别，当然Dremel是专门针对查询设计。

猜你喜欢

突破传统可靠性测试：混沌工程优秀实践
React：我们即将和后端 API 告别？
B站接入层网络演进实践
别被隐私计算表象骗了
MIT用GPT-3冒充哲学家，竟骗过了一大半专家
角速度、线速度之外，描述宇宙还有另一种方式？AI发现新变量登Nature子刊
软件工程师的硬件抓狂指南
不堆概念、换个角度聊多线程并发编程
一线技术人应该关注的四种思维能力
DeepMind发现了几乎所有科学界已知的蛋白质的结构
机器学习的三大“疑难杂症”，因果学习是突破口
小扎下血本！Meta专为元宇宙搞了个AI模型
提速1200倍！MIT开发新一代药物研发AI，吊打老模型
华为鸿蒙3.0正式发布，这次破了安卓圈？
万字解析自动驾驶中基于特征点的全局定位技术
杭州一22岁女孩连续熬夜加班猝死：人才是中心，公司不过是工具
研发效能的思考总结
可视化全链路日志追踪通用设计：问题排查从小时级降至5分钟
华为发布HarmonyOS 3及全场景新品，智慧体验更进一步
华为鸿蒙设备数突破3亿，9月启动HarmonyOS 3规模升级

zl程序教程

当前栏目

Google Dremel vs. Apache Hadoop

相关文章