您现在的位置是：首页 > Python

当前栏目

一图简述大数据技术生态圈

技术接口开源执行数据分布式分布式

2023-03-14 10:16:05 时间

下面是一张生态图，主要的组件都是为了方便大家从底层的MapReduce模型中脱离出来，用高层语言来做分布式计算，下文将分别为你作简述。

1、HBase

是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化数据集群。像Facebook，都拿它做大型实时应用。

2、Hive

Facebook领导的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计。像一些data scientist 就可以直接查询，不需要学习其他编程接口。

3、Pig

Yahoo开发的，并行地执行数据流处理的引擎，它包含了一种脚本语言，称为Pig Latin，用来描述这些数据流。Pig Latin本身提供了许多传统的数据操作，同时允许用户自己开发一些自定义函数用来读取、处理和写数据。在LinkedIn也是大量使用。

4、Cascading/Scalding

Cascading是Twitter收购的一个公司技术，主要是提供数据管道的一些抽象接口，然后又推出了基于Cascading的Scala版本就叫Scalding。Coursera是用Scalding作为MapReduce的编程接口放在Amazon的EMR运行。

5、Zookeeper

一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现。

6、Oozie

一个基于工作流引擎的开源框架。由Cloudera公司贡献给Apache的，它能够提供对Hadoop MapReduce和Pig Jobs的任务调度与协调。

7、Azkaban

跟上面很像，Linkedin开源的面向Hadoop的开源工作流系统，提供了类似于cron 的管理任务。

8、Tez

Hortonworks主推的优化MapReduce执行引擎，与MapReduce相比较，Tez在性能方面更加出色。

猜你喜欢

Nacos配置中心 (介绍与配置)
2023年第一季度汽车行业行情预测分析
瑞萨RH850 CS+环境下设置堆和栈空间
比亚迪元EV汽车拆解报告
自动驾驶汽车芯片的发展和分析
Measure阶段是如何为六西格玛项目做贡献的？
比亚迪新能源汽车战略布局研究
ChatGPT的背后逻辑
元宇宙的「中场战事」
JMeter笔记3 | JMeter安装和环境说明
初探富文本之CRDT协同算法
JMeter笔记4 | JMeter界面介绍
Go语言基准测试(benchmark)三部曲之一：基础篇
JMeter笔记5 |Badboy使用和录制
JMeter笔记6 | JMeter录制（配置代理）
JMeter笔记7 | JMeter脚本回放
JMeter笔记8 | JMeter关联
云端golang开发，无需本地配置，能上网就能开发和运行
大客户市场：阿里云、腾讯云、华为云“贴身肉搏”
client-go实战之七：准备一个工程管理后续实战的代码

zl程序教程

当前栏目

一图简述大数据技术生态圈

相关文章