您现在的位置是：首页 > 数据库

当前栏目

Hadoop、Spark、Flink、Hive、Flume、kafka等大数据框架的角色和关系

2023-04-18 16:25:17 时间

1、Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。

Hadoop实现了一个分布式文件系统（ Distributed File System），其中一个组件是HDFS（Hadoop Distributed File System）。

2、Flask

Flask是一个用Python编写的Web应用程序框架。

基于Werkzeug WSGI工具和Jinja2模板引擎。

Flask通常被称为微框架, 它旨在保持应用程序的核心简单且可扩展。Flask没有用于数据库处理的内置抽象层，也没有形成验证支持。相反，Flask支持扩展以向应用程序添加此类功能。

3、Flink

Flink是一个框架和分布式的处理引擎，用于对无界和有界数据流进行状态计算。

有界的数据流就是有限量的静态数据，比如数据库里现在存好的数据，它就是有界的。
无界数据流就是有一个数据源给你不断的发送数据，比如一个传感器不断的向服务器发送状态信息，比如服务器的实时监控程序。

Flink框架可以说是实现真正意义上的实时流处理，大大降低了流计算的延迟，更能满足当下的大数据处理需求。

4、Hive

hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。

hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。

5、Flume

Flume 日志收集系统

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

6、kafka

Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。

kafka是一个分布式的基于发布/订阅模式的消息队列，主要应用于大数据实时处理领域。

Kafka是一个分布式消息队列。Kafka对消息保存时根据Topic进行归类，发送消息者称为Producer，消息接受者称为Consumer，此外kafka集群有多个kafka实例组成，每个实例(server)称为broker。

猜你喜欢

Jease 2.6发布 Java开源内容框架
EasyCVR对接华为iVS订阅摄像机和用户变更请求接口介绍
JVM调优总结：反思
【技术种草】cdn+轻量服务器+hugo=让博客“云原生”一下
JVM调优总结：调优方法
前端面试【JavaScript】— typeof 是否能正确判断类型？
JVM调优总结：新一代的垃圾回收算法
前端面试【JavaScript】— instanceof 能否判断基本数据类型？
JVM调优总结：典型配置举例
前端面试【JavaScript】— 能不能手动实现一下 instanceof 的功能？
前端面试【JavaScript】— Object.is和=== 有什么区别？
JVM调优总结：分代垃圾回收详述
前端面试【JavaScript】— JS中类型转换有哪几种？
WPF开发入门尝试
前端面试【JavaScript】— == 和 ===有什么区别？
一个Java程序员对2011年的回顾
前端面试【JavaScript】— 对象转原始类型是根据什么流程运行的？
JVM调优总结：垃圾回收面临的问题
直接在代码里面对list集合进行分页
JVM调优总结：基本垃圾回收算法

zl程序教程