您现在的位置是：首页 > 其他

当前栏目

使用Apache Flume抓取数据（1）

系统数据

2023-03-14 10:10:12 时间

使用Apache Flume抓取数据，怎么来抓取呢?不过，在了解这个问题之前，我们必须明确ApacheFlume是什么?

一、什么是Apache Flume

Apache Flume是用于数据采集的高性能系统，名字来源于原始的近乎实时的日志数据采集工具，现在广泛用于任何流事件数据的采集，支持从很多数据源聚合数据到HDFS。

最初由Cloudera开发，在2011年贡献给了Apache基金会，在2012年变成了Apache的***项目，Flume OG升级换代成了Flume NG。

Flume具有横向扩展、延展性、可靠性的优势

二、Flume 体系结构

Source：接受外部系统生成event

Sink：发送event到指定的目的地

Channel：从Source缓存event，直到Sink把event取走

Agent：一个独立的Flume进程，包含了source，channel和sink组件

三、Flume设计目标：可靠性

Channels提供了Flume可靠性保障 ,那么它通过什么样的方式来保障呢?默认的模式就是Memory Channel，Memory Channel就是内存，所有的数据存放在内存当中。那么，这里就会存在一个问题?如果Channel的节点出现断电，数据就会丢失。为解决这一问题，这里有另外一种模式，就是基于磁盘的Channel，基于磁盘的队列确保出现断电时数据不丢失。

另外，Agent和Channel之间的数据传输是事务性的，传输给下游agent失败的数据会回滚和重试。相同的任务可以配置多个Agent，

比如，两个agent完成一个数据采集作业，如果一个agent失败，则上游的agent会失败切换到另一个。

四、Flume设计目标：扩展性

当我们采集的数据特别多的时候，可以通过添加更多的系统资源从而线性地增加系统性能。而且Flume可横向的扩展规模，随着复杂增加，可以添加更多的机器到配置当中。

五、Flume设计目标：延展性

延展性就是能够添加新的功能到系统中。Flume通过添加Sources和Sinks到现有的存储层或数据平台，常见的Sources包括files、syslog和任何linux进程的标准输出的数据;常用Sinks包括本地文件系统或HDFS，开发员可以写自己的Sources或Sinks。

六、常见的Flume数据源

七、大规模部署实例

Flume使用agents收集数据，Agents可以从很多源接收数据，包括其他agents。大规模的部署使用多层来实现扩展性和可靠，Flume支持传输中数据的检查和修改。

以上就是关于Apache Flume的部分详情介绍，后续将会继续分享。大数据将会是未来的风口，要想很好的站在风口上，就要持续不断地学习和努力，这里推荐大家关注一个微信公众号“大数据cn ”,里面有很多关于大数据知识的介绍，对于想要了解和学习大数据的人是一个很好的平台。

猜你喜欢

购买云服务器需要注意什么
Linux 服务器使用git 作为仓库
Jmeter 正则表达式提取括号中的文本内容
如何开发DAPP去中心化应用，智能合约定制系统开发
通俗讲解机器学习中的偏差(Bias)和方差(Variance)
轻量级代码生成器加测试数据生成器
网红机器狗Spot再进化！智能给自己规划路线，还能自己给自己开门
Python 接口测试之处理转义字符的参数和编码问题
云栖大会，明年再见！
为什么要选择VersionCatalog来做依赖管理?
雨云每日签到脚本
国内BGP-CEPH云服务器2核2G仅81元赠送5G防御1个独立IP
什么是 SAP 云平台的 multi-cloud architecture
购买阿里云的服务器包维护吗
LoadRunner脚本编写
聚类方法
云栖见证！我们在一起了
SwitchHosts使用教程
MIT开发激光“锁眼成像”技术：给我一个钥匙孔，不进门我就能“看”到房间内的一切
js按键记录

zl程序教程

当前栏目

使用Apache Flume抓取数据（1）

相关文章