您现在的位置是：首页 > 数据库

当前栏目

Netflix数据管道的变化历程

数据微软

2023-03-09 22:14:37 时间

0?wx_fmt=jpeg

去年12月我们的Keystone数据管道正式投入使用，本文我们就来讲讲这些年Netflix数据管道的变化历程。

数据是Netflix的中心，很多的商业决策和产品设计都是依据数据分析而做出的决定。在Netflix，数据管道的目的是对数据进行收集归纳和处理，几乎我们所有的应用都会用到数据管道。下面我们先来看看有关Netflix数据管道的一些统计数据：

每天约5000亿个事件，1.3PB的数据
高峰时段约每秒800万个事件，24GB数据

我们用另外的Atlas系统来管理运营相关的数据所以它并没有出现在上面的列表中。

由于需求的变化和技术的进步，过去几年我们的数据管道发生了很大的改变。下面我们就来介绍一下。

V1.0 Chukwa数据管道

最初数据管道唯一的目的就是把事件信息上传到Hadoop/Hive。如下图中所示，整个架构是比较简单的。Chukwa收集事件信息并将sequencefile写入亚马逊S3，之后大数据平台部门会进一步处理并写入Hive。从事件发生到以Parquet格式写入Hive整个过程不超过十分钟，对于每小时甚至每天才运行一次的batch job来说已经足够了。

0?wx_fmt=png

V1.5 能够进行实时处理的Chukwa数据管道

随着Kafka和Elasticsearch等技术的发展，公司内部对于实时分析的需求愈加强烈，我们必须保证处理所需时间在一分钟之内。

0?wx_fmt=png

除了将数据写入S3，Chukwa还可以将数据发送到Kafka，新的实时分支(虚线框住的部分)处理的事件大约占到总事件的30%。处于实时处理分支中心位置的是事件路由模块，它负责将数据从Kafka传递到Elasticsearch和下一级Kafka(进行数据的筛选)。终端用户可以自由选择趁手的工具进行分析，比如Mantis、Spark或其他定制工具。

Elasticsearch在Netflix的应用过去两年经历了爆炸式的发展，现在共有约150个集群和约3500个节点，总数据量约1.3PB，而这其中大部分数据都是通过我们的数据管道采集处理的。

数据路由的部分是由我所在的小组管理的，下面是一些我们碰到过的问题：

Kafka high level consumer会丧失消息分区的所有权并停止读取一些分区，唯一的解决办法是重启。
有时部署代码之后high level consumer在rebalance时会出错。
我们有几十个集群用于事件路由，运营上的开销正持续增长，所以对于路由job的管理还要想个更好的办法。

V2.0 Keystone数据管道

我们决心对V1.5的数据管道进行调整是基于下面三个方面的考量。

简化架构。
提升系统可靠性(Chukwa不支持冗余)。
Kafka社区较活跃后劲足。

0?wx_fmt=png

架构中一共有三部分主要的模块：

数据收集-有两种方式。

直接写入Kafka。
通过HTTP代理写入Kafka。

数据缓存-使用Kafka来实现持久化消息队列。

数据路由-与V1.5中作用相同。

Keystone数据管道已经在生产环境中平稳运行了几个月，不过我们还在进行质量、扩展性、可用性和自动化方面的提升。

原文发布时间为：2016-03-15

本文来自云栖社区合作伙伴“大数据文摘”，了解相关信息可以关注“BigDataDigest”微信公众号

猜你喜欢

鲜为人知但很有用的 HTML 属性
在 Go 里用 CGO？这 7 个问题你要关注！
数据孤岛是业务效率的无声杀手
9款优秀的去中心化通讯软件 Matrix 的客户端
翻转再翻转！有意思的水平横向溢出滚动
发现 Linux SpaceFM 文件管理器的威力
图像处理工具Python扩展库，你了解吗？
求职数据分析，项目经验该怎么写
自定义计数器小技巧！CSS 实现长按点赞累加动画
在OKR中，我看到了数据驱动业务的未来
2023展望：新的一年将给大数据分析领域带来什么？
过五关！React高频面试题指南
阿里云ADB基于Hudi构建Lakehouse的实践
火山引擎云原生大数据在金融行业的实践
OpenHarmony富设备移植指南（二）—从postmarketOS获取移植资源
《数据成熟度指数》报告：64%的企业领袖认为大多数员工“不懂数据”
OpenHarmony 小型系统兼容性测试指南
肯睿中国（Cloudera）：2023年企业数字战略三大趋势预测
适用于 Linux 的十大命令行游戏
软件开发中的十个认知偏差

zl程序教程

当前栏目

Netflix数据管道的变化历程

相关文章