Apache Storm 1.0版本重拳出击:前代版本3倍性能表现
【51CTO.com快译】Apache的流数据处理系统携手Spark,旨在进一步提升性能水平并改进调试功能。
大数据专家们在讨论Apache Spark与Apache Storm之间的流数据处理能力时,往往给出共识性的结论:Storm确实拥有更好的规模化能力与速度表现,但使用难度较高。另外,其正在逐渐被Spark所取代——因此选择更新且更为热门的Spark往往成为主流观点。
有鉴于此,Apache Storm 1.0版本希望重新扳回一城——其不仅进一步提升了速度表现,还大幅降低了使用难度。
Apache于4月公布了Apache Storm 1.0版本,并表示新版本较上代方案“***提速16倍”,且延迟水平降低60%。“对于大多数用例而言,用户都能够享受达到前代版本3倍的性能表现。”
此次新版本进行了一系列战略修复以实现上述性能改进,具体包括将数据与特定Storm方案相关联的新型分布式缓存API,或者所谓“拓扑”——其规模可达数GB,并在不同节点之间实现共享且利用命令行进行更新。换言之,管理员不再需要以手动方式对各个节点进行重新部署。另外,该数据提取自本地文件系统,但亦可被存储在Hadoop HDFS当中。
新版本还引入了新的批量处理方法,其同样实现了可观的速度提升,但延迟却仅仅略微增加。
1.0版本中的大部分改动都使得Storm更易于使用。在Storm的早期版本中,调试机制通常要求用户编写定制化“bolts”(处理功能)以提取实时数据。而在1.0版本内,用户能够直接截取Storm全部流量中的1%作为样本,并通过UI进行查看或者保存在磁盘中以备后续查询。同样的,1.0版本还提供新的日志搜索功能,允许用户对Storm管理节点的完整拓扑进行日志搜索。
Storm面临的竞争压力并不单纯来自Spark,而且其性能与易用性指标也都遭受到挑战。Apex项目作为一套数据流框架——亦被称为DataTorrent RTS——号称能够实现“10到100倍”于Spark的数据流处理速度,且开发与部署难度低于Spark以及Storm。
原文标题:Apache Storm 1.0 packs a punch
【51CTO.com独家译文,合作站点转载请注明来源】
相关文章
- 数据孤岛是业务效率的无声杀手
- 2023展望:新的一年将给大数据分析领域带来什么?
- 阿里云ADB基于Hudi构建Lakehouse的实践
- 大数据在医疗保健领域的使用案例
- 微软增加说明:KB5021751 更新扫描已经 / 即将过时 Office 过程中不会触碰用户隐私
- 2022 Gartner全球云数据库管理系统魔力象限发布 腾讯云数据库入选
- 场景化、重实操,分享一个实时数仓实践案例
- Arctic的湖仓一体践行之路
- 分布式计算MapReduce究竟是怎么一回事?
- 淘系数据模型治理优秀实践
- 大数据分析对医疗保健的影响
- 当我们说大数据Hadoop,究竟在说什么?
- 2022年及以后大数据的五个发展趋势
- 网易严选离线数仓治理实践
- 2023 年数据治理趋势
- 一份“靠谱”的年度经营计划,你学会了吗?
- 漫谈对大数据的思考
- 测试一下,读懂数据的能力,你有吗?
- 用艺术的眼光探索数据之美
- 聊聊数据分析成果如何落地