您现在的位置是：首页 > 其他

当前栏目

基于流的数据处理可以使Hadoop运行更快吗？

企业数据

2023-04-18 14:44:54 时间

Apache Hadoop分布式文件处理系统是有好处的，而且它正在获得注意力。然而，它也有坏处。有些组织发现从Hadoop开始的话需要重新思考软件架构，而且它所需要的数据技能也是必要的。

对于一些人来说，Hadoop的批处理模型的一个问题是，它估计在突增数据采集之间的进行批处理时会有宕机的时间。这是许多企业都的情况，当他们在本地操作，或者在白天有大量事务，但很少在晚上(如果有的话)。如果夜间窗口足够大可以处理前一天积累的数据，那么一切都会顺利。虽然对于一些企业，窗口的停机时间是小或不存在的，甚至使用Hadoop的高性能的处理，他们仍然在一天内得到的数据比他们可以在24内小时处理的要多。

对于可接受小窗口的组织，添加基于数据处理组件的方法可能有帮助，GigaSpaces的***技术官Nati Shalom在最近的一篇关于使用Hadoop更快的博客中写到。通过不断地处理传入的数据转化成有用的包和删除那些不需要企业处理(或再加工)的静态数据，可以显著加速他们的大数据的批处理过程。

猜你喜欢

《叶问》38期，MGR整个集群挂掉后，如何才能自动选主，不用手动干预
用计算社会科学的方法来理解接受查菲斯服务的预测因素
世界第一位计算机程序员竟是女的！拜伦之女传奇一生
通过复合贝叶斯优化来优化高维物理模拟
给GNN一堆数据，它自己发现了万有引力定律
架构问题：调查差异性隐私对神经网络设计的影响
上海交大发布「人类行为理解引擎」：AI逐帧理解大片中每个动作
通过有效的过渡矩阵估计在有噪声的标签下学习以对抗标签误判
保护隐私的无服务器边缘学习与分散的小数据
元宇宙正在走入互联网的泥潭
俄罗斯否认将断开与国际互联网的连接，三年前曾进行过断网测试
重新思考空洞卷积 | RegSeg超越DeepLab、BiSeNetv2让语义分割实时+高精度
英伟达数据被盗后续：黑客用证书将病毒伪装成显卡驱动
3 个简单的技巧让你的 vue.js 代码更优雅！
一行代码，AI模型推理速度提升十倍！Reddit技术分享被群嘲为「无耻的自我宣传」
解决方案架构师修炼之道
即插即用 | 5行代码实现NAM注意力机制让ResNet、MobileNet轻松涨点(超越CBAM)
两会“芯”提案：聚焦车规芯片，打通供应链，突破“卡脖子”
ClickHouse原理解析与应用实践
马斯克：我有一个大胆的想法！给红绿灯加个AI视觉「外挂」

zl程序教程

当前栏目

基于流的数据处理可以使Hadoop运行更快吗？

相关文章