网易有数怼Databricks: “Delta Lake2.0比Iceberg快”是假的。。。
新粉请关注我的公众号
Delta Lake 2.0 正式发布了。网易的大数据产品也没闲着,这就搞了点事情:从Delta 2.0开始聊聊我们需要怎样的数据湖。
这篇文章的内容很多,大家有需要的可以自己读读,肯定有收获。我就不展开一一分析了。
今天的重点是看看这篇文章网易是如何打脸Databricks的。
这是Databricks在官宣要发布Delta Lake 2.0的讲座的时候的一张PPT。网易的文章也引用了。简单来说就是Delta Lake 2.0快,Iceberg Hudi都是渣渣。
这个测试是第三方Databeans做的。网易的文章里面有这样一段话,非常的有意思。
对比一下,之前Databricks连发数篇文章,官宣自己比Snowflake的TPC-DS牛逼,那个测试也是第三方做的,不是Databricks要求第三方做的。
看起来网易这里是意有所指。当然,我们都知道,屁股决定脑袋是人类社会的通行证。网易的底座是Iceberg,Databricks开源Delta Lake2.0想要对付的敌人也是Iceberg。我只能说网易和Databricks多多少少都各自有各自的屁股。所以多多少少也会各自决定各自的脑袋。
至于各自的屁股怎么样,这里也引用一段文字:
更精彩的来了。原谅我忍不住把这整段文字都截屏下来,实在是很精彩的。
网易的团队自己对Delta Lake 2.0和Iceberg做了测试,测试的结果是如果使用默认值,大概确实是前者比后者快了1.4倍。
但是这个比较不公平,因为默认的压缩算法不同,默认的read-target-size也不同。把这两个参数都改成一样以后,两者就没差别了。快,不存在的。
除此之外,网易的团队还引用了Hudi背后的公司OneHouse对Databrick公布的测试的反击,具体看下图:
所以Hudi背后的公司也觉得Delta Lake2.0比Hudi快那么多,是扯淡。
我觉得这些东西都没错了,所谓测试测试,都应该先公布怎么测的,然后才能让我这样的第三者吃瓜群众去判断,到底谁对谁错,谁在说真话,谁在说谎。
我其实挺期待Databricks专门再写个blog,反击一下网易还有Hudi们对它的“攻击”。毕竟Databricks对Snowflake当初的反击可谓非常的猛烈,剧烈。Snowflake被Databricks搞得灰头土脸的。
根据我对Databricks的了解和接触,这个公司还是比较喜欢在“公平”的测试环境里进行测试的。所以也许Databricks的测试并没有错,Delta Lake2.0就是这么的优秀。只不过Hudi和网易的测试,并没有反映出对Delta Lake有利的那一面。
从这个角度来看,我也希望Databricks就这个问题写篇blog,好好反击一下这些打脸的公司,给大家看看Databricks牛逼的地方。
那么Delta Lake2.0这个东西出来以后,到底对整个社区是什么影响呢?每个人都有每个人的看法,网易的看法很精彩。
读完这一段,你说,到底是Iceberg更优秀,还是Delta Lake 2.0更优秀呢?
字里行间,我个人的理解是,单纯来看这个产品,现在Iceberg更优秀。但是Delta Lake毕竟背靠一个大公司啊,有Databricks这个亲爹,Iceberg如果商业化不当心一点,弄不好真的就被Delta Lake给掀翻了。
不过别怕,网易爸爸在,Snowflake爸爸在,Dremio爸爸也在。只要这些爸爸们都愿意给Iceberg站台,加上网易认为的Iceberg有1-2年的先发优势,红红火火恍恍惚惚,前途是光明的。
我不得不说,网易的这位作者,对写公众号的技巧是掌握的非常炉火纯青,即使是打脸了Databricks,也让人觉得,宝贝,虽然我打脸你了,但是我还是爱你的,将来我也会支持你的。
至于自己一直以来长期支持的Iceberg呢,家花怎么样也比野花要更好啊,虽然野花看起来更嫩更富贵。对吧。
相关文章
- “一老一幼”的智慧化守护,网易和中国电信交出“三年答卷”
- 网易面试:将Bean放入Spring容器中有几种方式?
- 网易云音乐每日一键刷满300首歌和打卡网站源码-星泽V社
- Hexo 安装网易云跟帖评论的方法和注意事项
- 网易数帆宣布流式湖仓服务 Arctic 开源,内部性能测试超过 Iceberg
- 人力成本有效节约35%以上,深度解读网易有道Flutter一码多端实践
- 网易云服务器进入单用户模式设置方法详解程序员
- 网易革新之路:从 Linux 源开始(网易linux源)
- [周末福利] 懒人版教程1分钟搞定网易云音乐歌曲变灰和无法下载等问题
- 网易星球拍卖今日上线,73黑钻拍得价值850元黑猪肉
- 课程预告 | 网易有道智云业务负责人李旭:AI开启个性化教学时代
- 架构解析|网易自研新一代大规模分布式传输网