基于Hadoop生态系统的一高性能数据存储格式CarbonData(性能篇)
CarbonData在数据查询的性能表现比Parquet好很多,在写一次读多次的场景下非常适合使用;社区比较活跃,响应也很及时。目前官网发布版本1.3.0与***的spark稳定版Spark2.2.1集成,增加了支持标准的Hive分区,支持流数据准实时入库等新特性,相信会有越来越多的项目会使用到。
一、评测环境
1)网络拓扑图
![基于Hadoop生态系统的一高性能数据存储格式CarbonData(性能篇)](https://s2.51cto.com/oss/201905/08/4e093a47da41ebaf0e244165e2083fd6.jpeg)
2)配置参数
Ø 服务器配置
![基于Hadoop生态系统的一高性能数据存储格式CarbonData(性能篇)](https://s5.51cto.com/oss/201905/08/89f3991dad03a2e7e996046b358c74cf.jpeg)
二、性能对比
目前主流hadoop的文件存储格式有行存储的CSV格式,列式存储的ORC和Parquet等。本章给出的是Parquet+Spark和CarbonData+Spark在过滤查询场景和聚合计算场景的性能测试结果。
1)测试数据
创建沈阳社保的数据仓库,导入、集成1年的测试数据,如下表:
![基于Hadoop生态系统的一高性能数据存储格式CarbonData(性能篇)](https://s2.51cto.com/oss/201905/08/fc759504acadd960fbb23eab7a8bdc1a.jpeg)
生成CarbonData格式文件,如下表:
![基于Hadoop生态系统的一高性能数据存储格式CarbonData(性能篇)](https://s3.51cto.com/oss/201905/08/36b5e64bd26bf4ccab4226cace82bb36.jpeg)
2)过滤查询场景测试
![基于Hadoop生态系统的一高性能数据存储格式CarbonData(性能篇)](https://s2.51cto.com/oss/201905/08/fb45b79291c8d2682bfbbc34a5543a5f.jpeg)
![基于Hadoop生态系统的一高性能数据存储格式CarbonData(性能篇)](https://s5.51cto.com/oss/201905/08/cbd591e3ed59b07687ef4d701185a8a5.jpeg)
Parquet和CarbonData在过滤查询场景下的性能对比
3)聚合计算场景测试
Parquet和CarbonData在聚合计算场景下的性能对比
4)总结分析
在过滤查询中,CarbonData的查询效率比parquet效率好,主要体现在列数据的索引查询,极大地提高了精确查询的性能。在聚合查询中,CarbonData通过使用全局字典编码来加快计算速度,这使得处理、查询引擎可以直接在编码好的数据上进行处理而不需要转换数据,数据只有在返回结果给用户的时候才转换成用户可读的形式,通过索引有效过滤文件数据块减少磁盘的IO,提高查询性能。
![基于Hadoop生态系统的一高性能数据存储格式CarbonData(性能篇)](https://s2.51cto.com/oss/201905/08/61ada181a4be9448c9f4a01eaad1be39.jpeg)
三、小结
CarbonData在数据查询的性能表现比Parquet好很多,在写一次读多次的场景下非常适合使用;社区比较活跃,响应也很及时。目前官网发布版本1.3.0与***的spark稳定版Spark2.2.1集成,增加了支持标准的Hive分区,支持流数据准实时入库等新特性,相信会有越来越多的项目会使用到。
相关文章
- 数据孤岛是业务效率的无声杀手
- 2023展望:新的一年将给大数据分析领域带来什么?
- 阿里云ADB基于Hudi构建Lakehouse的实践
- 大数据在医疗保健领域的使用案例
- 微软增加说明:KB5021751 更新扫描已经 / 即将过时 Office 过程中不会触碰用户隐私
- 2022 Gartner全球云数据库管理系统魔力象限发布 腾讯云数据库入选
- 场景化、重实操,分享一个实时数仓实践案例
- Arctic的湖仓一体践行之路
- 分布式计算MapReduce究竟是怎么一回事?
- 淘系数据模型治理优秀实践
- 大数据分析对医疗保健的影响
- 当我们说大数据Hadoop,究竟在说什么?
- 2022年及以后大数据的五个发展趋势
- 网易严选离线数仓治理实践
- 2023 年数据治理趋势
- 一份“靠谱”的年度经营计划,你学会了吗?
- 漫谈对大数据的思考
- 测试一下,读懂数据的能力,你有吗?
- 用艺术的眼光探索数据之美
- 聊聊数据分析成果如何落地