您现在的位置是：首页 > 数据库

当前栏目

hudi系列-数据写入方式及使用场景

文件数据

2023-04-18 14:26:45 时间

hudi支持多种数据写入方式：insert、bulk_insert、upsert、boostrap，我们可以根据数据本身属性(append-only或upsert)来选择insert和upsert方式，同时也支持对历史数据的高效同步并嫁接到实时流程。

这里的使用技术组合为flink + hudi-0.11

upsert

这是hudi默认的写入方式，是包含了INSERT和UPDATE两种操作，如何区分两种操作？在数据写入之前会进行一个"tag"过程，即通过查找索引来确定记录的位置，如果是UPDATE操作，那么我们会得到记录的旧位置，否则将会为INSERT的记录分配一个新位置，"相同"的记录被组织在一起，还能进行小文件方面的优化。这种写入方式适合数据会更新(不会重复)而且需要保留变更数据的场景(Changelog Mode),结合flink进行近实时流式计算。

insert

单纯的插入操作，由于不需要判断记录是否属于更新，因此省略了"tag"过程，速度会比upsert快得多，但是不能保证数据是去重的，对于append-only的数据(日志、行为)很适合使用这种方式

MOR表：采用的小文件优化策略与upsert一样，就是少维护了基于flink状态的全局索引
COW表：每次写都会直接生成新的parquet文件，写过程并不会进行小文件优化，但可以通过clustering进行来重新调整。

猜你喜欢

Jease 2.6发布 Java开源内容框架
EasyCVR对接华为iVS订阅摄像机和用户变更请求接口介绍
JVM调优总结：反思
【技术种草】cdn+轻量服务器+hugo=让博客“云原生”一下
JVM调优总结：调优方法
前端面试【JavaScript】— typeof 是否能正确判断类型？
JVM调优总结：新一代的垃圾回收算法
前端面试【JavaScript】— instanceof 能否判断基本数据类型？
JVM调优总结：典型配置举例
前端面试【JavaScript】— 能不能手动实现一下 instanceof 的功能？
前端面试【JavaScript】— Object.is和=== 有什么区别？
JVM调优总结：分代垃圾回收详述
前端面试【JavaScript】— JS中类型转换有哪几种？
WPF开发入门尝试
前端面试【JavaScript】— == 和 ===有什么区别？
一个Java程序员对2011年的回顾
前端面试【JavaScript】— 对象转原始类型是根据什么流程运行的？
JVM调优总结：垃圾回收面临的问题
直接在代码里面对list集合进行分页
JVM调优总结：基本垃圾回收算法

zl程序教程

当前栏目

hudi系列-数据写入方式及使用场景

upsert

insert

相关文章