您现在的位置是：首页 > 其他

当前栏目

HBase HFile与Prefix Compression内部实现全解--KeyValue格式

2023-03-14 22:31:03 时间

HFile (HBase File)是HBase使用的一种文件存储格式的抽象，

目前存在两种版本的HFile: HFile V1和HFile V2

HBase 0.92之前的版本仅支持HFile V1,

HBase 0.92/0.94同时支持HFile V1和HFile V2。

本文将说明KeyValue到底是什么以及当KeyValue越来越多时出现大量类似的数据有哪些算法能减少重复?

首先来看一个例子:

假设需要将用户的基本信息以及正在参与的开源项目的有关信息存入HBase:

Java代码

用户基本信息参与的开源项目
——————— —————————-
用户Id 职业性别 tomcat hbase
——————— —————————-
zhh2009 码农男提patch打酱油提patch打酱油
用户Id 职业性别 tomcat ant
——————— —————————-
jdd1999 码神男创始人创始人
———————————————————
表1.1

用户Id 职业性别 tomcat hbase

zhh2009 码农男提patch打酱油提patch打酱油

用户Id 职业性别 tomcat ant

jdd1999 码神男创始人创始人

从这个例子来看，用户的基本信息比较好确定，但是参与的开源项目不确定且在开源项目中扮演的角色也不确定，

所以用关系数据库不太好建表，因为不知道具体有多少列，也无法把相关的列归成一个组。

1.1 列族

HBase是一种基于列的数据库，相关的列可以归到一个列族(Column Family)，

每个列族中具体有哪些列不必事先知道，可以在需要的时候添加，比如在用户基本信息中为zhh2009加入email这样的列,

上例中”用户基本信息”和”参与的开源项目”可以作为两个列族，

不同的列族在HBase内部通常对应一个目录，这样不同的列值只会放到它所属的列族目录下。

1.2 rowKey

我们希望通过查询某个列就能把同一个列族或多个列族中的信息取出来，用户Id就是这样的列，

比如当我们要查询zhh2009的邮箱和参与的开源项目时，根据用户Id来查就不会查到jdd1999的信息，

在HBase中称这样的列为rowKey。

HBase是如何存放上例中的信息呢?

将用户Id这一列抽出来作为rowKey, 把上面的信息按如下格式扁平化:

Java代码

<rowKey, 列族名称, 列名 => 列值> —————————————————– <zhh2009, 用户基本信息, 职业 => 码农> <zhh2009, 用户基本信息, 性别 => 男> <zhh2009, 参与的开源项目, tomcat => 提patch打酱油> <zhh2009, 参与的开源项目, hbase => 提patch打酱油> <jdd1999, 用户基本信息, 职业 => 码神> <jdd1999, 用户基本信息, 性别 => 男> <jdd1999, 参与的开源项目, tomcat => 创始人> <jdd1999, 参与的开源项目, ant => 创始人> —————————————————– 表1.2

<zhh2009, 用户基本信息, 职业 => 码农>
<zhh2009, 用户基本信息, 性别 => 男>
<zhh2009, 参与的开源项目, tomcat => 提patch打酱油>
<zhh2009, 参与的开源项目, hbase => 提patch打酱油>

<jdd1999, 用户基本信息, 职业 => 码神>
<jdd1999, 用户基本信息, 性别 => 男>
<jdd1999, 参与的开源项目, tomcat => 创始人>

<jdd1999, 参与的开源项目, ant => 创始人>

表1.2中的每一行在HBase中对应一个KeyValue，

“=>”左边的是KeyValue中的”Key”，”=>”右边对应KeyValue中的”Value”。

当然这只是KeyValue的一个简化格式，内部格式并非那么简单，我们接下来看看真实的KeyValue是怎样的?

2. KeyValue内部格式

KeyValue内部格式可以分成三部份: 头、Key、Value，如表2.1所示

Java代码

名称　　　字节数说明 ——————————————————————– keyLength　　 4 表示Key所占的总字节数 valueLength 4 表示Value所占的总字节数 rowKeyLength 2 表示rowKey所占的字节数 rowKey rowKeyLength rowKey columnFamilyLength 1 表示列族名称所占的字节数 columnFamily columnFamilyLength 列族名称 columnName columnNameLength 列名 timestamp 8 时间戳 type 1 Key类型，比如是新增(Put)，还是删除(Delete) value valueLength 列值 ——————————————————————– 表2.1

keyLength　　 4 表示Key所占的总字节数
valueLength 4 表示Value所占的总字节数

rowKeyLength 2 表示rowKey所占的字节数
rowKey rowKeyLength rowKey
columnFamilyLength 1 表示列族名称所占的字节数
columnFamily columnFamilyLength 列族名称
columnName columnNameLength 列名
timestamp 8 时间戳
type 1 Key类型，比如是新增(Put)，还是删除(Delete)

value valueLength 列值

keyLength和valueLength组成头部，

rowKeyLength到type这7项组成Key，最后一项value代表第三部份: Value，

上面有个地方值得注意，在columnFamily前面有columnFamilyLength，

但是在columnName之前并没有columnNameLength这一项，为了节省空间，这不是必需的，

当在解析KeyValue时，通过keyLength-8(timestamp)-1(type)就可以确定columnName在此KeyValue中的结束位置。

把表1.2中的前两行按表2.1中的格式生成两个KeyValue:

KeyValue A 代表: <zhh2009, 用户基本信息, 职业 => 码农>

KeyValue B 代表: <zhh2009, 用户基本信息, 性别 => 男>

Java代码

名称　　　字节数 KeyValue A KeyValue B —————————————————————————- keyLength　　 4 35 35 valueLength 4 4 2 rowKeyLength 2 7 7 rowKey rowKeyLength zhh2009 zhh2009 columnFamilyLength 1 12 12 columnFamily columnFamilyLength 用户基本信息用户基本信息 columnName columnNameLength 职业性别 timestamp 8 1329663787364 1329663787364 type 1 4(Put) 4(Put) value valueLength 码农男 —————————————————————————- 表2.2

keyLength　　 4 35 35
valueLength 4 4 2

rowKeyLength 2 7 7
rowKey rowKeyLength zhh2009 zhh2009
columnFamilyLength 1 12 12
columnFamily columnFamilyLength 用户%E

本文来源于"阿里中间件团队播客",原文发表时间" 2012-02-20 "

猜你喜欢

鲜为人知但很有用的 HTML 属性
在 Go 里用 CGO？这 7 个问题你要关注！
数据孤岛是业务效率的无声杀手
9款优秀的去中心化通讯软件 Matrix 的客户端
翻转再翻转！有意思的水平横向溢出滚动
发现 Linux SpaceFM 文件管理器的威力
图像处理工具Python扩展库，你了解吗？
求职数据分析，项目经验该怎么写
自定义计数器小技巧！CSS 实现长按点赞累加动画
在OKR中，我看到了数据驱动业务的未来
2023展望：新的一年将给大数据分析领域带来什么？
过五关！React高频面试题指南
阿里云ADB基于Hudi构建Lakehouse的实践
火山引擎云原生大数据在金融行业的实践
OpenHarmony富设备移植指南（二）—从postmarketOS获取移植资源
《数据成熟度指数》报告：64%的企业领袖认为大多数员工“不懂数据”
OpenHarmony 小型系统兼容性测试指南
肯睿中国（Cloudera）：2023年企业数字战略三大趋势预测
适用于 Linux 的十大命令行游戏
软件开发中的十个认知偏差

zl程序教程

当前栏目

HBase HFile与Prefix Compression内部实现全解--KeyValue格式

jdd1999 码神男创始人创始人

1.1 列族

1.2 rowKey

<jdd1999, 参与的开源项目, ant => 创始人>

2. KeyValue内部格式

value valueLength 列值

相关文章

当前栏目

HBase HFile与Prefix Compression内部实现全解--KeyValue格式

jdd1999 码神 男 创始人 创始人

1.1 列族

1.2 rowKey

<jdd1999, 参与的开源项目, ant => 创始人>

2. KeyValue内部格式

value valueLength 列值

相关文章

jdd1999 码神男创始人创始人