您现在的位置是：首页 > 其他

当前栏目

RocksDB的主要概念及读写流程

流程概念读写主要

2023-09-11 14:16:24 时间

本文针对RocksDB的基本概念进行总结

1. 主要概念

1.1. LSM Tree介绍

B+树读效率高而写效率差；log型文件操作写效率高而读效率差；因此要在排序和log型文件操作之间做个折中，于是就引入了log-structed merge tree模型，通过名称可以看出LSM既有日志型的文件操作，提升写效率，又在每个sstable中排序，保证了查询效率

LSM-tree起源于 1996 年的一篇论文《The Log-Structured Merge-Tree (LSM-Tree)》，后续发展如下：

FAST'16 的《WiscKey: Separating Keys from Values in SSD-conscious Storage》

PebblesDB: Building Key-Value Stores using Fragmented Log-Structured Merge Trees（SOSP 2017）

LSM-tree 是专门为 key-value 存储系统设计的，key-value 类型的存储系统最主要的就两个核心功能，put（k，v）：写入一个（k，v），get（k）：给定一个 k 查找 v。

LSM-tree 最大的特点就是写入速度快，主要利用了磁盘的顺序写，pk掉了需要随机写入的 B-tree

LSM-tree 被用在各种键值数据库中，如 LevelDB，RocksDB，还有分布式行式存储数据库 HBase、Cassandra 也用了 LSM-tree 的存储架构。

下图是 LSM-tree 的组成部分，是一个多层结构，就更一个树一样，上小下大。

首先是内存的 C0 层，保存了所有最近写入的（k，v），这个内存结构是有序的，并且可以随时原地更新，同时支持随时查询。剩下的 C1 到 Ck 层都在磁盘上，每一层都是一个在 key 上有序的结构。

写入流程：追加到写前日志（Write Ahead Log，也就是真正写入之前记录的日志）中，接下来加到 C0 层，然后逐层向下合并即compact

查询流程：在写入流程中可以看到，最新的数据在 C0 层，最老的数据在 Ck 层，所以查询也是先查 C0 层，如果没有要查的 k，再查 C1，逐层查

1.2. LSM Tree读写放大

读写放大（read and write amplification）是 LSM-tree 的主要问题，这么定义的：读写放大 = 磁盘上实际读写的数据量 / 用户需要的数据量。注意是和磁盘交互的数据量才算，这份数据在内存里计算了多少次是不关心的

写放大：实际写入 HDD/SSD 的数据大小和程序要求写入数据大小之比。

以 RocksDB 的 Level Style Compaction 机制为例，这种合并机制每次拿上一层的所有文件和下一层合并，下一层大小是上一层的 r 倍。这样单次合并的写放大就是 r 倍.

WA = data writeen to disc / data written to database

读放大：为了查询一个 1KB 的数据。最坏需要读 L0 层的 8 个文件，再读 L1 到 L6 的每一个文件，一共 14 个文件。而每一个文件内部需要读 16KB 的索引，4KB的布隆过滤器，4KB的数据块（看不懂不重要，只要知道从一个SSTable里查一个key，需要读这么多东西就可以了）。一共 24*14/1=336倍。key-value 越小读放大越大。 RA = number of queries * disc reads

空间放大（Space Amplification）。因为所有的写入都是顺序写（append-only）的，不是 in-place update ，所以过期数据不会马上被清理掉。

1.3 Column Family

在RocksDB 3.0中加入了Column Family特性，加入这个特性之后，每一个KV对都会关联一个Column Family,其中默认的Column Family是 “default”. Column Family主要是提供给RocksDB一个逻辑的分区.

从实现上来看不同的Column Family共享WAL，而都有自己的Memtable和SST.这就意味着可以很快速方便的设置不同的属性给不同的Column Family以及快速删除对应的Column Family. 有如下特点：

用于在同一个数据库中存储业务中不同的数据
起一定的隔离作用
不同的Column Family使用不同的SST文件、MemTable存储数据
同一个数据库中不同的Column Family使用相同的日志记录写入日志
在存在多个Column Family时，单个日志文件的删除条件为此日志文件中的所有写入的Column Family对应的MemTable已被持久化

2. RocksDB的LSM Tree

LSM Tree 被分成三种文件，第一种是内存中的两个 memtable，一个是正常的接收写入请求的 memtable，一个是不可修改的immutable memtable，另外一部分是磁盘上的 SStable （Sorted String Table），有序字符串表，这个有序的字符串就是数据的 key。

SStable 一共有七层（L0 到 L6）。下一层的总大小限制是上一层的 10 倍

2.1. 写流程

将写入操作顺序写入WAL日志中，接下来把数据写到 memtable中（采用SkipList结构实现）
MemTable达到一定大小后，将这个 memtable 切换为不可更改的 immutable memtable，并新开一个 memtable 接收新的写入请求
这个 immutable memtable进行持久化到磁盘，成为L0 层的 SSTable 文件
每一层的所有文件总大小是有限制的，每下一层大十倍。一旦某一层的总大小超过阈值了，就选择一个文件和下一层的文件合并。

注意：所有下一层被影响到的文件都会参与 Compaction。合并之后，保证 L1 到 L6 层的每一层的数据都是在 key 上全局有序的。而 L0 层是可以有重叠的

写流程的约束：

日志文件用于崩溃恢复
每个MemTable及SST文件中的Key都是有序的（字符顺序的升序）
日志文件中的Key是无序的
删除操作是标记删除，是插入操作的一种，真正的删除要在Compaction的时候实现
无更新实现，记录更新通过插入一条新记录实现

2.2. 读流程

先查memtable，再查 immutable memtable，然后查 L0 层的所有文件，最后一层一层往下查。

猜你喜欢

《ADOBE FLASH PROFESSIONAL CC标准培训教材》——2.7　面板
为什么电影里的黑客都不屑用鼠标？ (转)
ES6 - 快速去重数组重复项（JavaScript 数组去重）
SpringBoot+React博客论坛系统附带详细运行指导视频
Android：Bluetooth 的打开和关闭
华为云 arm 架构 centos7 安装 mysql5.7（记录）
解决：微软拼音输入法不显示选字栏，微软的拼音输入法第一个候选词不显示
Android--获取当前系统的语言环境
Qt中内存泄露和退出崩溃的问题 delete
儿童讲堂 - 学科分类
基于QUASI-ML decoder算法的PSK信号准最大似然译码器matlab性能仿真
DuplexPipe二三事（六）——没有第七
OA选型分析：市政公司如何选型OA系统
java中一个简单的下载示例
Java多线程实现性能测试
es5~es6
“光伏扶贫”市场风生水起

相关主题

Java 流程控制
流程测试
请求处理流程
gcc 流程
mysql流程控制
编译流程
测试工作流程
程序的流程
D-U-N-S申请流程

zl程序教程