zl程序教程

您现在的位置是:首页 >  其它

当前栏目

innblock | InnoDB page观察利器

利器 InnoDB Page 观察
2023-09-27 14:27:09 时间

InnoDB中索引块的内部组织一直是大家比较感兴趣并且乐于研究的东西,我们从很多书籍和文章都不惜笔墨进行大量的描述比如 中就能感受到作者用了大量篇幅描述什么是slot、什么是heap、记录的逻辑和物理顺序是怎么样的。运维内参

但是我们却很难直观的看到,因为数据文件是二进制文件。虽然我们可以通过例如LINUX的hexdump等类似命令进行查看,但是大量的16进制信息很难直观的提取出各种有用的信息,相信不少人和笔者一样都是通过肉眼进行查看,但是这显然是一种吃力又不讨好的方法。

在Oracle中我们可以通过dump block的方法查看block的信息,那么InnoDB是否也可以这样呢?

本着这种让大家更加直观的观察到底层索引块的信息的宗旨,笔者直接借用源码中的各种宏定义,使用C++和STL list容器实现了这样一个工具innblock。由于工作原因不能全身心投入代码编写,代码有些混乱。所以如果有bug还请大家见谅以及提出,笔者会尽快进行更新,感谢。

index page(索引页、索引块),InnoDB表是基于聚集索引的索引组织表,整个表其实不是聚集索引,就是普通索引。因此InnoDB表空间文件中,数据页其实也是索引页,所以下面我们统称为索引页,英文用page no表示;

二、innblock简介

本工具有2个功能。

第一个scan功能用于查找ibd文件中所有的索引页。

第二个analyze功能用于扫描数据块里的row data。

先看下 help 输出

6ca0934c467cf94a67dd4f4cf6a62fd2523ac04b


本工具直接读取物理文件,部分dirty page可能延时刷盘而未能被读取到,可以让InnoDB及时刷盘再重新读取;


1. 测试scan功能,扫描所有index page

090f32b5d33e0603589ac311ec41647cc79b24d3


我们发现有3个索引,索引ID(INDEX_ID)分别是 248、249、250,查看数据字典确认

9c26daaa74398ccd85456491734f5b7d05333a8b

2. analyze功能展示

我们选取 pageno=3 那个索引页进行扫描,可见下面信息

b1384b01e066a3310a0fe44d64da3b36c0637916

五、输出信息详解

我在工具的help文档中也有详细的解释,这里单独对analyze功能解析数据块的输出详解一番,并且我也会给出这些值来自源码的哪个宏定义。这部分知识点在 中也有详细说明。运维内参

1、基本信息(Block base info)

[block_no]:page offset no inside space,begin is 0(取自 FIL_PAGE_OFFSET) 索引页码(index page no),该页相对于表空间的偏移量,从0开始计数。如果page no = 3,则实际上是第4个index page。


[space_id]:this contains the space id of the page(FIL_PAGE_SPACE_ID) 本索引页所属的表空间ID,可以在 INNODB_SYS_TABLES、INNODB_SYS_TABLESPACES、INNODB_SYS_DATAFILES 等系统视图中查看。


[index_id]:index id where the page belongs.This field should not be written to after page creation. (PAGE_INDEX_ID) 本索引页所属的索引ID,可以在 INNODB_SYS_INDEXES 系统视图中查看。


[slot_nums]:number of slots in page directory(PAGE_N_DIR_SLOTS) 本索引页中所包含的slot(槽)的数量。


[heaps_rows]:number of records in the heap include delete rows after purge and INFIMUM/SUPREMUM(取自PAGE_N_HEAP) 本索引页中的全部记录数量,这其中包含了已经deleted且已被purged的记录(这种记录会被放到索引页的garbage队列中),以及两个伪记录INFIMUM/SUPREMUM。


[n_rows]:number of records not include delete rows after pruge and INFIMUM/SUPREMUM(PAGE_N_RECS) 本索引页中的记录数,不含deleted且已被purged的记录,以及两个伪记录INFIMUM、SUPREMUM。


[heap_top]:pointer offset to record heap top (PAGE_HEAP_TOP) 指向本索引页已分配的最大物理存储空间的偏移量。


[del_bytes]:number of bytes in deleted records after purge(PAGE_GARBAGE) 本索引页中所有deleted了的且已被purged的记录的总大小。


[last_ins_offset]:pointer to the last inserted record, or NULL if this info has been reset by a delete(PAGE_LAST_INSERT) 指向本索引页最后插入记录的位置偏移量,如果最后操作是delete,则这个偏移量为空。通过判断索引页内数据最后插入的方向,用于索引分裂判断。


[page_dir]:last insert direction: PAGE_LEFT, ...(PAGE_DIRECTION) 本索引页中数据最后插入的方向,同样用于索引分裂判断。


[page_n_dir]:number of consecutive inserts to the same direction(PAGE_N_DIRECTION) 向同一个方向插入数据的行数,同样用于索引分裂中进行判断


[leaf_inode_space leaf_inode_pag_no leaf_inode_offset]:leaf segment postion and in inode block offset,only root block(PAGE_BTR_SEG_LEAF开始 10字节)


[no_leaf_inode_space no_leaf_inode_pag_no no_leaf_inode_offset]:no_leaf segment postion and in inode block offset,only root block(取自PAGE_BTR_SEG_TOP 开始 10字节) 这6个值只在root节点会有信息,分别表示了叶子段和非叶子段的inode的位置和在inode块中的偏移量,其他块都为0。


[last_modify_lsn]:lsn of the end of the newest modification log record to the page(FIL_PAGE_LSN) 本块最后一次修改的LSN。


[page_type]:for this tool only B+_TREE(FIL_PAGE_TYPE) 对于本工具而言始终为B+ TREE,因为不支持其它page type。


[level]:level of the node in an index tree; the leaf level is the level 0(PAGE_LEVEL) 本索引页所处的B+ TREE的层级。注意,叶子结点的PAGE LEVEL为0。


Total used rows:5 used rows list(logic): not delete purge rows and not delete logic sequence list(next offset list). 这个链表是逻辑有序链表,也是我们平时所说的块内数据有序的展示。它的顺序当然按照主键或者ROWID进行排列,因为是通过物理偏移量链表实现的,实际上就是逻辑上有序。我在实现的时候实际上是取了INFIMUM的偏移量开始进行扫描直到最后,但是注意被deleted且已经被purged的记录不在其中。


Total used rows:5 used rows list(phy): not delete purge rows and not delete physics sequence list(sort by heap no). 这个链表是物理上的顺序,实际上就是heap no的顺序,我在实现的时候实际上就是将上面的逻辑链表按照heap no进行排序完成的,所以块内部是逻辑有序物理无序的,同样注意被deleted且已被purged的记录不在其中。


Total del rows:1 del rows list(logic): purge delete logic sequence list(next offset list). 这个链表是逻辑上的,也就是被deleted且被purged后的记录都存在于这个链表中,通过读取块的PAGE_FREE获取链表信息。


Total slot:2 slot list: slot physics sequence list. 这是slot(槽的)信息,通过扫描块尾部8字节以前信息进行分析得到,我们可以发现在slot中存储的是记录的偏移量。


[n_owned]:if this record is slot record n_owned is how many this slot include,other is 0.


[delflag]:this record is delete will Y,if not purge in list 1,if purge in list 3.


[rectype]: [REC_STATUS_ORDINARY=0(B+ leaf record) [REC_STATUS_NODE_PTR=1(not B+ leaf record)] [REC_STATUS_INFIMUM=2] [REC_STATUS_SUPREMUM=3]


[slot offset]:where(offset) this slot point,this is a record offset.no purge delete record.


初始化测试数据:

mysql insert into testblock values(1,gao,1),(2,gao,2),
(3,gao,3),(4,gao,4);
1、执行delete后还未commit的记录只打 delete 标记

发起事务,先执行delete,暂不commit

mysql begin; delete from testblock where id1=1;

分析结果:

8aecf14b8db53cefc0b23bbb9270ec62d1c71f82

我们看到其中有一条记录是

(2) normal record offset:127 heapno:2 n_owned 0,delflag:Y minflag:0 rectype:0

其 delflag = Y,offset = 127,这条记录只是delete,但还没 commit,也还没被 purged,因此不会出现在 del rows list链表中。

同时注意到几个信息:


三个信息结合起来看,表示还没有真正被清除的数据。

2、执行delete后commit的记录,被purged后真正被清除,进入删除链表

接着上面的事务,继续执行commit

mysql commit;

Query OK, 0 rows affected (0.00 sec)

分析结果:

2366bfb83b6a7bb5fb543e5e6dbc445f0bb7d23f

我们看到,执行commit,这条偏移量为127的记录被purged后入了del rows list链表

(1) normal record offset:127 heapno:2 n_owned 0,delflag:Y minflag:0  rectype:0

其delflag = Y,同时我们观察到


可见,commit且被purged的数据才是真正的删除(清除)。

3、先删除后insert更大新记录,旧的heap no不会重用

上面删除的记录的heapno为2,接着插入新记录

insert into testblock values(5,gaopeng,1);

显然它的长度大于删除记录的长度。

分析结果:

cf25be7f54633d507da1e2366a1781c395aafa29

我们看到有一条新记录

(5) normal record offset:251 heapno:6 n_owned 0,delflag:N minflag:0 rectype:0

这条记录的heapno = 6,而删除的旧记录 heapno=2,这表明它没有重用del rows list中的空间,因为删除记录的空间根本放不下这条新记录,所以只能重新分配。同时我们注意到 heap_top = 279 ,这里也发生了变化,体现了实际为这行数据分配了新的heapno。

4、delete后,再insert更小或者相同大小记录,heap no会重用

在上面的基础上,我们插入新记录

insert into testblock values(6,gao,1);

分析结果:

c030682b0f3f3bd04422516acfa7e6fbcdbec675

我们这次新写入的数据长度和删除的数据长度一致,我们发现heapno重用了del rows list中的记录没有了,而在数据逻辑顺序中多了一条

(6) normal record offset:127 heapno:2 n_owned 0,delflag:N minflag:0 rectype:0

我们发现heapno=2的记录 delflag 不再是 Y了,同时 heap_top = 279 也没有变化,del_bytes:31 变成了 del_bytes:0,都充分说明了这块空间得到重用。

5、测试del list中的空间重用只会检测第一个条删除的记录

清空数据表后执行测试

mysql insert into testblock values(1,gao,1),(2,gao,2),(3,gao,3),(4,gaopeng,4);

mysql delete from testblock where id1=4;

mysql delete from testblock where id1=3;

mysql insert into testblock values(5,gaopeng,5);

在这里,我们先删除 [id1=4] 记录,后删除 [id1=3] 记录。 由于del list是头插法,所以后删除的 [id1=3] 的记录会放在del list链表的最头部,也就是 [del list header] = [id1=3] = [id1=4]。虽然 [id=4] 的记录空间足以容下新记录 (5,gaopeng’,5),但并没被重用。因为InnoDB只检测第一个 del list 中的第一个空位 [id1=3],显然这个记录空间不足以容下新记录 (5,’gaopeng,5),所以还是新开辟了heap。

分析结果:

2849cbf62251db96e1d04e5497f343968fd1a0d3

我们看到 del list 中共有2条记录(没被重用),却新增加了 heapno = 6 的记录。

6、del_bytes(PAGE_GARBAGE)是否包含碎片空间

从重组函数 btr_page_reorganize_low 来看,PAGE_GARBAGE确实包含了碎片空间。

清空数据表后执行测试

mysql insert into testblock values(1,gao,1),(2,gao,2),(3,gao,3),(4,gaopeng,4);

mysql delete from testblock where id1=4;

分析结果:

783ec4d6221c4ca3e3da932108a625bfddc3bebd

注意这里 del_bytes:35 就是删除这条记录的空间的使用量。接下来执行SQL

mysql insert into testblock values(5,gao,5);

再次分析结果:

b360b331b5eaf3d8f8039f53ada0561c597ea423

注意到 del_bytes:4,这个刚好就是 gaopeng 7字节减去 gao 3字节剩下的4字节,我们也看到了 [heapno=5] 这个记录被重用了(del list为空,heaono=5的记录 delflag 不为 Y)。

总之本工具可以按照你的想法进行各种测试和观察。

七、内存泄露检测

实际上本工具我并没有显示的分配内存,内存分配基本使用了STL LIST容器检测结果如下:

==11984== LEAK SUMMARY:

==11984==    definitely lost: 0 bytes in 0 blocks

==11984==    indirectly lost: 0 bytes in 0 blocks

==11984==      possibly lost: 0 bytes in 0 blocks

==11984==    still reachable: 568 bytes in 1 blocks

==11984==         suppressed: 0 bytes in 0 blocks

==11984== Reachable blocks (those to which a pointer was found) are not shown.

==11984== To see them, rerun with: --leak-check=full --show-reachable=yes

本工具基本采集了InnoDB索引页全部固定信息,希望能够帮助大家更方便获得各种信息,效率显然高于肉眼看二进制文件,这是作者在分析InnoDB遇到的困境,也是写这个小工具的出发点。 最后再次感谢叶金荣对工具审核 建议以及《MySQL运维内参》三位作者周彦伟、王竹峰、强昌金对本工具的认可,这也是我个人最大的荣耀运维内参


运维内参

原文发布时间为:2017-10-01

本文作者:高鹏(重庆八怪)

运维内参

本文来自云栖社区合作伙伴“老叶茶馆”,了解相关信息可以关注“老叶茶馆”微信公众号


MySQL · 特性分析 · innodb_buffer_pool_size在线修改 InnoDB Buffer Pool缓存了表数据和二级索引在内存中,提高数据库效率,因此设置innodb_buffer_pool_size到合理数值对实例性能影响很大。当size设置偏小,会导致数据库大量直接磁盘的访问,而设置过大会导致实例占用内存太多,容易发生OOM。
笔者是知数堂早期学员,最初有写这么一个工具的想法也得到叶金荣老师的认可和鼓励,这个想法也整整耗掉了好几个晚上的休息时间,这里再次感谢叶金荣老师对工具审核,叶老师的经验和学识是每一位学员宝贵的财富。
为什么谈及定位方法,因为在innodb中,比如一个插入语句我们需要定位在哪里插入(PAGE_CUR_LE),比如一个查询语句我们需要定位到其第一个需要读取数据的位置,因此定位方法是查询的根本。
HugePage优点缺点大盘点 Topic 一起来谈谈HugePage的优点或缺点,各位一线的兄弟们谈谈实战情况,二线的谈谈理论方法吧。(本期话题贡献人:杨建荣) 杨建荣_北京:HugePage是Linux内核上一种使用内存块的方法。