zl程序教程

您现在的位置是:首页 >  数据库

当前栏目

MySQL · 答疑解惑 · InnoDB 预读 VS Oracle 多块读

mysqlOraclevs InnoDB 解惑 答疑
2023-09-14 09:00:57 时间

目前,IO 仍然是数据库的性能杀手,为了提高 IO 利用率和吞吐量,不同的数据库都设计了不同的方法,本文就介绍下 InnoDB 提供的预读(read-ahead)功能,以及 Oracle 提供的多块读(multiblock-read)功能,并进行一些对比。

InnoDB read-ahead

InnoDB 提供了两种预读的方式,一种是 Linear read ahead,由参数innodb_read_ahead_threshold控制,当你连续读取一个 extent 的 threshold 个 page 的时候,会触发下一个 extent 64个page的预读。另外一种是Random read-ahead,由参数innodb_random_read_ahead控制,当你连续读取设定的数量的page后,会触发读取这个extent的剩余page。

InnoDB 的预读功能是使用后台线程异步完成的。InnoDB启动了innodb_read_io_threads个后台线程,来完成IO request,并且可以使用Native AIO,在你的环境中如果安装了libaio,在MySQL实例启动的时候,查看系统日志:InnoDB: Using Linux native AIO 表明 InnoDB 已经使用Native AIO了。在Linear read ahead触发的时候,InnoDB通过io_submit()提交了下一个extent的64个pages的IO request,并由一个read IO thread完成。

Oracle multiblock-read

当你要对堆表进行全表扫描,并需要大量IO的时候,通常在 session 级别设置db_file_multiblock_read_count,这样 Oracle 会在读取堆表结构的数据块的时候,一次IO读取多个数据块,大大减少了IO的次数。但这里一次合并IO请求的数据块,必须不能在buffer pool中,否则会分割IO请求。不过,在针对大表的汇总分析查找中,设置db_file_multiblock_read_count的效果是非常明显的。不过也要注意,不要在系统级别上设置过大的db_file_multiblock_read_count, 会造成buffer cache flooding。

下面我们看两个非常典型的场景:

1. 高并发,小IO的情况
在高并发的场景下,sql响应时间主要取决于同步IO请求的时间,而InnoDB的预读通常不会触发,就算触发,更多的是预热(warmup)的效果,并不会对系统带来非常大的收益,对rt的影响也非常小。
而Oracle如果设置了db_file_multiblock_read_count,在这样的场景下,有可能会适得其反,因为一次同步IO请求的时间增加了。

所以在这样的场景下,InnoDB的read-ahead和Oracle的multiblock-read并不会带来太多的收益。我们看另外一个场景。

2. 低并发,高IO吞吐
通常,我们可能想在业务低峰期,对线上数据进行汇总查询。这时,希望能够完全使用主机的资源来完成sql的查询,在使用全表扫描的时候,InnoDB会触发read-ahead,每次提前异步读取下一个extent的page,加快读取的速度。
Oracle使用db_file_multiblock_read_count,一次IO读取多个block,提高读取的吞吐量。

为什么在聚集查询的时候,Oracle的效果会比InnoDB要好?

这个问题,在针对机械盘的情况,又回到了 IOPS 和 throughput 的讨论上去了。InnoDB的read-ahead,在触发的时候,针对下一个extent,对每一个page提交了异步IO请求,也就是增加了IO request次数,虽然Native AIO和disk会有针对性合并IO,但仍然非常有限,而Oracle每次提交合并多个连续数据块的IO请求,能够更好利用disk的吞吐能力。

所以,InnoDB在针对aggregation类型的查询的时候,想要完全使用IO的吞吐能力,相比较Oracle的multiblock-read,会偏弱一点。

针对InnoDB的机制,我们可以尝试几种优化方法:

在session级别,提供可设置预读的触发条件,并使用多个后台线程来完成异步IO请求。因为没有减少小IO请求,作者尝试了这种方法,收益甚小; 独立一个buffer pool,专门进行多块读,针对next extent,一次读取到buffer pool中,这种方式就和Oracle的multiblock-read比较类似了; 终极优化方法,就是使用并行查询,Oracle在全表扫描的时候,使用/* parallel */ hint方法启动多个进程完成查询,InnoDB的聚簇索引结构,需要逻辑分片,针对每一个分片启动一个线程完成查询。

读者如果有兴趣,可以进行一些尝试。


【大数据开发运维解决方案】Sqoop增量同步mysql/oracle数据到hive(merge-key/append)测试文档 上一篇文章介绍了sqoop全量同步数据到hive, 本片文章将通过实验详细介绍如何增量同步数据到hive,以及sqoop job与crontab定时结合无密码登录的增量同步实现方法。
【大数据开发运维解决方案】Sqoop全量同步mysql/Oracle数据到hive 前面文章写了如何部署一套伪分布式的handoop+hive+hbase+kylin环境,也介绍了如何在这个搭建好的伪分布式环境安装配置sqoop工具以及安装完成功后简单的使用过程中出现的错误及解决办法, 接下来本篇文章详细介绍一下使用sqoop全量同步oracle/mysql数据到hive,这里实验采用oracle数据库为例,
【大数据开发运维解决方案】sqoop增量导入oracle/mysql数据到hive时时间字段为null处理 前面几篇文章详细介绍了sqoop全量增量导入数据到hive,大家可以看到我导入的数据如果有时间字段的话我都是在hive指定成了string类型,虽然这样可以处理掉时间字段在hive为空的问题,但是在kylin创建增量cube时需要指定一个时间字段来做增量,所以上面那种方式不行,这里的处理方式为把string改成timestamp类型,看实验:
【.NET 6】使用EF Core 访问Oracle+Mysql+PostgreSQL并进行简单增改操作与性能比较 唠嗑一下。都在说去O或者开源,但是对于数据库选型来说,很多人却存在着误区。例如,去O,狭义上讲,是去Oracle数据库。但是从广义上来说,是去Oracle公司产品或者具有漂亮国垄断地位和需要商业授权的数据库产品。
从 Oracle/MySQL 到 PolarDB(二)| 学习笔记 快速学习从 Oracle/MySQL 到 PolarDB(二),介绍了从 Oracle/MySQL 到 PolarDB(二)系统机制, 以及在实际应用过程中如何使用。
db匠 rds内核团队秘密研发的全自动卖萌机. 追加特效: 发数据库内核月报. 月报传送: http://mysql.taobao.org/monthly/