您现在的位置是：首页 > 数据库

当前栏目

MySQL · 答疑解惑 · InnoDB 预读 VS Oracle 多块读

mysql Oracle vs InnoDB 解惑答疑

2023-09-14 09:00:57 时间

目前，IO 仍然是数据库的性能杀手，为了提高 IO 利用率和吞吐量，不同的数据库都设计了不同的方法，本文就介绍下 InnoDB 提供的预读(read-ahead)功能，以及 Oracle 提供的多块读(multiblock-read)功能，并进行一些对比。

InnoDB read-ahead

InnoDB 提供了两种预读的方式，一种是 Linear read ahead，由参数innodb_read_ahead_threshold控制，当你连续读取一个 extent 的 threshold 个 page 的时候，会触发下一个 extent 64个page的预读。另外一种是Random read-ahead，由参数innodb_random_read_ahead控制，当你连续读取设定的数量的page后，会触发读取这个extent的剩余page。

InnoDB 的预读功能是使用后台线程异步完成的。InnoDB启动了innodb_read_io_threads个后台线程，来完成IO request，并且可以使用Native AIO，在你的环境中如果安装了libaio，在MySQL实例启动的时候，查看系统日志：InnoDB: Using Linux native AIO 表明 InnoDB 已经使用Native AIO了。在Linear read ahead触发的时候，InnoDB通过io_submit()提交了下一个extent的64个pages的IO request，并由一个read IO thread完成。

Oracle multiblock-read

当你要对堆表进行全表扫描，并需要大量IO的时候，通常在 session 级别设置db_file_multiblock_read_count，这样 Oracle 会在读取堆表结构的数据块的时候，一次IO读取多个数据块，大大减少了IO的次数。但这里一次合并IO请求的数据块，必须不能在buffer pool中，否则会分割IO请求。不过，在针对大表的汇总分析查找中，设置db_file_multiblock_read_count的效果是非常明显的。不过也要注意，不要在系统级别上设置过大的db_file_multiblock_read_count，会造成buffer cache flooding。

下面我们看两个非常典型的场景:

1. 高并发，小IO的情况
在高并发的场景下，sql响应时间主要取决于同步IO请求的时间，而InnoDB的预读通常不会触发，就算触发，更多的是预热(warmup)的效果，并不会对系统带来非常大的收益，对rt的影响也非常小。
而Oracle如果设置了db_file_multiblock_read_count，在这样的场景下，有可能会适得其反，因为一次同步IO请求的时间增加了。

所以在这样的场景下，InnoDB的read-ahead和Oracle的multiblock-read并不会带来太多的收益。我们看另外一个场景。

2. 低并发，高IO吞吐
通常，我们可能想在业务低峰期，对线上数据进行汇总查询。这时，希望能够完全使用主机的资源来完成sql的查询，在使用全表扫描的时候，InnoDB会触发read-ahead，每次提前异步读取下一个extent的page，加快读取的速度。
Oracle使用db_file_multiblock_read_count，一次IO读取多个block，提高读取的吞吐量。

为什么在聚集查询的时候，Oracle的效果会比InnoDB要好？

这个问题，在针对机械盘的情况，又回到了 IOPS 和 throughput 的讨论上去了。InnoDB的read-ahead，在触发的时候，针对下一个extent，对每一个page提交了异步IO请求，也就是增加了IO request次数，虽然Native AIO和disk会有针对性合并IO，但仍然非常有限，而Oracle每次提交合并多个连续数据块的IO请求，能够更好利用disk的吞吐能力。

所以，InnoDB在针对aggregation类型的查询的时候，想要完全使用IO的吞吐能力，相比较Oracle的multiblock-read，会偏弱一点。

针对InnoDB的机制，我们可以尝试几种优化方法:

在session级别，提供可设置预读的触发条件，并使用多个后台线程来完成异步IO请求。因为没有减少小IO请求，作者尝试了这种方法，收益甚小；独立一个buffer pool，专门进行多块读，针对next extent，一次读取到buffer pool中，这种方式就和Oracle的multiblock-read比较类似了；终极优化方法，就是使用并行查询，Oracle在全表扫描的时候，使用/* parallel */ hint方法启动多个进程完成查询，InnoDB的聚簇索引结构，需要逻辑分片，针对每一个分片启动一个线程完成查询。

读者如果有兴趣，可以进行一些尝试。

【大数据开发运维解决方案】Sqoop增量同步mysql/oracle数据到hive(merge-key/append）测试文档上一篇文章介绍了sqoop全量同步数据到hive，本片文章将通过实验详细介绍如何增量同步数据到hive，以及sqoop job与crontab定时结合无密码登录的增量同步实现方法。
【大数据开发运维解决方案】Sqoop全量同步mysql/Oracle数据到hive 前面文章写了如何部署一套伪分布式的handoop+hive+hbase+kylin环境,也介绍了如何在这个搭建好的伪分布式环境安装配置sqoop工具以及安装完成功后简单的使用过程中出现的错误及解决办法，接下来本篇文章详细介绍一下使用sqoop全量同步oracle/mysql数据到hive，这里实验采用oracle数据库为例，
【大数据开发运维解决方案】sqoop增量导入oracle/mysql数据到hive时时间字段为null处理前面几篇文章详细介绍了sqoop全量增量导入数据到hive，大家可以看到我导入的数据如果有时间字段的话我都是在hive指定成了string类型，虽然这样可以处理掉时间字段在hive为空的问题，但是在kylin创建增量cube时需要指定一个时间字段来做增量，所以上面那种方式不行，这里的处理方式为把string改成timestamp类型，看实验：
【.NET 6】使用EF Core 访问Oracle+Mysql+PostgreSQL并进行简单增改操作与性能比较唠嗑一下。都在说去O或者开源，但是对于数据库选型来说，很多人却存在着误区。例如，去O，狭义上讲，是去Oracle数据库。但是从广义上来说，是去Oracle公司产品或者具有漂亮国垄断地位和需要商业授权的数据库产品。
从 Oracle/MySQL 到 PolarDB（二）| 学习笔记快速学习从 Oracle/MySQL 到 PolarDB（二），介绍了从 Oracle/MySQL 到 PolarDB（二）系统机制，以及在实际应用过程中如何使用。
db匠 rds内核团队秘密研发的全自动卖萌机. 追加特效: 发数据库内核月报. 月报传送: http://mysql.taobao.org/monthly/

猜你喜欢

Google Tag Manager (GTM) 和 Adobe AEPL 在 SAP Spartacus 中的应用
互联网产品思维：互动
redis 发布订阅
Python tkinter库之Canvas 根据函数解析式或参数方程画出图像
知识扩展——为什么Windows的第一个盘叫C盘，不叫A盘？
PE格式：实现PE文件特征码识别
Jupyter notebook中5个有趣的魔法命令
TFOD：基于TFOD API的官方模型案例对图片进行目标检测
iOS开发之网络编程--小文件下载
[翻译] GCDObjC
Jenkins 插件安装的几种方式
Java实现蓝桥杯算法训练 Pollution Solution
java语言特性之一
【CodeX】未来三年：人机结对编程(MMPP)将成为现实
db2 xml 转 table【XQuery系列】
R语言使用tryCatch进行简单的错误处理
蕤仁肉（内仁肉、泪仁肉）简单介绍
base_基础
组件
【LeetCode】337. 打家劫舍 III

相关主题

MySQL 行锁
MySQL 内置函数
MySQL InnoDB 存储引擎.
MySQL 定时备份数据库
oracle和mysql区别
MySQL的1067错误
MySQL事务问题

zl程序教程

当前栏目

MySQL · 答疑解惑 · InnoDB 预读 VS Oracle 多块读

相关文章