您现在的位置是：首页 > 数据库

当前栏目

HBase写被block的分析

HBase 分析 Block

2023-09-27 14:26:55 时间

一个线上集群出现莫名奇妙不能写入数据的bug，log中不断打印如下信息：

引用

2011-11-09 07:35:45,911 INFO org.apache.hadoop.hbase.regionserver.HRegion: Blocking updates for 'IPC Server handler 32 on 60020' on
region xxx,333-2395000000032117,1320773734010.9a7ae39b5a42ccfa1fa6118aa8f79195.: memstore size 128.0m is >= than blocking 128.0m size

    我们知道每次put时会检查当前的memstore大小，当大于flush值的一个系数时（系数默认为2倍），就会block住这次写请求，并提交一个flush任务。但是很奇怪的是，用户此时再也不能往这个region写数据了，并在大约10多个小时以后又神奇地自然恢复了。
    原因是什么呢？
    经过一番检查，发现了hbase的一个bug，我们准备修改后提交到社区，不过因为实在太有趣了，体现了分布式事务的很有趣特征，所以先在此分享一下原因吧。
    这个问题是由以下四个事件共同组成的，我把代码简单化后作如下整理：
1 put:

Java代码

put{
checkResources{
while (this.memstoreSize.get() > this.blockingMemStoreSize) {
if(flushRequested==true)
continue;
flushRequested = true;
flushQueue.add(this);
}
...
}
...
}

2 memstoreFlusher:

Java代码

while(!serverstop){
task = flushQueue.poll();
if(task == null)
continue;
if(closing)
continue;
try{
if(closed)
continue;
if(flush(task))
continue;
else
break;
}finally{
flushRequested = false;
}
}

3 split:

Java代码

...
closing = true;
closed = true;
...

4 rollback:

Java代码

...
closing = false;
closed = false;
...

    故障还原：当该region执行一次flush时，flushRequested被put线程置为了true，并push一个flush任务。然后memstoreFlusher检查到该任务时，刚好split开始进行，进行到了CLOSED_PARENT_REGION那一步，处于closing状态，于是memstoreflusher跳过任务，但在这里，memstoreflusher仍然报告该任务完成了，于是flush队列被清空。
    但split在执行splitStoreFiles时，因为hdfs的问题失败了(具体原因是namenode在close一个文件的时候失败，不停地retry并超时)，此时split开始执行回滚，即该region恢复到split之前的状态，于是我们发现该region又重新onlined。

    虽然split在rollback的时候会将closing和closed状态置回来，但因为flush队列己然被清空了，于是陷入以下循环：

put数据的线程，发现需要flush，但flushRequested为true，说明还有flush任务没完成，于是继续等待，并不会提交flush任务
memstoreFlush的线程，每次取flushQueue都为空，于是循环等待put线程提交flush任务，因此写数据就被block住了

以上悲催的情况将一直持续，直到迎来cleanOldLogs任务。因为cleanOldLogs会每小时执行一次，它会将最早的.logs目录下的文件移到.oldlogs目录下，但移之前先检查该文件中所有的数据是否己经flush到磁盘了，如果还没有就将该region执行一次flush。所以在经过n小时以后，.logs终于滚动到了用户之前卡住的那一段，这时就强制执行flush任务，因此flushQueue队列就不为空了，死循环被打破。系统也就自愈了。

猜你喜欢

JQuery跳出each循环的方法(包含数组遍历)【转】
java 读取固定目录下的文件（和上篇差点儿相同）
Message Unable to compile class for JSP
大数据可视化—Echarts的基本使用和基本配置详情
Linode云服务器Xen升级至KVM全过程
js模版引擎handlebars.js实用教程——with-终极this应用
【vue】webpack打包vue项目并且运行在Tomcat里面
[原]centos6.5系统可用yum源(32位)以及rpmforge
【云计算】OpenStack Horizon DashBoard定制化，完整实现前后台交互
sklearn.preprocessing.MinMaxScaler
【神经网络与深度学习】在Windows8.1上用VS2013编译Caffe并训练和分类自己的图片
[git]git动画教程
vue 项目添加vue-router
vs如何运行不安全的代码/不安全代码只会在使用 /unsafe 编译的情况下出现
Java中数据类型转换问题
java 封装得一个比较优秀的http框架forest
FaceBook要在视频领域打败YouTube?
extjs_02_grid(显示本地数据，显示跨域数据)
LWIP应用指南学习。
tomcat7 - 烫手山芋之热部署
单点登录原理与简单实现
万字长文看懂商业智能（BI）|推荐收藏

相关主题

HBase写数据
HBase二级索引
HBase原理
HBase和ZooKeeper
Hbase安装
Hbase 之旅
93 hbase安装
92 hbase简介
HBase压缩
HBASE表设计
hbase详解
HBase入门
1.1-1.3 HBase入门
Hbase 详解
hbase 性能调优

zl程序教程

当前栏目

HBase写被block的分析

相关文章