大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day09】——Hbase3
前言
本栏目大数据开发岗高频面试题主要出自
大数据技术
专栏的各个小专栏,由于个别笔记上传太早,排版杂乱,后面会进行原文美化、增加。
文章目录
停不要往下滑了,
默默想5min,
看看这5道面试题你都会吗?
面试题 01、表的Region的划分规则及数据写入分区的规则是什么?
面试题02、Region的内部存储结构是什么?
面试题 03、什么是热点问题?
面试题04、怎么解决热点问题?
面试题05、Rowkey如何设计,设计规则是什么?
以下答案仅供参考:
面试题 01、表的Region的划分规则及数据写入分区的规则是什么?
•Region划分规则:范围划分,一张表可以在Rowkey行的方向上划分多个Region,每个Region构成一段连续的区间 •数据划分规则:根据Rowkey属于哪个Region的范围,就将这条数据写入哪个Region分区中
面试题02、Region的内部存储结构是什么?
•每个RegionServer中管理多个Region •每个Region中根据列族划分多个Store •每个Store中有1个memstore和多个StoreFile文件 •数据写入memstore中,如果达到内存阈值,memstore中的数据将写入StoreFile
面试题 03、什么是热点问题?
•现象:在某个时间段内,大量的读写请求全部集中在某个Region中,导致这台RegionServer的负载比较高,其他的Region和RegionServer比较空闲 •问题:这台RegionServer故障的概率就会增加,整体性能降低,效率比较差 •原因:本质上的原因,数据分配不均衡 •情况 –一张表只有一个Region –一张表有多个Region,但是Rowkey是连续产生的
面试题04、怎么解决热点问题?
•合理的设计Rowkey,构建不连续的Rowkey •根据Rowkey的前缀,为表划分多个Region
面试题05、Rowkey如何设计,设计规则是什么?
•业务原则:贴合业务,保证前缀是最常用的查询字段 •唯一原则:每条rowkey唯一表示一条数据 •组合原则:常用的查询条件组合作为Rowkey •散列原则:rowkey构建不能连续 •长度原则:满足业务需求越短越好
总结
今天我们复习了面试中常考的Hbase相关的五个问题,你做到心中有数了么?
相关文章
- 直接在代码里面对list集合进行分页
- .NET Framework 4.5新特性详解
- 大数据的简要介绍
- 大数据的由来
- 高斯混合模型的自然梯度变量推理
- timing-wheel 仿Kafka实现的时间轮算法
- 使用Navicat软件连接自建数据库(Linux系统)
- 那一天,我被Redis主从架构支配的恐惧
- Redis 深入了解键的过期时间
- C#使用委托调用实现用户端等待闪屏
- 基于流计算 Oceanus 和 Elasticsearch Service 构建百亿级实时监控系统
- GRAND | 转录调控网络预测数据库
- JFreeChart API中文文档
- 临床相关突变查询数据库
- TIGER | 人类胰岛基因变化查询数据库
- 视频边缘计算网关EasyNVR在视频整体监控解决方案中的应用分析
- Apache Arrow - 大数据在数据湖后的下一个风向标
- 常见的电商数据指标体系
- AKShare-艺人数据-艺人流量价值
- MySQL中多表联合查询与子查询的这些区别,你可能不知道!