您现在的位置是：首页 > 大数据

当前栏目

2200W条数据测试phoenix查询性能

性能查询 Phoenix

2023-09-27 14:19:45 时间

版本

hbase 1.3.5
phoenix 4.14.2-hbase 1.3

简介

这里的数据来源于网络，直接下载的用户电影打分数据，原数据集有2700W条，这里为了rowkey不重复，我将timestamp作为rowkey，最终获取到了2200W条数据

索引

这里一会儿要用上二级索引，所以这边先介绍一下，由于hbase中只能围绕rowkey设计来提高性能，但是我们引入了phoenix，可以将hbase和phoenix做关联表和关联视图，就可以引入二级索引了，效率确实提升很多

hbase配置

要打开二级索引，hbase-site.xml中需要打开配置

<property>
<name>hbase.regionserver.wal.codec</name>
<value>org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec</value>
</property>

异步构建索引

由于2200W数据量还是蛮大的，直接构建出错的概率高达100%，毕竟我本人就构建失败了，所以这里推荐异步构建的方式

create index rating_index_user_item_local on RATINGLOCAL("info"."userId","info"."movieId") include ("info"."rating") async;

执行上边的语句之后会在phoenix中生成一个索引，但是并没有什么用，可以相当于只声明了一个变量，我们还得给它赋值，需要再执行下边的语句

hbase org.apache.phoenix.mapreduce.index.IndexTool --data-table RATINGLOCAL --index-table RATING_INDEX_USER_ITEM_LOCAL --output-path ASYNC_IDX_LOCAL

这里异步构建会启动mapreduce,等着任务结束，没有报错，就说明成功了

测试结果

测试过程就不详细介绍了，直接上结果

查询类型	返回数据（条）	耗时
count	1	40s
单条件，非rowkey字段	10	40s
单条件，rowkey字段	10	0.2s
单条件，非rowkey字段，全局索引	10	0.3s
单条件，非rowkey字段，本地索引	10	0.02s
单条件，非rowkey字段，，全局索引	4k	25s
单条件，非rowkey字段，本地索引	4k	18s

猜你喜欢

Android硬件加速
Web网页自动化实战《4.获取所有酒店的名字、价格、评分信息，并写入文件》上篇
[算法课]全面翻新计划！第七周全解
ASP.NET Web API通过ActionFilter来实现缓存
宾夕法尼亚州指控IBM未能对失业索赔系统进行升级
数据库锁
RT-thread内核之线程调度器
Jenkins 构建自动化 .NET Core 发布镜像
斯诺登新揭秘：美NSA为网络战准备数字武器
【微信小程序】tabBar的显示问题
sql的nvl()函数
java.io.FileNotFoundException: ***(Too many open files)
用Python的tkinter库做一个简单的打包作业的工具
POSTGIS导入shp文件出错，
Java核心技术卷I基础知识2.1.1　下载JDK
另辟蹊径，阿里从业务切入移动安全
中国CRM企业“学习”Salesforce，只是在集体自嗨？
tensorflow简介以及与Keras的关系
《C++编程规范：101条规则、准则与最佳实践》——1.2:在高警告级别干净利落地进行编译
一则ORA-00922: missing or invalid option 错误的解决方法

相关主题

系统性能监控
性能优化方案
性能调优
Spark性能调优

zl程序教程

当前栏目

2200W条数据测试phoenix查询性能

版本

简介

索引

hbase配置

异步构建索引

测试结果

相关文章