查询语句写了limit 1,为什么依然很慢?
摘要: 很多时候计算引擎会对语句进行代价估计并调整语句的执行顺序。执行计划是语句如何执行的直观表达。语句如何执行不能只关注语句写法,要想写出符合预期执行顺序的查询语句,还需要关注语句执行计划。
本文分享自华为云社区《查询语句写了limit 1,为什么依然很慢? 记一次图引擎GES cypher慢查询的定位分析》,作者: 蜉蝣与海。
问题背景
最近使用华为图引擎GES, 有一条cypher语句携带后缀limit 1,理论上应该很快返回结果,可是跑了很久依旧没有返回,简化后的语句如下:
match(v)-[r1:dependency *1..1]->(node) where node.product_name = "product" match path = (m)-[r:dependency*0..10]-> (v:Material) return path, m,node skip 0 limit 10
调整limit 10至limit 1,结果依旧很慢。
在华为云图引擎GES官网文档上,发现了对查询语句进行终止的接口:
![](https://pic3.zhimg.com/80/v2-f6abdc1199cb938c0d3735afb12e8fd6_720w.jpg)
首先使用listQueries查询出当前cypher语句的queryId,然后把queryId输入killQuery中终止慢查询。
问题分析:为什么limit配置为1,依旧长时间无结果?
在华为云图引擎控制台,使用explain打印cypher查询计划,分析慢查询生成原因,简化后的查询计划如图:
![](https://pic1.zhimg.com/80/v2-a6fe7f12d1ae2ae8d26f699924f7f8c4_720w.jpg)
可以看到,查询语句的执行和预期有差异。查询语句优先执行了一个Label扫描算子(NodeByLabelScan),对扫描到的每个点按入边方向进行了[r*0..10]这样的10跳操作,而后再从出边方向做了一跳并过滤,这就导致了最坏情况下,需要全图Label为Material的点都跳完10跳,才能拿到一条结果。如上图表格所示,在遍历到第一个满足条件的(vi)之前,已经对(v0)到(vi)这些点都做了10跳。即使语句末尾写了limit 1,因为始终遍历不到合适的数据,导致了后台的计算引擎一直在做计算。
估计计算引擎在读取这条语句时,同时看到了v:Material和node.product='xxx'两个过滤条件,而代价估计模型认为v:Material可以获得更低的代价,所以才选择优先执行NodeByLabelScan。
使用语句优化策略对语句进行优化
既然分析清楚了原因,那么只要通过改写cypher语句,让GES的cypher不优先通过v:Material做计划即可。这里用到下列两类策略:
with别名策略:使用with为变量安排别名,强制规定语句不同子句的执行顺序
label过滤改写策略:将label过滤条件放在where语句中,并使用labels函数,防止生成NodeByLabelScan的计划
使用with别名策略后,语句如下:
match(v0)-[r1:dependency *1..1]->(node) where node.product_name = "product" with v0 as v,node match path = (m)-[r:dependency*0..10]-> (v:Material) return path, m,node skip 0 limit 10
使用label过滤改写策略,语句如下:
match(v)-[r1:dependency *1..1]->(node) where node.product_name = "product" match path = (m)-[r:dependency*0..10]-> (v) where labels(v)='Material' return path, m,node skip 0 limit 10
两种策略混合使用,语句如下:
match(v0)-[r1:dependency *1..1]->(node) where node.product_name = "product" with v0 as v,node match path = (m)-[r:dependency*0..10]-> (v) where labels(v)= " Material" return path, m,node skip 0 limit 10
使用explain将三种查询计划分别打印,如图:
![](https://pic2.zhimg.com/80/v2-f1ee78cc8c50ab4286f9c3fc18a91615_720w.jpg)
可以看到with别名更有效,生成的计划更符合期望。
使用with别名策略改写cypher语句后,语句运行时间从130秒降到3秒。语句中依旧存在AllNodesScan算子,而华为图引擎GES是支持索引能力的,后续会考虑加入合适的索引,把AllNodesScan和Filter优化为NodeIndexSeek,进一步提升语句执行速度。
总结
通过这次分析也可以看出,很多时候计算引擎会对语句进行代价估计并调整语句的执行顺序。执行计划是语句如何执行的直观表达。语句如何执行不能只关注语句写法,要想写出符合预期执行顺序的查询语句,还需要关注语句执行计划。
相关文章
- 在Winform界面中实现对多文档窗体的参数传值
- Winform开发主界面菜单的动态树形列表展示
- 如何在Winform界面中设计图文并茂的界面
- Web API应用架构在Winform混合框架中的应用(3)--Winfrom界面调用WebAPI的过程分解
- 在DevExpress中使用WizardControl控件构建多步向导界面
- 一个缺陷管理系统数据库设计和界面设计分析
- 基于Metronic的Bootstrap开发框架经验总结(8)--框架功能总体界面介绍
- Entity Framework 实体框架的形成之旅--界面操作的几个典型的处理(8)
- IdentityServer4 登录成功后,跳转到原来页面
- 使用高斯Redis实现二级索引
- 如何在软件研发阶段落地安全实践
- MRS离线数据分析:通过Flink作业处理OBS数据
- 张平安:加快云上数字创新,共建产业智慧生态
- 从解析HTML开始,破解页面渲染时间长难题
- Web开发小妙招:巧用ThreadLocal规避层层传值
- EntityFramework 7 OrderBy Skip Take-计算排序分页 SQL 翻译
- 详解SQL中Groupings Sets 语句的功能和底层实现逻辑
- HiEngine:可媲美本地的云原生内存数据库引擎
- 整理混乱的头文件,我用include what you use
- 一文掌握数仓中auto analyze的使用