从“13 天”到“0 天”延时,揭秘火山引擎 DataLeap SLA 保障最佳实践
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群
在数据治理中,如何实现 SLA 保障一直是“老大难”问题。
随着某房产 APP 稳定发展,楼盘、房源、经纪人、营销等数据不断扩大,在数据任务开发场景中,业务多样化、数据量大、数据任务复杂等问题,导致数据任务链路依赖复杂、链路长、依赖多。其中,异常突出的是离线数仓 SLA 延迟大,竟然高达“13 天”。
在字节跳动内部,“0987”高质量服务评价体系被广泛应用于数据服务场景。“0987”即从多个维度综合论证数据中台的价值,位列第一的“0”,指的是数据中台必须保障数据稳定,实现 SLA 故障清零。在“0987”服务标准的指导下,这款房产 APP 通过火山引擎大数据研发治理套件 DataLeap 实现 SLA 延迟从“13 天”缩短为“0 天”。
据房产 APP 数据研发人员介绍,“火山引擎 DataLeap 具备数据开发、数据治理、数据质量全链能力,可以串联成一套连贯、可复用的治理方案,最终形成 SLA 保障高效管理。”
![](https://static001.geekbang.org/infoq/8c/8c469849d87859954d63b2ba9310d8f7.png)
房产 APP 团队任务签署 SLA 步骤
具体来说,他们主要通过以下三个步骤快速实现 SLA“零延时”。
首先,数据研发团队根据业务需求,圈定出需要被 SLA 保障的核心任务,包括线上核心任务、管理驾驶舱数据以及周报、月报等重点业务核心看板。
其次,制定全局保障方案。在 SLA 治理环节,存在核心任务 SLA 保障不足,有发生线上业务事故的隐患问题。除此之外,SLA 任务运维报警能力不足或者 SLA 签署时间不合理等,有 SLA 延迟隐患,造成破线事故。基于火山引擎 DataLeap 数据治理功能,数据开发人员可以通过申报单签署的形式达成 SLA 协议,在申报签署环节中,各个环节的变化将通过通知模块传递信息给相应负责人,实时通知降低信息交流成本,加速了 SLA 的达成。
![](https://static001.geekbang.org/infoq/d1/d1ead0a412671323d214a9f00067f5c9.jpeg?x-oss-process=image%2Fresize%2Cp_80%2Fauto-orient%2C1)
另外,火山引擎 DataLeap 支持对卡点任务的监控,保障 SLA 及时性及任务准确性。
举个例子来说,APP 平台有一个关系到经纪人核心利益分值指标。当经纪人完成相应任务时,分值增加。但当维表中数据缺失,在前台反映的结果则是分值不更新,对经纪人造成困扰。另外,之前还出现过这样的案例:小李在数据库中的核心维度是“经纪人”,但在维表中,可能测试数据误导入或重复数据导入,导致小李对应到多个门店或对应到错误房源。
在这种情况下,基于火山引擎 DataLeap,房产 APP 数据研发团队可以实现核心任务的数据波动监控、异常报警,避免因为数据质量导致的数据失信、决策失误等事故。
最后,项目中的核心数据指标如 SLA 任务数量、报警数、起夜率等都能体现在火山引擎 DataLeap 的大盘展板中,量化项目推进效果,为风险判断、后续措施提供数据支持,成为数据治理指标重要参照来源。
最终项目效果不仅仅体现在解决离线 SLA 保障的燃眉之急,更为该房产 APP 团队形成了一套标准流程和规范。在事前,使用申报流程,规范 SLA 签署;在事中,完善报警及时性和准确性,降低误报率;在事后,及时跟踪报警情况,完善问题复盘及监控机制,沉淀公共解决方案,推 SLA 治理健康、可持续发展。
![](https://static001.geekbang.org/infoq/12/128a4f9d8562f021640d948afd3aa7b9.jpeg?x-oss-process=image%2Fresize%2Cp_80%2Fauto-orient%2C1)
数据质量实施过程
随着数字化转型进一步深入,火山引擎 DataLeap 将进一步帮助企业提升数据研发效率、降低管理成本,为企业数字化实践提供有力支撑。
点击跳转 大数据研发治理套件 DataLeap 了解更多
相关文章
- HTML5+CSS3+JavaScript从入门到精通-12
- 【愚公系列】2021年11月 Elasticsearch数据库-面试题
- “数愈健康”数智化医、药、险联动服务平台构建大数据营销闭环生态体系
- 集群压测,出现grafana有application信息,却没有transaction数据
- 什么是ssl?网站建设ssl是哪一个环节处理?
- 用于小目标检测的一个简单高效的网络
- 数据库开发环境的治理方案设计
- Mycat web 基础5
- Mycat 运行与基础操作5
- Mycat 配置1
- Mycat 配置2
- Mycat 配置3
- Mycat 配置4
- Mycat 基础1
- 3分钟,看懂用户偏好分析
- 音视频开发之旅(60) -调试分析FFmpeg (解封装部分的)常用结构体
- 【蛋白设计】EGRET : 利用边缘聚集图注意网络基于单体蛋白预测PPIS
- ImmuCellAI | 免疫浸润计算工具
- 数据中台与湖仓一体能碰出怎样的火花?网易数帆实时数据湖Arctic的新探索
- 微服务依赖管理的陷阱与模式