zl程序教程

您现在的位置是:首页 >  其他

当前栏目

智能运维的落地案例 | 日志异常检测,助力根因定位

2023-09-14 09:15:29 时间

随着银行业务形态的增多、体量的变大,系统规模快速扩大,每天产生的数据信息呈几何式增长,其中包括大量的客户数据、交易数据和运行数据等,它们具有非常大的潜在价值,也是大数据应用的基础来源。

这些信息数据量十分巨大,但却分散在各个中心服务器或者设备的不同位置,对运维数据的统一管理、监控、信息挖掘变得越来越困难,也使得运维工作量越来越大。

背景

根据中国银监会《商业银行信息科技风险管理指引》(银监发〔2009〕19号)中针对日志文件完整性、存留周期的相关要求,结合当下监管部门对银行数据治理相关监督的指引,为提高银行竞争力,高质量快速完成数字化转型,将数据价值向资产化过渡,某行拟建设统一的运维大数据处理平台。优先选择从日志场景切入,精细化分析能力,打造场景化应用,实现全面可观测性,保障业务平稳高效运行。

方案简述

运维大数据平台的构建基于分布式高可用架构,满足容量随着业务需要动态扩展的需求;优化数据采集手段,实现对IT环境的实时数据采集以及集中高效的存储、查询、分析及可视化展示;基于流批一体的数据处理技术,实现全局数据秒速查询。内置AI智能分析引擎,除了能够解决异常检测、异常定位及辅助故障定位等运维痛点问题外,通过数据建模和洞察还可以对系统进行综合健康及风险分析。

另外,平台对数据处理操作非常友好,用低代码的方式实现对复杂数据的处理,如交易数据的实时响应时间计算,需要从日志中提取请求及响应的时间,再根据交易特征进行计算和时间窗口聚合,类似这种复杂操作,只需要一条数据处理流就可轻松完成。

可观测场景的实现

01 日志异常检测,助力根因定位

基于NLP技术对日志进行自动分类,可以在不用读懂日志本身内容的前提下,自动对日志进行解析并区分不同的日志模式,通过将相似的日志聚类在一起,可以有效地识别出日志中的变量和常量,从而得到结构化后的日志数据。

经过算法训练,以及聚类生成相对稳定的模板后,通过监控这些模板特征变化,可实现对系统运行情况的异常检测、故障预测、根因定位和辅助排障。

通过这种方式对日志进行监测,既不用消耗过多时间在日志内容本身的研究,可降低学习和维度成本,还可以提前对一些从未发生但可能发生的问题进行预测。待问题收敛定位后,可进一步查看日志上下文精准定位,再聚焦分析。

这是智能运维可观测性系列案例的第一个,下面还会陆续给大家分享2个可观测性在实践中发挥的作用案例,大家敬请留意哦~