智能运维的落地案例 | 日志异常检测,助力根因定位
随着银行业务形态的增多、体量的变大,系统规模快速扩大,每天产生的数据信息呈几何式增长,其中包括大量的客户数据、交易数据和运行数据等,它们具有非常大的潜在价值,也是大数据应用的基础来源。
这些信息数据量十分巨大,但却分散在各个中心服务器或者设备的不同位置,对运维数据的统一管理、监控、信息挖掘变得越来越困难,也使得运维工作量越来越大。
背景
根据中国银监会《商业银行信息科技风险管理指引》(银监发〔2009〕19号)中针对日志文件完整性、存留周期的相关要求,结合当下监管部门对银行数据治理相关监督的指引,为提高银行竞争力,高质量快速完成数字化转型,将数据价值向资产化过渡,某行拟建设统一的运维大数据处理平台。优先选择从日志场景切入,精细化分析能力,打造场景化应用,实现全面可观测性,保障业务平稳高效运行。
方案简述
运维大数据平台的构建基于分布式高可用架构,满足容量随着业务需要动态扩展的需求;优化数据采集手段,实现对IT环境的实时数据采集以及集中高效的存储、查询、分析及可视化展示;基于流批一体的数据处理技术,实现全局数据秒速查询。内置AI智能分析引擎,除了能够解决异常检测、异常定位及辅助故障定位等运维痛点问题外,通过数据建模和洞察还可以对系统进行综合健康及风险分析。
另外,平台对数据处理操作非常友好,用低代码的方式实现对复杂数据的处理,如交易数据的实时响应时间计算,需要从日志中提取请求及响应的时间,再根据交易特征进行计算和时间窗口聚合,类似这种复杂操作,只需要一条数据处理流就可轻松完成。
可观测场景的实现
01 日志异常检测,助力根因定位
基于NLP技术对日志进行自动分类,可以在不用读懂日志本身内容的前提下,自动对日志进行解析并区分不同的日志模式,通过将相似的日志聚类在一起,可以有效地识别出日志中的变量和常量,从而得到结构化后的日志数据。
经过算法训练,以及聚类生成相对稳定的模板后,通过监控这些模板特征变化,可实现对系统运行情况的异常检测、故障预测、根因定位和辅助排障。
通过这种方式对日志进行监测,既不用消耗过多时间在日志内容本身的研究,可降低学习和维度成本,还可以提前对一些从未发生但可能发生的问题进行预测。待问题收敛定位后,可进一步查看日志上下文精准定位,再聚焦分析。
这是智能运维可观测性系列案例的第一个,下面还会陆续给大家分享2个可观测性在实践中发挥的作用案例,大家敬请留意哦~
相关文章
- Flinkv1.13实现金融反诈骗案例
- vrrp的配置实例_十宗罪案例简介
- [完整案例]编程实现动物头像定位-02
- 【案例赏析】i茅台APP,有点分裂的失败年轻化设计作品
- 详解springBoot集成activiti7,工作流实战案例(三)
- 维表拉链表案例_维善优案例
- PQ实战案例拆解 | 汇总多股票交易数据,计算最近60天的5日移动平均的操作与算法优化
- 可以让寻求转型的CIO获得启发的4个云计算成功应用案例
- CSS绝对定位7大应用场景实战案例分享
- CSS固定定位与粘性定位4大企业级案例
- 实战案例——Ansible部署高可用OpenStack平台
- OpenAI超级对话模型ChatGPT发布!智能回答堪比雅思口语满分案例
- 大数据NiFi(十一):NiFi入门案例一
- 网络骗局丨典型案例分析,大家一起来避雷!
- 不背锅运维:享一个具有高可用性和可伸缩性的ELK架构实战案例
- 「Go」接口 interface: 一个案例说清用法和注意
- node小案例 -- 歌词播放
- 应用Redis在实际应用中的案例研究.(redis案例)
- 实战案例:yum安装php7.3+wordpress5.2+opcache+event模式
- 学习基于Linux系统C语言编程案例学习(linuxc案例)
- 【信息诈骗典型案例】之“分享朋友圈免费送手机”