zl程序教程

您现在的位置是:首页 >  其他

当前栏目

案例分享 | 从北京农商银行实践经验看智能运维体系如何落地

案例智能运维 如何 分享 体系 落地 银行
2023-09-14 09:15:29 时间

前言:

随着企业的落地实践越来越多,智能运维也从开始时的“点状”场景建设,升级为“体系求变”,即从建设初始就思考总体的AIOps建设体系,选择适合自己的点进入,在数年内建设完整的智能运维体系。

我们非常荣幸能邀请到两位金融行业的客户莅临现场,为我们分享金融行业智能运维建设实践的经验。

目录:

  • 运维大数据平台建设目标
  • 运维大数据平台建设方法
  • 运维大数据平台建设意义

一、智能运维体系建设目标

1.一站式管理:建设运维大数据平台,实现对应用日志、系统日志、应用日志的采集、解析、存储、转储的一站式生命周期管理;

2.一键查询:运维场景化的日志内容搜索,包括数据总览、应用检索、日志分类检索、日志一键查询;

3.辅助排障:通过规则化与智能算法相结合,对根据历史数据学习,进行日志异常检测判断,辅助排障;

4.随时查询:满足合规审计要求,定期自动对日志数据脱敏、备份,并在需要使用的时候能够随时恢复数据进行查询;

5.根因定位与故障预警:通过KPI异常检测、应用关联定位、日志交易串联、日志异常定位等智能化算法,实现辅助问题根因定位和故障预警;

6.破除壁垒:打通各运维工具集间的数据壁垒,实现数据流通,打造综合运维分析平台;

二、智能运维体系建设方法

 

“工欲善其事、必先利其器”,运维“监管控析”都离不开强有力的平台支撑,根据建设目标进行分层拆解,由大入小逐步建设。主要从以下几个方面入手。

1.平台:面向全业务系统搭建统一日志管理、监控、数据多维度分析的大数据运维管理平台。

2.应用:聚焦日志场景,对系统日志、交易日志、事件日志、性能日志等统一采集、精细化分析,最终形成场景化应用。

3.数据处理:经过路由层 -> 队列缓冲层 -> 流处理引擎三个阶段。首先,通过路由层直接接收采集客户端上送的数据,根据不同数据源对应的路由策略,转发给不同的消息队列,最后流处理引擎从消息队列直接拉取数据,处理成功并且持久化到数据库后,更新数据消费偏移量,确保了数据至少被处理一次,数据零丢失。

总之,以统一运维大数据平台建设为核心,实现场景化信息业务、智能化调度体系、可视化数据呈现,高度缩减运维人力投入,提高数据准确性和事件处理时效,全面提升人工产效。

三、运维大数据平台建设意义

A:从运营支撑侧而言,主要实现了以下目标

1.日志查询用时缩短

通过运维大数据平台快速查询的方式,实现跨日志、跨服务器、跨应用的日志查询。查询时间由原来的 10-30分钟缩短到1-5分钟以内。

2.交易串联加速排障

通过交易串联,将每笔交易所经过的节点耗时、请求耗时、响应耗时、链路耗时直接展示。能够迅速发现交易链路上的故障点,同时可直接关联日志查看系统报错。

B:从技术支撑方面来说,主要达到了以下效果

1.数据技术支撑

● 流批一体大数据处理核心,实现数据的全生命周期管理;

● 基于流批一体式处理的数据算法应用,依据算法判断辅助运维人员决策;

2.智能算法支撑

● 基于算法的告警降噪,让运维排障更具有针对性;

● 基于机器学习的算法应用,自适应数据的模型,自动调参。


更多运维思路和案例我们将持续更新,敬请期待~

关注我们,更新不迷路~