Grafana 安装启用和钉钉报警
Grafana钉钉报警的小卡片点击时无法跳转到Grafana的界面
在Grafana的配置文件.ini里
root_url = 'xxxx'
复制代码
配置上地址重启即可
一、grafana安装与启用
我这里使用的docker方式
1.数据接入、仪表盘配置展示、各指标含义本篇不详解,请参看这篇:
www.jianshu.com/p/7e7e0d067… by 简书-kang少年
2.直接三挡起步可以fork这个分支:github.com/monitoringa…
里面有很全面很正统的常见数据源grafana模板,下载再倒入就可以了
3.注意模板类型的dashboard只能用于监控和展示,接入警报需要自定义query
二、钉钉机器人创建与配置
钉钉开发者文档:ding-doc.dingtalk.com/doc#/server…
1.创建钉钉群&钉钉机器人
创建一个自定义机器人
2.在“机器人设置”中获得webhook的URL
获得webhook的URL
3.安全设置,这一步是必须的,我选择白名单模式,填入grafana服务器地址
安全设置-白名单
三、grafana设置警报
1.在grafana控制台,左边栏“Alerting”模块,创建一个警报。
Disable Resolve Message 表示健康监测为[OK]时,不发送信息。
2.创建一个测试用的dashboard和panel ,按“E”进入编辑模式,先创建一个query,选择数据源、检测项、实例ID、数据获取间隔;
3.创建一个报警规则
- Name 自定义警报名称
- Evaluate every 健康检测频率
- For 由pending变为alerting状态需要的时间 Send to 警报扳机
- Message 警报文案
4.设置一个较小的警报阈值用于测试,回到钉钉查看机器人消息
//记得打开Disable Resolve Message标签,这样[OK]状态就不会发警报了
四、其他实施细节
1)注意修改AWS控制台的EC2监控,启用“详细监控”,实际就是数据抓取频率5min → 1min
2)基本沿用测试套路,为常用的server设置报警,可以多个query放到一个panel当中
监控项:CPU负载
健康监测:每分钟计算前5分钟CPU负载平均值,大于80则报警
报警规则:均值大于80变为“pending”状态,pending状态延续3分钟启动Alert
杂项:钉钉群公告、响应人员协调、测试机器人转正、修改机器人头像
五、完善与扩展
grafana接入钉钉机器人只支持link模式,在文中使用link只是当一个文本预览使用,以下是一个link样例
{
"msgtype": "link",
"link": {
"text": "这个即将发布的新版本,创始人xx称它为红树林。而在此之前,每当面临重大升级,产品经理们都会取一个应景的代号,这一次,为什么是红树林",
"title": "时代的火车向前开",
"picUrl": "",
"messageUrl": "https://www.dingtalk.com/s?__biz=MzA4NjMwMTA2Ng==&mid=2650316842&idx=1&sn=60da3ea2b29f1dcc43a7c8e4a7c97a16&scene=2&srcid=09189AnRJEdIiWVaKltFzNTw&from=timeline&isappinstalled=0&key=&ascene=2&uin=&devicetype=android-23&version=26031933&nettype=WIFI"
}
}
复制代码
可以修改对应字段,丰富钉钉机器人的功能,比如点击链接直接转到服务控制台、监控仪表盘
相关文章
- 【技术种草】cdn+轻量服务器+hugo=让博客“云原生”一下
- CLB运维&运营最佳实践 ---访问日志大洞察
- vnc方式登陆服务器
- 轻松学排序算法:眼睛直观感受几种常用排序算法
- 十二个经典的大数据项目
- 为什么使用 CDN 内容分发网络?
- 大数据——大数据默认端口号列表
- Weld 1.1.5.Final,JSR-299 的框架
- JavaFX 2012:彻底开源
- 提升as3程序性能的十大要点
- 通过凸面几何学进行独立于边际的在线多类学习
- 利用行动影响的规律性和部分已知的模型进行离线强化学习
- ModelLight:基于模型的交通信号控制的元强化学习
- 浅谈Visual Source Safe项目分支
- 基于先验知识的递归卡尔曼滤波的代理人联合状态和输入估计
- 结合网络结构和非线性恢复来提高声誉评估的性能
- 最佳实践丨云开发CloudBase多环境管理实践
- TimeVAE:用于生成多变量时间序列的变异自动编码器
- 具有线性阈值激活的神经网络:结构和算法
- 内网渗透之横向移动 -- 从域外向域内进行密码喷洒攻击