CDH 配置告警服务(邮箱+企业微信)
2023-04-18 12:57:11 时间
如何在 CDH 集群出现问题的第一时间通知自己去处理呢? 本文提供了两种方法:
本文提供了两种方法:)
一、邮箱告警
这个比较简单,此处以QQ邮箱为例(其他同理)。
进入QQ邮箱 -> 邮箱设置-> 账户->IMAP/SMTP服务
点击开启 IMAP/SMTP服务
则会提示验证。
验证后会提供一个授权码,将授权码复制一下。
进入 Cloudera Manager Service 的配置页面,搜索框输入 alert 搜索找到邮箱配置。
参考下面截图配置,配置完成后保存,重启 Cloudera Manager Service,即可实现邮件告警服务。
邮件告警大致效果如下图所示:
二、企业微信群机器人告警
先创建一个企业微信群,然后添加一个机器人,该机器人会有一个 Webhook 地址(注意保密,放到公共平台上可能会被短信轰炸骚扰)
前往 Alert Publisher 所在服务器,完成以下操作。
新建告警脚本目录
mkdir -p /opt/cloudera/alert
编写企业微信告警脚本
vi /opt/cloudera/alert/alert.py
#!/usr/bin/env python
#coding: utf8
import sys
import json
import requests
import time
reload(sys)
sys.setdefaultencoding('utf-8')
def robot(data):
webhook="群机器人webhoon地址"
headers = {'content-type': 'application/json'}
r = requests.post(webhook, headers=headers, data=json.dumps(data))
r.encoding = 'utf-8'
return (r.text)
if __name__ == "__main__":
myfile = sys.stdin
alert_data = json.load(myfile)
content = "### Eights-CDH测试环境集群告警
"
for i in range(0,len(alert_data)):
alert=alert_data[i]["body"]["alert"]
timestamp= time.localtime(alert["timestamp"]["epochMs"]/1000)
content = content +"> 时间:**"+time.strftime("%Y-%m-%d %H:%M:%S",timestamp)+"**
"
content = content +"> 内容:"+alert["content"] +"
"
content = content +"> 详情:"+alert["source"]+"
"
content = content +"> ---------------------------------------
"
print(content)
data={"msgtype": "markdown","markdown": {"content": content}}
res = robot(data)
print(res)
编写告警发送脚本
vi /opt/cloudera/alert/send.sh
cat $1 > /opt/cloudera/alert/alert.log
cat $1 | python /opt/cloudera/alert/alert.py
授予该脚本目录下所有脚本权限和组
chown -R cloudera-scm:cloudera-scm /opt/cloudera/alert
chmod 755 -R /opt/cloudera/alert
然后去 Cloudera Manager Service 配置项里找到自定义警报脚本 alert.script.path
将其修改为脚本全路径 /opt/cloudera/alert/send.sh
重启Cloudera Manager Service,则配置完成。
相关文章
- 【技术种草】cdn+轻量服务器+hugo=让博客“云原生”一下
- CLB运维&运营最佳实践 ---访问日志大洞察
- vnc方式登陆服务器
- 轻松学排序算法:眼睛直观感受几种常用排序算法
- 十二个经典的大数据项目
- 为什么使用 CDN 内容分发网络?
- 大数据——大数据默认端口号列表
- Weld 1.1.5.Final,JSR-299 的框架
- JavaFX 2012:彻底开源
- 提升as3程序性能的十大要点
- 通过凸面几何学进行独立于边际的在线多类学习
- 利用行动影响的规律性和部分已知的模型进行离线强化学习
- ModelLight:基于模型的交通信号控制的元强化学习
- 浅谈Visual Source Safe项目分支
- 基于先验知识的递归卡尔曼滤波的代理人联合状态和输入估计
- 结合网络结构和非线性恢复来提高声誉评估的性能
- 最佳实践丨云开发CloudBase多环境管理实践
- TimeVAE:用于生成多变量时间序列的变异自动编码器
- 具有线性阈值激活的神经网络:结构和算法
- 内网渗透之横向移动 -- 从域外向域内进行密码喷洒攻击