您现在的位置是：首页 > 云平台

当前栏目

Prometheus GPU 监控

监控 GPU Prometheus

2023-09-14 09:16:04 时间

Prometheus GPU 监控

1，Prometheus GPU 监控
2，安装gpu-monitoring-tools
- 2.1，设置`dcgm-exporter`开机启动
3，Prometheus修改配置
4，grafana
5，使用监控面板`9957`可以切换节点
6，Grafana设置
7，使用`12027`
8，使用GPU-Nodes-Metrics-Nvidia 12639

1，Prometheus GPU 监控

安装DCGM
datacenter-gpu-manager_1.7.2_amd64.deb

# dcgmi --version

dcgmi  version: 1.7.2

2，安装gpu-monitoring-tools

# git clone https://github.com/NVIDIA/gpu-monitoring-tools.git
# cd gpu-monitoring-tools/
# make binary
go build -o dcgm-exporter github.com/NVIDIA/gpu-monitoring-tools/pkg
# make install
go build -o dcgm-exporter github.com/NVIDIA/gpu-monitoring-tools/pkg
install -m 557 dcgm-exporter /usr/bin/dcgm-exporter
install -m 557 -D ./etc/dcgm-exporter/default-counters.csv /etc/dcgm-exporter/default-counters.csv
install -m 557 -D ./etc/dcgm-exporter/dcp-metrics-included.csv /etc/dcgm-exporter/dcp-metrics-included.csv

运行dcgm-exporter

# which dcgm-exporter
/usr/bin/dcgm-exporter
# dcgm-exporter
INFO[0000] Starting dcgm-exporter
INFO[0000] DCGM successfully initialized!
INFO[0000] Pipeline starting
INFO[0000] Starting webserver

测试，可以看到监控数据

# curl 192.168.1.2:9400/metrics

2.1，设置`dcgm-exporter`开机启动

vim /lib/systemd/system/dcgm-exporter.service 新建服务

[Unit]
Description=dcgm-exporter service

[Service]
User=root
ExecStart=/usr/bin/dcgm-exporter

TimeoutStopSec=10
Restart=on-failure
RestartSec=5

[Install]
WantedBy=multi-user.target

# systemctl daemon-reload
# systemctl enable dcgm-exporter.service
# systemctl start dcgm-exporter.service
# systemctl status dcgm-exporter.service

3，Prometheus修改配置

添加dcgm-exporter

    # dcgm-exporter
  - job_name: 'gpu'
    static_configs:
    - targets: ['192.168.1.2:9400']

# cat prometheus.yml
  - job_name: 'prometheus'

    # metrics_path defaults to '/metrics'
    # scheme defaults to 'http'.

    static_configs:
    - targets: ['localhost:9090']


    # node_exporter
  - job_name: 'node'
    static_configs:
    - targets: ['127.0.0.1:9100','192.168.1.2:9100']

    # dcgm-exporter
  - job_name: 'gpu'
    static_configs:
    - targets: ['192.168.1.2:9400']

重启prometheus

systemctl restart  prometheus.service

在这里插入图片描述

4，grafana

在这里插入图片描述

5，使用监控面板`9957`可以切换节点

在这里插入图片描述

6，Grafana设置

监控功率，instance为ip地址

DCGM_FI_DEV_POWER_USAGE{instance="192.168.1.101:9400"}

显卡使用率

DCGM_FI_DEV_GPU_UTIL{instance="192.168.1.101:9400"}

7，使用`12027`

在这里插入图片描述

   # dcgm-exporter
  - job_name: 'gpu-metrics'
    static_configs:
    - targets: ['127.0.0.1:9400','192.168.1.101:9400','192.168.1.102:9400']

在这里插入图片描述

手动设置监控
查看显卡指标

curl http://127.0.0.1:9400/metrics

使用功率

DCGM_FI_DEV_POWER_USAGE{instance="127.0.0.1:9400"}

内存使用

DCGM_FI_DEV_FB_USED{instance="127.0.0.1:9400"}

总内存

DCGM_FI_DEV_FB_USED{instance="127.0.0.1:9400"}+DCGM_FI_DEV_FB_FREE{instance="127.0.0.1:9400"}

GPU使用率

DCGM_FI_DEV_GPU_UTIL{instance="127.0.0.1:9400"}

GPU内存使用率

DCGM_FI_DEV_MEM_COPY_UTIL{instance="192.168.0.114:9400"}

8，使用GPU-Nodes-Metrics-Nvidia 12639

参考：

猜你喜欢

Dockerfile脚本：CMD与ENTRYPOINT的区别
Java实现蓝桥杯算法训练 Anagrams问题
MIFARE系列4《组成图》
JavaScript 函数的定义和参数的获取
Dubbo本地调用
查看、校验、归档…带你掌握openGauss账本数据库
nRF905 - 系列示意图
已解决ModuleNotFoundError: No module named ‘hanlp.Hanlptext‘
(Mac Android Studio)Unable to connect to ADB.Check the Event Log for possible issues.Verify that you
Java实现串中取3个不重复字母
[React] React Router: Router, Route, and Link
opencv orb

相关主题

Zabbix监控系统
Mysql 监控
Mysql 监控2
Nagios 监控
linux 进程监控
Tomcat 监控
电脑被监控？
监控告警
Elasticsearch 监控1
Elasticsearch 监控6
Elasticsearch 监控7
5、Kafka 监控
Oracle 监控
监控平台

zl程序教程

当前栏目

Prometheus GPU 监控

Prometheus GPU 监控

1，Prometheus GPU 监控

2，安装gpu-monitoring-tools

2.1，设置`dcgm-exporter`开机启动

3，Prometheus修改配置

4，grafana

5，使用监控面板`9957`可以切换节点

6，Grafana设置

7，使用`12027`

8，使用GPU-Nodes-Metrics-Nvidia 12639

相关文章

当前栏目

Prometheus GPU 监控

Prometheus GPU 监控

1，Prometheus GPU 监控

2，安装gpu-monitoring-tools

2.1，设置dcgm-exporter开机启动

3，Prometheus修改配置

4，grafana

5，使用监控面板9957可以切换节点

6，Grafana设置

7，使用12027

8，使用GPU-Nodes-Metrics-Nvidia 12639

相关文章

2.1，设置`dcgm-exporter`开机启动

5，使用监控面板`9957`可以切换节点

7，使用`12027`