zl程序教程

您现在的位置是:首页 >  Java

当前栏目

推荐一个更好的nvidia-smi,用于多人集群按照用户名查看GPU使用情况

2023-02-18 16:28:50 时间

无论是个人使用GPU, 还是多人使用GPU集群,都会面临查看进程占用GPU情况,以合理调配GPU使用。

一种办法是用nvidia-smi,如图

image.png

用ps -aux命令找到想要关闭进程的对应PID,然后根据PID关闭进程(kill -9 PID)。实际上ps -aux会出一大堆(太长不展示了。。)后台近乎不占据任何资源的进程, 所以找起来真的很费劲。

因而, 这里推荐一个工具nvidia-htop,链接在https://github.com/peci1/nvidia-htop

pip安装后, 使用 nvidia-htop.py -l 查看当前集群内GPU占用情况, 有nvidia-smi自带的信息,同时还带有更详细的比如进程所属用户名称,所调用的命令,如图

image.png

这样就可以准确清晰找到目标进程的信息, 进行管理。