local_rank,rank,node等理解
2023-04-18 16:28:50 时间
node: 代表物理节点,即电脑台数,一台电脑可以有多个GPU
nnodes:物理节点数,就是电脑数量
node_rank:物理节点的序号,每个电脑的序号
nproc_per_node:每个物理节点上面进程的数量,等价于每个电脑上GPU的数量,就是可以开几个进程。
group:进程组。默认只有一个组
rank & local_rank:
在整个分布式中的序号,每个进程都有一个rank和一个local_rank,rank是相对整个分布式而言(就是序号从0开始一直到整个分布式中最后一个GPU的数,类似于range(0,整个分布式GPU数量),这里不是相对于一个node而言,是所有node的GPU总和),local_rank是每个进程或者GPU相对属于哪个node而言的编号。另外,rank=0代表master进程
如图所示:
有三个node,每个node有4个GPU(则每个node会有四个进程,一个进程对应一个GPU)
在单机多卡的情况下:WORLD_SIZE代表着使用进程数量(一个进程对应一块GPU),这里RANK和LOCAL_RANK这里的数值是一样的,代表着WORLD_SIZE中的第几个进程(GPU)。
在多机多卡的情况下:WORLD_SIZE代表着所有机器中总进程数(一个进程对应一块GPU),RANK代表着是在WORLD_SIZE中的哪一个进程,LOCAL_RANK代表着当前机器上的第几个进程(GPU)。
参考:
2.https://blog.csdn.net/qq_37541097/article/details/109736159
相关文章
- 一款小清新的 SpringBoot+ Mybatis 前后端分离后台管理系统项目
- linux三剑客之awk,linux必学的强大工具!
- 漏斗图(Funnel Plots)这下介绍的够全面了吧~
- 不行了, 我实在憋不住了···
- 这道小学六年级的数学题,恕我直言没几个人会做
- 写了个爬虫,收集了b站所有的弹幕
- 一文搞懂 Container 运行原理
- Window 下 FFmpeg 和 LibX264 的编译和配置
- 网络显形计(实战TCP三次握手)
- netty 系列之: 从零到壹, 搭建一个 SOCKS 代理服务器
- 一文带你搞定TCP连接队列
- TMR|未来10年全球AI药物发现市场将以36.1%的复合年均增长率增长
- 一次由误修改/etc/profile文件后导致SSH无法登录的故障复盘
- 【实践】GrayLog4.2使用webhook成功推送日志告警到钉钉群机器人
- MSSQL触发器语句自定义错误,VFP怎么获取
- LeetCode刷题实战470:用 Rand7() 实现 Rand10()
- LeetCode刷题实战471:编码最短长度的字符串
- LeetCode刷题实战472:连接词
- LeetCode刷题实战473:火柴拼正方形
- LeetCode刷题实战474:一和零