Docker如何实现资源隔离
引言:理解docker如何做资源隔离,揭开容器的神秘面纱。
我们在启动一个docker容器之后,在容器内的资源和宿主机上其他进程是隔离的,docker的资源隔离是怎么做到的呢?docker的资源隔离主要依赖Linux的Namespace和Cgroups两个技术点。Namespace是Linux提供的资源隔离机制,说的直白一点,就是调用Linux内核的方法,实现各种资源的隔离。具体包括:文件系统、网络设备和端口、进程号、用户用户组、IPC等资源
Linux实现的Namespace包括多种类型:
Namespace类型 | 系统调用参数 | 隔离的资源 |
---|---|---|
UTS | CLONE_NEWUTS | 域名、主机名 |
IPC | CLONE_NEWIPC | 进程间通讯(用到的消息队列、共享内存) |
PID | CLONE_NEWPID | 进程 |
Network | CLONE_NEWNET | 网络设备、网络栈、端口 |
Mount | CLONE_NEWNS | 挂载点 |
User | CLONE_NEWUSER | 用户用户组 |
下面我们使用go语言演示一下各种资源隔离的实现效果:
package main
import (
"log"
"os"
"os/exec"
"syscall"
)
func main() {
cmd := exec.Command("sh")
cmd.SysProcAttr = &syscall.SysProcAttr{
Cloneflags: syscall.CLONE_NEWUTS | syscall.CLONE_NEWIPC | syscall.CLONE_NEWPID | syscall.CLONE_NEWNS | syscall.CLONE_NEWUSER,
UidMappings: []syscall.SysProcIDMap{
{
ContainerID: 1,
HostID: 1,
Size: 1,
},
},
GidMappings: []syscall.SysProcIDMap{
{
ContainerID: 1,
HostID: 1,
Size: 1,
},
},
}
cmd.Stdin = os.Stdin
cmd.Stdout = os.Stdout
cmd.Stderr = os.Stderr
if err := cmd.Run(); err != nil {
log.Fatalf("run faild: %+v", err)
}
}
解释一下关键代码,我们调用exec.Command来达到c语言fork进程的效果,syscall.CLONE_NEWUTS | syscall.CLONE_NEWIPC | syscall.CLONE_NEWPID | syscall.CLONE_NEWNS | syscall.CLONE_NEWUSER表示新的进程中,各种类型的资源使用新的namespace。(画外音:docker也封装了一个包github.com/docker/docker/pkg/reexec可以创建子进程)
编译完上面的go代码,接下来是各种Namespace资源隔离的验证环节。
UTS的验证过程:
上图中,运行刚才编译完的代码,执行后进入一个shell环境,在shell环境中,修改hostname为xingzhou。
打开新的窗口,查看hostname,发现当前的hostname不变。
这就说明了,新创建的进程中hostname和主进程是隔离的。
IPC的验证过程:
子进程:
- 执行ipcs -q命令, 查看Message Queues是空的
- 执行ipcmk -Q命令,创建一个MessageQueues
- 执行ipcs -q命令可以看到刚才添加的Queue
宿主机:
- 执行ipcs -q命令看到,MessageQueues是空的。
说明子进程和宿主机之间IPC是隔离的。
PID的验证过程:
1.在容器内执行echo $$ 命令,看到当前进程号是1
2.在宿主机执行ps aux 看到启动的服务进程号是62
Network的验证过程:
宿主机上执行ifconfig能看到网络设备信息,容器内看不到网络设备信息。
所以二者的Network的Namespace也是隔离的
Mount的验证过程:
容器内执行:
宿主机执行:
- 在容器内执行ls /proc查看proc的相关内容
- 在容器内执行mount -t proc proc /proc 把proc挂载到当前进程的proc目录下
- 执行 ps -ef查看到当前容器的进程,通过这个也进一步验证了PID的隔离
- 执行ls /proc看到当前的proc下面的内容已经发生了变化
- 在宿主机执行ls /proc ,把执行结果和上一步的结果对比,发现两者内容已经完全不同了
这就验证了Mount的Namespace创建成功,而且新的mount命令只会影响当前进程,并不会影响宿主机
User的验证:
- 宿主机上执行id
- 启动容器
- 容器内执行id 比较两次的结果,会发现是不同的uid gid信息,所以User的Namespace也是生效的。
然后介绍下Cgroups:
Cgroups是Linux内核提供的资源限制和隔离的机制,全称:Control groups。
Cgroups为每种可以控制的资源定义了一个子系统
具体包括:
- cpu: 限制可以使用的cpu使用率
- cpuset:为进程单独分配cpu或者内存节点
- cpuacct:统计cgroups中的进程对cpu的使用报告
- memory:限制内存的使用
- blkio:限制进程的块设备io(块设备是指以“块”作为单位的设备,比如:磁盘、U盘)
- devices:控制进程能够访问哪些设备
- freezer:挂起或者恢复cgroups中的进程
- net_cls:标记cgroups进程的网络数据包,然后通过traffic control对数据包进行流量控制
- net_prio:限制进程网络流量的优先级
- ns:控制cgroups中的进程使用不同的namespace
(不同linux版本对Cgroups子系统的实现略有差异,这里列举的内容仅仅作为参考)
docker就是调用cgroups的接口实现了不同容器对物理资源的控制。
docker依赖Linux的Namespace和Cgroups实现了进程的运行环境隔离。
docker在具体实现的时候,抽象了一个模块叫”libcontainer“,把Linux内核相关的API做了一层封装,包括Namespace、Cgroups、网络、设备等。
通过这一层抽象,增大了docker支持其他操作系统的可行性。
总结:Linux系统的虚拟化技术,为docker提供了底层技术支撑。
相关文章
- 为什么不推荐Docker文件挂载?
- Docker部署_docker部署网站
- docker部署Discuz论坛
- Docker | 自定义网络(网关、子网地址)
- docker 离线安装_Docker安装
- Docker学习4-常用命令之重要的容器命令
- Docker服务的查看服务状态命令(systemctl status docker)
- Docker服务的搜索镜像命令(docker search 镜像名称)
- Docker高级篇:docker网络的四种类型
- 「 【Docker】设置docker加速器(如何使docker下载速度变快) 」
- 软件测试|Docker搭建测试用例平台 TestLink
- Docker部署tomcat
- 【Docker 系列】docker 学习 四,镜像相关原理
- 【Docker 系列】docker 学习九,Compose 内容编排官网初步体验
- Docker之Dockerfile实践
- Docker - docker-compose搭建ELK服务
- 【Linux 系列】Watchtower - 自动更新 Docker 镜像与容器
- Docker入门:使用Dockerfile构建Docker镜像
- docker desktop v20 设置文件路径,windows docker 设置设置路径详解程序员
- 使用Docker安装Redis并配置成功(docker安装redis)
- dockerMySQL on Docker: A Comprehensive Guide(mysqlwithin)
- 镜像命名的最佳实践 – 每天5分钟玩转 Docker 容器技术(18)
- docker用Docker构建Redis集群的步骤(redis集群使用)
- 一键部署:使用Docker轻松搭建Redis容器(Redis容器部署)
- 的docker容器创建并使用Docker容器启动Redis数据库(创建并启动名为redis)