为什么Kubernetes从节点会join失败
Kubernetes节点 为什么 失败 Join
2023-06-13 09:11:24 时间
有段时间没有鼓捣Kubernetes了,今天重置Kubernetes集群后,slave节点不能加入master节点了,我把问题和解决方案分享给大家。
我本地的Kubernetes集群包括一个主节点和一个从节点,如下图:
问题
主节点启动后,从节点加入,命令如下:
kubeadm join 192.168.59.149:6443 --token nf2hbm.h1d67djxey0jv90h --discovery-token-ca-cert-hash sha256:12e71102d6f44c85c1717079f26c36a706cb11894c36af6d055fa39036e805ae
等了一段时间后,报了下面的错误:
error execution phase preflight: couldn't validate the identity of the API Server: abort connecting to API servers after timeout of 5m0s
日志不够完整,在命令后面加 --v=5,重新执行来查看详细日志,发现下面这个失败日志反复打印:
Failed to request cluster info: [Get https://192.168.59.149:6443/api/v1/namespaces/kube-public/configmaps/cluster-info?timeout=10s: x509: certificate has expired or is not yet valid。
问题排查
token过期
首先想到的是token过期,查看token,命令和输出如下:
[root@master ~]# kubeadm token list
failed to list bootstrap tokens: Get https://192.168.59.149:6443/api/v1/namespaces/kube-system/secrets?fieldSelector=type%3Dbootstrap.kubernetes.io%2Ftoken: x509: certificate signed by unknown authority (possibly because of "crypto/rsa: verification error" while trying to verify candidate authority certificate "kubernetes")
这个输出有点诡异,网上说是内存不够了,我查看了内存,并不紧张:
[root@master ~]# free -h
total used free shared buff/cache available
Mem: 3.7G 1.1G 132M 30M 2.4G 2.1G
Swap: 0B 0B 0B
仔细查看了输出,有个x509,想起了以前的解决方法,执行下面三个命令:
mkdir -p $HOME/.kube
sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
sudo chown $(id -u):$(id -g) $HOME/.kube/config
再次查看token,可以了,输出如下:
kubeadm token list
TOKEN TTL EXPIRES USAGES DESCRIPTION EXTRA GROUPS
o898hy.0y2s6cqsidpwmbkh 23h 2021-05-10T23:26:55+08:00 authentication,signing The default bootstrap token generated by 'kubeadm init'. system:bootstrappers:kubeadm:default-node-token
重新生成token和秘钥,命令和输出如下:
[root@master ~]# kubeadm token create
nf2hbm.h1d67djxey0jv90h
[root@master ~]# openssl x509 -pubkey -in /etc/kubernetes/pki/ca.crt | openssl rsa -pubin -outform der 2>/dev/null | openssl dgst -sha256 -hex | sed 's/^.* //'
12e71102d6f44c85c1717079f26c36a706cb11894c36af6d055fa39036e805ae
生成后,在从节点上用新的token和秘钥继续执行加入命令,问题依旧。
时间问题
Kubernetes的token有效期是24小时,但是秘钥是新生成的,不可能过期。
那是不是系统时间有问题?查看了一下系统时间,果然找到了猫腻。系统时间如下:
主节点系统时间:
[root@master ~]# date
2021年 05月 10日 星期一 07:22:42 CST
从节点系统时间:
[root@worker1 ~]# date
Sun May 9 11:22:28 EDT 2021
主节点的时间晚于从节点,这就是问题所在。
解决问题
在主节点和从节点执行如下命令:
[root@master ~]# ntpdate ntp1.aliyun.com
9 May 23:23:00 ntpdate[39100]: step time server 120.25.115.20 offset -28801.403856 sec
[root@worker1 ~]# ntpdate ntp1.aliyun.com
9 May 11:23:18 ntpdate[22420]: adjust time server 120.25.115.20 offset -0.001241 sec
这下时间一致了。
重新生成token和秘钥,问题解决。
相关文章
- kubernetes核心实战(一)--- namespace
- 升级二进制kubernetes集群
- 理解Kubernetes联合鉴权的工作机制
- Kubernetes节点与 Pod 亲和性
- Kubernetes 二进制部署(二)集群部署(多 Master 节点通过 Nginx 负载均衡)
- 使用kubeadm搭建多节点Kubernetes集群
- Kubernetes 领进门 | 安装 kubernetes-dashboard 可视化面板
- Kubernetes 1.26 中的删除、弃用和主要更改
- Kubernetes 1.26 正式发布,所有变化都在这儿了!
- kubernetes证书过期处理
- kubernetes组件介绍
- kubernetes调度策略
- kubernetes中的探针使用
- kubernetes新增和移除节点步骤
- 揭秘 ChatGPT 背后的技术栈:OpenAI 如何将 Kubernetes 扩展到了 7500 个节点
- Kubernetes容器netns无法删除问题
- Kubernetes-v1-24版安装部署之Node节点安装部署
- Kubernetes集群部署之四Master节点部署详解架构师
- Mesosphere 携手Kubernetes 拥抱Google Cloud Platform