问题现象:
node5内存资源不足导致机器重启,进而导致集群node2,node3节点也跟着崩溃重启,节点全部ready以后pod看着正常,但是curl nodeport发现只有node5的pod可以通,node2,node3的都curl不通;开发反馈其他通过eureka互相调用的服务之间也有问题
排查思路:
推测flannel或者docker的网络有问题;
查看各节点flannel服务日志, 发现kube-node5节点获取到的网段和docker网段不一致,
查看/run/flannel/subnet.env文件,其中的网段信息与日志一致, 断定是docker启动时没有读取到正确的配置
2 k8s升级1.15到1.20遇到的问题解决方式:重启node5上的docker服务
问题一:新加的1.20 节点无法加入集群中,但是kubelet、kubeproxy服务状态和各项配置均正常,包括csr、token等等,但是kubelet的日志里报错为: node…unAuthorized,各种…unAuthorized
原因:不明
解决方式:重启所有master节点的controller-manager
问题二:升级之后,无法挂载PVC,报错为 kubernetes.io/csi: expected valid fsGroupPolicy, received nil value or empty string
原因:感觉是不兼容
解决方式:参考:https://github.com/kubernetes-csi/csi-driver-smb/issues/176,在kubelet配置文件中添加 --feature-gates=CSIVolumeFSGroupPolicy=false,然后重启
问题3:升级之后发现telent nodeport有的通有的不通,排查了一下ipvsadm -Ln策略发现,转发策略中的pod ip不对
原因:不明
解决方法:重启api-server
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)