k8s篇-问题汇总_随笔

k8s篇-问题汇总 1 节点重启导致的网络故障

问题现象：
node5内存资源不足导致机器重启，进而导致集群node2，node3节点也跟着崩溃重启，节点全部ready以后pod看着正常，但是curl nodeport发现只有node5的pod可以通，node2，node3的都curl不通；开发反馈其他通过eureka互相调用的服务之间也有问题

排查思路：
推测flannel或者docker的网络有问题；
查看各节点flannel服务日志, 发现kube-node5节点获取到的网段和docker网段不一致,
查看/run/flannel/subnet.env文件,其中的网段信息与日志一致, 断定是docker启动时没有读取到正确的配置

解决方式：重启node5上的docker服务

2 k8s升级1.15到1.20遇到的问题

问题一：新加的1.20 节点无法加入集群中，但是kubelet、kubeproxy服务状态和各项配置均正常，包括csr、token等等，但是kubelet的日志里报错为： node…unAuthorized，各种…unAuthorized

原因：不明

解决方式：重启所有master节点的controller-manager

问题二：升级之后，无法挂载PVC，报错为 kubernetes.io/csi: expected valid fsGroupPolicy, received nil value or empty string
原因：感觉是不兼容
解决方式：参考：https://github.com/kubernetes-csi/csi-driver-smb/issues/176，在kubelet配置文件中添加 --feature-gates=CSIVolumeFSGroupPolicy=false，然后重启

问题3：升级之后发现telent nodeport有的通有的不通，排查了一下ipvsadm -Ln策略发现，转发策略中的pod ip不对
原因：不明
解决方法：重启api-server

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zaji/5680952.html

k8s篇-问题汇总

发表评论

评论列表（0条）