k8s篇-问题汇总

k8s篇-问题汇总,第1张

k8s篇-问题汇总 1 节点重启导致的网络故障

问题现象:
node5内存资源不足导致机器重启,进而导致集群node2,node3节点也跟着崩溃重启,节点全部ready以后pod看着正常,但是curl nodeport发现只有node5的pod可以通,node2,node3的都curl不通;开发反馈其他通过eureka互相调用的服务之间也有问题

排查思路:
推测flannel或者docker的网络有问题;
查看各节点flannel服务日志, 发现kube-node5节点获取到的网段和docker网段不一致,
查看/run/flannel/subnet.env文件,其中的网段信息与日志一致, 断定是docker启动时没有读取到正确的配置

解决方式:重启node5上的docker服务

2 k8s升级1.15到1.20遇到的问题

问题一:新加的1.20 节点无法加入集群中,但是kubelet、kubeproxy服务状态和各项配置均正常,包括csr、token等等,但是kubelet的日志里报错为: node…unAuthorized,各种…unAuthorized

原因:不明

解决方式:重启所有master节点的controller-manager

问题二:升级之后,无法挂载PVC,报错为 kubernetes.io/csi: expected valid fsGroupPolicy, received nil value or empty string
原因:感觉是不兼容
解决方式:参考:https://github.com/kubernetes-csi/csi-driver-smb/issues/176,在kubelet配置文件中添加 --feature-gates=CSIVolumeFSGroupPolicy=false,然后重启

问题3:升级之后发现telent nodeport有的通有的不通,排查了一下ipvsadm -Ln策略发现,转发策略中的pod ip不对
原因:不明
解决方法:重启api-server

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zaji/5680952.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存