k8s

k8s,第1张

一、背景

最近flink在执行任务时频繁报错,提示连接taskmanager超时,在flink任务报错5-6次后,该任务变以faled状态结束,导致我们得数据没有进行实时传输

二、问题排查

通过查看flink job-mangager和task-manager日志查看返现刚刚启动没有久得flink任务存在连接taskmanager超时问题,观察flink得task-manager得pod状态,确实是刚刚启动几十分钟,为什么taskmanager会发生重启呢,而其他的taskmanager均在正常运行使用kubectl get pod -o wide -n ns| grep flink发现重启的task-manager均在同一节点,于是便怀疑这台节点有问题。
首先查看node状态,正常OK
再查看组件运行状态,kubelete、flanneld、kube-proxy等,OK没有重启现象
既然k8s集群没问题,那么就是网络有问题,仔细排查,发现到网关也正常,通过命令ifconfig发现很重要的问题

这个bond0网卡有个dropped 6但是其他机器都是0,于是上网查了以下发现:TX dropped “发送时,丢弃的数据包数“。
这样原因就找到了,既然是网络问题,那就从网络排查,因为是bond模式所以不应该存在底层网络链接的问题,那就只能是Bond模式有问题了。
使用命令查看:cat /proc/net/bonding/bond0

哦豁、问题出来了,配置的bond1模式没有生效,因为网络那边的人说,交换机只识别bond1模式,具体不清楚,查看Bond配置没问题,那就使用命令:modprobe -r bonding使bond1模式生效。然后重启网卡,成功改为bond1模式,至此没有丢包现象,观察一天后,taskmanager正常运行,问题圆满解决。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/langs/736331.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-28
下一篇 2022-04-28

发表评论

登录后才能评论

评论列表(0条)

保存