k8s_python_内存溢出

一、背景

最近flink在执行任务时频繁报错，提示连接taskmanager超时，在flink任务报错5-6次后，该任务变以faled状态结束，导致我们得数据没有进行实时传输

二、问题排查

通过查看flink job-mangager和task-manager日志查看返现刚刚启动没有久得flink任务存在连接taskmanager超时问题，观察flink得task-manager得pod状态，确实是刚刚启动几十分钟，为什么taskmanager会发生重启呢，而其他的taskmanager均在正常运行使用kubectl get pod -o wide -n ns| grep flink发现重启的task-manager均在同一节点，于是便怀疑这台节点有问题。
首先查看node状态，正常OK
再查看组件运行状态，kubelete、flanneld、kube-proxy等，OK没有重启现象
既然k8s集群没问题，那么就是网络有问题，仔细排查，发现到网关也正常，通过命令ifconfig发现很重要的问题

这个bond0网卡有个dropped 6但是其他机器都是0，于是上网查了以下发现：TX dropped “发送时，丢弃的数据包数“。
这样原因就找到了，既然是网络问题，那就从网络排查，因为是bond模式所以不应该存在底层网络链接的问题，那就只能是Bond模式有问题了。
使用命令查看：cat /proc/net/bonding/bond0

哦豁、问题出来了，配置的bond1模式没有生效，因为网络那边的人说，交换机只识别bond1模式，具体不清楚，查看Bond配置没问题，那就使用命令：modprobe -r bonding使bond1模式生效。然后重启网卡，成功改为bond1模式，至此没有丢包现象，观察一天后，taskmanager正常运行，问题圆满解决。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/langs/736331.html

k8s

发表评论

评论列表（0条）