一次由于网卡流量跑满引起的服务器丢包总结

一次由于网卡流量跑满引起的服务器丢包总结,第1张

一次由于网卡流量跑满引起的服务器丢包总结

最近网上某DB服务器ping丢包率一直在30%左右。根据Zabbix的监督,查询服务器的CPU,运行内存一切正常。网口总流量不高,基数在100M左右。

首先确定服务器硬件配置正常,因为没有硬件配置告警。根据惠普可视化工具,登录服务器确认所有硬件信息正常(电脑硬盘、缓存文件卡、运行内存等。).
第二步,检查系统软件问题。根据top、ps等指示,没有任何异常,大部分系统软件问题被清除。
第三步查询了本服务器上上行主管端口号的总流量,一切正常,因为收到本唯一服务器的告警也清除了上行网络交换机的常见故障。
最后,我向朋友咨询了服务器安装服务的类型,每2分钟就会有大量的数据库文件上传到服务器。然后我用sar命令查看网络总流量,发现总推送流量瞬间12万KB/s,计算出的B/s大部分是940-950Mb/s,也就是说总千兆网卡流量大部分是满的,会造成服务器的ping丢包率。

因为我的监督是五分钟一次,匹配的服务器没有一瞬间得到很高的总流量,监督间隔不得不加大。

顺便说一下,sar命令的常用选项总结如下。sar命令行的常用文件格式如下:

sar 选择项 抽样间隔时间 輸出频次

1)查询CPU信息内容,1表示每秒取值一次,2表示数据信息采集两次。

[root@monitor ~]# sar -u 1 2 Linux 2.6.32-358.el6.x86_64 (monitor)     08/05/16     _x86_64_    (24 CPU) 10:51:39        CPU     %user     %nice   %system   %iowait    %steal     %idle 10:51:40        all      0.08      0.00      0.17      0.00      0.00     99.75 10:51:41        all      0.21      0.00      0.21      0.00      0.00     99.58 Average:        all      0.15      0.00      0.19      0.00      0.00     99.67

项目指示:

CPU          all 表明统计数据为全部CPU的均值。 %user        显示信息在客户等级(application)运作应用CPU总時间的百分数。 %nice        显示信息在客户等级,用以nice实际 *** 作,所占有CPU总時间的百分数。 %system      在关键等级(kernel)运作所应用CPU总時间的百分数。 %iowait      显示信息用以等候I/O实际 *** 作占有 CPU 总時间的百分数。 %steal       管理流程(hypervisor)为另一个虚似过程出示服务项目而等候虚似 CPU 的百分数。 %idle        显示信息CPU空闲时间占有CPU总時间的百分数。

2)查询网线端口的信息内容。

[root@monitor ~]# sar -n DEV 1 2 Linux 2.6.32-358.el6.x86_64 (monitor)     08/05/16     _x86_64_    (24 CPU) 11:04:22        IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s 11:04:23           lo      0.00      0.00      0.00      0.00      0.00      0.00      0.00 11:04:23         eth0    140.40    170.71     98.07     84.00      0.00      0.00      2.02 11:04:23         eth1      0.00      0.00      0.00      0.00      0.00      0.00      0.00 11:04:23         eth2      0.00      0.00      0.00      0.00      0.00      0.00      0.00 11:04:23         eth3      0.00      0.00      0.00      0.00      0.00      0.00      0.00 11:04:23        IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s 11:04:24           lo      0.00      0.00      0.00      0.00      0.00      0.00      0.00 11:04:24         eth0     40.59     26.73     41.62      4.17      0.00      0.00      0.99 11:04:24         eth1      0.00      0.00      0.00      0.00      0.00      0.00      0.00 11:04:24         eth2      0.00      0.00      0.00      0.00      0.00      0.00      0.00 11:04:24         eth3      0.00      0.00      0.00      0.00      0.00      0.00      0.00 Average:        IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s Average:           lo      0.00      0.00      0.00      0.00      0.00      0.00      0.00 Average:         eth0     90.00     98.00     69.56     43.69      0.00      0.00      1.50 Average:         eth1      0.00      0.00      0.00      0.00      0.00      0.00      0.00 Average:         eth2      0.00      0.00      0.00      0.00      0.00      0.00      0.00 Average:         eth3      0.00      0.00      0.00      0.00      0.00      0.00      0.00

项目指示:

IFACE        计算机设备名 rxpck/s      每秒钟接受的包总数 txpck/s      每秒钟传送的包总数 rxKB/s       每秒钟接受的字节数(byte)总数 txKB/s       每秒钟传送的字节数(byte)总数 rxcmp/s      每秒钟接受压缩文件的总数 txcmp/s      每秒钟传送压缩文件的总数 rxmcst/s     每秒钟接受的多播(multicast)包的总数3)查询硬盘1/0信息内容。


[root@monitor ~]# sar -b 1 2 Linux 2.6.32-358.el6.x86_64 (monitor)     08/05/16     _x86_64_    (24 CPU) 11:07:55          tps      rtps      wtps   bread/s   bwrtn/s 11:07:56        11.11      0.00     11.11      0.00    129.29 11:07:57         6.93      0.00      6.93      0.00     63.37 Average:         9.00      0.00      9.00      0.00     96.00

项目指示:

tps       每秒物理学机器设备的I/O传送总产量 rtps      每秒从物理学机器设备读取的数据信息总产量 wtps      每秒向物理学机器设备载入的数据信息总产量 bread/s   每秒从物理学机器设备读取的信息量,企业为 块/s bwrtn/s   每秒向物理学机器设备载入的信息量,企业为 块/s

总结:在整个运维服务过程中,服务器的下级指标值是普遍关注的。
CPU利用率:如果服务器CPU利用率超过80-85%,说明服务器CPU忙于解决工作,CPU特性必须改善。
CPUiowait:如果服务器CPUiowait的值超过5-10%,说明硬盘I/O存在短板,必须提高电脑硬盘的读写速度。
网络端口总流量:网络端口总流量与上行网络交换机和服务器的网络端口相关。如果系统软件和互联网都正常,服务器有丢包率,就要考虑网口吞吐率是否受限。




欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/778519.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-03
下一篇 2022-05-03

发表评论

登录后才能评论

评论列表(0条)

保存