一次由于网卡流量跑满引起的服务器丢包总结_服务器

一次由于网卡流量跑满引起的服务器丢包总结

最近网上某DB服务器ping丢包率一直在30%左右。根据Zabbix的监督，查询服务器的CPU，运行内存一切正常。网口总流量不高，基数在100M左右。

首先确定服务器硬件配置正常，因为没有硬件配置告警。根据惠普可视化工具，登录服务器确认所有硬件信息正常(电脑硬盘、缓存文件卡、运行内存等。).
第二步，检查系统软件问题。根据top、ps等指示，没有任何异常，大部分系统软件问题被清除。
第三步查询了本服务器上上行主管端口号的总流量，一切正常，因为收到本唯一服务器的告警也清除了上行网络交换机的常见故障。
最后，我向朋友咨询了服务器安装服务的类型，每2分钟就会有大量的数据库文件上传到服务器。然后我用sar命令查看网络总流量，发现总推送流量瞬间12万KB/s，计算出的B/s大部分是940-950Mb/s，也就是说总千兆网卡流量大部分是满的，会造成服务器的ping丢包率。

因为我的监督是五分钟一次，匹配的服务器没有一瞬间得到很高的总流量，监督间隔不得不加大。

顺便说一下，sar命令的常用选项总结如下。sar命令行的常用文件格式如下:

sar 选择项抽样间隔时间輸出频次

1)查询CPU信息内容，1表示每秒取值一次，2表示数据信息采集两次。

[root@monitor ~]# sar -u 1 2 Linux 2.6.32-358.el6.x86_64 (monitor) 08/05/16 _x86_64_ (24 CPU) 10:51:39 CPU %user %nice %system %iowait %steal %idle 10:51:40 all 0.08 0.00 0.17 0.00 0.00 99.75 10:51:41 all 0.21 0.00 0.21 0.00 0.00 99.58 Average: all 0.15 0.00 0.19 0.00 0.00 99.67

项目指示:

CPU all 表明统计数据为全部CPU的均值。 %user 显示信息在客户等级(application)运作应用CPU总時间的百分数。 %nice 显示信息在客户等级，用以nice实际 *** 作，所占有CPU总時间的百分数。 %system 在关键等级(kernel)运作所应用CPU总時间的百分数。 %iowait 显示信息用以等候I/O实际 *** 作占有 CPU 总時间的百分数。 %steal 管理流程(hypervisor)为另一个虚似过程出示服务项目而等候虚似 CPU 的百分数。 %idle 显示信息CPU空闲时间占有CPU总時间的百分数。

2)查询网线端口的信息内容。

[root@monitor ~]# sar -n DEV 1 2 Linux 2.6.32-358.el6.x86_64 (monitor) 08/05/16 _x86_64_ (24 CPU) 11:04:22 IFACE rxpck/s txpck/s rxkB/s txkB/s rxcmp/s txcmp/s rxmcst/s 11:04:23 lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00 11:04:23 eth0 140.40 170.71 98.07 84.00 0.00 0.00 2.02 11:04:23 eth1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 11:04:23 eth2 0.00 0.00 0.00 0.00 0.00 0.00 0.00 11:04:23 eth3 0.00 0.00 0.00 0.00 0.00 0.00 0.00 11:04:23 IFACE rxpck/s txpck/s rxkB/s txkB/s rxcmp/s txcmp/s rxmcst/s 11:04:24 lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00 11:04:24 eth0 40.59 26.73 41.62 4.17 0.00 0.00 0.99 11:04:24 eth1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 11:04:24 eth2 0.00 0.00 0.00 0.00 0.00 0.00 0.00 11:04:24 eth3 0.00 0.00 0.00 0.00 0.00 0.00 0.00 Average: IFACE rxpck/s txpck/s rxkB/s txkB/s rxcmp/s txcmp/s rxmcst/s Average: lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00 Average: eth0 90.00 98.00 69.56 43.69 0.00 0.00 1.50 Average: eth1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 Average: eth2 0.00 0.00 0.00 0.00 0.00 0.00 0.00 Average: eth3 0.00 0.00 0.00 0.00 0.00 0.00 0.00

项目指示:

IFACE 计算机设备名 rxpck/s 每秒钟接受的包总数 txpck/s 每秒钟传送的包总数 rxKB/s 每秒钟接受的字节数（byte）总数 txKB/s 每秒钟传送的字节数（byte）总数 rxcmp/s 每秒钟接受压缩文件的总数 txcmp/s 每秒钟传送压缩文件的总数 rxmcst/s 每秒钟接受的多播（multicast）包的总数3）查询硬盘1/0信息内容。

[root@monitor ~]# sar -b 1 2 Linux 2.6.32-358.el6.x86_64 (monitor) 08/05/16 _x86_64_ (24 CPU) 11:07:55 tps rtps wtps bread/s bwrtn/s 11:07:56 11.11 0.00 11.11 0.00 129.29 11:07:57 6.93 0.00 6.93 0.00 63.37 Average: 9.00 0.00 9.00 0.00 96.00

项目指示:

tps 每秒物理学机器设备的I/O传送总产量 rtps 每秒从物理学机器设备读取的数据信息总产量 wtps 每秒向物理学机器设备载入的数据信息总产量 bread/s 每秒从物理学机器设备读取的信息量，企业为块/s bwrtn/s 每秒向物理学机器设备载入的信息量，企业为块/s

总结:在整个运维服务过程中，服务器的下级指标值是普遍关注的。
CPU利用率:如果服务器CPU利用率超过80-85%，说明服务器CPU忙于解决工作，CPU特性必须改善。
CPUiowait:如果服务器CPUiowait的值超过5-10%，说明硬盘I/O存在短板，必须提高电脑硬盘的读写速度。
网络端口总流量:网络端口总流量与上行网络交换机和服务器的网络端口相关。如果系统软件和互联网都正常，服务器有丢包率，就要考虑网口吞吐率是否受限。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/778519.html

一次由于网卡流量跑满引起的服务器丢包总结

发表评论

评论列表（0条）