一次由于网卡流量跑满引起的服务器丢包总结
最近网上某DB服务器ping丢包率一直在30%左右。根据Zabbix的监督,查询服务器的CPU,运行内存一切正常。网口总流量不高,基数在100M左右。
首先确定服务器硬件配置正常,因为没有硬件配置告警。根据惠普可视化工具,登录服务器确认所有硬件信息正常(电脑硬盘、缓存文件卡、运行内存等。).
第二步,检查系统软件问题。根据top、ps等指示,没有任何异常,大部分系统软件问题被清除。
第三步查询了本服务器上上行主管端口号的总流量,一切正常,因为收到本唯一服务器的告警也清除了上行网络交换机的常见故障。
最后,我向朋友咨询了服务器安装服务的类型,每2分钟就会有大量的数据库文件上传到服务器。然后我用sar命令查看网络总流量,发现总推送流量瞬间12万KB/s,计算出的B/s大部分是940-950Mb/s,也就是说总千兆网卡流量大部分是满的,会造成服务器的ping丢包率。
因为我的监督是五分钟一次,匹配的服务器没有一瞬间得到很高的总流量,监督间隔不得不加大。
顺便说一下,sar命令的常用选项总结如下。sar命令行的常用文件格式如下:
sar 选择项 抽样间隔时间 輸出频次
1)查询CPU信息内容,1表示每秒取值一次,2表示数据信息采集两次。
[root@monitor ~]# sar -u 1 2
Linux 2.6.32-358.el6.x86_64 (monitor) 08/05/16 _x86_64_ (24 CPU)
10:51:39 CPU %user %nice %system %iowait %steal %idle
10:51:40 all 0.08 0.00 0.17 0.00 0.00 99.75
10:51:41 all 0.21 0.00 0.21 0.00 0.00 99.58
Average: all 0.15 0.00 0.19 0.00 0.00 99.67
项目指示:
CPU all 表明统计数据为全部CPU的均值。
%user 显示信息在客户等级(application)运作应用CPU总時间的百分数。
%nice 显示信息在客户等级,用以nice实际 *** 作,所占有CPU总時间的百分数。
%system 在关键等级(kernel)运作所应用CPU总時间的百分数。
%iowait 显示信息用以等候I/O实际 *** 作占有 CPU 总時间的百分数。
%steal 管理流程(hypervisor)为另一个虚似过程出示服务项目而等候虚似 CPU 的百分数。
%idle 显示信息CPU空闲时间占有CPU总時间的百分数。
2)查询网线端口的信息内容。
[root@monitor ~]# sar -n DEV 1 2
Linux 2.6.32-358.el6.x86_64 (monitor) 08/05/16 _x86_64_ (24 CPU)
11:04:22 IFACE rxpck/s txpck/s rxkB/s txkB/s rxcmp/s txcmp/s rxmcst/s
11:04:23 lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00
11:04:23 eth0 140.40 170.71 98.07 84.00 0.00 0.00 2.02
11:04:23 eth1 0.00 0.00 0.00 0.00 0.00 0.00 0.00
11:04:23 eth2 0.00 0.00 0.00 0.00 0.00 0.00 0.00
11:04:23 eth3 0.00 0.00 0.00 0.00 0.00 0.00 0.00
11:04:23 IFACE rxpck/s txpck/s rxkB/s txkB/s rxcmp/s txcmp/s rxmcst/s
11:04:24 lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00
11:04:24 eth0 40.59 26.73 41.62 4.17 0.00 0.00 0.99
11:04:24 eth1 0.00 0.00 0.00 0.00 0.00 0.00 0.00
11:04:24 eth2 0.00 0.00 0.00 0.00 0.00 0.00 0.00
11:04:24 eth3 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Average: IFACE rxpck/s txpck/s rxkB/s txkB/s rxcmp/s txcmp/s rxmcst/s
Average: lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Average: eth0 90.00 98.00 69.56 43.69 0.00 0.00 1.50
Average: eth1 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Average: eth2 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Average: eth3 0.00 0.00 0.00 0.00 0.00 0.00 0.00
项目指示:
IFACE 计算机设备名
rxpck/s 每秒钟接受的包总数
txpck/s 每秒钟传送的包总数
rxKB/s 每秒钟接受的字节数(byte)总数
txKB/s 每秒钟传送的字节数(byte)总数
rxcmp/s 每秒钟接受压缩文件的总数
txcmp/s 每秒钟传送压缩文件的总数
rxmcst/s 每秒钟接受的多播(multicast)包的总数3)查询硬盘1/0信息内容。
[root@monitor ~]# sar -b 1 2
Linux 2.6.32-358.el6.x86_64 (monitor) 08/05/16 _x86_64_ (24 CPU)
11:07:55 tps rtps wtps bread/s bwrtn/s
11:07:56 11.11 0.00 11.11 0.00 129.29
11:07:57 6.93 0.00 6.93 0.00 63.37
Average: 9.00 0.00 9.00 0.00 96.00
项目指示:
tps 每秒物理学机器设备的I/O传送总产量
rtps 每秒从物理学机器设备读取的数据信息总产量
wtps 每秒向物理学机器设备载入的数据信息总产量
bread/s 每秒从物理学机器设备读取的信息量,企业为 块/s
bwrtn/s 每秒向物理学机器设备载入的信息量,企业为 块/s
总结:在整个运维服务过程中,服务器的下级指标值是普遍关注的。
CPU利用率:如果服务器CPU利用率超过80-85%,说明服务器CPU忙于解决工作,CPU特性必须改善。
CPUiowait:如果服务器CPUiowait的值超过5-10%,说明硬盘I/O存在短板,必须提高电脑硬盘的读写速度。
网络端口总流量:网络端口总流量与上行网络交换机和服务器的网络端口相关。如果系统软件和互联网都正常,服务器有丢包率,就要考虑网口吞吐率是否受限。
评论列表(0条)