![ceph 集群报 mds cluster is degraded 故障排查,第1张 ceph 集群报 mds cluster is degraded 故障排查,第1张](/aiimages/ceph+%E9%9B%86%E7%BE%A4%E6%8A%A5+mds+cluster+is+degraded+%E6%95%85%E9%9A%9C%E6%8E%92%E6%9F%A5.png)
ceph集群报mdsclusterisdegraded故障排查
Ceph群集报告mds群集降级常见故障清单
ceph群集版本号:
ceph-v
ceph版本10.2.7(50e863E0F4BC8F4b9e31156de690d765af245185)
ceph-w查询服务项目情况:
mds cluster is degraded
monmap e1: 3 mons at {ceph-6-11=172.16.6.11:6789/0,ceph-6-12=172.16.6.12:6789/0,ceph-6-13=172.16.6.13:6789/0}
election epoch 454, quorum 0,1,2 ceph-6-11,ceph-6-12,ceph-6-13
fsmap e1928: 1/1/1 up {0=ceph-6-13=up:rejoin}, 2 up:standby
osdmap e4107: 90 osds: 90 up, 90 in
flags sortbitwise,require_jewel_osds
pgmap v24380658: 5120 pgs, 4 pools, 14837 GB data, 5031 kobjects 44476 GB used, 120 TB / 163 TB avail 5120 activeclean
服务项目日志:
fault with nothing to send, going to standby2017-05-08 00:21:32.423571 7fb859159700 1 heartbeat_map is_healthy 'MDSRank' had timed out after 152017-05-08 00:21:32.423578 7fb859159700 1 mds.beacon.ceph-6-12 _send skipping beacon, heartbeat map not healthy2017-05-08 00:21:33.006114 7fb85e264700 1 heartbeat_map is_healthy 'MDSRank' had timed out after 152017-05-08 00:21:34.902990 7fb858958700 -1 mds.ceph-6-12 *** got signal Terminated ***2017-05-08 00:21:36.423632 7fb859159700 1 heartbeat_map is_healthy 'MDSRank' had timed out after 152017-05-08 00:21:36.423640 7fb859159700 1 mds.beacon.ceph-6-12 _send skipping beacon, heartbeat map not healthy2017-05-08 00:21:36.904448 7fb85c260700 1 mds.0.1929 rejoin_joint_start2017-05-08 00:21:36.906440 7fb85995a700 1 heartbeat_map reset_
timeout 'MDSRank' had timed out after 152017-05-08 00:21:36.906502 7fb858958700 1 mds.ceph-6-12 suicide. wanted state up:rejoin2017-05-08 00:21:37.906842 7fb858958700 1 mds.0.1929 shutdown: shutting down rank 02017-05-08 01:04:36.411123 7f2886f60180 0 set uid:gid to 167:167 (ceph:ceph)2017-05-08 01:04:36.411140 7f2886f60180 0 ceph version 10.2.7 (50e863e0f4bc8f4b9e31156de690d765af245185), process ceph-mds, pid 11320282017-05-08 01:04:36.411734 7f2886f60180 0 pidfile_write: ignore empty --pid-file2017-05-08 01:04:37.291720 7f2880f40700 1 mds.ceph-6-12 handle_mds_map standby2017-05-08 01:04:44.618574 7f2880f40700 1 mds.0.1955 handle_mds_map i am now mds.0.19552017-05-08 01:04:44.618588 7f2880f40700 1 mds.0.1955 handle_mds_map state change up:boot --> up:replay2017-05-08 01:04:44.618602 7f2880f40700 1 mds.0.1955 replay_start2017-05-08 01:04:44.618627 7f2880f40700 1 mds.0.1955 recovery set is
主要表现状况:
此时cephfs初始化为系统软件的文件夹名,可以访问,但不能创建文件,只能查看目录;
常见故障清查处理:
请参考文本文档
http://tracker.ceph.com/issues/19118
http://tracker.ceph.com/issues/18730
信息内容发现是最新版本的bug。最近我们做了一个版本更新,从10.2.5到10.2.7,升级了一周都不行:
基本原因是当cephfs存储大量数据信息时,几个主要的连接点应该是相同的,并且传输数据。mds连接点有信息检测,默认是15秒请求超时。如果15没有收到信息,连接点将被移出集群。默认的请求超时很短,会造成太大的压力。当你带着缓慢的数据信息回到连接点时,你就是不正常的,你不断地被移出集群。刚被移出集群,你的心率发现连接点是活的,你就会把连接点加入集群,然后你就会被移出集群,以此类推。此时,ceph集群将报告“mds集群已降级”。服务日志报告“heartbeat_mapis_healthy‘MDS等级’在15分钟后超时”
解决方案:
解决方案1:
这个方法是应急方法。当一个mds连接点运行时,其他连接点服务会暂时关闭,只剩下一个连接点单独工作。mds中间没有心率检测,可以避免这个问题。这个过程进行后,可以按照方案2求解,完全消除。
解决方案2:扩大请求超时時间阈值,改动到300秒,主要参数以下:
在所有mds连接点实施,
mds beacon grace
叙述:多长时间收走到标志信息就觉得 MDS 落伍了(并很有可能更换它)。
种类:Float
初始值:15
请参见文本文档:
http://docs.ceph.org.cn/cephfs/MDS-config-ref/
改动主要参数方式:
1.能够加载ceph环境变量
调整主要参数前的查询:
root@jp33e514-6-10~]#ceph-admin-daemon/var/run/ceph/ceph-MDS.jp33e514-6-10.asokconfigshow|grepMDS|grepbeacon_grace
"mds_beacon_grace":"15",
加上主要参数:
[root@jp33e514-6-11ceph]#moreceph.conf
[全球]
..................稍微。。。。。。。。。。。。
公共网络=172.17.6.0/24
集群网络=172.17.6.0/24
filestore_xattr_use_omap=true
osd_crush_chooseleaf_type=1
mds_beacon_grace=300
mds_cache_size=2000000
Mds_beacon_grace=300"==装备内容"
重新启动服务项目。
systemctl重新启动ceph-mds@jp33e514-6-10.service
systemctl状态ceph-mds@jp33e514-6-10.service
确保设备工作正常:
ceph-admin-daemon/var/run/ceph/ceph-MDS.jp33e514-6-10.asokconfigshow|grepMDS|grepbeacon_grace
"mds_beacon_grace":"300",
2.立即应用指令来更改集群的主要参数:
问询处现配备有:
[root@ceph-6-11 ~]# ceph --admin-daemon /var/run/ceph/ceph-mon.ceph-6-11.asok config show |grep mds|grep beacon_grace
"mds_beacon_grace": "15",
在线设备指令即时变更成功:
[root@ceph-6-11 ~]# ceph --admin-daemon /var/run/ceph/ceph-mon.ceph-6-11.asok config set mds_beacon_grace 300{ "success": "mds_beacon_grace = '300' (unchangeable) "}
认证:
[root@ceph-6-11 ~]# ceph --admin-daemon /var/run/ceph/ceph-mon.ceph-6-11.asok config show |grep mds|grep beacon_grace
"mds_beacon_grace": "300", # << === 主要参数早已改动取得成功
主参数更改后,所有已经关闭的mds连接点都可以打开,集群中可以任意关闭一个mds主连接点。情况可以和其他连接点一样,其他主连接点会对服务项目进行响应,所以cephfs的应用不会受到影响。
评论列表(0条)