ceph 集群报 mds cluster is degraded 故障排查_服务器

ceph集群报mdsclusterisdegraded故障排查

Ceph群集报告mds群集降级常见故障清单

ceph群集版本号：

ceph-v
ceph版本10.2.7(50e863E0F4BC8F4b9e31156de690d765af245185)

ceph-w查询服务项目情况： mds cluster is degraded monmap e1: 3 mons at {ceph-6-11=172.16.6.11:6789/0,ceph-6-12=172.16.6.12:6789/0,ceph-6-13=172.16.6.13:6789/0} election epoch 454, quorum 0,1,2 ceph-6-11,ceph-6-12,ceph-6-13 fsmap e1928: 1/1/1 up {0=ceph-6-13=up:rejoin}, 2 up:standby osdmap e4107: 90 osds: 90 up, 90 in flags sortbitwise,require_jewel_osds pgmap v24380658: 5120 pgs, 4 pools, 14837 GB data, 5031 kobjects 44476 GB used, 120 TB / 163 TB avail 5120 activeclean 服务项目日志： fault with nothing to send, going to standby2017-05-08 00:21:32.423571 7fb859159700 1 heartbeat_map is_healthy 'MDSRank' had timed out after 152017-05-08 00:21:32.423578 7fb859159700 1 mds.beacon.ceph-6-12 _send skipping beacon, heartbeat map not healthy2017-05-08 00:21:33.006114 7fb85e264700 1 heartbeat_map is_healthy 'MDSRank' had timed out after 152017-05-08 00:21:34.902990 7fb858958700 -1 mds.ceph-6-12 *** got signal Terminated ***2017-05-08 00:21:36.423632 7fb859159700 1 heartbeat_map is_healthy 'MDSRank' had timed out after 152017-05-08 00:21:36.423640 7fb859159700 1 mds.beacon.ceph-6-12 _send skipping beacon, heartbeat map not healthy2017-05-08 00:21:36.904448 7fb85c260700 1 mds.0.1929 rejoin_joint_start2017-05-08 00:21:36.906440 7fb85995a700 1 heartbeat_map reset_timeout 'MDSRank' had timed out after 152017-05-08 00:21:36.906502 7fb858958700 1 mds.ceph-6-12 suicide. wanted state up:rejoin2017-05-08 00:21:37.906842 7fb858958700 1 mds.0.1929 shutdown: shutting down rank 02017-05-08 01:04:36.411123 7f2886f60180 0 set uid:gid to 167:167 (ceph:ceph)2017-05-08 01:04:36.411140 7f2886f60180 0 ceph version 10.2.7 (50e863e0f4bc8f4b9e31156de690d765af245185), process ceph-mds, pid 11320282017-05-08 01:04:36.411734 7f2886f60180 0 pidfile_write: ignore empty --pid-file2017-05-08 01:04:37.291720 7f2880f40700 1 mds.ceph-6-12 handle_mds_map standby2017-05-08 01:04:44.618574 7f2880f40700 1 mds.0.1955 handle_mds_map i am now mds.0.19552017-05-08 01:04:44.618588 7f2880f40700 1 mds.0.1955 handle_mds_map state change up:boot --> up:replay2017-05-08 01:04:44.618602 7f2880f40700 1 mds.0.1955 replay_start2017-05-08 01:04:44.618627 7f2880f40700 1 mds.0.1955 recovery set is 主要表现状况：

此时cephfs初始化为系统软件的文件夹名，可以访问，但不能创建文件，只能查看目录；

常见故障清查处理：

请参考文本文档
http://tracker.ceph.com/issues/19118
http://tracker.ceph.com/issues/18730

信息内容发现是最新版本的bug。最近我们做了一个版本更新，从10.2.5到10.2.7，升级了一周都不行:

基本原因是当cephfs存储大量数据信息时，几个主要的连接点应该是相同的，并且传输数据。mds连接点有信息检测，默认是15秒请求超时。如果15没有收到信息，连接点将被移出集群。默认的请求超时很短，会造成太大的压力。当你带着缓慢的数据信息回到连接点时，你就是不正常的，你不断地被移出集群。刚被移出集群，你的心率发现连接点是活的，你就会把连接点加入集群，然后你就会被移出集群，以此类推。此时，ceph集群将报告“mds集群已降级”。服务日志报告“heartbeat_mapis_healthy‘MDS等级’在15分钟后超时”

解决方案：解决方案1：

这个方法是应急方法。当一个mds连接点运行时，其他连接点服务会暂时关闭，只剩下一个连接点单独工作。mds中间没有心率检测，可以避免这个问题。这个过程进行后，可以按照方案2求解，完全消除。

解决方案2：扩大请求超时時间阈值，改动到300秒，主要参数以下：

在所有mds连接点实施，

mds beacon grace 叙述:多长时间收走到标志信息就觉得 MDS 落伍了（并很有可能更换它）。种类:Float 初始值:15

请参见文本文档:
http://docs.ceph.org.cn/cephfs/MDS-config-ref/

改动主要参数方式：

1.能够加载ceph环境变量

调整主要参数前的查询:

root@jp33e514-6-10~]#ceph-admin-daemon/var/run/ceph/ceph-MDS.jp33e514-6-10.asokconfigshow|grepMDS|grepbeacon_grace

"mds_beacon_grace":"15"，

加上主要参数:

[root@jp33e514-6-11ceph]#moreceph.conf

[全球]

..................稍微。。。。。。。。。。。。

公共网络=172.17.6.0/24

集群网络=172.17.6.0/24

filestore_xattr_use_omap=true

osd_crush_chooseleaf_type=1

mds_beacon_grace=300

mds_cache_size=2000000

Mds_beacon_grace=300"==装备内容"

重新启动服务项目。

systemctl重新启动ceph-mds@jp33e514-6-10.service

systemctl状态ceph-mds@jp33e514-6-10.service

确保设备工作正常:

ceph-admin-daemon/var/run/ceph/ceph-MDS.jp33e514-6-10.asokconfigshow|grepMDS|grepbeacon_grace

"mds_beacon_grace":"300"，

2.立即应用指令来更改集群的主要参数:

问询处现配备有:

[root@ceph-6-11 ~]# ceph --admin-daemon /var/run/ceph/ceph-mon.ceph-6-11.asok config show |grep mds|grep beacon_grace "mds_beacon_grace": "15",

在线设备指令即时变更成功:

[root@ceph-6-11 ~]# ceph --admin-daemon /var/run/ceph/ceph-mon.ceph-6-11.asok config set mds_beacon_grace 300{ "success": "mds_beacon_grace = '300' (unchangeable) "} 认证： [root@ceph-6-11 ~]# ceph --admin-daemon /var/run/ceph/ceph-mon.ceph-6-11.asok config show |grep mds|grep beacon_grace "mds_beacon_grace": "300", # << === 主要参数早已改动取得成功

主参数更改后，所有已经关闭的mds连接点都可以打开，集群中可以任意关闭一个mds主连接点。情况可以和其他连接点一样，其他主连接点会对服务项目进行响应，所以cephfs的应用不会受到影响。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/777660.html

ceph 集群报 mds cluster is degraded 故障排查

发表评论

评论列表（0条）