ceph 集群报 mds cluster is degraded 故障排查

ceph 集群报 mds cluster is degraded 故障排查,第1张

ceph集群报mdsclusterisdegraded故障排查

Ceph群集报告mds群集降级常见故障清单

ceph群集版本号:

ceph-v
ceph版本10.2.7(50e863E0F4BC8F4b9e31156de690d765af245185)

ceph-w查询服务项目情况: mds cluster is degraded      monmap e1: 3 mons at {ceph-6-11=172.16.6.11:6789/0,ceph-6-12=172.16.6.12:6789/0,ceph-6-13=172.16.6.13:6789/0}             election epoch 454, quorum 0,1,2 ceph-6-11,ceph-6-12,ceph-6-13       fsmap e1928: 1/1/1 up {0=ceph-6-13=up:rejoin}, 2 up:standby      osdmap e4107: 90 osds: 90 up, 90 in             flags sortbitwise,require_jewel_osds       pgmap v24380658: 5120 pgs, 4 pools, 14837 GB data, 5031 kobjects            44476 GB used, 120 TB / 163 TB avail                5120 activeclean 服务项目日志: fault with nothing to send, going to standby2017-05-08 00:21:32.423571 7fb859159700  1 heartbeat_map is_healthy 'MDSRank' had timed out after 152017-05-08 00:21:32.423578 7fb859159700  1 mds.beacon.ceph-6-12 _send skipping beacon, heartbeat map not healthy2017-05-08 00:21:33.006114 7fb85e264700  1 heartbeat_map is_healthy 'MDSRank' had timed out after 152017-05-08 00:21:34.902990 7fb858958700 -1 mds.ceph-6-12 *** got signal Terminated ***2017-05-08 00:21:36.423632 7fb859159700  1 heartbeat_map is_healthy 'MDSRank' had timed out after 152017-05-08 00:21:36.423640 7fb859159700  1 mds.beacon.ceph-6-12 _send skipping beacon, heartbeat map not healthy2017-05-08 00:21:36.904448 7fb85c260700  1 mds.0.1929 rejoin_joint_start2017-05-08 00:21:36.906440 7fb85995a700  1 heartbeat_map reset_timeout 'MDSRank' had timed out after 152017-05-08 00:21:36.906502 7fb858958700  1 mds.ceph-6-12 suicide.  wanted state up:rejoin2017-05-08 00:21:37.906842 7fb858958700  1 mds.0.1929 shutdown: shutting down rank 02017-05-08 01:04:36.411123 7f2886f60180  0 set uid:gid to 167:167 (ceph:ceph)2017-05-08 01:04:36.411140 7f2886f60180  0 ceph version 10.2.7 (50e863e0f4bc8f4b9e31156de690d765af245185), process ceph-mds, pid 11320282017-05-08 01:04:36.411734 7f2886f60180  0 pidfile_write: ignore empty --pid-file2017-05-08 01:04:37.291720 7f2880f40700  1 mds.ceph-6-12 handle_mds_map standby2017-05-08 01:04:44.618574 7f2880f40700  1 mds.0.1955 handle_mds_map i am now mds.0.19552017-05-08 01:04:44.618588 7f2880f40700  1 mds.0.1955 handle_mds_map state change up:boot --> up:replay2017-05-08 01:04:44.618602 7f2880f40700  1 mds.0.1955 replay_start2017-05-08 01:04:44.618627 7f2880f40700  1 mds.0.1955  recovery set is 主要表现状况:

此时cephfs初始化为系统软件的文件夹名,可以访问,但不能创建文件,只能查看目录;

常见故障清查处理:

请参考文本文档
http://tracker.ceph.com/issues/19118
http://tracker.ceph.com/issues/18730

信息内容发现是最新版本的bug。最近我们做了一个版本更新,从10.2.5到10.2.7,升级了一周都不行:

基本原因是当cephfs存储大量数据信息时,几个主要的连接点应该是相同的,并且传输数据。mds连接点有信息检测,默认是15秒请求超时。如果15没有收到信息,连接点将被移出集群。默认的请求超时很短,会造成太大的压力。当你带着缓慢的数据信息回到连接点时,你就是不正常的,你不断地被移出集群。刚被移出集群,你的心率发现连接点是活的,你就会把连接点加入集群,然后你就会被移出集群,以此类推。此时,ceph集群将报告“mds集群已降级”。服务日志报告“heartbeat_mapis_healthy‘MDS等级’在15分钟后超时”

解决方案: 解决方案1:

这个方法是应急方法。当一个mds连接点运行时,其他连接点服务会暂时关闭,只剩下一个连接点单独工作。mds中间没有心率检测,可以避免这个问题。这个过程进行后,可以按照方案2求解,完全消除。

解决方案2:扩大请求超时時间阈值,改动到300秒,主要参数以下:

在所有mds连接点实施,

mds beacon grace 叙述:多长时间收走到标志信息就觉得 MDS 落伍了(并很有可能更换它)。 种类:Float 初始值:15

请参见文本文档:
http://docs.ceph.org.cn/cephfs/MDS-config-ref/

改动主要参数方式:

1.能够加载ceph环境变量

调整主要参数前的查询:

root@jp33e514-6-10~]#ceph-admin-daemon/var/run/ceph/ceph-MDS.jp33e514-6-10.asokconfigshow|grepMDS|grepbeacon_grace

"mds_beacon_grace":"15",


加上主要参数:

[root@jp33e514-6-11ceph]#moreceph.conf

[全球]

..................稍微。。。。。。。。。。。。

公共网络=172.17.6.0/24

集群网络=172.17.6.0/24

filestore_xattr_use_omap=true

osd_crush_chooseleaf_type=1

mds_beacon_grace=300

mds_cache_size=2000000

Mds_beacon_grace=300"==装备内容"



重新启动服务项目。

systemctl重新启动[email protected]


systemctl状态[email protected]


确保设备工作正常:

ceph-admin-daemon/var/run/ceph/ceph-MDS.jp33e514-6-10.asokconfigshow|grepMDS|grepbeacon_grace


"mds_beacon_grace":"300",


2.立即应用指令来更改集群的主要参数:

问询处现配备有:

[root@ceph-6-11 ~]# ceph --admin-daemon /var/run/ceph/ceph-mon.ceph-6-11.asok config show |grep mds|grep beacon_grace     "mds_beacon_grace": "15",

在线设备指令即时变更成功:

[root@ceph-6-11 ~]# ceph --admin-daemon /var/run/ceph/ceph-mon.ceph-6-11.asok config set mds_beacon_grace 300{    "success": "mds_beacon_grace = '300' (unchangeable) "} 认证: [root@ceph-6-11 ~]# ceph --admin-daemon /var/run/ceph/ceph-mon.ceph-6-11.asok config show |grep mds|grep beacon_grace     "mds_beacon_grace": "300",  #  << === 主要参数早已改动取得成功

主参数更改后,所有已经关闭的mds连接点都可以打开,集群中可以任意关闭一个mds主连接点。情况可以和其他连接点一样,其他主连接点会对服务项目进行响应,所以cephfs的应用不会受到影响。


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zz/777660.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-03
下一篇 2022-05-03

发表评论

登录后才能评论

评论列表(0条)

保存