ceph:health_warn clock skew detected on mon的解决办法

ceph:health_warn clock skew detected on mon的解决办法,第1张

造成集群状态health_warn:clock skew detected on mon节点的原因有两个,一个是mon节点上ntp服务器未启动,另一个是ceph设置的mon的时间偏差阈值比较小。

排查时也应遵循先第一个原因,后第二个原因的方式。

第一步:确认ntp服务是否正常工作
参考本人博客: centos7 查看启动ntp服务命令

第二步:修改ceph配置中的时间偏差阈值

在global字段下添加:

mon clock drift allowed = 2
mon clock drift warn backoff = 30

这里是向node1 node2 node3推送,也可以后跟其它不连续节点

4验证:

显示health_ok说明问题解决

根据ceph 16版本的changelog,16版本提供了cephfs-top文件系统监控工具。刚好手头最近有个16版本的集群,便体验一下。

文件系统客户端周期性向元数据服务发送各类监控指标(metrics),这部分数据由元数据服务路由到mds为rank 0的节点 。
元数据服务器(多活部署)同样会将自身的指标数据发送至rank 0节点。并由rank 0汇集之后发送给Ceph mgr服务。

工具的使用者可以看到两类和文件系统相关的数据:
1、全局数据。窥探文件系统整体情况,比如客户端延迟。
2、每个MDS服务的数据。比如每个MDS拥有的子树(但是实际体验没看到)。

ceph-mgr作为管理组件,具有集成插件的能力。stats负责统计插件。使用前开启stats插件

由stats插件提供的文件系统性能统计命令

(注:方括号代表可选)

不加mds_rank查看到的是整体文件系统监控指标。利用json形式查看。

输出如下:

尝试之后发现展示的信息还是不够直观。另外,MDS的统计信息都是空的。

其中属于 客户端 几个主要的参数:

几个延迟是总延迟,除以 *** 作量才是平均延迟。

cephfs-top是类似top的形式,依赖组件是mgr中的stats插件。使用python语言实现,展示主要是客户端的统计情况。

cephfs-top源码中,获取数据实现部分。

创建clientfstop用户,该用户为cephfs-top工具默认使用的用户

安装cephfs-top工具

如果出现 “RADOS permission denied”的错误。使用ceph auth get命令获得fstop的keyring至本地ceph默认配置目录。

运行监控命令

选项 -d 可以支持05s以上的展示频率。

可展示信息:
1、客户端数量,统计FUSE、内核、libcephfs使用者。
2、客户端id;
3、客户端对应cephfs挂载目录;
4、客户端本地目录,IP地址;
5、chit cap的命中率。
6、rlat 读 *** 作总延迟(单位s)
7、wlat 写 *** 作总延迟(单位s)。
8、mlat 元数据 *** 作总延迟(单位s)。
9、dlease dentry lease即客户端dentry可用率。
10、oicaps 该客户端持有caps的数量。
11、oinodes 该客户端打开文件持有inode的数量。

在统计插件stats和cephfs-top出现前,ceph支持到各个组件所在节点通过命令查看性能统计。

比如客户端的延迟只能登陆到各个挂载节点查看。MDS的情况也只能在对应的节点通过ceph daemon方式查看。现在做了部分信息的汇总,对于运维和性能优化工作而言非常方便。

但是,统计的信息覆盖面还比较窄,组件的统计信息细节没有完全展示,如果要查看某个客户端或者MDS的统计信息,还是需要到各个节点上查看。cephfs-top还有可完善的空间。

新手刚学习ceph两个月~目前已经在CentOS服务器上搭好了测试用ceph环境,但是现在无法手动重启各个节点的服务!试了网上介绍的几种方法: 1sudo /etc/initd/ceph -a stop无效,因为/etc/initd/下面根本没有ceph文件,而且这个也是让我很奇怪的


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/13450951.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-08-09
下一篇 2023-08-09

发表评论

登录后才能评论

评论列表(0条)

保存