ceph:health_warn clock skew detected on mon的解决办法_服务器

造成集群状态health_warn：clock skew detected on mon节点的原因有两个，一个是mon节点上ntp服务器未启动，另一个是ceph设置的mon的时间偏差阈值比较小。

排查时也应遵循先第一个原因，后第二个原因的方式。

第一步：确认ntp服务是否正常工作
参考本人博客： centos7 查看启动ntp服务命令

第二步：修改ceph配置中的时间偏差阈值

在global字段下添加：

mon clock drift allowed = 2
mon clock drift warn backoff = 30

这里是向node1 node2 node3推送，也可以后跟其它不连续节点

4验证：

显示health_ok说明问题解决

根据ceph 16版本的changelog，16版本提供了cephfs-top文件系统监控工具。刚好手头最近有个16版本的集群，便体验一下。

文件系统客户端周期性向元数据服务发送各类监控指标（metrics），这部分数据由元数据服务路由到mds为rank 0的节点。
元数据服务器（多活部署）同样会将自身的指标数据发送至rank 0节点。并由rank 0汇集之后发送给Ceph mgr服务。

工具的使用者可以看到两类和文件系统相关的数据：
1、全局数据。窥探文件系统整体情况，比如客户端延迟。
2、每个MDS服务的数据。比如每个MDS拥有的子树（但是实际体验没看到）。

ceph-mgr作为管理组件，具有集成插件的能力。stats负责统计插件。使用前开启stats插件

由stats插件提供的文件系统性能统计命令

（注：方括号代表可选）

不加mds_rank查看到的是整体文件系统监控指标。利用json形式查看。

输出如下：

尝试之后发现展示的信息还是不够直观。另外，MDS的统计信息都是空的。

其中属于 客户端 几个主要的参数：

几个延迟是总延迟，除以 *** 作量才是平均延迟。

cephfs-top是类似top的形式，依赖组件是mgr中的stats插件。使用python语言实现，展示主要是客户端的统计情况。

cephfs-top源码中，获取数据实现部分。

创建clientfstop用户，该用户为cephfs-top工具默认使用的用户

安装cephfs-top工具

如果出现 “RADOS permission denied”的错误。使用ceph auth get命令获得fstop的keyring至本地ceph默认配置目录。

运行监控命令

选项 -d 可以支持05s以上的展示频率。

可展示信息：
1、客户端数量，统计FUSE、内核、libcephfs使用者。
2、客户端id；
3、客户端对应cephfs挂载目录；
4、客户端本地目录，IP地址；
5、chit cap的命中率。
6、rlat 读 *** 作总延迟（单位s）
7、wlat 写 *** 作总延迟（单位s）。
8、mlat 元数据 *** 作总延迟（单位s）。
9、dlease dentry lease即客户端dentry可用率。
10、oicaps 该客户端持有caps的数量。
11、oinodes 该客户端打开文件持有inode的数量。

在统计插件stats和cephfs-top出现前，ceph支持到各个组件所在节点通过命令查看性能统计。

比如客户端的延迟只能登陆到各个挂载节点查看。MDS的情况也只能在对应的节点通过ceph daemon方式查看。现在做了部分信息的汇总，对于运维和性能优化工作而言非常方便。

但是，统计的信息覆盖面还比较窄，组件的统计信息细节没有完全展示，如果要查看某个客户端或者MDS的统计信息，还是需要到各个节点上查看。cephfs-top还有可完善的空间。

新手刚学习ceph两个月~目前已经在CentOS服务器上搭好了测试用ceph环境，但是现在无法手动重启各个节点的服务！试了网上介绍的几种方法： 1sudo /etc/initd/ceph -a stop无效，因为/etc/initd/下面根本没有ceph文件，而且这个也是让我很奇怪的

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/13450951.html

ceph:health_warn clock skew detected on mon的解决办法

发表评论

评论列表（0条）