排查时也应遵循先第一个原因,后第二个原因的方式。
第一步:确认ntp服务是否正常工作
参考本人博客: centos7 查看启动ntp服务命令
第二步:修改ceph配置中的时间偏差阈值
在global字段下添加:
mon clock drift allowed = 2
mon clock drift warn backoff = 30
这里是向node1 node2 node3推送,也可以后跟其它不连续节点
4验证:
显示health_ok说明问题解决
根据ceph 16版本的changelog,16版本提供了cephfs-top文件系统监控工具。刚好手头最近有个16版本的集群,便体验一下。
文件系统客户端周期性向元数据服务发送各类监控指标(metrics),这部分数据由元数据服务路由到mds为rank 0的节点 。
元数据服务器(多活部署)同样会将自身的指标数据发送至rank 0节点。并由rank 0汇集之后发送给Ceph mgr服务。
工具的使用者可以看到两类和文件系统相关的数据:
1、全局数据。窥探文件系统整体情况,比如客户端延迟。
2、每个MDS服务的数据。比如每个MDS拥有的子树(但是实际体验没看到)。
ceph-mgr作为管理组件,具有集成插件的能力。stats负责统计插件。使用前开启stats插件
由stats插件提供的文件系统性能统计命令
(注:方括号代表可选)
不加mds_rank查看到的是整体文件系统监控指标。利用json形式查看。
输出如下:
尝试之后发现展示的信息还是不够直观。另外,MDS的统计信息都是空的。
其中属于 客户端 几个主要的参数:
几个延迟是总延迟,除以 *** 作量才是平均延迟。
cephfs-top是类似top的形式,依赖组件是mgr中的stats插件。使用python语言实现,展示主要是客户端的统计情况。
cephfs-top源码中,获取数据实现部分。
创建clientfstop用户,该用户为cephfs-top工具默认使用的用户
安装cephfs-top工具
如果出现 “RADOS permission denied”的错误。使用ceph auth get命令获得fstop的keyring至本地ceph默认配置目录。
运行监控命令
选项 -d 可以支持05s以上的展示频率。
可展示信息:
1、客户端数量,统计FUSE、内核、libcephfs使用者。
2、客户端id;
3、客户端对应cephfs挂载目录;
4、客户端本地目录,IP地址;
5、chit cap的命中率。
6、rlat 读 *** 作总延迟(单位s)
7、wlat 写 *** 作总延迟(单位s)。
8、mlat 元数据 *** 作总延迟(单位s)。
9、dlease dentry lease即客户端dentry可用率。
10、oicaps 该客户端持有caps的数量。
11、oinodes 该客户端打开文件持有inode的数量。
在统计插件stats和cephfs-top出现前,ceph支持到各个组件所在节点通过命令查看性能统计。
比如客户端的延迟只能登陆到各个挂载节点查看。MDS的情况也只能在对应的节点通过ceph daemon方式查看。现在做了部分信息的汇总,对于运维和性能优化工作而言非常方便。
但是,统计的信息覆盖面还比较窄,组件的统计信息细节没有完全展示,如果要查看某个客户端或者MDS的统计信息,还是需要到各个节点上查看。cephfs-top还有可完善的空间。
新手刚学习ceph两个月~目前已经在CentOS服务器上搭好了测试用ceph环境,但是现在无法手动重启各个节点的服务!试了网上介绍的几种方法: 1sudo /etc/initd/ceph -a stop无效,因为/etc/initd/下面根本没有ceph文件,而且这个也是让我很奇怪的欢迎分享,转载请注明来源:内存溢出
评论列表(0条)