ceph(第三步) 基本使用

ceph(第三步) 基本使用,第1张

系统的开始使用一个 ceph 集群。

本文将系统的介绍如何使用一个 ceph 集群。

涉及: crush、osd、pool、cache

ceph 版本:nautilus

ceph-deploy 版本:2.0.1

在基本使用需求下,一般需要存储集群提供高性能存储(SSD)和普通存储(hdd)。

在 ceph 中,具体表现为某些池使用高性能存储,某些池使用普通存储。而这种需求在 ceph 中由 crush 规则实现。

ceph 提供了缓存的概念。在普通的存储池之上架设一层高性能的缓存池,外部访问首先到达缓存池,如果发生未命中等情况再去访问存储池。这里需要提一点,并不是任何情况都需要缓存。

针对不同的场景,ceph 的使用方式多种多样,这里的介绍只能一切从简,但是会尽量全面。

一个标准的场景:一个存储池加一个缓存池,存储池使用普通设备,缓存池使用高性能设备。

首先添加一块高性能硬盘(我这里是虚拟环境,只能用普通硬盘充数)

然后需要利用 crush 让不同池使用不同的存储设备

这里只能拿普通的虚拟硬盘来做测试。

在 ceph02 虚拟机上增加一块 30G 的虚拟硬盘弊罩。

在 ceph03 虚拟机上增加一块 30G 的虚拟硬盘。

现在到部署节点进行 *** 作:

如图 ceph02 出现了 osd.6,ceph03 出现了 osd.7。

这里涉及到 root (根)的概念,在文章末尾【扩展】中会介绍。这里可以直接先使用。

将 osd.6 osd.7 加入名称为 cache 的根中(根名称会自动创建,注意,由于默认情况下 osd 在启动时读取的是 hostname,因此该方法只是临时生效,在文章末尾【扩展】中会介绍永久生效办法)

“高性能”存储盘现在已经有了,并且将其置于 cache 根下,这么做的意义在下一步中有体现。

现在可以进行下一步了。

当前环境下已经有一个默认的 crush 规则。

具体属性解释参考:

https://docs.ceph.com/docs/mimic/rados/operations/crush-map-edits/#crush-map-rules

如上图划线处,当前规则只会使用 default 根的 osd。

前面创建高性能设备时,将其设帆卜稿置根为 cache。我们现在就可以创建一个只使用 cache 根中的 osd 的规则,从而实现缓存池和存储池使用不同的设备。

创建缓存池使用的规则:

其中:

replicated_cache 指该规则的名字。

cache 指该规则使用的根。

host 指故障域级别。

再次查看所有规则:

现在我们有了一个只使用高性能存储设备的规则了。接下来就可以开始创建使用不同规则的池了。

创建存储池:

查看池:

查看该池的规则:

存储池至此已经好了。

缓存池在 ceph 中常以 hot 标识。

普通存储池在 ceph 中常以 cold 标识。

缓存有多种形式(官方文档列出以下几种,实际更多):

缓存参考:

https://docs.ceph.com/docs/master/rados/operations/cache-tiering/

创建缓存池

缓存池创建好以后,要将这个缓存池与对应存储池联系起来。这个联系的概念叫做 cache tiering,可以称之为缓存态孝层,缓存代理。

参考:

https://docs.ceph.com/docs/master/rados/operations/cache-tiering/

对于 test_storage 池,我们有一个只读的缓存池了。只要我们读取 test_storage 中的某个对象,这个对象就应该自动的置于缓存池中一段时间。

可以发现,将对象上传回写模式的缓存池,存储池中也出现了对应的数据。

osd 的大小可能不相同,因此其上的数据量也不应该相同,因此引入权重来影响数据分布。

比如100G的 osd 权重为1,则200G的 osd 权重就应设置为2。

ceph osd tree 命令可以看到存储结构。可以结合自己机器执行的结果往下阅读。

一张官方图:

这是描述 ceph 存储结构的一张图。

首先这是一个树形结构。

其中最上层的 root default :root 是根的意思,default 就是这个根的名字。

中间 host foo :host 是主机的意思,foo 就是这个主机的名字。这里的主机名仅仅是个别称,不代表实际的主机,可以随意更改。

最下面的就是叶子节点了,具体指向 osd。

划分这三层结构的意义(不完全):

本文使用 ceph-deploy 添加 osd 时,并没有直接将其设置到最终根下,后续还需要手动配置。这么 *** 作是不合理的,暂时未找到 ceph-deploy 指定根的参数。

当前文章配置的缓存池是2副本的。

某些时候,缓存数据是允许丢失的,比如只读的缓存。这种缓存池单副本即可,但是经测试,单副本池在 ceph 中似乎困难重重。

可以通过修改该机器的 hostname ,一劳永逸

这个时候,当机器重启后,该机器的所有 osd 的 host 名称都一样了,导致 osd tree 混乱。这个时候可以在 ceph.conf 中具体配置某块盘的信息。

当前环境配置参考:

增加如下内容:

重启后,一切正常。

在 osd 的启动上做文章。

比如,配置 osd 的启动方式,容器化 osd,容器会记住某些信息,因此可以实现永久生效 hostname。

osd 上的 pg 数量会对整体集群性能造成影响,并不是越多越好,也不是越少越好。

由于池有副本的概念,因此产生了如下的计算方式:

官方建议每个 osd 上的 pg 数为 100。实际测试每个 osd 上的 pg 数到达 250 时开始告警,因此该集群的总 pg 数不应超过:

因此出现此问题的原因:

所有池的 pg 数加起来超过了设定的 总 pg 数 。但集群依然可正常使用,因此只是一个警告。

解决该问题的手段:

目前个人经验来说,不要使用单副本。

crush 规则参考:

https://docs.ceph.com/docs/master/rados/operations/crush-map/

注意: 3 requests are blocked >4096 sec 有可能是在数据迁移过程中, 用户正在对该数据块进行访问, 但访问还没有完成, 数据就迁移到别的 OSD 中, 那么就会导致有请求被 block, 对用户也是有影响的

处理方法:

# ceph health detail   找到osd.75的block

#ceph osd tree            找到osd.75对应的主机

#systemctl restart ceph-osd@75.service      重启对应的osd服务

 等待ceph对osd 执行 recovery *** 作结束后恢复正常

ceph osd down

处理方法:

1.重启该节点的osd服务

systemctl restart ceph  osd@ID.service

systemctl restart ceph osd.target,service

2.同步时间

service ntp  restart

3.查看网络是否正常

4.查看节点osd对应的磁盘是否正常

ceph-volume lvm list  查看osd对应的磁盘盘迟好符

lsblk

5.将故障磁盘踢出ceph集群

sudo ceph osd out <id>  #停止故障osd

sudo ceph osd crush remove osd.<id>#清除osd配置

sudo ceph auth del osd.<id>

sudo ceph osd rm osd.<id>

6.更换新硬盘并添加到集群中去

cd /home/ubuntu/ceph

sudo ceph-deploy disk zap <IP>/dev/sdf  

sudo ceph-deploy osd create --bluestore <IP>--data /dev/sdf

#ceph health detail   报错信息如下:

MDS_CLIENT_LATE_RELEASE 1 clients failing to respond to capability release

    mds<hostname>(mds.0): Client <hostname>failing to respond to capability release client_id: 5374472

MDS_SLOW_REQUEST 1 MDSs report slow requests

    mds<hostname>(mds.0): 2 slow requests are blocked >30 sec

处理方法:

清除次 ID 即可: https://blog.csdn.net/zuoyang1990/article/details/98530070

$ ceph daemon mds.<hostname>session ls|grep 284951

$ ceph tell mds.<hostname>session evict id=284951

如果报错如下:

$ ceph tell mds.<hostname>session evict id=284951

2020-08-13 10:45:03.869 7f271b7fe700  0 client.306366 ms_handle_reset on 10.100.21.95:6800/1646216103

2020-08-13 10:45:03.881 7f2730ff9700  0 client.316415 ms_handle_reset on 10.100.21.95:6800/1646216103

Error EAGAIN: MDS is replaying log

需要到 mds.0 节点执行,否则无法找到次 client。

转移走该节点的任务,重启该节点,挂载共享盘,开启任务接巧备受

一般是过段时间会自动恢复正常,若长时间不恢复i,处理方法如下:

重启 mon 即可解决:$ systemctl restart ceph-mon.target

如果无法解决需要重启 mds 解决孝旦毁: $ systemctl restart ceph-mds@${HOSTNAME}

https://docs.ceph.com/en/latest/rados/troubleshooting/troubleshooting-osd/#no-free-drive-space

$ ceph osd dump | grep full_ratio

full_ratio 0.95

backfillfull_ratio 0.9

nearfull_ratio 0.85

处理方法:

$ ceph osd  reweight 4 0.85   手动调整osd权重

$ ceph osd reweight-by-utilization 110 0.3 10 自动调整

$ ceph osd crush reweight osd.11 0.5     #调整WEIGHT

给cephfs扩容或着清除不需要的数据

#检查网络是否异常:

ping $hostname 

9 packets transmitted, 4 received, 55% packet loss, time 7998ms #发现又掉包现象

#处理好网络问题,重启异常节点的 osd

$ sudo systemctl restart ceph-osd.target.service

$ sudo systemctl restart ceph-mon.service

$sudo systemctl restart ntp #同步节点时间


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/bake/11967022.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-20
下一篇 2023-05-20

发表评论

登录后才能评论

评论列表(0条)

保存