从传统运维到云运维演进历程之软件定义存储(二)

从传统运维到云运维演进历程之软件定义存储(二),第1张

从传统运维到云运维演进历程之软件定义存储(二)

上本书说Ceph在一般公司的应用会经历很多份:硬件配置模型的选择-部署优化-功能测试框架的容灾设计方案-部分业务流程的发布和检测-运维(常见故障解决、应急预案演练等。).

今天的重点是部署优化的拷贝。许多Ceph初学者在测试阶段和生产前制造阶段会对Ceph集群的部署和调优感到困惑。企业A的运维管理兄弟也遇到了部署和调优的问题。我们来讨论一下企业A的运维管理兄弟是如何解决这个问题的。

副本二:部署调优关(部署) 难度系数:三颗星

上一篇文章开头,因为我说我来了,部署Ceph是初学者的噩梦。传统的运维管理很难部署一套Ceph。借助官网和Ceph中国社区的相关信息和帮助,一个企业运维管理的小哥哥可以逐渐了解Ceph是什么,可以做什么。企业A的运维管理兄弟在掌握了Ceph之后,刚开始部署Ceph。

先说部署的全过程,以及部署全过程中的一些坑。

部署全过程(刚开始按官网流程一步一步来)

1.安装Linux计算机 *** 作系统;

2.配备系统软件IP,配备主机文件,封闭防火墙和selinux,配备连接点之间的保密支付浏览;

3.配备Ceph源;

4.安装Ceph;

在整个部署过程中,经历了三战三败的全过程:

第一回合:网络问题

当初遇到了互联网的问题,导致免费包下载不成功。之后我查了相关资料找Ceph。中文社区有一篇文章《如何使用中文源码部署Ceph》,所以我选择了中文Ceph源码来解决这个问题。

图1:网络问题

第二连击:硬盘难题

解决了网络问题,踏入磁盘分区问题,运维管理哥折腾了大半天,才在Ceph中国社区成员的帮助下解决了这个问题。这种情况一般有两个原因:

一:硬盘分区早。

二:硬盘已经初始化。

解决方案:

一:删除分区

二:卸载电脑硬盘&删除分区

图2:硬盘挑战

第三连击:时间问题

经过长时间的建设,终于完工了,但是又遇到了另一个难题,就是osd服务项目正在进行中,但是cephosd树查询OSD把信息显示下来了,这让运维管理兄弟很困惑。


图3:OSD架构图


图4:OSD流程图

从图中可以看出,cephosd进程正在运行,但是当CephOSD树查询OSD时显示down信息。

这时候就是磨练一个运维管理人员解决常见故障的基本能力。好在这位运维管理小哥经历了一两年的工作经验,经过一个基本的盘点,终于明确了这是迟早的事。这种由于三个连接点时间不一致而导致的问题,这里称为“OSD摆”。不仅仅是时间的问题会造成“OSD钟摆”的问题,有时候也会因为网络接口的问题造成“OSD钟摆”。


图5:CEPH连接点1


图6:CEPH连接点2


图7:CEPH连接点3

其实在自然环境前期准备阶段第一次部署Ceph的时候,就说过需要NTP网络服务器,但是很容易被大多数人忽略。其实任何时刻时间问题都是第一位的。这里有两个例子来说明由时间问题引起的一些难题。

1.因为时间问题,一个云服务平台出现了一些问题,比如云服务器无法建立,服务器宕机

2.由于时间问题,分布式系统的文档存储会导致数据分布不均衡、裂脑等问题。

本文提到的连接点时间问题导致了OSD中常见的“摆动”故障。时间带来的问题远不止这些。虽然部署成功,但也会在事后引发一系列无端的问题,比如MON选举问题,OSD数据库同步问题。

所以无论云服务平台是否存储,都会因为时间原因造成冗余,这是一个普遍的问题。建议运维管理人员注意时间。


图8:CEPH集群

好吧,摩天大楼坏了。图为运维管理兄弟新建集群。配有三个或六个OSD连接点的Ceph小型集群。希望这篇文章可以作为Ceph初学者的参考。请阅读《部署调优检查点的调优》这本书,了解不同人的看法和预期的葬礼事件。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/778375.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-03
下一篇 2022-05-03

发表评论

登录后才能评论

评论列表(0条)

保存