上本书说Ceph在一般公司的应用会经历很多份:硬件配置模型的选择-部署优化-功能测试框架的容灾设计方案-部分业务流程的发布和检测-运维(常见故障解决、应急预案演练等。).
今天的重点是部署优化的拷贝。许多Ceph初学者在测试阶段和生产前制造阶段会对Ceph集群的部署和调优感到困惑。企业A的运维管理兄弟也遇到了部署和调优的问题。我们来讨论一下企业A的运维管理兄弟是如何解决这个问题的。
副本二:部署调优关(部署) 难度系数:三颗星上一篇文章开头,因为我说我来了,部署Ceph是初学者的噩梦。传统的运维管理很难部署一套Ceph。借助官网和Ceph中国社区的相关信息和帮助,一个企业运维管理的小哥哥可以逐渐了解Ceph是什么,可以做什么。企业A的运维管理兄弟在掌握了Ceph之后,刚开始部署Ceph。
先说部署的全过程,以及部署全过程中的一些坑。
部署全过程(刚开始按官网流程一步一步来)
1.安装Linux计算机 *** 作系统;
2.配备系统软件IP,配备主机文件,封闭防火墙和selinux,配备连接点之间的保密支付浏览;
3.配备Ceph源;
4.安装Ceph;
在整个部署过程中,经历了三战三败的全过程:
第一回合:网络问题当初遇到了互联网的问题,导致免费包下载不成功。之后我查了相关资料找Ceph。中文社区有一篇文章《如何使用中文源码部署Ceph》,所以我选择了中文Ceph源码来解决这个问题。
图1:网络问题
第二连击:硬盘难题解决了网络问题,踏入磁盘分区问题,运维管理哥折腾了大半天,才在Ceph中国社区成员的帮助下解决了这个问题。这种情况一般有两个原因:
一:硬盘分区早。
二:硬盘已经初始化。
解决方案:
一:删除分区
二:卸载电脑硬盘&删除分区
图2:硬盘挑战
第三连击:时间问题经过长时间的建设,终于完工了,但是又遇到了另一个难题,就是osd服务项目正在进行中,但是cephosd树查询OSD把信息显示下来了,这让运维管理兄弟很困惑。
图3:OSD架构图
图4:OSD流程图
从图中可以看出,cephosd进程正在运行,但是当CephOSD树查询OSD时显示down信息。
这时候就是磨练一个运维管理人员解决常见故障的基本能力。好在这位运维管理小哥经历了一两年的工作经验,经过一个基本的盘点,终于明确了这是迟早的事。这种由于三个连接点时间不一致而导致的问题,这里称为“OSD摆”。不仅仅是时间的问题会造成“OSD钟摆”的问题,有时候也会因为网络接口的问题造成“OSD钟摆”。
图5:CEPH连接点1
图6:CEPH连接点2
图7:CEPH连接点3
其实在自然环境前期准备阶段第一次部署Ceph的时候,就说过需要NTP网络服务器,但是很容易被大多数人忽略。其实任何时刻时间问题都是第一位的。这里有两个例子来说明由时间问题引起的一些难题。
1.因为时间问题,一个云服务平台出现了一些问题,比如云服务器无法建立,服务器宕机。
2.由于时间问题,分布式系统的文档存储会导致数据分布不均衡、裂脑等问题。
本文提到的连接点时间问题导致了OSD中常见的“摆动”故障。时间带来的问题远不止这些。虽然部署成功,但也会在事后引发一系列无端的问题,比如MON选举问题,OSD数据库同步问题。
所以无论云服务平台是否存储,都会因为时间原因造成冗余,这是一个普遍的问题。建议运维管理人员注意时间。
图8:CEPH集群
好吧,摩天大楼坏了。图为运维管理兄弟新建集群。配有三个或六个OSD连接点的Ceph小型集群。希望这篇文章可以作为Ceph初学者的参考。请阅读《部署调优检查点的调优》这本书,了解不同人的看法和预期的葬礼事件。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)