如何利用Linux和GFS打造集群存储_系统运维

负载均衡是一项困难的任务。我们经常需要通过NFS(网络文件系统)或其他机制来为数据提供中心地址，从而共享文件系统。虽然你的安全机制可能可以让你免于Web服务器节点的故障，但是你仍然需要通过中央存储节点来共享数据。

通过GFS(全局文件系统)——Linux的一个免费集群文件系统——你可以创建一个不需要依赖其他服务器的真正稳定的集群。在这篇文章中，我们将展示如何正确地设置GFS.

从概念上来说，一个集群文件系统可以允许多个 *** 作系统载入同一个文件系统并可以在同一时间内向同一文件系统写入数据。现在有许多集群文件系统，包括Sun的Lustre，Oracle的OCFS(Oracle集群文件系统)，以及Linux的GFS.

有许多方法可以让一个块设备同时被多个服务器所使用。你可以分区出一个对多个服务器都可视的SAN(存储局域网)LUN(逻辑单元号)，设置好相应的iSCSI(互联网小型计算机系统接口)，或使用DRBD(分布式复制块设备)在两台服务器之间复制一个分区。在使用DRBD的时候，你将需要在主/主节点中设置好DRBD以使用GFS.

GFS要求

运行GFS意味着你在运行一个集群。目前为止，运行GFS的最简单的手段就是使用Red Hat Cluster Suite(RHCS：Red Hat集群套件)。这个套件在CentOS中就有。此外，还需要下面这些包：cman——集群管理器lvm2-cluster——使LVM(逻辑卷管理器)可以支持集群的CLVM(集群逻辑卷管理器)包kmod-gfs——GFS内核模块最后是gfs-utils.

集群管理器(cman)包含必要的工具，比如分布式锁管理器。除非你希望花时间来确认各种不同的分发版本是如何采用cman的，否则我们强烈推荐使用CentOS或RHEL.同时，你还将获得RH(Red Hat)所维护的各种最新版本的集群服务，此外你还可以获得一个比较稳定的环境。

Fencing(阻绝)机制是绝对必要的。一些指导性文章建议将阻绝模式设定成"手动"，因为阻绝设置有可能比较复杂。阻绝意味在集群中进行隔离，或马上中断某些危险节点的运作。如果集群无法阻绝某个发生故障的节点，那么你的GFS将会出现很多问题，因此不要跳过这个步骤。

创建集群设置

你可以通过/etc/cluster/里面的cluster.conf完成大部分的集群设置。我不建议使用各种集群管理应用程序来创建这个设置文件。即使是完全支持的RHEL应用程序，比如两个月前发布的Conga，也经常会创建一些无效的cluster.conf文件，并且无法被必要的服务所解析。

下面是一个cluster.conf文件的例子。这个设置文件采用漂亮的XML格式，其内容非常直接。首先，我们对集群进行命名，我们将这个集群称作"Web.1".

先跳过fence daemon选项，下一个部分就是集群主体的设置内容。你需要在clusternodes部分定义两个节点。设置文件将同时存放在两个节点上，这样这两个节点就都知道彼此的情况。

集群内的每个节点都声明其阻绝方式的名称是独一无二的。在clusternames结束标签下面，我们看到fencedevice部分定义了每个节点如何阻绝其他节点的方式。使用一个支持IPMI(智能平台管理接口)的服务器是最好的方式，而且其设置也是相当简单。你只要将IPMI的地点以及登录方式告诉IP就可以了。为了避免在cluster.conf中留下密码，你可以将它指向一个由根所拥有的脚本并由这个脚本来返回密码。

我们还要指出的是我们在设置中定义了两个节点。这是必须的，因为通常来说，除非大部分节点都同意自己的状态，否则集群无法达到"Quorate"状态。如果只有两个节点的话，没有肯定多数，因此这种方式让集群只能在两个节点下工作，而不能只在只有一个节点的情况下工作。这是设置基本集群的必要方式。

在每个节点上运行"service cman start"，系统应该可以开始正常运作。你可以检查"clustat"或"cman nodes"来确认节点是否良好运行。如果有哪个必要的部分没有启动，那么集群将不会显示"Quorate"状态。

GFS设置

首先，我们需要设置CLVM，这样我们才可以通过GFS使用LVM.激活CLVM只要在lvm.conf中设定"locking type=3"就可以了。

然后，就像平常一样创建一个LVM卷组和卷，但是使用的是共享的块设备。如果你使用的是DRBD，你将有可能使用/dev/drbd0.我创建了一个物理卷，然后创建一个名为vg01的卷组，然后创建一个名为web1的逻辑卷，这个卷在：/dev/vg01/web1.

最后，我们需要创建文件系统：

gfs_mkfs -t web1：mygfs -p lock_dlm -j 2 /dev/vg01/web1

-t中给定的名称必须是集群的名称，然后后面是你给这个文件系统所起的名字。只有web1集群的成员才可以载入这个文件系统。然后，设定分布式锁管理器的锁钥类型，指明你需要两份journal(因为这是一个双节点集群)。如果你预计未来要增加更多的节点，那么你需要在这时设定足够高的journal数量。

总结

我们现在可以开始使用这个文件系统了。在两个节点上启动"clvmd"和"gfs"服务。现在你就可以通过"-t gfs"来将类型指定为GFS，从而载入文件系统。

在开始启动之前，一定要设定好cman，clvmd和gfs服务。你最好能熟悉clustat和gfs_tool命令，因为在系统出现问题的时候，你可以用这些命令来查找问题所在。

不要指望GFS能很快。如果有一个节点在进行大量的写入 *** 作的话，那么在访问文件系统的时候出现停顿是很正常的。对于一个数据读取 *** 作比数据写入 *** 作多得多的Web集群来说，这倒不是什么问题。如果出现明显延迟，那么首先要检查一下所有组件的状况，然后评估正在写入的数据。防止延迟现象的最常见措施就是确保HTTP对话中的数据不是写入GFS卷。

1.2.并行技术

这是一个非常简单的建造四节点的小集群系统的例子，它是构建在Linux *** 作系统上，通过MPICH软件包实现的，希望这个小例子能让大家对集群系统的构建有一个最基本的了解。

2.使用MPICH构建一个四节点的集群系统

2.1 所需设备

1).4台采用Pentium II处理器的PC机，每台配

置64M内存，2GB以上的硬盘，和EIDE接口的光盘驱动器。

2).5块100M快速以太网卡，如SMC 9332 EtherPower 10/100(其中四块卡用于连接集群中的结点，另外一块用于将集群中的其中的一个节点与其它网络连接。)

3).5根足够连接集群系统中每个节点的，使用5类非屏蔽双绞线制作的RJ45缆线

4).1个快速以太网(100BASE-Tx)的集线器或交换机

5).1张Linux安装盘

2.2 构建说明

对计算机硬件不熟的人，实施以下这些构建步骤会感到吃力。如果是这样，请找一些有经验的专业人士寻求帮助。

1. 准备好要使用的采用Pentium II处理器的PC机。确信所有的PC机都还没有接上电源，打开PC机的机箱，在准备与网络上的其它设备连接的PC机上安装上两块快速以太网卡，在其它的 PC机上安装上一块快速以太网卡。当然别忘了要加上附加的内存。确定完成后盖上机箱，接上电源。

2. 使用4根RJ45线缆将四台PC机连到快速以太网的集线器或交换机上。使用剩下的1根RJ45线将额外的以太网卡(用于与其它网络相连的那块，这样机构就可以用上集群)连接到机构的局域网上(假定你的机构局域网也是快速以太网)，然后打开电源。

3. 使用LINUX安装盘在每一台PC机上安装。请确信在LINUX系统中安装了C编译器和C的LIB库。当你配置TCP/IP时，建议你为四台PC分别指定为192.168.1.1、192.168.1.2、192.168.1.3、192.168.1.4。第一台PC为你的服务器节点(拥有两块网卡的那台)。在这个服务器节点上的那块与机构局域网相连的网卡，你应该为其指定一个与机构局域网吻合的IP地址。

4.当所有PC都装好Linux系统后，编辑每台机器的/etc/hosts文件，让其包含以下几行：

192.168.1.1 node1 server

192.168.1.2 node2

192.168.1.3 node3

192.168.1.4 node4

编辑每台机器的/etc/hosts.equiv文件，使其包含以下几行：

node1

node2

node3

node4

$p#

以下的这些配置是为了让其能使用MPICH’s p4策略去执行分布式的并行处理应用。

1. 在服务器节点

，建一个/mirror目录，并将其配置成为NFS服务器，并在/etc/exports文件中增加一行：

/mirror node1(rw) node2(rw) node3(rw) node4(rw)

2. 在其他节点上，也建一个/mirror目录，关在/etc/fstab文件中增加一行：

server:/mirror /mirror nfs rw,bg,soft 0 0

3. /mirror这个目录从服务器上输出，装载在各个客户端，以便在各个节点间进行软件任务的分发。

4. 在服务器节点上，安装MPICH。MPICH的文档可在

5.任何一个集群用户(你必须在每一个节点新建一个相同的用户)，必须在/mirror目录下建一个属于它的子目录，如 /mirror/username，用来存放MPI程序和共享数据文件。这种情况，用户仅仅需要在服务器节点上编译MPI程序，然后将编译后的程序拷贝到在/mirror目录下属于它的的子目录中，然后从他在/mirror目录下属于它的的子目录下使用p4 MPI策略运行MPI程序。

2.3 MPICH安装指南

1.如果你有gunzip，就d下载mpich.tar.gz，要不然就下载mpich.tar.Z。你可以到http://www.mcs.anl.gov/mpi/mpich/downloa下载，也可以使用匿名FTP到ftp.mcs.anl.gov的pub/mpi目录拿。(如果你觉得这个东西太大，你可以到pub/mpi/mpisplit中取分隔成块的几个小包，然后用cat命令将它们合并)

2.解压：gunzip c mpich.tar.gz 　tar xovf-(或zcat mpich.tar.Z　tar xovf-)

3.进入mpich目录

4.执行：./configure为MPICH选择一套适合你的实际软硬件环境的参数组，如果你对这些默认选择的参数不满意，可以自己进行配置(具体参见MPICH的配置文档)。最好选择一个指定的目录来安装和配置MPICH，例如：

./configure -prefix=/usr/local/mpich-1.2.0

5.执行：make >&make.log 这会花一段较长的时间，不同的硬件环境花的时间也就不同，可能从10分钟到1个小时，甚至更多。

6.(可选)在工作站网络，或是一台单独的工作站，编辑mpich/util/machines/machines.xxx(xxx是MPICH对你机器体系结构取的名称，你能很容易的认出来)以反映你工作站的当地主机名。你完全可以跳过这一步。在集群中，这一步不需要。

7.(可选)编译、运行一个简单的测试程序：

cd examples/basic

make cpi

ln s ../../bin/mpirun mpirun

./mpirun np 4 cpi

此时，你就在你的系统上运行了一个MPI程序。

8.(可选)构建MPICH其余的环境，为ch_p4策略使

用安全的服务会使得任何启动速度加快，你可以执行以下命令构建：

make serv_p4

(serv_p4是一个较新的P4安全服务的版本，它包含在MPICH 1.2.0版中)，nupshot程序是upshot程序的一个更快版本，但他需要tk 3.6版的源代码。如果你有这个包，你就用以下命令可以构建它：

make nupshot

9.(可选)如果你想将MPICH安装到一个公用的地方让其它人使用它，你可以执行：

make install 或 bin/mpiinstall

你可以使用-prefix选项指定MPICH安装目录。安装后将生成include、lib、bin、sbin、www和man目录以及一个小小的示例目录，

到此你可以通告所有的用户如何编译、执行一个MPI程序。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/7143156.html

如何利用Linux和GFS打造集群存储

发表评论

评论列表（0条）