linux中rsync异步服务器实现文件同步与备份_系统运维

Rsync

非常适合在两台机器之间快速同步大型、复杂的目录，例如论坛的附件目录。再配合

ssh

，则安全性也有保证，且可以利用

ssh

public

key

和

cron

来进行自动定时同步。

说明：两台机器分别为

localhost

和

remotehost

用户分别为

localuser

和

remoteuser。

环境：FreeBSD

4.9

和

FreeBSD

6.1

代码如下

设置

ssh

public

key

认证

$ssh-keygen

-t

dsa

-b

2048

生成所需的密钥

$scp

/home/localuser/.ssh/id_dsa.pub

remoteuser@remotehost:/home/remoteuser/.ssh/localuser_id_dsa.pub

将公钥拷贝至

remotehost

$ssh

remoteuser@remotehost

登录到?端

代码如下

$cd

.ssh/

cat

localuser_id_dsa.pub

authorized_keys

至此，设置

ssh

认证完毕。

设置

rsync

确认两端机器都安装

rsync

，

freeBSD

有

ports

，安装非常方便。

写个脚本名为

backup.sh

，内容如下：

代码如下

#!/bin/sh

RSYNC=/usr/local/bin/rsync

SSH=/usr/bin/ssh

KEY=/home/localuser/.ssh

/id_rsa

RUSER=remoteuser

RHOST=remotehost

RPATH=/remote/dir

LPATH=/this/dir

$RSYNC

-az—delte

-e

“$SSH

-i

$KEY”

$RUSER@$RHOST:$RPATH

$LPATH

-a

选项相当于选项

-rlptgoD

。简单来讲，此选项可递归并将几乎所有的东西同步过去，非常有用。注意的是，

-a

默认不会保存

hardlinks

，不过可以单独用

-H

选项来实现。

-z

选项在传输中压缩文件，这无疑加快同步速度。

-delete

选项会删除接受方一些不应存在的文件，此文件在发送方已经被删除，这将保持目录完全同步。

让

cron

每天凌晨1点来跑这个脚本

代码如下

$crontab

-e

/home/localuser/bin/backup.sh

友情提示

rsync是没有自动启动同步功能了，如果我们要定时去备份一个网站数据我们就需要用到定时功能了，上面的例子来使用到了linux中$crontab命令来定时执行备份数据脚本了哦。

file_get_contents函数慢的话，可以试下curl，效率比较高一些，排查一下原因。

fsockopen 函数需要 PHP.ini 中开启 allow_url_fopen 选项，检查一下。

您好，很高兴为您解答。

在现有文件系统下进行优化：

linux内核和各个文件系统采用了几个优化方案来提升磁盘访问速度。但这些优化方案需要在我们的服务器设计中进行配合才能得到充分发挥。

文件系统缓存

linux内核会将大部分空闲内存交给虚拟文件系统，来作为文件缓存，叫做page cache。在内存不足时，这部分内存会采用lru算法进行淘汰。通过free命令查看内存，显示为cached的部分就是文件缓存了。

如何针对性优化：

lru并不是一个优秀淘汰算法，lru最大的优势是普适性好，在各种使用场景下都能起到一定的效果。如果能找到当前使用场景下，文件被访问的统计特征，针对性的写一个淘汰算法，可以大幅提升文件缓存的命中率。对于http正向代理来说，一个好的淘汰算法可以用1GB内存达到lru算法100GB内存的缓存效果。如果不打算写一个新的淘汰算法，一般不需要在应用层再搭一个文件cache程序来做缓存。

最小分配：

当文件扩大，需要分配磁盘空间时，大部分文件系统不会仅仅只分配当前需要的磁盘空间，而是会多分配一些磁盘空间。这样下次文件扩大时就可以使用已经分配好的空间，而不会频繁的去分配新空间。

例如ext3下，每次分配磁盘空间时，最小是分配8KB。

最小分配的副作用是会浪费一些磁盘空间（分配了但是又没有使用）

如何针对性优化：

我们在reiserfs下将最小分配空间从8KB改大到128K后提升了30%的磁盘io性能。如果当前使用场景下小文件很多，把预分配改大就会浪费很多磁盘空间，所以这个数值要根据当前使用场景来设定。似乎要直接改源代码才能生效，不太记得了，09年的时候改的，有兴趣的同学自己google吧。

io访问调度：

在同时有多个io访问时，linux内核可以对这些io访问按LBA进行合并和排序，这样磁头在移动时，可以“顺便”读出移动过程中的数据。

SATA等磁盘甚至在磁盘中内置了io排序来进一步提升性能，一般需要在主板中进行配置才能启动磁盘内置io排序。linux的io排序是根据LBA进行的，但LBA是一个一维线性地址，无法完全反应出二维的圆形磁盘，所以磁盘的内置io排序能达到更好的效果。

如何针对性优化：

io访问调度能大幅提升io性能，前提是应用层同时发起了足够的io访问供linux去调度。

怎样才能从应用层同时向内核发起多个io访问呢？

方案一是用aio_read异步发起多个文件读写请求。

方案二是使用磁盘线程池同时发起多个文件读写请求。

对我们的http正向代理来说，采用16个线程读写磁盘可以将性能提升到2.5倍左右。具体开多少个线程/进程，可以根据具体使用场景来决定。

小提示：

将文件句柄设置为非阻塞时，进程还是会睡眠等待磁盘io，非阻塞对于文件读写是不生效的。在正常情况下，读文件只会引入十几毫秒睡眠，所以不太明显；而在磁盘io极大时，读文件会引起十秒以上的进程睡眠。

预读取：

linux内核可以预测我们“将来的读请求”并提前将数据读取出来。通过预读取可以减少读io的次数，并且减小读请求的延时。

如何针对性优化：

预读取的预测准确率是有限的，与其依赖预读取，不如我们直接开一个较大的缓冲区，一次性将文件读出来再慢慢处理；尽量不要开一个较小的缓冲区，循环读文件/处理文件。

虽然说“预读取”和“延迟分配”能起到类似的作用，但是我们自己扩大读写缓冲区效果要更好。

延迟分配：

当文件扩大，需要分配磁盘空间时，可以不立即进行分配，而是暂存在内存中，将多次分配磁盘空间的请求聚合在一起后，再进行一次性分配。

延迟分配的目的也是减少分配次数，从而减少文件不连续。

延迟分配的副作用有几个：

1、如果应用程序每次写数据后都通过fsync等接口进行强制刷新，延迟分配将不起作用

2、延迟分配有可能间歇性引入一个较大的磁盘IO延时（因为要一次性向磁盘写入较多数据）

只有少数新文件系统支持这个特性

如何针对性优化：

如果不是对安全性（是否允许丢失）要求极高的数据，可以直接在应用程序里缓存起来，积累到一定大小再写入，效果比文件系统的延迟分配更好。如果对安全性要求极高，建议经常用fsync强制刷新。

在线磁盘碎片整理：

Ext4提供了一款碎片整理工具，叫e4defrag，主要包含三个功能：

1、让每个文件连续存储

2、尽量让每个目录下的文件连续存储

3、通过整理空闲磁盘空间，让接下来的分配更不容易产生碎片

如何针对性优化：

“让每个目录下的文件连续存储”是一个极有价值的功能。

传统的做法是通过拼接图片来将这10张图片合并到一张大图中，再由前端将大图切成10张小图。

有了e4defrag后，可以将需连续访问的文件放在同一个文件夹下，再定期使用e4defrag进行磁盘整理。

实现自己的文件系统：

在大部分服务器上，不需要支持“修改文件”这个功能。一旦文件创建好，就不能再做修改 *** 作，只支持读取和删除。在这个前提下，我们可以消灭所有文件碎片，把磁盘io效率提升到理论极限。

有一个公式可以衡量磁盘io的效率：

磁盘利用率 = 传输时间/（平均寻道时间+传输时间）

如若满意，请点击回答右侧【采纳答案】，如若还有问题，请点击【追问】

~ O(∩_∩)O~

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/8734089.html

linux中rsync异步服务器实现文件同步与备份

发表评论

评论列表（0条）