基于MySQL双主的高可用解决方案理论及实践_随笔

MySQL在互联网应用中已经遍地开花，但是在银行系统中，还在生根发芽的阶段。本文记录的是根据某生产系统实际需求，对数据库高可用方案从需求、各高可用技术特点对比、实施、测试等过程进行整理，完善Mysql高可用方案，同时为后续开展分布式数据库相关测试做相应准备。

存储复制技术： 传统IOE架构下，常用高可用方案，靠存储底层复制技术实现数据的一致性，优点数据安全性有保障，限制在于是依赖存储硬件，实施成本较高。

keepalived+双主复制： 两台MySQL互为主从关系，即双主模式，通过Keepalived配置虚拟IP，实现当其中的一台数据库故障时，自动切换VIP到另外一台MySQL数据库，备机快速接管业务来保证数据库的高可用。

MHA： MHA部署在每台mysql服务器上，定时探测集群中的master节点，当master出现故障时，它可以自动将最新的slave提升为新的master，然后将所有其他的slave重新指向新的master，优点在最大程度保证数据的一致性的前提下实现快速切换，最少需要3台服务器，存在数据丢失的可能性。

PXC： Percona eXtra Cluster是Percona基于galera cluster封装的集群方案。不同于普通多主复制，PXC保障强一致性和实时同步，故障切换更快。但是也需要3个节点，配置相对复杂，对性能也稍有影响。

除了上述方案外，还有MMM、Heartbeat+DRBD等高可用方案，此处不做详细介绍。

综合评估下，本次实施采用了 keepalived+mysql双主实现数据库同城双机房的高可用。MySQL版本为： 5.7.21。 *** 作系统：Red Hat Enterprise Linux Server 7.3。

配置过程如下：

Mysql-master1: IP地址1 --以下简称master1

Mysql-master2: IP地址2 --以下简称master2

Mysql-vip : VIP地址 --应用连接使用

Mysql复制相关概念描述：

1、 Mysql主从复制图示：

2、 Mysql主从复制过程描述：

（1）master记录二进制日志：在每个事务更新数据完成之前，master在二进制日志记录这些改变。MySQL将事务写入二进制日志。在事务写入二进制日志完成后，master通知存储引擎提交事务。

（2）slave将master的binarylog拷贝到自己的中继日志：首先，slave开始一个工作线程——I/O线程。I/O线程在master上打开一个普通的连接，然后开始binlog dump process。Binlog dump process从master的二进制日志中读取事务，如果已经同步了master，它会睡眠并等待master产生新的事件。I/O线程将这些事务写入中继日志。

（3）SQL slave thread处理该过程的最后一步：SQL线程从中继日志读取事务，并重放其中的事务而更新slave的数据，使其与master中的数据一致。只要该线程与I/O线程保持一致，中继日志通常会位于OS的缓存中，所以中继日志的开销很小。

主主同步就是两台机器互为主的关系，在任何一台机器上写入都会同步至备端。

为了便于后续数据库服务器的扩展，且在整个复制环境中能够自动地切换，降低运维成本，引入了当前主流的基于Mysql GTID的复制特性，工作原理及优缺点简介如下。

3、 GTID工作原理简介：

（1） master更新数据时，会在事务前产生GTID，一同记录到Binlog日志中。

（2） slave的I/O线程将变更的binlog写入到本地的relay log中。

（3） slave的sql线程从relay log中获取GTID，然后对比slave端的binlog是否有记录。

（4）如果有记录说明该GTID的事务已经执行，slave会忽略。

（5）如果没有记录，slave就会从relay log中执行该GTID的事务，并记录到binlog。

（6）在解析的过程中会判断是否有主键，如果有就用索引，如果没有就用全部扫描。

4、 GTID优点：

（1）一个事务对应一个唯一的ID，一个GTID在一个服务器上只会执行一次。（2） GTID是用来替代传统复制的方法，GTID复制与普通复制模式的最大不同就是不需要指定二进制文件名和位置。

（3）减少手工干预和降低服务故障时间，当主机宕机之后会通过软件从众多的备机中提升一台备机为新的master。

5、 GTID也存在一些限制：

（1）不支持非事务引擎。

（2）不支持create table … select 语句复制(主库直接报错)。

（3）不允许一个sql同时更新一个事务引擎表和非事务引擎表。

（4）在一个复制组中，必须要求统一开启GTID或者是统一关闭GTID。

（5）开启GTID需要重启(5.7版本除外)。

（6）开启GTID后，就不再使用原理的传统复制方式。

（7）不支持create temporary table 和 drop temporary table语句。

（8）不支持sql_slave_skip_counter。

前置条件：

主备两个节点使用行内统一的安装部署脚本安装mysql5.7.21介质(略)

Master1端创建应用的数据库(略)

1、修改MySQL配置文件

参考相关配置规范，分别设置master1、master2的my.cnf文件，

其中server-id参数设置为不同值

由于后续keepalived会挂起VIP，应用通过VIP连接数据库，为了避免应用程序无法通过VIP访问，需将两个节点的bind-address参数注释掉；

2、设置master1端自动半同步模式

Mysql的同步模式主要有如下3种：

a. 主从同步复制：数据完整性好，但是性能消耗略高；

b. 主从异步复制：性能消耗低，但容易出现不一致；

c. 主从半自动复制：介于上述两种之间，既保持了数据的完整性，又提高了性能；

基于上述特性，建议采用半自动同步模式，由于后续要配置为双主模式，因此任一节点其角色既为master又为slave，因此相关的master/slave插件要同时配置，过程如下。

（1）首先查看库是否支持动态加载(默认都支持)

（2）主从库上分别安装插件

作为主库，安装插件semisync_master.so

作为从库，安装插件semisync_slave.so

（3）安装完成后，从plugin表中能够看到刚刚安装的插件

（4）分别打开主从库半同步复制

同时添加到各自的my.cnf中，在后续数据库实例重启时自动加载该配置。

此时查看状态还没有启动

（5）两个节点分别启动IO进程

（6）查看半同步状态

3、将master1设为master2的主服务器

（1）在master1主机上创建授权账户，允许在master2主机上连接

（2）将主库master1数据导出

（3）将master.sql传输到master2上并导入

（4）在master2端将master1设置为自己的主库，并开启slave功能

在master2上查看slave状态

至此master1到master2的主从复制关系已经建立完成。

4、将master2设为master1的主服务器

在master1上执行

在master1上查看slave状态

1、keepalived相关概念说明：

keepalived是集群管理中保证集群高可用的一个软件解决方案，其功能类似于heartbeat，用来防止单点故障

keepalived是以VRRP协议为实现基础的，VRRP全称VirtualRouter Redundancy Protocol，即虚拟路由冗余协议。

虚拟路由冗余协议，可以认为是实现路由器高可用的协议，即将N台提供相同功能的路由器组成一个路由器组，这个组里面有一个master和多个backup，master上面有一个对外提供服务的vip，master会发组播（组播地址为224.0.0.18），当backup收不到vrrp包时就认为master宕掉了，这时就需要根据VRRP的优先级来选举一个backup当master，这样的话就可以保证路由器的高可用了。

keepalived主要有三个模块，分别是core 、check和vrrp。core模块为keepalived的核心，负责主进程的启动、维护以及全局配置文件的加载和解析。check负责健康检查，包括常见的各种检查方式。vrrp模块是来实现VRRP协议的。同时为了避免出现脑裂，应关闭防火墙或者开启防火墙但允许接收VRRP协议。

2、keepalived的安装配置

（1）配置本地yum源，在master1和master2两台服务器上安装keepalived的相关依赖包Kernel-devel/openssl-devel/popt-devl等

配置指向rhel-7.5.iso的yum本地源，步骤略

注意：如不知道keepalived需要哪些依赖包，可到下载后的源码解压目录下查看INSTALL 文件内容，安装需要的依赖包，源码安装任何一个软件都要养成查看源码包文档的习惯，比如INSTALL，README,doc等文档，可以获得很多有用的信息。

（2）在两台mysql上解压缩并编译安装keepalived

（3）master1、master2上分别配置keepalived.conf

注意上图红色字体中两个节点配置相同处及差异。

说明：keepalived只有一个配置文件keepalived.conf，里面主要包括以下几个配置区域：

· global_defs：主要是配置故障发生时的通知对象以及机器标识。

· vrrp_instance：用来定义对外提供服务的VIP区域及其相关属性。

· virtual_server：虚拟服务器定义

（4）同时两个节点上都需要添加检测脚本

作用：是当mysql停止工作时自动关闭本机的keeplived服务，从而实现将故障主机踢出热备组，因每台机器上keepalived只添加了本机为realserver，所以当mysqld正常启动后，我们还需要手动启动keepalived服务。

（5）分别启动两个节点的keepalived服务

检查两个节点keepalived启动进程

检查两个节点的vip挂载情况

（6）主备机故障切换测试

停止master2的mysql服务，看keepalived 健康检查程序是否会触发脚本，自动进行故障切换，步骤略

查看master1节点的VIP挂载情况，验证是否实现了自动切换，步骤略

说明在master2服务器的mysql服务发生故障时，触发了脚本，自动完成了切换。

（7）现在我们把master2的mysql服务开起来，并且keepalived的服务也需要启动。

即便master2的mysql服务和keepalived服务都重新开启了，master1仍然是主master了，master2未对主master的权利进行抢夺，说明设置的nopreempt参数生效了，为了保证群集的稳定性，生产环境不允许抢占配置，只有当master1的mysql服务坏掉的时候，master2才会再次成为主master，否则它永远只能当master1的备份。（注：nopreempt一般是在优先级高的mysql上设置）

Sysbench是一个模块化的、跨平台、多线程基准测试工具，可用于评估数据库负载情况，通过sysbench命令配置IP地址、端口号、用户名、密码连接到指定的数据库db1中，创建多个表，并快速插入指定条数的记录，观察主备库同步效率

(1) 下载开源工具sysbench-0.4.12.14.tar.gz，放置在相应目录下并解压

(2) 使用iso配置本地yum源并安装Sysbench如下的依赖包(步骤略)：autoconf/automake/cdbs/debhelper(>=9)/docbook-xml/docbook-xsl/libmysqlclient15-dev/libtool/xsltproc

(3) 编译sysbench

编辑配置文件/etc/ld.so.conf中添加mysql lib目录/mysql/app/5.7.21/lib，并执行命令ldconfig生效

(4) 执行sysbench压测

使用sysbench工具向主节点的db1数据库中创建5张表，并且每张表分别插入10万条记录

同时观察备机同步效率

几个重要的参数说明：

B、半自动同步模式、异步模式切换测试

(1) 检查主备同步状态，及同步参数设置

rpl_semi_sync_master_enabled参数表示启用半同步模式；

rpl_semi_sync_master_timeout参数单位为毫秒，表示主库事务等待从库返回commit成功信息超过10秒就降为异步模式，不再等待从库，等探测到从库io线程恢复后，再返回为半自动同步；

rpl_semi_sync_master_wait_no_slave参数表示事务提交后需要等待从库返回确认信息；

(2) 将slave的io线程停止

(3) 使用sysbench向master写入少量的数据，本例创建一张表，并插入10条记录，命令包装在1.sh测试脚本中

通过记录的时间戳发现，master在等待了slave10秒无响应，自动切换为异步模式，将数据写入本地。

(4) Slave启动io线程，数据自动追平

至此MySQL主主复制配置完成，运行在半自动同步模式，通过keepalived实现Mysql的HA高可用。

上线后应符合统一的标准监控策略，添加备份协议对数据进行周期备份并保存到带库中，以及定期的数据恢复测试。

由于是靠keepalived实现的高可用，还应将如下资源添加到监控管理平台：

1、对每台数据库主机的3个keepalived进程进行监控；

2、对主备节点的io线程、sql线程工作状态进行监控；

第一种：在master上删除一条记录，而slave上找不到。

Last_SQL_Error: Could not execute Delete_rows event on table hcy.t1

Can't find record in 't1',

Error_code: 1032handler error HA_ERR_KEY_NOT_FOUND

the event's master log mysql-bin.000006, end_log_pos 254

第二种：主键重复。在slave已经有该记录，又在master上插入了同一条记录。

Last_SQL_Error: Could not execute Write_rows event on table hcy.t1

Duplicate entry '2' for key 'PRIMARY',

Error_code: 1062

handler error HA_ERR_FOUND_DUPP_KEYthe event's master log mysql-bin.000006, end_log_pos 924

第三种：在master上更新一条记录，而slave上找不到，丢失了数据。

Last_SQL_Error: Could not execute Update_rows event on table hcy.t1

Can't find record in 't1',

Error_code: 1032

handler error HA_ERR_KEY_NOT_FOUNDthe event's master log mysql-bin.000010, end_log_pos 263

异步半同步区别

使用MySQL双master+keepalived是一种非常好的解决方案，在MySQL-HA环境中，MySQL互为主从关系，这样就保证了两台MySQL数据的一致性，然后用keepalived实现虚拟IP，通过keepalived自带的服务监控功能来实现MySQL故障时自动切换。

下面，我把即将上线的一个生产环境中的架构与大家分享一下，看一下这个架构中，MySQL-HA是如何实现的，环境拓扑如下

MySQL-VIP：10.10.10.21

MySQL-master1：10.10.10.17

MySQL-master2：10.10.10.18

OS版本：Redhat6.2

MySQL版本：mysql-5.1.59

Keepalived版本：keepalived-1.1.20

一、MySQL master-master配置

1、修改MySQL配置文件

两台MySQL均如要开启binlog日志功能，开启方法：在MySQL配置文件[MySQLd]段中加上log-bin=MySQL-bin选项

两台MySQL的server-ID不能一样，默认情况下两台MySQL的serverID都是1，需将其中一台修改为2即可

Master1配置：

#vim /etc/my.cnf

log-bin=mysql-bin //开启binlog日志功能

log =/usr/local/mysql/var/mysql.log//会打印mysql的所以sql语句

server-id= 1 //

binlog-do-db =mysql//需要同步的库名称

auto-increment-increment= 2

auto-increment-offset= 2

Master2配置：

#vim /etc/my.cnf

log-bin=mysql-bin//开启binlog日志功能

log =/usr/local/mysql/var/mysql.log //会打印mysql的所以sql语句

server-id= 2

binlog-do-db =mysql //需要同步的库名称

auto-increment-increment= 2

auto-increment-offset= 2

2、建授权用户

在10.10.10.17上新建授权用户

grant replicationslave on *.* to test@’10.10.10.%’ identified by ‘123456’

在10.10.10.18服务器上建授权用户

grant replicationslave on *.* to test@’10.10.10.%’ identified by ‘123456’

3、将10.10.10.17设为10.10.10.18的主服务器

在10.10.10.18上将10.10.10.17设为自己的主服务器

mysql>show master status（17服务器配置）

1+------------------+----------+--------------+------------------+

+------------------+----------+--------------+------------------+

| mysql-bin.000027| 106|mysql||

+------------------+----------+--------------+------------------+

1 row in set (0.01 sec)

MySQL>change master to master_host='10.10.10.17',master_user=’test’,master_password='123456',master_log_file='MySQL-bin.000027',master_log_pos=106

Query OK, 0 rows affected (0.05 sec)

MySQL>start slave

Query OK, 0 rows affected (0.00 sec)

mysql>show slave status \G

Slave_IO_Running: Yes

Slave_SQL_Running: Yes \\如果此2项都为yes，master-master配置即成功

将10.10.10.18设为10.10.10.17的主服务器方法与上面设置一致只需将

在10.10.10.17上将10.10.10.18设为自己的主服务器

mysql>show master status（18服务器配置）

1+------------------+----------+--------------+------------------+

+------------------+----------+--------------+------------------+

| mysql-bin.000027| 106|mysql||

+------------------+----------+--------------+------------------+

1 row in set (0.01 sec)

MySQL>change master to master_host='10.10.10.18',master_user=’test’,master_password='123456',master_log_file='MySQL-bin.000027',master_log_pos=106

Query OK, 0 rows affected (0.05 sec)

MySQL>start slave

Query OK, 0 rows affected (0.00 sec)

mysql>show slave status \G

Slave_IO_Running: Yes

Slave_SQL_Running: Yes \\如果此2项都为yes，master-master配置即成功

测试是否成功：

如上述均正确配置，现在在任何一台MySQL上更新数据都会同步到另一台MySQL(仅限mysql库)

二、keepalived安装及配置

1、10.10.10.17服务器上keepalived安装及配置

安装keepalived

#tar zxvfkeepalived-1.1.20.tar.gz

#cdkeepalived-1.1.20

#./configure--prefix=/usr/local/keepalived--with-kernel-dir=/usr/src/kernels/2.6.32-220.el6.x86_64

#make &&make install

配置keepalived

我们自己在新建一个配置文件，默认情况下keepalived启动时会去/etc/keepalived目录下找配置文件

#mkdir/etc/keepalived

#vi/etc/keepalived/keepalived.conf

global_defs {

notification_email {

}

smtp_server 127.0.0.1 （如果本机配置的话）

smtp_connect_timeout 30

router_id MySQL-ha

}

vrrp_instance VI_1{

state BACKUP #两台配置此处均是BACKUP

interface p4p1 #注意网卡接口

virtual_router_id 51

priority 100 #优先级，另一台改为90

advert_int 1

nopreempt #不主动抢占资源，只在优先级高的机器上设置即可，优先级低的机器不设置

authentication {

auth_type PASS

auth_pass 1111

}

virtual_ipaddress {

10.10.10.21

}

virtual_server10.10.10.21 3306 {

delay_loop 2 #每个2秒检查一次real_server状态

lb_algo wrr#LVS算法

lb_kind DR #LVS模式

persistence_timeout 60 #会话保持时间

protocol TCP

real_server 10.10.10.17 3306 {

weight 3

notify_down /usr/local/my/my.sh #检测到服务down后执行的脚本

TCP_CHECK {

connect_timeout 10#连接超时时间

nb_get_retry 3#重连次数

delay_before_retry 3 #重连间隔时间

connect_port 3306 #健康检查端口

}

编写检测服务down后所要执行的脚本

#vi/usr/local/MySQL/bin/MySQL.sh

#!/bin/sh

pkillkeepalived

#chmod +x/usr/local/MySQL/bin/MySQL.sh

注：此脚本是上面配置文件notify_down选项所用到的，keepalived使用notify_down选项来检查real_server的服务状态，当发现real_server服务故障时，便触发此脚本；我们可以看到，脚本就一个命令，通过pkill keepalived强制杀死keepalived进程，从而实现了MySQL故障自动转移。另外，我们不用担心两个MySQL会同时提供数据更新 *** 作，因为每台MySQL上的keepalived的配置里面只有本机MySQL的IP+VIP，而不是两台MySQL的IP+VIP

启动keepalived

#/usr/local/keepalived/sbin/keepalived–D

#ps -aux | grepkeepalived

测试

找一台局域网PC，然后去ping MySQL的VIP，这时候MySQL的VIP是可以ping的通的

停止MySQL服务，看keepalived健康检查程序是否会触发我们编写的脚本

1、10.10.10.18服务器上keepalived安装及配置

安装keepalived

#tar zxvfkeepalived-1.1.20.tar.gz

#cdkeepalived-1.1.20

#./configure--prefix=/usr/local/keepalived--with-kernel-dir=/usr/src/kernels/2.6.32-220.el6.x86_64

#make &&make install

配置keepalived

我们自己在新建一个配置文件，默认情况下keepalived启动时会去/etc/keepalived目录下找配置文件

#mkdir/etc/keepalived

#vi/etc/keepalived/keepalived.conf

global_defs {

notification_email {

}

smtp_server 127.0.0.1

smtp_connect_timeout 30

router_id MySQL-ha

}

vrrp_instance VI_1{

state BACKUP #两台配置此处均是BACKUP

interface p4p1 #注意网卡接口

virtual_router_id 51

priority 90 #优先级，另一台改为90

advert_int 1

authentication {

auth_type PASS

auth_pass 1111

}

virtual_ipaddress {

10.10.10.21

}

virtual_server10.10.10.21 3306 {

delay_loop 2 #每个2秒检查一次real_server状态

lb_algo wrr#LVS算法

lb_kind DR #LVS模式

persistence_timeout 60 #会话保持时间

protocol TCP

real_server 10.10.10.18 3306 {

weight 3

notify_down /usr/local/my/my.sh #检测到服务down后执行的脚本

TCP_CHECK {

connect_timeout 10#连接超时时间

nb_get_retry 3#重连次数

delay_before_retry 3 #重连间隔时间

connect_port 3306 #健康检查端口

}

启动keepalived

#/usr/local/keepalived/sbin/keepalived–D

#ps -aux | grepkeepalived

测试

停止MySQL服务，看keepalived健康检查程序是否会触发我们编写的脚本

三、测试

两台MySQL服务器都要授权允许从远程登录

MySQL>grantall privileges on *.* to andyguo@'%' identified by '123456'

Query OK, 0 rowsaffected (0.00 sec)

MySQL>flushprivileges

Query OK, 0 rowsaffected (0.00 sec)

keepalived故障转移测试:

在windows客户端一直去ping VIP，然后关闭10.10.10.17上的keepalived，正常情况下VIP就会切换到10.10.10.18上面去

开启10.10.10.17上的keepalived，关闭10.10.10.18上的keepalived，看是否能自动切换，正常情况下VIP又会属于10.10.10.17

注：keepalived切换速度还是非常块的，整个切换过程只需1-3秒

MySQL故障转移测试：

在10.10.10.17上关闭MySQL服务，看VIP是否会切换到10.10.10.18上

开启10.10.10.17上的MySQL和keepalived，然后关闭10.10.10.18上的MySQL，看VIP是否会切换到10.10.10.17上

如果都没问题，到此整个配置即已完成。

备注（在测试的过程中遇到了一些问题，解决方法）

Keepalived_healthcheckers:IPVS: Can't initialize ipvs: Protocol not available

起初重装了ipvsadm和keepalived，但故障依旧，随后突然想到是否lvs模块加载异常，于是lsmod|grep ip_vs发现果然没有相应的模块，而正常情况下应该是有的

e、手动加载ip_vs模块

modprobe ip_vs

modprobe ip_vs_wrr

f、重启keepalived服务，故障排除，此时转发正常，从服务器的ip_vs加载正常，主从切换也正常

g、将modprobeip_vs、modprobe ip_vs_wrr添加进/etc/rc.local开机自动加载

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/8660738.html

基于MySQL双主的高可用解决方案理论及实践

发表评论

评论列表（0条）