AWS RDS MySQL 主从同步延迟总结_随笔

最近居然被 MySQL 主从同步的问题坑了, 简直丢尽了老司机的脸, 总结一下.

问题很简单, 一个业务由于 MySQL 主从同步延迟导致读取的数据有问题. 问题解决了, 但如何在 AWS RDS 中获取 MySQL 的延迟信息呢? 非 AWS RDS 的传统 MySQL 中, 可以直接连到 server 通过 SHOW SLAVE STATUS 获取延迟信息.

RDS 呢?

AWS 中大多数(我也不确定是不是所有服务)都接入了 Cloudwatch. Cloudwatch 的好处就是可以作为一个中间层抽象, 将不同系统的数据抽象成一个模型, 统一通过 Cloudwatch API 访问. 就拿主从延迟来说, MySQL/MariaDB 和 PostgeSQL 的计算方法显然是不一样的:

因此, 只要通过 Cloudwatch API 获取 ReplicaLag 这个 metric 的值就可以判断主从同步延迟, 不管是哪种 DB

看上去挺简单的 API, 还是需要"进城手册", 避免挠头:

由于 Cloudwatch 支持的最细颗粒度的 metric 是1分钟, 因此仅仅获取前一分钟的数据可能会有 Cloudwatch 数据还未抓取到的问题.

建议是获取前一段时间(比如10分钟)的数据, 确保前10分钟的 ReplicaLag 都为0(或者小于一个可以接受的值), 则认为现在的状态是满足数据需求的.

MySQL 主从同步从入行就知道是需要重点关注的, 结果还是忽略了一下就掉坑里了. AWS Cloudwatch 也支持根据 ReplicaLag 的值直接告警的, 建议一定要设置一个.

linux下配置mysql主从同步的步骤

一、主机环境

主机：

master *** 作系统：rhel6.0

IP：172.16.0.100

MySQL版本：5.1.47

从机： www.2cto.com

slave *** 作系统：rhel6.0

IP：172.16.0.200

MySQL版本：5.1.47

二、创建数据库

分别登录master机和slave机的mysql：mysql –u root –p

创建数据库：create database repl

三、master机和slave机的相关配置

1、修改master机器中mysql配置文件my.cnf，该文件在/etc目录下

在[mysqld]配置段添加如下字段

server-id=1

log-bin=mysql-bin

binlog-do-db=repl //需要同步的数据库，如果没有本行，即表示同步所有的数据库

binlog-ignore-db=mysql //被忽略的数据库

在master机上为slave机添加一同步帐号

grant replication slave on *.* to 'replication'@'172.16.0.200' identified by '123456'

重启master机的mysql服务：service mysqld restart

用show master status 命令看日志情况

mysql>show master status

+-----------------+------------+-------------------+-----------------------+

+-----------------+------------+-------------------+-----------------------+

| log.000003 | 98 | repl | mysql |

+-----------------+------------+-------------------+-----------------------+

1 row in set (0.00 sec)

2、修改slave机中mysql配置文件

同样在[mysqld]字段下添加如下内容

server-id=2 www.2cto.com

master-host=172.16.0.100

master-user=repl

master-password=123456

master-port=3306

master-connect-retry=60

replicate-do-db=repl //同步的数据库，不写本行表示同步所有数据库

然后重启slave机的mysql

在slave机中进入mysql

mysql>start slave

mysql>show slave status\G

如果Slave_IO_Running、Slave_SQL_Running状态为Yes则表明设置成功。

这时再执行show slave status\G

显示如下：

*************************** 1. row ***************************

Slave_IO_State: Waiting for master to send event

Master_Host: 192.168.1.222

Master_User: repl

Master_Port: 3306

Connect_Retry: 60

Master_Log_File: log.000003

Read_Master_Log_Pos: 98

Relay_Log_File: mysqld-relay-bin.000002

Relay_Log_Pos: 229

Relay_Master_Log_File: log.000003

Slave_IO_Running: Yes

Slave_SQL_Running: Yes

Replicate_Do_DB:

Replicate_Ignore_DB:

Replicate_Do_Table:

Replicate_Ignore_Table:

Replicate_Wild_Do_Table:

Replicate_Wild_Ignore_Table:

Last_Errno: 0

Last_Error:

Skip_Counter: 0

Exec_Master_Log_Pos: 98

Relay_Log_Space: 229

Until_Condition: None

Until_Log_File:

Until_Log_Pos: 0

Master_SSL_Allowed: No

Master_SSL_CA_File:

Master_SSL_CA_Path:

Master_SSL_Cert:

Master_SSL_Cipher:

Master_SSL_Key:

Seconds_Behind_Master: 0

1 row in set (0.00 sec)

www.2cto.com

Slave_IO_Running: Yes Slave_SQL_Running: Yes

信息中如上两行都为Yes，说明配置成功。

五、测试主从服务器是否能同步

在主服务器上面新建一个表，必须在repl数据下

mysql>use repl

Database changed

mysql>create table test(id int,name char(10))

Query OK, 0 rows affected (0.00 sec)

mysql>insert into test values(1,'zaq')

Query OK, 1 row affected (0.00 sec)

mysql>insert into test values(1,'xsw')

Query OK, 1 row affected (0.00 sec)

mysql>select * from test

+------+------+

| id | name |

+-------+------+

| 1 | zaq |

| 1 | xsw |

+-------+------+

2 rows in set (0.00 sec)

在从服务器查看是否同步过来

mysql>use repl

Database changed

mysql>select * from test

+------+------+

| id | name |

+------+------+

| 1 | zaq |

| 1 | xsw |

+------+------+

2 rows in set (0.00 sec)

说明已经配置成功。

四、出现的问题

1. 当在执行start slave这条命令时，系统提示

ERROR 1200 (HY000): The server is not configured as slavefix in config file or with CHANGE MASTER TO，

执行show slave status又提示Empty set (0.00 sec)

原因:slave已经默认开启，要先关闭再开启

执行 slave stop

再执行

change master to master_host='172.16.0.200',master_user='repl',master_password='123456', master_log_file='log.000003' ,master_log_pos=98

2、出现错误提示：Slave_IO_Running:NO

mysql的error日志中信息： www.2cto.com

Slave I/O: error connecting to master 'replication@172.16.0.100:3306' - retry-time: 60 retries: 86400, Error_code: 1045

解决方法

1.在主mysql中创建slave远程连接访问时候的登录密码一定要设置对。

2.停止slave上的mysqld服务，从服务器上删除掉所有的二进制日志文件，包括一个数据目录下的master.info文件和hostname-relay-bin开头的文件，然后启动slave上的mysqld服务。

master.info:：记录了Mysql主服务器上的日志文件和记录位置、连接的密码。

3.slave上Slave_SQL_Running: No ，提示某个表定义不正确

解决方法：

清空drop掉master和slave上的已经存在所有表，然后从master库上导入新的数据即可。

看你的业务能承受的范围吧，实时性同步要求很高的话，一般来说最好在内一个局域网，百M和或千M交换机，延迟在1ms左右。掉包率也是一个要考虑的范围。

这个很难通过设置提高的，只能通过优化网络接入质量提升。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/7222670.html

AWS RDS MySQL 主从同步延迟总结

发表评论

评论列表（0条）