如何使用Percona Toolkit解决Mysql主从不同步问题_随笔

由于各种原因，mysql主从架构经常会出现数据不一致的情况出现，大致归结为如下几类

1:备库写数据

2:执行non-deterministic query

3:回滚掺杂事务表和非事务表的事务

4:binlog或者relay log数据损坏

数据不同步给应用带来的危害是致命的，当出现主从数据不一致的情况，常见的应对方法是先把从库下线，然后找个半夜三更的时间把应用停掉，重新执行同步，如果数据库的体积十分庞大，那工作量可想而知，会让人崩溃。本文介绍使用percona-toolkit工具对mysql主从数据库的同步状态进行检查和重新同步。

一：安装percona-toolkit

用 pt-table-checksum 时，会不会影响业务性能？

实验

实验开始前，给大家分享一个小经验：任何性能评估，不要相信别人的评测结果，要在自己的环境上测试，并（大概）知晓原理。

我们先建一对主从：

然后用 mysqlslap跑一个持续的压力：

开另外一个会话，将 master 上的 general log 打开：

然后通过 pt-table-checksum 进行一次比较：

查看 master 的 general log，由于 mysqlslap 的影响，general log 中有很多内容，我们找到与 pt-table-checksum 相关的线程：

将该线程的 *** 作单独列出来：

*** 作比较多，我们一点一点来说明：

这里工具调小了 innodb 锁等待时间。使得之后的 *** 作，只要在 innodb 上稍微有锁等待，就会马上放弃 *** 作，对业务影响很小。

另外工具调小了 wait_timeout 时间，倒是没有特别的作用。

工具将隔离级别调整为了 RR 级别，事务的维护代价会比 RC 要高，不过后面我们会看到工具使用的每个事务都很小，加上之前提到 innodb 锁等待时间调到很小，对线上业务产生的成本比较小。

RR 级别是数据对比的基本要求。

工具通过一系列 *** 作，了解表的概况。工具是一个数据块一个数据块进行校验，这里获取了第一个数据块的下边界。

接下来工具获取了下一个数据块的下边界，每个 SQL前都会 EXPLAIN 一下，看一下执行成本，非常小心翼翼。

之后工具获取了一个数据块的 checksum，这个数据块不大，如果跟业务流量有冲突，会马上出发 innodb 的锁超时，立刻退让。

以上是 pt-table-checksum 的一些设计，可以看到这几处都是精心维护了业务流量不受影响。

工具还设计了其他的一些机制保障业务流量，比如参数 --max-load 和 --pause-file 等，还有精心设计的数据块划分方法，索引选择方法等。大家根据自己的情况配合使用即可达到很好的效果。

总结

本期我们介绍了简单分析 pt-table-checksum 是否会影响业务流量，坊间会流传工具的各种参数建议或者不建议使用，算命的情况比较多，大家都可以用简单的实验来分析其中机制。

还是那个观点，性能测试不能相信道听途说，得通过实验去分析。

欢迎分享，转载请注明来源：内存溢出

如何使用Percona Toolkit解决Mysql主从不同步问题