（mysql）利用redolog刷盘控制解决导入海量数据太慢的问题_随笔

事务每次提交都会将log buffer中的日志写入os buffer并调用fsync()刷到log file on disk中。这种方式即使系统崩溃也不会丢失任何数据，但是因为每次提交都写入磁盘，IO的性能较差。

事务提交时不会将log buffer中日志写入到os buffer，而是每秒写入os buffer并调用fsync()写入到log file on disk中。也就是说设置为0时是(大约)每秒刷新写入到磁盘中的，当系统崩溃，会丢失1秒钟的数据。

每次提交都仅写入到os buffer，然后是每秒调用fsync()将os buffer中的日志写入到log file on disk。

以上出自https://www.cnblogs.com/f-ck-need-u/archive/2018/05/08/9010872.html

当我们在导入大量数据时，控制innodb_flush_log_at_trx_commit =2，即可节省导入时间，待测试

数据备份是数据容灾的最后一道防线，即便有着两地三中心的架构，备份也依然重要。如果备份出问题，备份时影响了交易业务，备份数据无法恢复，这些也是企业难以承受的。所以选择合适的备份工具尤为重要。

每个企业级数据库都会有配套的备份工具，MEB(MySQL Enterprise Backup)就是MySQL企业版中非常重要的工具之一，是为企业级客户提供的数据备份方案。

Xtrabackup一直作为MEB 开源版备胎而存在，从MySQL 8.0开始情况可能会变得有所不同。

在 MySQL 8.0的Backup Lock、Redo Log Archiving、Page Tracking等新特性的加持下，MEB备份/恢复体验会更好，目前xtrabackup还不支持这些特性。

MySQL 企业版还有哪些功能？

特性1：Backup Lock

8.0之前使用xtrabackup或MEB做物理备份，为了保证备份时InnoDB引擎表与其他引擎数据文件、及binlog日志的一致性会上全局读锁，再拷贝非InnoDB文件，这期间MySQL会变成只读，数据无法写入。表数量越多，可能加上时间越长，如果使用的xtrabackup 不小心没加rsync参数，逐个拷贝frm文件，锁定时间会更长，对业务影响较大。

我曾遇到过部署在虚拟机的实例有12000多张表，当时使用的xtrabackup，备份脚本中没加rsync参数，结果锁了十几分钟，而MEB就没有这样的问题。

MySQL 8.0支持轻量级备份锁 LOCK INSTANCE FOR BACKUP，数据字典也重构了由InnoDB存储。若不创建非InnoDB表，MEB默认使用备份锁获取binlog日志一致性位置，并阻止DDL *** 作，但不影响DML *** 作。

只有InnoDB表，仅上备份锁

请点击输入图片描述

若有非InnoDB表，上全局锁

请点击输入图片描述

特性2：Redo Log Archiving

MEB能做到在线热备，备份时不影响数据库读写，这是利用了InnoDB事务日志，在备份期间持续监视redo log的变化，读取增量变化，写入到ibbackup_logfile，也就不需要上锁来保障备份一致性。(对非InnoDB的文件需要上读锁拷贝)

如果备份期间数据库写入负载特别大，而写入ibbackup_logfile速度较慢，redo log size也不大，很可能会出现ibbackup_logfile的写入速度跟不上redo log记录生成速度，redo log 空间不够时需要覆写日志文件，那么来不及写入ibbackup_logfile的记录会丢失，导致备份失败。

MEB 4.1对此做了优化，将redo log处理线程拆分成多线程分工合作，提高处理redo log的效率，降低了redo log覆写造成备份失败的概率，但redo log新增速度和ibbackup_logfile写入速度悬殊太大，问题依然会发生。

MySQL 8.0.17支持了redo log archiving 彻底解决了此问题，备份前设置innodb_redo_log_archive_dirs，指定redo log归档目录。MEB备份时自动开启日志归档，当checkpoint时会将旧记录归档到此目录，后续从归档文件中读取redo日志记录，避免了覆写可能导致的redo记录丢失。

请点击输入图片描述

注意：innodb_redo_log_archive_dirs 不能在数据目录下，目录权限要求是700

特性3：Page Tracking

Page Tracking 是为优化增量备份效率，减少不必要的数据页扫描。

增量备份当前有3种扫描模式：

page-track：利用LSN精确跟踪上次备份之后被修改页面，仅复制这些页面，效率最快。

optimistic：扫描上次备份之后被修改的InnoDB 数据文件中，找出并拷贝修改的页面。依赖系统时间，使用存在限制。

full-scan：扫描所有InnoDB数据文件，找出并拷贝自上次备份之后修改的页面，效率最慢

1、利用page-track增量备份，需先安装备份组件

mysql>INSTALL COMPONENT "file://component_mysqlbackup"

2、在全备前开启page-track

SELECT mysqlbackup_page_track_set(true)

3、全备之后，做增量备份时指定若满足page tracking条件，默认会使用page-track模式，否则会使用full-scan模式，也可以指定--incremental=page-track。

mysqlbackup --incremental-backup-dir=backup_incr --trace=3 --incremental=page-track --incremental-base=history:last_full_backup backup

incremental-base有3种选择

last_backup：基于前一次备份做增备，前一次备份可能是增备，也可能是全备。这种方式全备之间可能会有多个增备，每次增量可能比较小，但恢复时需要逐个合并。

last_full_backup：基于前一次全备做增备。这种方式增备会越往后体积可能越大，但恢复时只需要合并最后一次增量备份。

dir：基于前一次的备份目录，前一次备份可能是增备，也可能是全备。

测试对比full-scan 和page-track ，在变更页小于总体50%的情况下，备份效率至少能有1倍的速度提升。

page-track 模式磁盘读写均衡，说明读写的都是修改页面。

请点击输入图片描述

full-scan模式磁盘读写差别很大，说明读了很多未修改的页面。

请点击输入图片描述

先撤销之前的 *** 作，再恢复。在MySQL中undo和redo的意义分别是：

00 – Undo Log

Undo Log 是为了实现事务的原子性，在MySQL数据库InnoDB存储引擎中，还用Undo Log来实现多版本并发控制(简称：MVCC)。

- 事务的原子性(Atomicity)

事务中的所有 *** 作，要么全部完成，要么不做任何 *** 作，不能只做部分 *** 作。如果在执行的过程中发生了错误，要回滚(Rollback)到事务开始前的状态，就像这个事务从来没有执行过。

- 原理

Undo Log的原理很简单，为了满足事务的原子性，在 *** 作任何数据之前，首先将数据备份到一个地方（这个存储数据备份的地方称为Undo Log）。然后进行数据的修改。如果出现了错误或者用户执行了ROLLBACK语句，系统可以利用Undo Log中的备份将数据恢复到事务开始之前的状态。除了可以保证事务的原子性，Undo Log也可以用来辅助完成事务的持久化。

- 事务的持久性(Durability)

事务一旦完成，该事务对数据库所做的所有修改都会持久的保存到数据库中。不能因为错误/重启/宕机而丢失已经COMMIT的数据。为了保证持久性，数据库系统需要将修改后的数据完全的记录到持久的存储上。

- 用Undo Log实现原子性和持久化的事务的简化过程

假设有A、B两个数据，值分别为1,2。

A.事务开始.

B.记录A=1到undo log的内存buffer.

C.在内存中修改A=3.

D.记录B=2到undo log的内存buffer.

E.在内存中修改B=4.

F.将undo log的buffer写到磁盘。

G.将内存中修改后的数据写到磁盘。

H.事务提交

这里有一个前提条件：‘数据都是先读到内存中，然后修改内存中的数据，最后将数据写回磁盘’。以上过程之所以能同时保证原子性和持久化，是因为以下特点：

A. 更新数据前记录Undo log。

B. 为了保证持久性，必须将数据在事务提交前写到磁盘。只要事务成功提交，数据必然已经持久化。

C. Undo log必须先于数据持久化到磁盘。如果在G,H之间系统崩溃，undo log是完整的，可以用来回滚事务。

D. 如果在A-F之间系统崩溃,因为数据没有持久化到磁盘。所以磁盘上的数据还是保持在事务开始前的状态。

缺陷：每个事务提交前将数据和Undo Log写入磁盘，这样会导致大量的磁盘IO，因此性能很低。如果能够将数据缓存一段时间，就能减少IO提高性能。但是这样就会丧失事务的持久性。因此引入了另外一种机制来实现持久化，即Redo Log.

01 – Redo Log

- 原理

和Undo Log相反，Redo Log记录的是新数据的备份。在事务提交时，只要将Redo Log持久化即可，不需要将数据持久化。当系统崩溃时，虽然数据没有持久化，但是Redo Log已经持久化。系统可以根据Redo Log的内容，将所有数据恢复到最新的状态。

- Undo + Redo事务的简化过程

假设有A、B两个数据，值分别为1,2.

A.事务开始.

B.记录A=1到undo log的内存buffer.

C.内存中修改A=3.

D.记录A=3到redo log的内存buffer.

E.记录B=2到undo log的内存buffer.

F..内存中修改B=4.

G.记录B=4到redo log的内存buffer.

H.将redo log的内存buffer写入磁盘。

I.事务提交

- Undo + Redo事务的特点

A. 为了保证持久性，必须在事务提交时将Redo Log持久化。

B. 数据不需要在事务提交前写入磁盘，而是缓存在内存中。

C. Redo Log 保证事务的持久性。

D. Undo Log 保证事务的原子性。

E. 有一个隐含的特点，数据必须要晚于redo log写入持久存储。这是因为Recovery要依赖redo log. 如果redo log丢失了，系统需要保持事务的数据也没有被更新。

- IO性能

Undo + Redo的设计主要考虑的是提升IO性能。虽说通过缓存数据，减少了写数据的IO. 但是却引入了新的IO，即写Redo Log的IO。如果Redo Log的IO性能不好，就不能起到提高性能的目的。为了保证Redo Log能够有比较好的IO性能，InnoDB 的 Redo Log的设计有以下几个特点：

A. 尽量保持Redo Log存储在一段连续的空间上。以顺序追加的方式记录Redo Log,通过顺序IO来改善性能。因此在系统第一次启动时就会将日志文件的空间完全分配，从而保证Redo Log文件在存储上的空间有更好的连续性。

B. 批量写入日志。日志并不是直接写入文件，而是先写入redo log buffer.当需要将日志刷新到磁盘时 (如事务提交),才将许多日志一起写入磁盘，这样可以减少IO次数。

C. 并发的事务共享Redo Log的存储空间，它们的Redo Log按语句的执行顺序，依次交替的记录在一起，以减少Redo Log的IO次数。例如,Redo Log中的记录内容可能是这样的：

记录1: <trx1, insert …>

记录2: <trx2, update …>

记录3: <trx1, delete …>

记录4: <trx3, update …>

记录5: <trx2, insert …>

D. 因为C的原因,当一个事务将Redo Log写入磁盘时，也会将其他未提交的事务的日志写入磁盘。

E. Redo Log上只进行顺序追加的 *** 作，当一个事务需要回滚时，它的Redo Log记录也不会从Redo Log中删除掉。InnoDB的做法时将回滚 *** 作也记入Redo Log(具体做法看下一节).

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5903459.html

（mysql）利用redolog刷盘控制解决导入海量数据太慢的问题

发表评论

评论列表（0条）