用python将几个mysql数据库的数据同步到一个mysql里面_sql

MySQL 的 Binlog 记录着 MySQL 数据库的所有变更信息，了解 Binlog 的结构可以帮助我们解析Binlog，甚至对 Binlog 进行一些修改，或者说是“篡改”，例如实现类似于 Oracle 的 flashback 的功能，恢复误删除的记录，把 update 的记录再还原回去等。本文将带您探讨一下这些神奇功能的实现，您会发现比您想象地要简单得多。本文指的 Binlog 是 ROW 模式的 Binlog，这也是 MySQL 8 里的默认模式，STATEMENT 模式因为使用中有很多限制，现在用得越来越少了。

Binlog 由事件（event）组成，请注意是事件（event）不是事务（transaction），一个事务可以包含多个事件。事件描述对数据库的修改内容。

现在我们已经了解了 Binlog 的结构，我们可以试着修改 Binlog 里的数据。例如前面举例的 Binlog 删除了一条记录，我们可以试着把这条记录恢复，Binlog 里面有个删除行（DELETE_ROWS_EVENT）的事件，就是这个事件删除了记录，这个事件和写行（WRITE_ROWS_EVENT）的事件的数据结构是完全一样的，只是删除行事件的类型是 32，写行事件的类型是 30，我们把对应的 Binlog 位置的 32 改成 30 即可把已经删除的记录再插入回去。从前面的 “show binlog events” 里面可看到这个 DELETE_ROWS_EVENT 是从位置 378 开始的，这里的位置就是 Binlog 文件的实际位置（以字节为单位）。从事件（event）的结构里面可以看到 type_code 是在 event 的第 5 个字节，我们写个 Python 小程序把把第383（378+5=383）字节改成 30 即可。当然您也可以用二进制编辑工具来改。

找出 Binlog 中的大事务

由于 ROW 模式的 Binlog 是每一个变更都记录一条日志，因此一个简单的 SQL，在 Binlog 里可能会产生一个巨无霸的事务，例如一个不带 where 的 update 或 delete 语句，修改了全表里面的所有记录，每条记录都在 Binlog 里面记录一次，结果是一个巨大的事务记录。这样的大事务经常是产生麻烦的根源。我的一个客户有一次向我抱怨，一个 Binlog 前滚，滚了两天也没有动静，我把那个 Binlog 解析了一下，发现里面有个事务产生了 1.4G 的记录，修改了 66 万条记录！下面是一个简单的找出 Binlog 中大事务的 Python 小程序，我们知道用 mysqlbinlog 解析的 Binlog，每个事务都是以 BEGIN 开头，以 COMMIT 结束。我们找出 BENGIN 前面的 “# at” 的位置，检查 COMMIT 后面的 “# at” 位置，这两个位置相减即可计算出这个事务的大小，下面是这个 Python 程序的例子。

切割 Binlog 中的大事务

对于大的事务，MySQL 会把它分解成多个事件（注意一个是事务 TRANSACTION，另一个是事件 EVENT），事件的大小由参数 binlog-row-event-max-size 决定，这个参数默认是 8K。因此我们可以把若干个事件切割成一个单独的略小的事务

ROW 模式下，即使我们只更新了一条记录的其中某个字段，也会记录每个字段变更前后的值，这个行为是 binlog_row_image 参数控制的，这个参数有 3 个值，默认为 FULL，也就是记录列的所有修改，即使字段没有发生变更也会记录。这样我们就可以实现类似 Oracle 的 flashback 的功能，我个人估计 MySQL 未来的版本从可能会基于 Binlog 推出这样的功能。

了解了 Binlog 的结构，再加上 Python 这把瑞士军刀，我们还可以实现很多功能，例如我们可以统计哪个表被修改地最多？我们还可以把 Binlog 切割成一段一段的，然后再重组，可以灵活地进行 MySQL 数据库的修改和迁移等工作。

多套测试环境，如何做基线的数据库级别的同步更新？

工作中测试环境有多套时，为保证基础环境配置的一致性，就需要所有测试环境的数据库结构保持一致。

例如：A需求在 beta1 环境进行测试，且A需求提测单中有新增表的 sql，B需求在 beta2 环境进行测试，由于A需求比B需求先发布上线，此时在B需求测试过程中发布时需要将主干的代码合并到当前需求分支(集成测试的需要，可以提前检测出已上线的需求是否对当前在测的需求有影响)，代码合并后对应的相关配置也得跟上，否则程序运行时会报错，所以就需要在 beta2 环境更新 beta1 环境A需求新增表的sql。

因为每一次的发布上线都会做数据库级别的同步更新，如果只是两、三个测试环境，使用人工来手动更新也是可以的，如果测试环境多且数据库更新的内容量大，依然使用人工手动更新，效率就会十分低下，同时也会造成一些人为 *** 作的错误。这时自动化同步更新数据库就显得犹为重要了。在效率和正确率上都是完胜手工更新的。

由代码实现部分可以看出，有了这个自动同步的自动化脚本，在数据库更新时，只需要传入更新的 sql 语句就可一键自动同步多套测试环境的数据库信息了，十分高效。

MYSQL快速同步数据到Redis

举例场景：存储游戏玩家的任务数据，游戏服务器启动时将mysql中玩家的数据同步到redis中。

从MySQL中将数据导入到Redis的Hash结构中。当然，最直接的做法就是遍历MySQL数据，一条一条写入到Redis中。这样没什么错，但是速度会非常慢。如果能够想法使得MySQL的查询输出数据直接能够与Redis命令行的输入数据协议相吻合，可以节省很多消耗和缩短时间。

Mysql数据库名称为：GAME_DB, 表结构举例：

CREATE TABLE TABLE_MISSION (

playerId int(11) unsigned NOT NULL,

missionList varchar(255) NOT NULL,

PRIMARY KEY (playerId)

)

Redis中的数据结构使用哈希表：

键KEY为mission, 哈希域为mysql中对应的playerId, 哈希值为mysql中对应的missionList。数据如下：

[root@iZ23zcsdouzZ ~]# redis-cli

127.0.0.1:6379>hget missions 36598

"{\"10001\":{\"status\":1,\"progress\":0},\"10002\":{\"status\":1,\"progress\":0},\"10003\":{\"status\":1,\"progress\":0},\"10004\":{\"status\":1,\"progress\":0}}"

快速同步方法：

新建一个后缀.sql文件：mysql2redis_mission.sql

内容如下：

SELECT CONCAT(

"*4\r\n",

'$', LENGTH(redis_cmd), '\r\n',

redis_cmd, '\r\n',

'$', LENGTH(redis_key), '\r\n',

redis_key, '\r\n',

'$', LENGTH(hkey), '\r\n',

hkey, '\r\n',

'$', LENGTH(hval), '\r\n',

hval, '\r'

)

FROM (

SELECT

'HSET' as redis_cmd,

'missions' AS redis_key,

playerId AS hkey,

missionList AS hval

FROM TABLE_MISSION

) AS t

创建shell脚本mysql2redis_mission.sh

内容：

mysql GAME_DB --skip-column-names --raw <mission.sql | redis-cli --pipe

Linux系统终端执行该shell脚本或者直接运行该系统命令，即可将mysql数据库GAME_DB的表TABLE_MISSION数据同步到redis中键missions中去。mysql2redis_mission.sql文件就是将mysql数据的输出数据格式和redis的输入数据格式协议相匹配，从而大大缩短了同步时间。

经过测试，同样一份数据通过单条取出修改数据格式同步写入到redis消耗的时间为5min, 使用上面的sql文件和shell命令，同步完数据仅耗时3s左右。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/sjk/6764926.html

用python将几个mysql数据库的数据同步到一个mysql里面

发表评论

评论列表（0条）