MySQL分区表简介_随笔

我们的业务只存近一段时间的数据，因此有大量表需要清理历史数据，目前使用的delete清理数据，存在以下问题。为避免同时支持大量delete，我们的清理任务只在低峰期串行执行，导致任务过多时需要排队，甚至失败的情况；数据清理使用delete语句，表数据量较大时，对数据库造成很大压力；即使我们删除了旧数据，已删除的数据仍占据存储空间，底层数据文件并没有立刻变小，以至于形成数据空洞。

查看MySQL官方文档时，发现了分区表，因此基于官方文档总结一下。

MySQL逻辑上为一个表，物理上存储在多个文件中，这是 MySQL 支持的功能（5.1 开始）, 8.0 版本只 InnoDB 和 NDB 支持分区表。

优点：

缺点：

根据分区表键值的范围把数据存储到表的不同分区中，适用于以时间或日期作为分区类型，方便数据清理。

小提示：

1.当插入数据分区不存在时会报错：Table has no partition for value xxx

2.Range类型分区字段必须是数值，时间类型可用函数转换为数值；

3.分区字段列值可以为null，所有为null的数据将存在最小的分区中；

按分区键取值的列表进行分区，每一行数据须找到对应的分区列表，否则数据插入失败

小提示：

根据指定分区表达式的整数值以及分区数进行数据划分(mod函数)

小提示：

按键分区类似于按哈希分区，只是哈希分区使用用户定义的表达式，用于键分区的哈希函数由 MySQL 服务器提供。NDB 集群为此使用 MD5() 对于使用其他存储引擎的表，服务器使用自己的内部哈希函数。

小提示：

子分区(subpartitioning)也称为复合分区(composite partitioning) ，是已分区表中每个分区的进一步划分

小提示：

import_table(importTable) 的延申功能：可定制化行输入。

import_table(importTable) 我们之前有介绍过，是一款并行导入各种格式文本的工具，封装了 MySQL 语句 load data local infile。

比如说要导入一个以 TAB 为分隔符的文本数据文件：/tmp/sample_ytt.txt 到表：ytt_new.t1，可以执行下面语句：

上面结果是 load data infile 语句的导入结果。如果改用 import_table 方法来做同样的事情，基于 Python 语法，使用方法如下：

那接下来看另外一个需求：在导入文本文件时对每行做预处理（例如在导入数据之前更改列 r2 的值为 mod(r1,10)，列 r5 的值为 abs(r4-46) ），这样可以减少导入后再次处理的时间开销。

这个需求用 load data infile 语句非常容易实现：（导入时更改列 r2 和 r5 的数据，类似 UPDATE 语法）

那如果要用 util.import_table(importTable) 来实现上面的需求，在 MySQL 8.0.22 之前是没办法的。

随着 MySQL 8.0.22 的发布，MySQL 对 import_table 方法做了些扩充功能，其中增加了一个选项 “decodeColumns” 可以实现字段的预先输入定制化功能，并且还可以更加丰富。

接下来用 import_table 来实现上面的需求，定制化字段 r2 和 r5：

以上 Options 选项，见下图：

我来具体解释下上图的含义：蓝色字体 columns 对应的数组分别指定数据文件中的每行字段，也就是默认的 TAB 分隔符所分割的每列值，1 和 2 代表占位符，1 代表数据文件中每行的第一个列，2 代表数据文件中每行的第四列，decodeColumns 字典分别对需要预先输入的字段做处理。比如 r1 字段保留为变量 @1，r2 字段对应 mod(r1,10) 等。

如果还是不太理解变换规则，可以临时打开 general log，上面 import_table（importTable）对应的 MySQL 日志为：

以上日志写的很清楚，内部转换为最基本的load data infile语法。

那这里我简单解读了下 MySQL 8.0.22 对 MySQL Shell 的一项定制化输入文本文件的新特性，更多的新特性可以继续关注。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/7339197.html

MySQL分区表简介

发表评论

评论列表（0条）