技术分享 | MySQL 并行 DDL_随笔

随着 MySQL 版本的不断更新，对 DDL *** 作的支持也在不断的完善和更新：比如从 MySQL 5.6 引入 Online DDL ，在 MySQL 5.7 对 Online DDL 进一步完善，到现在的 8.0 版本，则对 DDL 的实现重新进行了设计，比如 DDL *** 作支持原子特性，在 MySQL 8.0.27 引入并行 DDL 。本篇就来探究一下 MySQL 8.0.27 的并行 DDL 对于 DDL *** 作速度的提升。

MySQL 8.0.14 引入了 innodb_parallel_read_threads 变量来控制扫描聚簇索引的并行线程。MySQL 8.0.27 引入了 innodb_ddl_threads 变量来控制用于创建二级索引时的并行线程数量，此参数一般和一并引入的 innodb_ddl_buffer_size 一起使用，innodb_ddl_buffer_size 用于指定进行并行 DDL *** 作时能够使用的 buffer 大小，buffer 是在所有的 DDL 并行线程中平均分配的，所以一般如果调大 innodb_ddl_threads 变量时，也需要调大 innodb_ddl_buffer_size 的大小。

innodb_ddl_threads 、innodb_ddl_buffer_size 和 innodb_parallel_read_threads 的默认大小分别为：

接下来测试一下调大 innodb_ddl_threads 、innodb_ddl_buffer_size 和 innodb_parallel_read_threads 参数值对 DDL *** 作的性能提升。

首先创建一张 5000 万的表：

分别测试不同的线程数量和缓冲区大小的 DDL *** 作时间，例如：

通过不断调整相关参数得到以下结果：

可以看到，随着并发线程的增多和 buffer 的增加，DDL *** 作所占用的资源也越多，而 DDL *** 作所花费的时间则越少。不过通过对比资源的消耗和 DDL 速度的提升比例，最合理的并行线程数量为4-8个，而 buffer 大小可以根据情况进行调整。

参考链接： https://dev.mysql.com/doc/refman/8.0/en/online-ddl-parallel-thread-configuration.html

在PHP-FPM处理HTTP请求时，有时会遇到一个请求需要进行多次MySQL查询（在报表类应用中比较常见）。通常我们会以串行方式查询：

$link = new mysqli()

$rs1 = $link->query('SELECT * FROM table1')

while ($row = $rs1->fetch_row()) { ... }

$rs2 = $link->query('SELECT * FROM table2')

while ($row = $rs2->fetch_row()) { ... }

$rs3 = $link->query('SELECT * FROM table3')

while ($row = $rs3->fetch_row()) { ... }

串行查询方式有个缺点：在MySQL返回数据之前，PHP一直是处于空等的状态，不会继续往后执行。如果数据量大或者查询复杂，MySQL响应可能会比较慢，那么以串行方式查询会有一些延迟。给用户最直接的感受就是 Loading… 的圈圈一直打转。

那么有什么办法可以减少查询MySQL的时间？用多进程并行查询不行，因为PHP-FPM 中不允许用 pcntl_fork 一类的调用。

幸好还有 mysqlnd，mysqlnd提供了类似 stream_select 的机制（见这篇文章），可以做到在单进程中对MySQL并行查询。这主要运用了mysqli_poll 和 reap_async_query 两个函数。

还是通过例子来介绍MySQL并行查询的实施方法。假设要并行地向MySQL发出10个查询，最基本的代码应该是这样的：

1. $links = []

2. for ($i = 0 $i !== 10 $i++) {

3. $links[$i] = new mysqli('127.0.0.1', 'user', 'password', 'db1')

4. $links[$i]->query('SELECT SLEEP(1)', MYSQLI_ASYNC)

5. }

6. $allResult = []

7. while (!empty($links)) {

8. $reads = $links

9. $errors = $reject = []

10. if (!mysqli_poll($reads, $errors, $reject, null)) {

11. continue

12. }

13. foreach ($reads as $read) {

14. $idx = array_search($read, $links, true)

15. $allResult[$idx] = []

16. $result = $read->reap_async_query()

17. while ($row = $result->fetch_row()) {

18. $allResult[$idx][] = $row

19. }

20. $read->close()

21. unset($links[$idx])

22. }

23. }

解释下这段代码的含义：

2~5行，同时发起10个MySQL连接，并发出查询

注意query() 的第二个参数带上了 MYSQLI_ASYNC 表示非阻塞查询

10行，使用mysqli_poll 轮询10个连接的查询有无返回

mysqli_poll 的第一个参数$reads是个数组，包含需要轮询那些连接。mysqli_poll 执行完后，会改写$reads，改写后$reads包含的是那些已经有数据返回连接。

mysqli_poll的第四个参数，控制的是轮询的等待时间，单位是“秒”。如果像本例当中设置为null，那么mysqli_poll轮询是阻塞的：只有监听的连接中，任意一个连接有数据返回了，mysqli_poll才会返回。如果等待时间设置为0，那么每次执行mysqli_poll会立即返回，外层的while会频繁循环。

第11~19行，遍历已经有数据返回的连接

reap_async_query和普通query一样，返回的是mysqli_result，可以一行行fetch数据

20~21行，对于已经获得了数据的连接，下次mysqli_poll就不需要再轮询这个连接了，所以关闭连接，并从$links数组删除这个连接

当所有的连接都返回了数据，$links数组空了，while循环也就终止了。

使用并行查询的方式，可以大大缩短处理HTTP请求的时间，假设本例中的10个SQL查询，每个需要执行1秒。因为是并行，处理所有的查询，也只需要1秒左右。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/6104352.html

技术分享 | MySQL 并行 DDL

发表评论

评论列表（0条）