常听说MySQL中3表 join 的执行流程并不是前两张表 join 得出结果,再与第三张表进行 join;而是3表嵌套的循环连接。那这个3表嵌套的循环连接具体又是个什么流程呢?与前两张表 join 得出结果再与第三张表进行 join 的执行效率相比如何呢?下面通过一个例子来分析分析。
set optimizer_switch='block_nested_loop=off'
关联字段无索引的情况下强制使用索引嵌套循环连接算法,目的是更好的观察扫描行数。
表结构和数据如下:
示例SQL:
通过 slow log 得知一共扫描 24100 行:
执行计划显示用的索引嵌套循环连接算法:
扫描行数构成:
总行数=100+4000+20000=24100。
从这个结果来看,join 过程像是先 t1 和 t3 join 得出 20 行中间结果,再与 t2 进行 join 得出结果。这结论与我们通常认为的 3表 join 实际上是3表嵌套的循环连接不一样,接着往下看。
查看执行计划成本:
mysql>explain format=json select * from t1 join t2 on t1.b=t2.b join t3 on t1.b=t3.b where t1.a<21\G
其他信息:
IO成本= 1*1.0 =1
CPU成本= 100*0.2 =20
t1总成本=21
IO成本= 1*1.0 =1
CPU成本= 200*0.2 =40
t3表总成本= 驱动表扇出*(IO成本+CPU成本) = 20*(1+40) =820
阶段性总成本= 21+820 =841
此处 eval_cost=80,实则为 驱动表扇出*被驱动每次扫描行数*filtered*成本常数 ,即 20*200*10%*0.2 。
简化公式为: eval_cost=rows_produced_per_json*成本常数
IO成本= 4*1.0 =4
CPU成本= 1000*0.2 =200
t2表总成本= 前2表join的扇出*(IO成本+CPU成本) = 400*(4+200) =81600
阶段性总成本= 841+81600 =82441
此处 eval_cost=8000,即 rows_produced_per_json*成本常数 ,即 40000*0.2
根据执行计划成本分析:
这样看,3表 join 流程是:
注意,由于造的数据比较特殊,所以第 3 步得出的中间结果集实际上只有 1行,所以最终 t2 表的查找次数是 20*1=20 ,所以扫描总行数是 20*1000 。所以单看 slow log 中显示的 24100 行,会误认为是先得出 t1 和 t3 join 的结果,再去和 t2 进行 join。
当我调整 t3 的数据,删除20行,再插入20行,使满足 b<21 的数据翻倍,这样“第 3 步得出的中间结果集”变成 2 行:
再来看slow log 中扫描的总行数为44100,t1、t3的扫描行数不变,t2 的扫描行数变为 20*2*1000=40000 :
为什么执行计划中分析得到的是 t2 表查找 400 次呢?
因为执行计划对t1 join t3 的扇出是个估算值,不准确。而 slow log 是真实执行后统计的,是个准确值。
为什么执行计划中,t2表的执行次数是用“t1 join t3 的扇出”表示的?这不是说明 t1 先和 t3 join,结果再和 t2 join?
其实拆解来看,“3表嵌套循环” 和 “前2表 join 的结果和第3张表 join” 两种算法,成本是一样的,而且如果要按3表嵌套循环的方式展示每张表的成本将非常复杂,可读性不强。所以执行计划中这么表示没有问题。
总的来说,对于3表join或者多表join 来说,“3表嵌套循环” 和 “先2表 join,结果和第3张表join” 两种算法,成本是一样的。要注意的一点是3表嵌套循环成本并非如下图写的:n m x,而是 n (m+a x),其中 a 为 t2 满足单个等值条件的平均值。
当被驱动表的关联字段不是唯一索引,或者没有索引,每次扫描行数会大于1时,其扇出误差会非常大。比如在上面的示例中:
t3 实际的扇出只有 20,但优化器估算值是 总扫描行数的 10%,由于t3表的关联字段没有索引,所以每次都要全表扫描200行,总的扫描行数= 20*200 =4000,扇出= 4000*10% =400,比实际的20大了20倍。尤其对于后续表的 join 来说,成本估算会产生更严重的偏差。
如果是 left join,每个被驱动表的 filtered 都会被优化器认定为 100%,误差更大!
通常建议join不超过2表,就是因为优化器估算成本误差大导致选择不好的执行计划,如果要用,一定要记住:关联字段必须要有索引,最好有唯一性或者基数大。
Hello,写的语言格式有些丑
练习题目:
3、多表连接(等值连接)
②为表起别名
# ③添加筛选条件
# 案例:查询 工资>5000 的工种名和员工名、工资
④添加分组和筛选
#01 案例:查询每个部门的员工个数和部门名
⑤排序
#01 案例:查询每个部门的员工个数和部门名
⑥ 三表连接
# 案例:查询员工名、部门名和所在城市
4、多表连接(等值连接)练习
传统模式的多表连接
1. 显示所有员工的姓名,部门号和部门名称。
2. 查询90 号部门员工的job_id 和90 号部门的location_id
3. 选择所有有奖金的员工的last_name , department_name , location_id , city
----------- 三表连查
4. 选择city 在Toronto 工作的员工的
last_name , job_id , department_id , department_name ----------- 三表连查
5. 查询每个工种、每个部门的部门名、工种名和最低工资 ----------- 三表连查
6. 查询每个国家下的部门个数大于2 的国家编号
5、非等值查询
2.非等值连接
#案例1:查询员工的工资以及对应的工资级别
#案例2:查询名字中第三个字符为a,第五个字符为e的员工的工资以及对应的工资级别
6、内连接
#案例1 :查询员工名、部门名
案例2:查询有奖金的员工名、部门名
案例3:查询城市名、员工名和部门名
9、练习
一、查询编号>3的女神的男朋友信息,如果有则列出详细,如果没有,用null填充
#二、查询哪个城市没有部门
三、查询部门名为SAL或IT的员工信息
#四、选择指定员工的姓名,员工号,以及他的管理者的姓名和员工号,结果类似于下面的格式
/*
employees Emp# manager Mgr#
kochhar 101 king
100
*/
10、单行子查询
案例1:谁的工资比Abel高
①查询Abel的工资
②查询员工的信息满足工资>①的结果
案例2:题目:返回job_id与141号员工相同,salary比143号员工多的员工 的姓名,job_id 和工资
①查询141的job_id
②查询143的salary
③查询 姓名,job_id 和工资,满足job_id=①并且salary>②
案例3:返回公司工资最少的员工的last_name,job_id和salary
①查询最低工资
②查询员工的last_name,job_id和salary满足 salary=①
案例4:查询最低工资大于50号部门最低工资的部门id和其最低工资
①查询50号部门的最低工资
②查询每个部门的最低工资
③筛选最低工资>①
11、多行子查询
二、多行子查询
案例1:返回location_id是1400或1700的部门中的所有员工姓名
①查询location_id是1400或1700的部门编号
②查询department_id满足①结果的员工姓名
案例2:返回其它部门中比job_id为‘IT_PROG’部门任意工资低的员工的员
工号、姓名、job_id 以及salary
①查询job_id为‘IT_PROG’部门工资
②返回其它部门中,工资<any ①的结果
题目:返回其它部门中比job_id为‘IT_PROG’部门所有工资都低的员工
#的员工号、姓名、job_id 以及salary
12、子查询练习题
#1. 查询和Zlotkey 相同部门的员工姓名和工资
#2. 查询工资比公司平均工资高的员工的员工号,姓名和工资。
#①查询公司平均工资
② 查询工资>①的员工的员工号,姓名和工资。
#3. 查询各部门中工资比本部门平均工资高的员工的员工号, 姓名和工资
①查询各部门的平均工资
②查询员工的员工号, 姓名和工资,满足本部门并且工资>①
4. 查询姓名中包含字母u 的员工在相同部门的员工的员工号和姓名
①查询姓名中包含字母u的员工的部门
② 部门=①的员工的员工号和姓名
5. 查询在部门的location_id 为1700 的部门工作的员工的员工号
①查询loaction_id =1700的部门编号
② 查询员工号,满足部门号=①
#6. 查询管理者是King 的员工姓名和工资
①查询员工名是king的编号
#② 查询员工姓名和工资,领导的编号=①
#7. 查询工资最高的员工的姓名,要求first_name 和last_name 显示为一列,列名为 姓. 名
①查询最高工资
②查询姓名,工资=①
14、子查询巩固练习
# 1 、查询工资最低的员工信息
#①查询公司的最低工资
②查询员工信息,满足 salary=①
2. 查询平均工资最低的部门信息
①查询每个部门的平均工资
②查询①结果中avg(salary) 字段中的最低值
# ③查询部门编号,满足平均工资= ②结果
④查询部门信息,满足 department_id= ③
3*. 查询平均工资最低的部门信息和该部门的平均工资
4. 查询平均工资最高的 job 信息
①查询每个job的平均工资
②查询①结果中的 avg(salary)的最高值
③查询每个工种的平均工资,满足 平均工资=②
④工种表和③连接 , 查询平均工资最高的 job 信息
# 5. 查询平均工资高于公司平均工资的部门有哪些?
#①查询公司的平均工资
②查询每个部门的平均工资,并且平均工资>①
6. 查询平均工资最高的部门的 manager 的详细信息:
①查询平均工资最高的部门编号
②查询部门编号=①的manager的详细信息
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)