数据库中INNER JOIN的意思。

数据库中INNER JOIN的意思。,第1张

inner join on, left join on, right join on讲解(转载)

1理论

只要两个表的公共字段有匹配值,就将这两个表中的记录组合起来。

个人理解:以一个共同的字段求两个表中符合要求的交集,并将每个表符合要求的记录以共同的字段为牵引合并起来。

语法

FROM table1 INNER JOIN table2 ON table1 field1 compopr table2 field2

INNER JOIN *** 作包含以下部分:

部分 说明

table1, table2 要组合其中的记录的表的名称。

field1,field2 要联接的字段的名称。如果它们不是数字,则这些字段的数据类型必须相同,并且包含同类数据,但是,它们不必具有相同的名称。

compopr 任何关系比较运算符:“=”、“<”、“>”、“<=”、“>=”或者“<>”。

说明

可以在任何 FROM 子句中使用 INNER JOIN *** 作。这是最常用的联接类型。只要两个表的公共字段上存在相匹配的值,Inner 联接就会组合这些表中的记录。

可以将 INNER JOIN 用于 Departments 及 Employees 表,以选择出每个部门的所有雇员。而要选择所有部分(即使某些部门中并没有被分配雇员)或者所有雇员(即使某些雇员没有分配到任何部门),则可以通过 LEFT JOIN 或者 RIGHT JOIN *** 作来创建外部联接。

如果试图联接包含备注或 OLE 对象数据的字段,将发生错误。

可以联接任何两个相似类型的数字字段。例如,可以联接自动编号和长整型字段,因为它们均是相似类型。然而,不能联接单精度型和双精度型类型字段。

下例展示了如何通过 CategoryID 字段联接 Categories 和 Products 表:

SELECT CategoryName, ProductName

FROM Categories INNER JOIN Products

ON CategoriesCategoryID = ProductsCategoryID;

在前面的示例中,CategoryID 是被联接字段,但是它不包含在查询输出中,因为它不包含在 SELECT 语句中。若要包含被联接字段,请在 SELECT 语句中包含该字段名,在本例中是指 CategoriesCategoryID。

也可以在 JOIN 语句中链接多个 ON 子句,请使用如下语法:

SELECT fields

FROM table1 INNER JOIN table2

ON table1field1 compopr table2field1 AND

ON table1field2 compopr table2field2) OR

ON table1field3 compopr table2field3)];

也可以通过如下语法嵌套 JOIN 语句:

SELECT fields

FROM table1 INNER JOIN

(table2 INNER JOIN [( ]table3

[INNER JOIN [( ]tablex [INNER JOIN )]

ON table3field3 compopr tablexfieldx)]

ON table2field2 compopr table3field3)

ON table1field1 compopr table2field2;

LEFT JOIN 或 RIGHT JOIN 可以嵌套在 INNER JOIN 之中,但是 INNER JOIN 不能嵌套于 LEFT JOIN 或 RIGHT JOIN 之中。

2 *** 作实例

表A记录如下:

aID aNum

1 a20050111

2 a20050112

3 a20050113

4 a20050114

5 a20050115

表B记录如下:

bID bName

1 2006032401

2 2006032402

3 2006032403

4 2006032404

8 2006032408

实验如下:

1left join

sql语句如下:

select from A

left join B

on AaID = BbID

结果如下:

aID aNum bID bName

1 a20050111 1 2006032401

2 a20050112 2 2006032402

3 a20050113 3 2006032403

4 a20050114 4 2006032404

5 a20050115 NULL NULL

(所影响的行数为 5 行)

结果说明:

left join是以A表的记录为基础的,A可以看成左表,B可以看成右表,left join是以左表为准的

换句话说,左表(A)的记录将会全部表示出来,而右表(B)只会显示符合搜索条件的记录(例子中为: AaID = BbID)

B表记录不足的地方均为NULL

2right join

sql语句如下:

select from A

right join B

on AaID = BbID

结果如下:

aID aNum bID bName

1 a20050111 1 2006032401

2 a20050112 2 2006032402

3 a20050113 3 2006032403

4 a20050114 4 2006032404

NULL NULL 8 2006032408

(所影响的行数为 5 行)

结果说明:

仔细观察一下,就会发现,和left join的结果刚好相反,这次是以右表(B)为基础的,A表不足的地方用NULL填充

3inner join

sql语句如下:

select from A

innerjoin B

on AaID = BbID

结果如下:

aID aNum bID bName

1 a20050111 1 2006032401

2 a20050112 2 2006032402

3 a20050113 3 2006032403

4 a20050114 4 2006032404

结果说明:

很明显,这里只显示出了 AaID = BbID的记录这说明inner join并不以谁为基础,它只显示符合条件的记录

常听说MySQL中3表 join 的执行流程并不是前两张表 join 得出结果,再与第三张表进行 join;而是3表嵌套的循环连接。那这个3表嵌套的循环连接具体又是个什么流程呢?与前两张表 join 得出结果再与第三张表进行 join 的执行效率相比如何呢?下面通过一个例子来分析分析。

set optimizer_switch='block_nested_loop=off';

关联字段无索引的情况下强制使用索引嵌套循环连接算法,目的是更好的观察扫描行数。

表结构和数据如下:

示例SQL:

通过 slow log 得知一共扫描 24100 行:

执行计划显示用的索引嵌套循环连接算法:

扫描行数构成:

总行数=100+4000+20000=24100。

从这个结果来看,join 过程像是先 t1 和 t3 join 得出 20 行中间结果,再与 t2 进行 join 得出结果。这结论与我们通常认为的 3表 join 实际上是3表嵌套的循环连接不一样,接着往下看。

查看执行计划成本:

mysql> explain format=json select from t1 join t2 on t1b=t2b join t3 on t1b=t3b where t1a<21\G

其他信息:

IO成本= 110 =1

CPU成本= 10002 =20

t1总成本=21

IO成本= 110 =1

CPU成本= 20002 =40

t3表总成本= 驱动表扇出(IO成本+CPU成本) = 20(1+40) =820

阶段性总成本= 21+820 =841

此处 eval_cost=80,实则为 驱动表扇出被驱动每次扫描行数filtered成本常数 ,即 2020010%02 。

简化公式为: eval_cost=rows_produced_per_json成本常数

IO成本= 410 =4

CPU成本= 100002 =200

t2表总成本= 前2表join的扇出(IO成本+CPU成本) = 400(4+200) =81600

阶段性总成本= 841+81600 =82441

此处 eval_cost=8000,即 rows_produced_per_json成本常数 ,即 4000002

根据执行计划成本分析:

这样看,3表 join 流程是:

注意,由于造的数据比较特殊,所以第 3 步得出的中间结果集实际上只有 1行,所以最终 t2 表的查找次数是 201=20 ,所以扫描总行数是 201000 。所以单看 slow log 中显示的 24100 行,会误认为是先得出 t1 和 t3 join 的结果,再去和 t2 进行 join。

当我调整 t3 的数据,删除20行,再插入20行,使满足 b<21 的数据翻倍,这样“第 3 步得出的中间结果集”变成 2 行:

再来看slow log 中扫描的总行数为44100,t1、t3的扫描行数不变,t2 的扫描行数变为 2021000=40000 :

为什么执行计划中分析得到的是 t2 表查找 400 次呢?

因为执行计划对t1 join t3 的扇出是个估算值,不准确。而 slow log 是真实执行后统计的,是个准确值。

为什么执行计划中,t2表的执行次数是用“t1 join t3 的扇出”表示的?这不是说明 t1 先和 t3 join,结果再和 t2 join?

其实拆解来看,“3表嵌套循环” 和 “前2表 join 的结果和第3张表 join” 两种算法,成本是一样的,而且如果要按3表嵌套循环的方式展示每张表的成本将非常复杂,可读性不强。所以执行计划中这么表示没有问题。

总的来说,对于3表join或者多表join 来说,“3表嵌套循环” 和 “先2表 join,结果和第3张表join” 两种算法,成本是一样的。要注意的一点是3表嵌套循环成本并非如下图写的:n m x,而是 n (m+a x),其中 a 为 t2 满足单个等值条件的平均值。

当被驱动表的关联字段不是唯一索引,或者没有索引,每次扫描行数会大于1时,其扇出误差会非常大。比如在上面的示例中:

t3 实际的扇出只有 20,但优化器估算值是 总扫描行数的 10%,由于t3表的关联字段没有索引,所以每次都要全表扫描200行,总的扫描行数= 20200 =4000,扇出= 400010% =400,比实际的20大了20倍。尤其对于后续表的 join 来说,成本估算会产生更严重的偏差。

如果是 left join,每个被驱动表的 filtered 都会被优化器认定为 100%,误差更大!

通常建议join不超过2表,就是因为优化器估算成本误差大导致选择不好的执行计划,如果要用,一定要记住:关联字段必须要有索引,最好有唯一性或者基数大。

--测试代码

--建立测试数据

create

table

#ta1(id

integer

,

aa

char(1))

create

table

#ta2(id

integer

,

aa

char(1))

insert

into

#ta1

select

1,'a'

insert

into

#ta1

select

2,'b'

insert

into

#ta2

select

1,'a'

insert

into

#ta2

select

3,'b'

insert

into

#ta2

select

4,'c'

-----------------------------------

--完全测试

select

aid,aaa,bid,baa

from

#ta1

a

inner

join

#ta2

b

on

aid=bid

/结论:

左表的id必须完全跟右表的id一致,不匹配的不显示

/

--左链接测试

select

aid,aaa,bid,baa

from

#ta1

a

left

join

#ta2

b

on

aid=bid

/

结论:

以左表作为基准,右表能匹配上的就显示出来,不匹配的就显示成NULL,

记录个数满足左表

/

--右连接测试

select

aid,aaa,bid,baa

from

#ta1

a

right

join

#ta2

b

on

aid=bid

/

和左连接一样,只是以右表为基准了

/

没有区别,INNER JOIN等价于 JOIN,你可以理解为 JOIN是 INNER JOIN 的缩写。

1 inner join是内连接,显示符合连接条件的记录语法如下:select select_list from table1 inner join tabl2 on table1column1=table2column1

2 natural join是对两张表中字段名和数据类型都相同的字段进行等值连接,并返回符合条件的结果 。natural join是自然连接,自动对两个表按照同名的列进行内连接语法如下:select select_list from table1 natural join tabl2,使用自然连接要注意,两个表同名的列不能超过1个。

3  natural join:指明了两表进行自然连接,并且连接是基于两表中所有同名字段的。 joinusing:用于两表有同名字段但数据类型不同,或者使用多个同名字段中的某一个做等值连接 joinon :最为灵活,可以指明连接的条件。

4 新加入字段导致自然连接的条件发生变化,修改后变为了指定字段的等值连接。像这种项目中的类似问题,还是不要使用自然连接的好,最开始就使用joinusing或joinon避免他人因修改表结构造成的错误。

对于数据量很大的一张表,i/o效率底下,分表势在必行!

使用程序分,对不同的查询,分配到不同的子表中,是个解决方案,但要改代码,对查询不透明。

好在mysql 有两个解决方案:

Partition(分区,在MySQL 51中实现) 和 Mysql Merge存储引擎。

本文讨论 Mysql Merge存储引擎。

CREATE TABLE t1 ( a INT NOT NULL AUTO_INCREMENT PRIMARY KEY, message CHAR(20));

CREATE TABLE t2 ( a INT NOT NULL AUTO_INCREMENT PRIMARY KEY, message CHAR(20));

INSERT INTO t1 (message) VALUES ('Testing'),('table'),('t1');

INSERT INTO t2 (message) VALUES ('Testing'),('table'),('t2');

CREATE TABLE total (a INT NOT NULL AUTO_INCREMENT PRIMARY KEY, message CHAR(20)) ENGINE=MERGE UNION=(t1,t2) INSERT_METHOD=LAST;

对应定期分表的情况下,只要定期相应的增加一个基础表,再修改merge表中的 union 就行了(ALTER TABLE tbl_name UNION=())。

如在增加一个表(需和其他基础表一样的结构):

CREATE TABLE t3( a INT NOT NULL AUTO_INCREMENT PRIMARY KEY, message CHAR(20));

ALTER TABLE total UNION=(t1,t2,t3)

INSERT_METHOD=LAST;表示插入的方法,INSERT_METHOD的值可以是 FIRST(插入第一个表),LAST(最后一个表),NO(不能插入)

查询的时候,和平常一样

select from total where

merge表会自动找到相应的基础表进行查询。

需要注意的是 merge表并不维护 “唯一性”检查,唯一性有各基础表完成。所以插入新的记录时候可能和其他基础表的内容重复。所以再插入去需要用代码进行唯一性检查。

当代码开发人员只写join的时候,SQL解析器自动将其默认为内关联,既不是左关联也不是右关联。

左关联必须用Left join,右关联必须用right join。

Mysql是目前互联网使用最广的关系数据库,关系数据库的本质是将问题分解为多个分类然后通过关系来查询。 一个经典的问题是用户借书,三张表,一个用户,一个书,一个借书的关系表。当需要查询某个用户借书情况或者是书被那些人借了,就用关系查询来实现。

关系数据库范式

来自英文Normal form,简称NF。要想设计—个好的关系,必须使关系满足一定的约束条件,满足这些规范的数据库是简洁的、结构明晰的,同时,不会发生插入(insert)、删除(delete)和更新(update) *** 作异常。总共有六种范式:第一范式(1NF)、第二范式(2NF)、 第三范式 (3NF)、巴斯-科德范式(BCNF)、 第四范式 (4NF)和 第五范式 (5NF,又称完美范式)。

1NF是指数据库表的每一列都是不可分割的原子数据项。2NF必须满足1NF,要求数据库表中的每行记录必须可以被唯一地区分。3NF在2NF基础上,任何非主 属性 不依赖于其它非主属性(在2NF基础上消除传递依赖)。BCNF是在3NF基础上,任何非主属性不能对主键子集依赖(在3NF基础上消除对主码子集的依赖), 满足BCNF不再会有任何由于函数依赖导致的异常,但是我们还可能会遇到由于多值依赖导致的异常。4NF的定义很简单:已经是BC范式,并且不包含多值依赖关系。5NF处理的是无损连接问题,这个范式基本没有实际意义,因为无损连接很少出现,而且难以察觉。而域键范式试图定义一个终极范式,该范式考虑所有的依赖和约束类型,但是实用价值也是最小的,只存在理论研究中。

Catalog和Schema

是数据库对象命名空间中的层次,主要用来解决命名冲突的问题。从概念上说,一个数据库系统包含多个Catalog,每个Catalog又包含多个Schema,而每个Schema又包含多个数据库对象(表、视图、字段等)。但是Mysql的数据库名就是Schema,不支持Catalog。

Mysql的数据库引擎主要有两种MyISAM和InnoDB,MyISAM支持全文检索,InnoDB支持事务。

SQL中的通配符‘%’代表任意字符出现任意次数。‘_’代表任意字符出现一次。SQL与正则表达式结合查询一般用在WHERE table_name REGEXP '^1234'。子查询是从里到外执行。

数据库联结(join)涉及到外键,外键是指一个表的列是另一个表的主键,那么它就是外键。笛卡尔积联结(不指定联结条件时)生成的记录条目是单纯的第一个表的行乘以第二个表的列数。用得最多的是等值联结也叫内部联结。

高级联结还有自连接,是指查询中的两张表是同一张表,它通常作为外部语句用来代替从相同表中检索数据时使用的子查询。自然联结使每个列只返回一次。外部联结是指联结包含了那些在相关表中没有关联行的行。例如列出所有产品及其订购数量,包括没有人订购的产品。LEFT OUTER JOIN指选择左边表的所有行。

组合查询是指采用UNION等将两个查询结果取并集。

视图是查看存储在别处的数据的一种工具,它本身并不包含数据,因此表的数据修改了,视图返回的数据也将随之修改,因此如果使用了复杂或嵌套视图会对性能有较大的影响。视图的作用之一是隐藏复杂的SQL通常会涉及到联结查询。

存储过程类似于批处理,包含了一条或多条SQL语句。语法:

CREATE PROCEDURE name()

BEGIN

SQL

END

-------------------------

CALL name()//来调用存储过程

游标有DECLARE定义,游标与存储过程是绑定的,存储过程处理完成,游标就会消失。游标被打开后可以使用FETCH语句访问每一行。

触发器是在某个时间发生时自动执行某条SQL语句。语法:

CREATE TRIGGER name AFTER INSERT ON talbe_name FOR EACH ROW

事务处理可以维护数据库的完整性,保证批量的 *** 作要么完全执行,要么完全不执行。包括事务、回退、提交、保留点几个关键术语。ROLLBACK只能在一个事务处理内使用。他不能回退CREATE和DROP *** 作。使用COMMIT保证事务提交。复杂的事务处理需要部分提交或回退,因此我们需要使用保留点SAVEPOINT。可以使用ROLLBACK TO savepoint_name。保留点越多越好。保留点在事务执行完成后自动释放。

以上就是关于数据库中INNER JOIN的意思。全部的内容,包括:数据库中INNER JOIN的意思。、MySQL中3表join流程分析、数据库 inner join 和 left join 和right join 的区别等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9470556.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-28
下一篇 2023-04-28

发表评论

登录后才能评论

评论列表(0条)

保存