查询两张表数据不一致的记录,可以用求差集(非交集)的办法来解决。SQL语言求"差集"的办法相对于求"交集"的办法要少很多,一般可用not exists(非存在子句)或 左(右)连接后所产生空
字段值来筛选两表的差集。下面举个例子供参考选出a表中与b表中id不一致的记录select a.* from a where not exists (select 1 from b where b.id=c.id)说明:上述语句只比对id一个字段,我们可以根据需要比对多个字段。not exists在比对字段有可利用的
索引时,其运行
效率是非常高,但是如果没有索引的情况下运行在大数据表时,其运行效率极差,这时应避免使用它,这时我们可改用左(右)连接来求差集。下面是用左连接来求差集的例子:1select a.* from a left join b on a.id=b.id where b.id is null用左(右)连接来求差集,由于需要实施两表连接会导致笛卡尔效应其输出集的记录行可能会增多,若果不是一对一或一对多,我们应该将多对多的情况处理成多对一后才进行连接,否则输出的记录集可能不正确。求差集的两种方法,有索引可利用时,not exists的效率要高于left join,反之left join效率更好。让group by 使用索引而不创建临时表,
使用索引的前提条件是:所有GROUP BY列引用同一索引的属性,并且索引按顺序保存其关键字(B-树索引,不是HASH索引)
至于DISTINCT 和GROUP BY哪个效率更高?
理论上 DISTINCT *** 作只需要找出所有不同的值就可以了。而GROUP BY *** 作还要为其他聚集函数进行准备工作。从这一点上将,GROUP BY *** 作做的工作应该比DISTINCT所做的工作要多一些。
但是实际上,DISTINCT *** 作,它会读取了所有记录GROUP BY需要读取的记录数量与分组的组数量一样多,比实际存在的记录数目要少很多。
评论列表(0条)