mysql中去重 用group by优化distinct 用法

mysql中去重 用group by优化distinct 用法,第1张

在使用 MySQL 时,有时需要查询出某个字段不重复的记录,这时可以使用mysql提供的distinct这个关键字来过滤重复的记录,但是实际中我们往往用distinct来返回不重复字段的条数(count(distinct id)),其原因是distinct只能返回他的目标字段,而无法返回其他字段,例如有如下表user:

用distinct来返回不重复的用户名:select distinct name from user,结果为:

这样只把不重复的用户名查询出来了,但是用户的id,并没有被查询出来:select distinct name,id from user,这样的结果为:

distinct name,id 这样的mysql 会认为要过滤掉name和id两个字段都重复的记录,如果sql这样写:select id,distinct name from user,这样mysql会报错,因为distinct必须放在要查询字段的开头。

所以一般distinct用来查询不重复记录的条数。

如果要查询不重复的记录,有时候可以用group by :

select id,name from user group by name

一张user表 中的name字段,里面有10个张三。我要只查询出一个张三。

SQL: select distinct name from user

如果还要查询出id

SQL: select distinct name,id from user

SQL :select name from user group by name

group by理解:表里的某一个字段(比如:name) 当出现相同的数据时,group by就将这2条数据合二为一。name就显示一条 数据了。 但是name达到合二为一了,这2条数据的其他数据怎么办呢? 这时候需要配合聚合函数的使用。

where条件:分组前的条件,配合任何关键字使用

Having 条件:分组后的条件 (事后条件) ,只配合group by使用。having条件通常使用聚合函数

SQL :select deptno,sum(sal) from emp group by deptno having sum(sal) >9000

SQL: select deptno,count(*) from emp where sal >1000 group by deptno haing sum(sal) >8000

拓展:

聚合函数定义:聚合函数对一组值进行计算并返回单一的值。(以下都属于聚合函数)

count(*) : 不包括空值。返回对行数目的计数。计算出有多少行,多少条数据。

count() : 包含空值。返回对数目的计数。计算表里有多少行,相当于多少条数据。

sum() : 求和运算

max()最大值

min(): 最小值

avg(): 平均值

可以看到表中的value字段有重复,如果想筛选去重,使用select distinct语句如下:

得到结果会是

| value

| a

| b

| c

| e

| f

筛选去重是实现了,可是只有选中的value列显示了出来,如果我想知道对应的id呢?

尝试一下把id字段加入sql语句,如下:

得到结果:

| value| id

| a | 1

| b | 2

| c | 3

| c | 4

| e | 5

| f| 5

更换一下sql语句中id和value的顺序,如下:

得到结果:

| id |value

| 1 | a

| 2 | b

| 3 | c

| 4 | c

| 5 | e

| 5 | f

好像看明白它的作用结果了,只有id和value两个字段同时重复时,select distinct语句才会把它列入“去重”清单

所以能看到id为3和4的value虽然都是4,但由于select语句中写了id字段,它也默认会对id字段起效。

而且如果sql语句中把DISTINCT放到只想起效的字段前,那也是不行的....比如sql语句改为:

会提示sql报错。

那到底怎么样能得到我想要的只对value字段内容去重,显示结果又能保留其他字段内容呢....

找到的解决方法是使用group by函数,sql语句如下:

得到结果:

| min(id) |value

| 1 | a

| 2 | b

| 3 | c

| 5 | e

| 5 | f

完成目标了✔!

如果把sql语句中的min()换成max()呢?

得到结果:

| min(id) |value

| 1 | a

| 2 | b

| 4 | c

| 5 | e

| 5 | f

也完成目标了✔!

同时比对两次sql运行结果可以发现,

第一次使用min(id)时,由于重复结果存在两条而id最小的为为3,符合min(id)的筛选条件,所以结果中把id等于4的重复记录删除了。

第二次使用max(id)时结果中,也就把id等于3的重复记录删除了

可以推论到假如还存在一条id=5,value=c的记录,使用max(id)时得到的结果里就会是>5 c这条了。

再来尝试一下,如果min()和max()用在value字段里呢:

得到结果:

| id |min(value)

| 1 | a

| 2 | b

| 3 | c

| 4 | c

| 5 | e

得到结果:

| id |min(value)

| 1 | a

| 2 | b

| 3 | c

| 4 | c

| 5 | f

再仔细想想,这种需求也只出现在不是那么care显示结果中,非去重目标字段的内容时才能使用,如果需要指定这些字段的值,可能筛选条件就不是min()和max()那么简单了....

以上。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/8472128.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-16
下一篇 2023-04-16

发表评论

登录后才能评论

评论列表(0条)

保存