mysql中去重用group by优化distinct 用法_随笔

在使用 MySQL 时，有时需要查询出某个字段不重复的记录，这时可以使用mysql提供的distinct这个关键字来过滤重复的记录，但是实际中我们往往用distinct来返回不重复字段的条数（count(distinct id)）,其原因是distinct只能返回他的目标字段，而无法返回其他字段，例如有如下表user:

用distinct来返回不重复的用户名：select distinct name from user，结果为：

这样只把不重复的用户名查询出来了，但是用户的id，并没有被查询出来：select distinct name,id from user，这样的结果为：

distinct name,id 这样的mysql 会认为要过滤掉name和id两个字段都重复的记录，如果sql这样写：select id,distinct name from user，这样mysql会报错，因为distinct必须放在要查询字段的开头。

所以一般distinct用来查询不重复记录的条数。

如果要查询不重复的记录，有时候可以用group by ：

select id,name from user group by name

一张user表中的name字段，里面有10个张三。我要只查询出一个张三。

SQL： select distinct name from user

如果还要查询出id

SQL: select distinct name,id from user

SQL ：select name from user group by name

group by理解：表里的某一个字段（比如：name）当出现相同的数据时，group by就将这2条数据合二为一。name就显示一条数据了。但是name达到合二为一了，这2条数据的其他数据怎么办呢？这时候需要配合聚合函数的使用。

where条件：分组前的条件，配合任何关键字使用

Having 条件：分组后的条件（事后条件） ,只配合group by使用。having条件通常使用聚合函数

SQL ：select deptno,sum(sal) from emp group by deptno having sum(sal) >9000

SQL： select deptno,count(*) from emp where sal >1000 group by deptno haing sum(sal) >8000

拓展：

聚合函数定义：聚合函数对一组值进行计算并返回单一的值。（以下都属于聚合函数）

count(*) : 不包括空值。返回对行数目的计数。计算出有多少行，多少条数据。

count() : 包含空值。返回对数目的计数。计算表里有多少行，相当于多少条数据。

sum() : 求和运算

max()最大值

min(): 最小值

avg(): 平均值

可以看到表中的value字段有重复，如果想筛选去重，使用select distinct语句如下：

得到结果会是

| value

| a

| b

| c

| e

| f

筛选去重是实现了，可是只有选中的value列显示了出来，如果我想知道对应的id呢？

尝试一下把id字段加入sql语句，如下：

得到结果：

| value| id

| a | 1

| b | 2

| c | 3

| c | 4

| e | 5

| f| 5

更换一下sql语句中id和value的顺序，如下：

得到结果：

| id |value

| 1 | a

| 2 | b

| 3 | c

| 4 | c

| 5 | e

| 5 | f

好像看明白它的作用结果了，只有id和value两个字段同时重复时，select distinct语句才会把它列入“去重”清单

所以能看到id为3和4的value虽然都是4，但由于select语句中写了id字段，它也默认会对id字段起效。

而且如果sql语句中把DISTINCT放到只想起效的字段前，那也是不行的....比如sql语句改为：

会提示sql报错。

那到底怎么样能得到我想要的只对value字段内容去重，显示结果又能保留其他字段内容呢....

找到的解决方法是使用group by函数，sql语句如下：

得到结果：

| min(id) |value

| 1 | a

| 2 | b

| 3 | c

| 5 | e

| 5 | f

完成目标了✔！

如果把sql语句中的min()换成max()呢？

得到结果：

| min(id) |value

| 1 | a

| 2 | b

| 4 | c

| 5 | e

| 5 | f

也完成目标了✔！

同时比对两次sql运行结果可以发现，

第一次使用min(id)时，由于重复结果存在两条而id最小的为为3，符合min(id)的筛选条件，所以结果中把id等于4的重复记录删除了。

第二次使用max(id)时结果中，也就把id等于3的重复记录删除了

可以推论到假如还存在一条id=5，value=c的记录，使用max(id)时得到的结果里就会是>5 c这条了。

再来尝试一下，如果min()和max()用在value字段里呢：

得到结果：

| id |min(value)

| 1 | a

| 2 | b

| 3 | c

| 4 | c

| 5 | e

得到结果：

| id |min(value)

| 1 | a

| 2 | b

| 3 | c

| 4 | c

| 5 | f

再仔细想想，这种需求也只出现在不是那么care显示结果中，非去重目标字段的内容时才能使用，如果需要指定这些字段的值，可能筛选条件就不是min()和max()那么简单了....

以上。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/8472128.html

mysql中去重用group by优化distinct 用法

发表评论

评论列表（0条）

mysql中去重 用group by优化distinct 用法

发表评论

评论列表（0条）

mysql中去重用group by优化distinct 用法