MYSQL lag() 和lead()函数使用介绍

MYSQL lag() 和lead()函数使用介绍,第1张

LAG()函数是一个窗口函数,允许您从当前行向前看多行数据。与LEAD()函数类似,LEAD()函数对于计算同一结果集中当前行和后续行之间的差异非常有用。

LAG语法: LAG(列名,[offset], [default_value]) OVER ( PARTITION BY 列名,... ORDER BY 列名 [ASC|DESC],... )

LEAD语法: LEAD(列名,[offset], [default_value]) OVER ( PARTITION BY 列名,... ORDER BY 列名 [ASC|DESC],... )

offset:offset是从当前行偏移的行数,以获取值。offset必须是一个非负整数。如果offset为零,则LEAD()函数计算当前行的值。如果省略 offset,则LEAD()函数默认使用一个。

default_value:如果没有后续行,则LEAD()函数返回default_value。例如,如果offset是1,则最后一行的返回值为default_value。如果您未指定default_value,则函数返回 NULL 。

PARTITION BY子句:PARTITION BY子句将结果集中的行划分LEAD()为应用函数的分区。如果PARTITION BY未指定子句,则结果集中的所有行都将被视为单个分区。

ORDER BY子句:ORDER BY子句确定LEAD()应用函数之前分区中行的顺序。

用途举例:

ps:

不适合计算留存,举例说明:

求3日留存用户,以下为用户登录表login_history_table:

首先使用LEAD函数对用户登录时间做偏移,SQL如下:

结果如下:

根据上面查询到的结果,3日留存用户中不能统计到abc,而实际应该包含abc,因为该用户20211022登录后,在3天后的20211025日又重新登录了。

MySQL从8.0开始支持窗口函数。也就是分析函数

序号函数:ROW_NUMBER()、RANK()、DENSE_RANK()

分布函数:PERCENT_RANK()、CUME_DIST()

前后函数:LAG()、LEAD()

头尾函数:FIRST_VALUE()、LAST_VALUE()

其它函数:NTH_VALUE()、NTILE()

例子:

首先有一个表字段:id score(分数)user_id

1.序号函数:ROW_NUMBER()、RANK()、DENSE_RANK()

用途:显示分区中的当前行号,对查询结果进行排序.

ROW_NUMBER():顺序排序——1、2、3 RANK():并列排序,跳过重复序号——1、1、3 DENSE_RANK():并列排序,不跳过重复序号——1、1、2

执行sql:

2.分布函数:PERCENT_RANK()、CUME_DIST()

用途:每行按照公式(rank-1) / (rows-1)进行计算。其中,rank为RANK()函数产生的序号,rows为当前窗口的记录总行数

3.前后函数:LAG()、LEAD()

LAG和LEAD分析函数可以在同一次查询中取出同一字段的前N行的数据(LAG)和后N行的数据(LEAD)作为独立的列

在实际应用当中,若要用到取今天和昨天的某字段差值时,LAG和LEAD函数的应用就显得尤为重要。当然,这种 *** 作可以用表的自连接实现,但是LAG和LEAD与LEFT JOIN、RIGHT JOIN等自连接相比,效率更高,SQL更简洁。下面我就对这两个函数做一个简单的介绍。

函数语法如下:

lag(exp_str,offset,defval) OVER(PARTITION BY …ORDER BY …)

lead(exp_str,offset,defval) OVER(PARTITION BY …ORDER BY …)

参数说明:

exp_str是字段名

offset是偏移量,即是上1个或上N个的值,假设当前行在表中排在第10行,则offset 为3,则表示我们所要找的数据行就是表中的第7行(即10-3=7)。

defval默认值,当两个函数取上N/下N个值,当在表中从当前行位置向前数N行已经超出了表的范围时,LAG()函数将defval这个参数值作为函数的返回值,若没有指定默认值,则返回NULL,那么在数学运算中,总要给一个默认值才不会出错。

执行sql:

以第一行为例:4.0上一条记录(lag)是没有的,所有有赋予默认值0,4.0的下一条记录(lead)还是4.0,可以通过偏移量调整上下N条记录

注意:这里是序号的上一条或下一条

4.头尾函数:FIRST_VALUE(expr)、LAST_VALUE(expr)

用途:返回第一个(FIRST_VALUE(expr))或最后一个(LAST_VALUE(expr))expr的值

执行sql:

FIRST_VALUE()的结果容易理解,直接在结果的所有行记录中输出同一个满足条件的首个记录;

LAST_VALUE()默认统计范围是 rows between unbounded preceding and current row,也就是取当前行数据与当前行之前的数据的比较。

那么如果我们直接在每行数据中显示最后的那个数据,需在order by 条件的后面加上语句: rows between unbounded preceding and unbounded following , 也就是前面无界和后面无界之间的行比较。

加上语句,执行sql:

结果:

简单理解就是,取最大的还是最小的结合ORDER BY使用,或者取第一个还是或者最后一个

参考: https://baijiahao.baidu.com/s?id=1728966619393719484&wfr=spider&for=pc

以上SELECT * FROM table LIMIT 15,15检索的为16-30行的数据

具体的limit的使用详解如下:

SELECT * FROM table LIMIT [offset,] rows | rows OFFSET offset

LIMIT 子句可以被用于强制 SELECT 语句返回指定的记录数。LIMIT

接受一个或两个数字参数。参数必须是一个整数常量。如果给定两个参数,第一个参数指定第一个返回记录行的偏移量,第二个参数指定返回记录行的最大数目。初始记录行的偏移量是

0(而不是 1): 为了与 PostgreSQL 兼容,MySQL 也支持句法: LIMIT # OFFSET #。

mysql>SELECT * FROM table LIMIT 5,10// 检索记录行 6-15

//为了检索从某一个偏移量到记录集的结束所有的记录行,可以指定第二个参数为 -1:

mysql>SELECT * FROM table LIMIT 95,-1// 检索记录行 96-last.

//如果只给定一个参数,它表示返回最大的记录行数目:

mysql>SELECT * FROM table LIMIT 5//检索前 5 个记录行

//换句话说,LIMIT n 等价于 LIMIT 0,n。

注意limit 10和limit 9,1的不同:

例如:

1.

复制代码 代码如下:

Select * From cyclopedia Where ID>=(

Select Max(ID) From (

Select ID From cyclopedia Order By ID limit 90001

) As tmp

) limit 100

2.

复制代码 代码如下:

Select * From cyclopedia Where ID>=(

Select Max(ID) From (

Select ID From cyclopedia Order By ID limit 90000,1

) As tmp

) limit 100

同样是取90000条后100条记录,第1句快还是第2句快?

第1句是先取了前90001条记录,取其中最大一个ID值作为起始标识,然后利用它可以快速定位下100条记录

第2句择是仅仅取90000条记录后1条,然后取ID值作起始标识定位下100条记录

第1句执行结果.100 rows in set (0.23) sec

第2句执行结果.100 rows in set (0.19) sec

其实第2句完全可以简化成:

复制代码 代码如下:

Select * From cyclopedia Where ID>=(

Select ID From cyclopedia limit 90000,1

)limit 100

直接利用第90000条记录的ID,不用经过Max运算,这样做理论上效率因该高一些,但在实际使用中几乎看不到效果,因为本身定位ID返回的就是1条记录,Max几乎不用运作就能得到结果,但这样写更清淅明朗,省去了画蛇那一足.

复制代码 代码如下:

Select Top 100 * From cyclopedia Where ID>=(

Select Top 90001 Max(ID) From (

Select ID From cyclopedia Order By ID

) As tmp

)

但不管是实现方式是存贮过程还是直接代码中,瓶颈始终在于MS-SQL的TOP总是要返回前N个记录,这种情

况在数据量不大时感受不深,但如果成百上千万,效率肯定会低下的.相比之下MySQL的limit就有优势的多

,执行:

复制代码 代码如下:

Select ID From cyclopedia limit 90000

Select ID From cyclopedia limit 90000,1

的结果分别是:

90000 rows in set (0.36) sec

1 row in set (0.06) sec

而MS-SQL只能用Select Top 90000 ID From cyclopedia 执行时间是390ms,执行同样的 *** 作时间也不及MySQL的360ms.

limit的offset(偏移量)用于记录较多的时候,记录较少时,偏移offset较小,直接使用limit较优。offset越大,后者越优。

1、offset比较小的时候。

复制代码 代码如下:

select * from yanxue8_visit limit 10,10

多次运行,时间保持在0.0004-0.0005之间

复制代码 代码如下:

Select * From yanxue8_visit Where vid >=(

Select vid From yanxue8_visit Order By vid limit 10,1

) limit 10

多次运行,时间保持在0.0005-0.0006之间,主要是0.0006

结论:偏移offset较小的时候,直接使用limit较优。这个显示是子查询的原因。

2、offset大的时候。

select * from yanxue8_visit limit 10000,10

多次运行,时间保持在0.0187左右

复制代码 代码如下:

Select * From yanxue8_visit Where vid >=(

Select vid From yanxue8_visit Order By vid limit 10000,1

) limit 10

多次运行,时间保持在0.0061左右,只有前者的1/3。可以预先offset越大,后者越优。

mysql>SELECT * FROM table LIMIT 95,-1// 检索记录行 96-last.


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/8375923.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-15
下一篇 2023-04-15

发表评论

登录后才能评论

评论列表(0条)

保存