用JAVA或用SQL语句排序

用JAVA或用SQL语句排序,第1张

1

下面的两种排序方法,可以确保NULL值总在最后

ORDER BY ISNULL([date], '9990-12-31')

ORDER BY ISNULL([date], '1900-1-1') DESC

2

数据库排序即可,程序实现的话你搜下排序算法,这里不赘述了

SELECT--SQL语法

从一个或多个表中检索数据。SELECT SQL 命令是与其它 Vfp一样的内置的 Vfp命令。当你使用 SELECT 来生成查询时, Vfp翻译查询并从表中获取指定数据。你可以从以下地方创建 SELECT 查询:

“命令”窗口中

带有其它任何 Vfp命令的 Vfp程序中

查询设计器中

SELECT [ALL | DISTINCT] [TOP nExpr [PERCENT]] [Alias] Select_Item

[[AS] Column_Name] [, [Alias] Select_Item [[AS] Column_Name] ]

FROM [FORCE] [DatabaseName!] Table [[AS] Local_Alias]

[ [INNER | LEFT [OUTER] | RIGHT [OUTER] | FULL [OUTER] JOIN DatabaseName!]

Table [[AS] Local_Alias] [ON JoinCondition ]

[[INTO Destination] | [TO FILE FileName [ADDITIVE] | TO PRINTER [PROMPT] | TO SCREEN]]

[PREFERENCE PreferenceName] [NOCONSOLE] [PLAIN] [NOWAIT]

[WHERE JoinCondition [AND JoinCondition ] [AND | OR FilterCondition [AND | OR FilterCondition ]]]

[Group By GroupColumn [, GroupColumn ]] [HAVING FilterCondition] [UNION [ALL] SELECTCommand]

[Order By Order_Item [ASC | DESC] [, Order_Item [ASC | DESC] ]]

参数

SELECT

在 SELECT 子句中指定在查询结果中包含的字段、常量和表达式。

ALL

查询结果中包含所有行 ( 包括重复值 )。ALL 是默认设置。

DISTINCT

在查询结果中剔除重复的行。每一个 SELECT 子句只能使用一次 DISTINCT。

TOP nExpr [PERCENT]

在符合查询条件的所有记录中,选取指定数量或百分比的记录。TOP 子句必须与 ORDER BY 子句同时使用。ORDER BY 子句指定查询结果中包含的列上由Top字句决定的行数, TOP 子句根据此排序选定最开始的 nExpr个或 nExpr% 的记录。

您可以指定选取 1 到 32767 个记录。使用 ORDER BY 子句指定的字段进行排序,会产生并列的情况,比如,可能有多个记录,它们在选定的字段上相同;所以,如果您指定 nExpr 为 10,在查询结果中可能多于 10 个记录,因为可能有几个记录位置并列。

如果包含 PERCENT 关键字指定查询结果中的记录数,得到记录数的可能是小数,这时进行取整。包含 PERCENT 关键字时,nExpr 的范围是 001 到 9999。

[Alias] Select_Item

限定匹配项的名称。Select_Item 指定的每一项在查询结果中都生成一列。一个项可以是以下一个

FROM 子句所包含的表中的字段名称。

一个常量,查询结果中每一行都出现这个常量值。

一个表达式,可以是用户自定义函数名。

关于使用用户定义函数的详细信息, 参见注释节中的带用户定义函数的 SELECT。

你用 Select_Item 指定的各项生成一个查询结果列。

如果两个或更多的项具有相同的名称, 在项名前包含表别名和一个句点来避免列重复。

[AS] Column_Name

为查询输出中的列指定显示名。Column_Name 可以是表达式但不能包含不允许的字符, 如, 字段名中的空格。

当 Select_Item 是一个表达式或包含一个字段函数而且你想给该列一个有意义的名字时该选项是有用的。

FROM [FORCE] DatabaseName!

列出所有从中检索数据的表。

FORCE 指定连接表时按它们出现在 FROM 子句中的顺序。如果省略 FORCE, Vfp会试图对查询进行优化。但是, 使用 FORCE 子句,避免了优化过程,可能加快查询执行的速度。

当包含表的数据库不是当前数据库时,DatabaseName! 指定这个数据库的名称。如果数据库不是当前数据库,就必须指定包含表的数据库名称。应在数据库名称之后表名之前加上感叹号(!)分隔符。

[[AS] Local_Alias]

为 Table 中的表指定一个临时名称。如果指定了本地别名,那么在整个SELECT 语句中必须都用这个别名代替表名。本地别名不影响 Visual FoxPro环境。INNER JOIN 只有在其他表中包含对应记录(一个或多个)的记录才出现在查询结果中。

INNER JOIN 只有在其他表中包含对应记录(一个或多个)的记录才出现在查询结果中。

LEFT [OUTER] JOIN 在查询结果中包含:JOIN 左侧表中的所有记录,以及JOIN 右侧表中匹配的记录。OUTER 关键字可被省略;包含 OUTER 强调这是一个外连接 (outer join)。

RIGHT [OUTER] JOIN 在查询结果中包含:JOIN 右侧表中的所有记录,以及 JOIN 左侧表中匹配的记录。OUTER 关键字可被省略;包含 OUTER 强调这是一个外连接接 (outer join)。

FULL [OUTER] JOIN 在查询结果中包含:JOIN 两侧所有的匹配记录,和不匹配的记录;包含 OUTER 强调这是一个外连接 (outer join)。

关于连接的详细信息, 参见备注段中的 Joins。

ON JoinCondition 指定连接条件。

INTO Destination

指定在何处保存查询结果。Destination 可以是下列子句之一:

ARRAY ArrayName ,将查询结果保存到变量数组中。

如果查询结果中不包含任何记录,则不创建这个数组。

CURSOR CursorName [NOFILTER | READWRITE] 将查询结果保存到临时表中。

要创建一个查用于子查询中的游标, 用 NOFILTER。关于 NOFILTER 的详细信息, 参见备注节。

要指定游标是临时的和可修改的, 使用 READWRITE。如果源表或表使用 autoincrementing, 该设置不会被 READWRITE 游标继承。

DBF | TABLE TableName [DATABASE DatabaseName [NAME LongTableName]] 保存查询结果到一个表中。

包含 DATABASE DatabaseName 以指定添加了表的数据库。

包含 NAME LongTableName 可以为该表命一个最多可包括 128 个字符的并且可以在数据库中代替短名字的长名。

如果没有包括 INTO 子句, 查询结果显示在一个“浏览”窗口中。也可以用 TO FILE 子句来定向查询结果到打印机或一个文件。

TO FILE FileName [ADDITIVE] | TO PRINTER [PROMPT] | TO SCREEN

定向查询结果到打印机或一个文件。

ADDITIVE 添加查询输出到 TO FILE FileName 中指定的已存在的文本文件内容中。

TO PRINTER 定向查询输出到一个打印机。在打印开始之前,使用可选的 PROMPT 子句显示一个对话框。您可以根据当前安装的打印机驱动程序调整打印机的设置。将 PROMPT 子句放置在紧跟 TO PRINTER 之后。

TO SCREEN 使查询结果定向输出到 Vfp主窗口或活动的用户自定义窗口中。

PREFERENCE PreferenceName

如果查询结果送往浏览窗口,就可以使用 PREFERENCE 保存浏览窗口的属性和选项以备后用。关于 PREFERENCE 功能的详细信息, 参见备注节。

NOCONSOLE

不显示送到文件、打印机或 Vfp主窗口的查询结果。

PLAIN

防止列标题出现在显示的查询结果中。不管有无 TO 子句都可使用 PLAIN子句。如果 SELECT 语句中包括 INTO 子句,则忽略 PLAIN 子句。

NOWAIT

打开浏览窗口并将查询结果输出到这个窗口后继续程序的执行。程序并不等待关闭浏览窗口,而是立即执行紧接在 SELECT 语句后面的程序行。关于如何使用 NOWAIT 的说明, 参见备注节。

WHERE JoinCondition

指定 Vfp的查询结果中只包括符合指定条件的记录。JoinCondition 指定位于 FROM 子句中的字段连接表。关于指定连接条件的详细信息, 参见备注节。

WHERE 支持 JoinCondition 的 ESCAPE *** 作符, 让你可以执行包含有百分号 (%) 和下划线 (_) 通配符的 SELECT SQL 命令查询。ESCAPE 允许你指定一个按原字样处理的 SELECT SQL 命令通配符。在 ESCAPE 子句中, 一旦一个字符被放到通配符字符之前,就表示这个通配符被看作一个文字字符。

FilterCondition

指定将包含在查询结果中记录必须符合的条件。使用 AND 或 OR *** 作符,您可以包含随意数目的过滤条件。您还可以使用 NOT *** 作符将逻辑表达式的值取反,或使用 EMPTY() 函数以检查空字段。

SELECT SQL 命令在筛选条件中支持 "<field> IS / IS NOT NULL"。要学习如何使用 FilterCondition。

Group By GroupColumn [, GroupColumn ]

按列的值对查询结果的行进行分组。GroupColumn 可以是常规的表字段名,也可以是一个包含 SQL 字段函数的字段名,还可以是一个数值表达式,指定查询结果表中的列位置(最左边的列编号为 1 )。

HAVING FilterCondition

指定包括在查询结果中的组必须满足的筛选条件。HAVING 应该同 GROUP BY一起使用。它能包含数量不限的筛选条件,筛选条件用 AND 或 OR 连接,还可以使用 NOT 来对逻辑表达式求反。可以在 HAVING 子句中使用本地别名和字段函数。 关于你可以使用的字段函数的详细信息, 参见备注节。FilterCondition 不能包含子查询。

可以使用带 HAVING 子句的 Group By。使用 HAVING 子句的命令如果没有使用 GROUP BY 子句,则它的作用与WHERE 子句相同。

如果 HAVING 子句不包含字段函数的话,使用 WHERE 子句可以获得较快的速度。

HAVING 子句应该出现在 INTO 子句前否则产生错误。

[UNION [ALL] SELECTCommand]

把一个 SELECT 语句的最后查询结果同另一个 SELECT 语句最后查询结果组合起来。默认情况下,UNION 检查组合的结果并排除重复的行。

要组合多个UNION 子句,可使用括号。可以用 UNION 子句模拟一个外部联接。

ALL 防止 UNION 删除组合结果中重复的行。

当一个列是备注或通用型时, 不允许连接不同类型的列。

在 Vfp80 以前的版本中, 当在两个不同类型的字段上执行 UNION *** 作时你需要执行明确的转换。

Vfp现在对支持它的数据类型支持隐含数据类型转换。关于隐含数据类型转换和数据类型优先, UNION 子句允许的规则, 以及其它信息的详细内容, 参见备注节中的数据类型转换和优先。

Order By Order_Item [ASC | DESC]

根据列的数据对查询结果进行排序。每个 Order_Item 都必须对应查询结果中的一列。它可以是下列之一:

FROM 子句中表的字段,同时也是 SELECT 主句(不在子查询中)的一个选择项。

一个数值表达式,表示查询结果中列的位置(最左边列编号为 1 )。

ASC 指定查询结果根据排序项以升序排列。它是 ORDER BY 的默认选项。

DESC 指定查询结果以降序排列。

备注

在使用 FROM 子句时如果没有打开表, Vfp显示“打开”对话框让你指定文件位置。一但打开后, 表在查询完成后仍然保持打开。

当在 Destination 参数中使用 CURSOR 子句时, 如果你指定了一个打开的表的名字, Vfp产生一条错误信息。在 SELECT 执行后, 临时游标保持打开并是活动的和只读的除非你指定了 READWRITE 选项。当你关闭该临时游标时, 它被删除。游标可以指定 SORTWORK 而成为存在于驱动器或卷上的临时文件。

当在 Destination 参数中使用 CURSOR 子句时, 你现在可以使用 NOFILTER 来创建一个可用于后来的查询的游标。在早期版本的 Vfp中, 你需要包括一个额外的常数或表达式作为筛选。例如, 添加一个逻辑 true 作为筛选表达式来创建一个可用于后来的查询的查询:

SELECT , T FROM customers INTO CURSOR myquery

但是, 包括 NOFILTER 会降低查询性能因为要在磁盘上创建一个临时表。临时表在游标关闭时从磁盘上删除。

当在 Destination 参数中使用 DBF | TABLE 子句时, 如果你指定了一个已经打开的表, 而且 SET SAFETY 是设置为 OFF, Vfp不警告地复写该表。如果你没有指定一个扩展名, Vfp给表一个 dbf 扩展名。在 SELECT 执行后表保持打开并且是活动的。

如果你在相同查询中包括 INTO 和 TO 子句, Vfp忽略 TO 子句。如果你包括 TO 子句但没有包括 INTO 子句, 你可以定向查询结果到一个名为 FileName 的 ASCII 文本文件, 到打印机, 或到 Vfp主窗口。

PREFERENCE 把特征, 属性或参数选项长期保存在 FoxUserdbf 资源文件中。Preferences 可以在任何时候获取。第一次执行有 PREFERENCE Preference Name 的 SELECT 命令时创建参数选项。以后执行有相同参数选项名的 SELECT 命令时便将浏览窗口恢复到原来的参数选项状态。当浏览窗口关闭时,更新参数选项。如果您按下 CTRL+Q+W 键退出“浏览”窗口,您对“浏览”窗口所做的更改不会保存到资源文件中。

SELECT 命令中包括 TO SCREEN 可以把查询结果定向输出到 Vfp主窗口或用户自定义窗口。如果显示时 Vfp主窗口或用户自定义窗口中写满了一屏,就暂停输出。按任意键可以查看查询结果后面的内容。但是,如果命令中包括了 NOWAIT 子句,显示查询结果时就不会暂停,等待按键,而是在 Vfp主窗口或用户自定义窗口中连续滚过所有内容。如果命令中包含有 INTO 子句,忽略 NOWAIT 子句。

在一个 SQL 查询的 WHERE 子句中包括 EVALUATE() 函数会返回不正确的数据。

如果包括一个以上的表在查询中, 你应该在第一个以后为每一个表指定一个连接条件。连接条件可以包含筛选条件。

注意 每一个 SELECT 语句的最大连接数是 9

必须用 AND *** 作符来连接多个连接条件。各连接条件具有以下格式:

当你在串中使用 = *** 作符时, 它的动作根据 SET ANSI 的设置会不同。当 SET ANSI 设置为 OFF 时, Vfp只比较串到较短串结束。当 SET ANSI 设置为 ON 时, Vfp遵循 ANSI 标准的字符串比较。关于 Vfp如果执行字符串比较的额外信息, 参见 SET ANSI 和 SET EXACT。

下列字段函数可以与选定项一起使用,选定项可以是一个字段或包含字段的表达式:

AVG(Select_Item), 计算列中数值的平均值。

COUNT(Select_Item), 计算列中选定项的数目。计算查询输出的行数。COUNT() 计算查询输出中的行数。

MIN(Select_Item), 确定列中 Select_Item 的最小值。

MAX(Select_Item), 确定列中 Select_Item 的最大值。

SUM(Select_Item), 计算列中数值的和。

字段函数不能嵌套使用。

UNION 子句遵守下列规则:

不能使用 UNION 来组合子查询。

两个 SELECT 命令的查询结果中的列数必须相同。

两个 SELECT 查询结果中的对应列必须有相同的数据类型和宽度。

只有最后的 SELECT 中可以包含 ORDER BY 子句,而且必须按编号指出所输出的列。如果包含了一个 ORDER BY 子句,它将影响整个结果。

当你用 UNION 连接查询中的两个表时, 仅匹配连接字段值的记录会出现在查询结果中。如果在父表中的记录在子表中没有相应的记录, 父表中的记录不会出现在查询结果中。一个外部联接允许你包括父表中的所有记录到输出结果中, 连同子表中的匹配记录一起。要在 Vfp中创建一个外部联接, 你需要要使用一个嵌套的 SELECT 命令

注意 确信在每一个分号前包括一个空格。否则, Vfp产生一个错误。

上例中, 在 UNION 子句前的部分的命令从两个表中选择具有匹配值的记录。不包括没有相关的发票的客户公司。命令中 UNION 子句后的部分选择客户表中的在订单表中无匹配记录的记录。

关于第二部分的命令, 注意以下几点:

包括在园括号中的 SELECT 语句首先处理。该语句的结果是选择订单表中的所有客户编号。

WHERE 子句找出 customer 表中的在 orders 表没有相关记录的所有客户编号。由于第一节中的命令提供了所在 orders 表中有客户编号的公司, Customer 表中的所有公司现在都包含在查询结果中了。

因为在 UNION 中的表的结构必须相同, 有两个占位符在第二个 SELECT 语句中来代表第一个 SELECT 语句中的 ordersorder_id 和 ordersemp_id。

注意 占位符必须与它们所代表的字段有相同类型。如果字段是日期型, 占位符应该是 。如果字段是一个字符字段, 占位符应该是一个空串 ("")。

如果你没有在 Order By 子句中指定排序, 查询结果显示为未排序。

当你发出 SET TALK ON 并执行 SELECT 时, Vfp显示查询使用的时间和结果中的记录数。 _TALLY 包含了在查询结果中的记录数。

SET FILTER 设置的筛选条件对 SELECT 命令不起作用。

注意 下面部分提到的子查询, 是指在 SELECT 命令中包含的 SELECT 命令。子查询必须包括在园括号中。在 SELECT 命令的 WHERE 子句中可以包含最多两个平级的(非嵌套)的子查询。子查询中可以有多个连接条件 (join conditions)。

在你创建查询输出时, 列的命名遵循如下规则:

如果选择项是具有唯一名称的字段,则用字段名作为输出列名。

如果多个选择项具有相同名称。例如,如果名为 Customer 的表有一个STREET 字段,而名为 Employees 的表也有一个 STREET 字段,则输出列命名为 Extension_A 和 Extension_B (STREET_A 和 STREET_B)。如果选择项名称有 10 字符长,可以将名称截短后再加下划线和字母。例如,DEPARTMENT 变为 DEPARTME_A。

如果选择项是表达式,它的输出列命名为 EXP_A。其他表达式分别命名为EXP_B、EXP_C,依此类推。

如果选择项包含诸如 COUNT() 这样的字段函数,则输出列命名为CNT_A。如果另一个选择项包含 SUM(),它的输出列命名为 SUM_B。

用户定义函数和 在 SELECT 子句中使用用户自定义函数有明显优点,但使用时应考虑以下限制:

SELECT 子句的运行速度会受用户自定义函数执行速度的影响。因此,如果使用户自定义函数的 *** 作量很大,则这些函数的功能最好调用 C 语言或汇编语言编写的 API 或用户自定义函数来完成。

在 SELECT 激活的用户自定义函数中,很难预测 Vfp输入/输出(I/O)和表的环境。一般来说,不知道选择的工作区是哪一个,不知道当前表的名称,甚至不知道正在处理的字段名。这些变量的值完全取决于用户自定义函数在优化过程的什么地方激活。

在 SELECT 子句调用的用户自定义函数中修改 VfpI/O 或表的环境是很不安全的。一般来说,这样做的结果难以预料。

从 SELECT 将值传递给用户自定函数唯一可靠的方法,是激活用户自定义函数时以参数的形式传递。

经过实践,有可能发现某种被认为是违法的 *** 作在某种 FoxPro 版本中运行正确,但这并不保证它在以后的版本中也能正确运行。

抛开这些限制不说,用户自定义函数在 SELECT 语句中还是可接受的。但不要忘记使用 SELECT 可能要降低性能。要学习如何在 SELECT 中使用用户定义函数, 参见示例节。

连接 Vfp支持 ANSI SQL '92 连接 (Join) 语法,通过比较两个或多个表中的字段,将它们的记录连接到一起,生成查询。例如,内部连接 (inner join) 是将两个表中连接字段 (joined field) 值相同的记录选取到查询中。Vfp支持嵌套连接(nested joins)

由于 SQL 是派生于数学集合理论, 各表可以代表一个环。指定连接条件的 ON 子句确定交接点, 它代表匹配的行集合。对于一个内部联接, 交接发生在两个环的内部或 "inner" 部分。一个外联接不仅仅包括这些表内部的交叉区域匹配的行, 也包括环的外面的左或右部的交集的行。

hive函数:

1、根据指定条件返回结果:case when then else end as

2、基本类型转换:CAST()

3、nvl:处理空字段:三个str时,是否为空可以指定返回不同的值

4、sql通配符: https://wwww3schoolcomcn/sql/sql_wildcardsasp

5、count(1)与COUNT():返回行数

如果表没有主键,那么count(1)比count()快;

如果有主键,那么count(主键,联合主键)比count()快;

count(1)跟count(主键)一样,只扫描主键。count()跟count(非主键)一样,扫描整个表。明显前者更快一些。

性能问题:

1任何情况下SELECT COUNT() FROM tablename是最优选择,(指没有where的情况);

2尽量减少SELECT COUNT() FROM tablename WHERE COL = ‘value’ 这种查询;

3杜绝SELECT COUNT(COL) FROM tablename WHERE COL2 = ‘value’ 的出现。

count(expression):查询 is_reply=0 的数量: SELECT COUNT(IF(is_reply=0,1,NULL)) count FROM t_iov_help_feedback;

6、distinct与group by

distinct去重所有distinct之后所有的字段,如果有一个字段值不一致就不作为一条

group by是根据某一字段分组,然后查询出该条数据的所需字段,可以搭配 where max(time)或者Row_Number函数使用,求出最大的一条数据

7、使用with 临时表名 as() 的形式,简单的临时表直接嵌套进sql中,复杂的和需要复用的表写到临时表中,关联的时候先找到关联字段,过滤条件最好在临时表中先过滤后关联

处理json的函数:

split(json_array_string(schools), '\\|\\|') AS schools

get_json_object(school, '$id') AS school_id,

字符串函数:

1、instr(’源字符串’ , ‘目标字符串’ ,’开始位置’,’第几次出现’)

instr(sourceString,destString,start,appearPosition)

1sourceString代表源字符串; destString代表要从源字符串中查找的子串;

2start代表查找的开始位置,这个参数可选的,默认为1;

3appearPosition代表想从源字符中查找出第几次出现的destString,这个参数也是可选的, 默认为1

4如果start的值为负数,则代表从右往左进行查找,但是位置数据仍然从左向右计算。

5返回值为:查找到的字符串的位置。如果没有查找到,返回0。

最简单例子: 在abcd中查找a的位置,从第一个字母开始查,查找第一次出现时的位置

select instr(‘abcd’,’a’,1,1) from dual; —1

应用于模糊查询:instr(字段名/列名, ‘查找字段’)

select code,name,dept,occupation from staff where instr(code, ‘001’)> 0;

等同于 select code, name, dept, occupation from staff where code like ‘%001%’ ;

应用于判断包含关系:

select ccn,mas_loc from mas_loc where instr(‘FH,FHH,FHM’,ccn)>0;

等同于 select ccn,mas_loc from mas_loc where ccn in (‘FH’,’FHH’,’FHM’);

2、substr(string A,int start,int len)和 substring(string A,int start,int len),用法一样

substr(time,1,8) 表示将time从第1位开始截取,截取的长度为8位

第一种用法:

substr(string A,int start)和 substring(string A,int start),用法一样

功效:返回字符串A从下标start位置到结尾的字符串

第二种用法:

substr(string A,int start,int len)和 substring(string A,int start,int len),用法一样

功效:返回字符串A从下标start位置开始,长度为len的字符串

3、get_json_object(form_data,'$学生姓名') as student_name

json_tuple 函数的作用:用来解析json字符串中的多个字段

4、split(full_name, '\\') [5] AS zq;  取的是数组里的第六个

日期(时间)函数:

1、to_date(event_time) 返回日期部分

2、date_sub:返回当前日期的相对时间

当前日期:select curdate() 

当前日期前一天:select  date_sub(curdate(),interval 1 day)

当前日期后一天:select date_sub(curdate(),interval -1 day)

date_sub(from_unixtime(unix_timestamp(), 'yyyy-MM-dd HH:mm:ss'), 14)  将现在的时间总秒数转为标准格式时间,返回14天之前的时间

时间戳>>>>日期:

from_unixtime(unix_timestamp(), 'yyyy-MM-dd HH:mm:ss') 将现在的时间总秒数转为标准格式时间

from_unixtime(get_json_object(get_json_object(form_data,'$挽单时间'),'$$date')/1000) as retain_time

unix_timestamp('2019-08-15 16:40:00','yyyy-MM-dd HH:mm:ss')  --1565858400

日期>>>>时间戳:unix_timestamp()

date_format:yyyy-MM-dd HH:mm:ss 时间转格式化时间

select date_format('2019-10-07 13:24:20', 'yyyyMMdd000000')-- 20191007000000select date_format('2019-10-07', 'yyyyMMdd000000')-- 20191007000000

1日期比较函数: datediff语法: datediff(string enddate,string startdate) 

返回值: int 

说明: 返回结束日期减去开始日期的天数。 

举例:  hive> select datediff('2016-12-30','2016-12-29');  1

2日期增加函数: date_add语法: date_add(string startdate, intdays) 

返回值: string 

说明: 返回开始日期startdate增加days天后的日期。 

举例:  hive>select date_add('2016-12-29',10);  2017-01-08

3日期减少函数: date_sub语法: date_sub (string startdate,int days) 

返回值: string 

说明: 返回开始日期startdate减少days天后的日期。 

举例:  hive>select date_sub('2016-12-29',10);  2016-12-19

4查询近30天的数据

select from table where datediff(current_timestamp,create_time)<=30;

create_time 为table里的字段,current_timestamp 返回当前时间 2018-06-01 11:00:00

3、trunc()函数的用法:当前日期的各种第一天,或者对数字进行不四舍五入的截取

日期:

1select trunc(sysdate) from dual  --2011-3-18  今天的日期为2011-3-18

2select trunc(sysdate, 'mm')   from   dual  --2011-3-1    返回当月第一天

上月1号    trunc(add_months(current_date(),-1),'MM')

3select trunc(sysdate,'yy') from dual  --2011-1-1       返回当年第一天

4select trunc(sysdate,'dd') from dual  --2011-3-18    返回当前年月日

5select trunc(sysdate,'yyyy') from dual  --2011-1-1   返回当年第一天

6select trunc(sysdate,'d') from dual  --2011-3-13 (星期天)返回当前星期的第一天

7select trunc(sysdate, 'hh') from dual   --2011-3-18 14:00:00   当前时间为14:41  

8select trunc(sysdate, 'mi') from dual  --2011-3-18 14:41:00   TRUNC()函数没有秒的精确

数字:TRUNC(number,num_digits) Number 需要截尾取整的数字。Num_digits 的默认值为 0。TRUNC()函数截取时不进行四舍五入

11select trunc(123458,1) from dual --1234

12select trunc(123458,-1) from dual --120

4、round():四舍五入:

select round(1455, 2)  #结果是:146,即四舍五入到十分位,也就是保留两位小数

select round(15)  #默认四舍五入到个位,结果是:2

select round(255, -1)  #结果是:260,即四舍五入到十位,此时个位是5会进位

floor():地板数

ceil()天花板数

5、

6日期转年函数: year语法:   year(string date) 

返回值: int

说明: 返回日期中的年。

举例:

hive>   select year('2011-12-08 10:03:01') from dual;

2011

hive>   select year('2012-12-08') fromdual;

2012

7日期转月函数: month语法: month   (string date) 

返回值: int

说明: 返回日期中的月份。

举例:

hive>   select month('2011-12-08 10:03:01') from dual;

12

hive>   select month('2011-08-08') fromdual;

8

8日期转天函数: day语法: day   (string date) 

返回值: int

说明: 返回日期中的天。

举例:

hive>   select day('2011-12-08 10:03:01') from dual;

8

hive>   select day('2011-12-24') fromdual;

24

9日期转小时函数: hour语法: hour   (string date) 

返回值: int

说明: 返回日期中的小时。

举例:

hive>   select hour('2011-12-08 10:03:01') from dual;

10

10日期转分钟函数: minute语法: minute   (string date) 

返回值: int

说明: 返回日期中的分钟。

举例:

hive>   select minute('2011-12-08 10:03:01') from dual;

3

11日期转秒函数: second语法: second   (string date) 

返回值: int

说明: 返回日期中的秒。

举例:

hive>   select second('2011-12-08 10:03:01') from dual;

1

12日期转周函数: weekofyear语法:   weekofyear (string date) 

返回值: int

说明: 返回日期在当前的周数。

举例:

hive>   select weekofyear('2011-12-08 10:03:01') from dual;

49

查看hive表在hdfs中的位置:show create table 表名;

在hive中hive2hive,hive2hdfs:

HDFS、本地、hive -----> Hive:使用 insert into | overwrite、loaddata local inpath "" into table student;

Hive ----> Hdfs、本地:使用:insert overwrite | local

网站访问量统计:

uv:每用户访问次数

ip:每ip(可能很多人)访问次数

PV:是指页面的浏览次数

VV:是指你访问网站的次数

sql:

基本函数:

count、max、min、sum、avg、like、rlike('2%'、'_2%'、%2%'、'[2]')(java正则)

and、or、not、in   

where、group by、having、{ join on 、full join}  、order by(desc降序)

sort by需要与distribut by集合结合使用:

hive (default)> set mapreducejobreduces=3;  //先设置reduce的数量 

insert overwrite local directory '/opt/module/datas/distribute-by'

row format delimited fields terminated by '\t'

先按照部门编号分区,再按照员工编号降序排序。

select from emp distribute by deptno sort by empno desc;

外部表  create external table if not exists dept

分区表:create table dept_partition ( deptno int, dname string, loc string )  partitioned by ( month string )

load data local inpath '/opt/module/datas/depttxt' into table defaultdept_partition partition(month='201809'); 

 alter table dept_partition add/drop partition(month='201805') ,partition(month='201804');

多分区联合查询:union

select from dept_partition2 where month='201809' and day='10';

show partitions dept_partition;

desc formatted dept_partition;

二级分区表:create table dept_partition2 ( deptno int, dname string, loc string ) partitioned by (month string, day string) row format delimited fields terminated by '\t';

分桶抽样查询:分区针对的是数据的存储路径;分桶针对的是数据文件

create table stu_buck(id int, name string) clustered by(id) into 4 bucketsrow format delimited fields terminated by '\t';

设置开启分桶与reduce为1:

set hiveenforcebucketing=true;

set mapreducejobreduces=-1;

分桶抽样:select from stu_bucktablesample(bucket x out of y on id);

抽取,桶数/y,x是从哪个桶开始抽取,y越大 抽样数越少,y与抽样数成反比,x必须小于y

给空字段赋值:

如果员工的comm为NULL,则用-1代替或用其他字段代替  :select nvl(comm,-1) from emp;

case when:如何符合记为1,用于统计、分组统计

select dept_id, sum(case sex when '男' then 1 else 0 end) man , sum(case sex when '女' then 1 else 0 end) woman from emp_sex group by dept_id;

用于组合归类汇总(行转列):UDAF:多转一

concat:拼接查询结果

collect_set(col):去重汇总,产生array类型字段,类似于distinct

select tbase, concat_ws('|',collect_set(tname))   from (select concat_ws(',',xingzuo,blood_type) base,name  from person_info) t group by tbase;

解释:先第一次查询得到一张没有按照(星座血型)分组的表,然后分组,使用collect_set将名字组合成数组,然后使用concat将数组变成字符串

用于拆分数据:(列转行):UDTF:一转多

explode(col):将hive一列中复杂的array或者map结构拆分成多行。

lateral view  侧面显示:用于和UDTF一对多函数搭配使用

用法:lateral view udtf(expression) tablealias as cate

cate:炸开之后的列别名

temptable :临时表表名

解释:用于和split, explode等UDTF一起使用,它能够将一列数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。

开窗函数:

Row_Number,Rank,Dense_Rank  over:针对统计查询使用

Row_Number:返回从1开始的序列

Rank:生成分组中的排名序号,会在名词s中留下空位。3 3 5

dense_rank:生成分组中的排名序号,不会在名词中留下空位。3 3 4

over:主要是分组排序,搭配窗口函数使用

结果:

SUM、AVG、MIN、MAX、count

preceding:往前

following:往后

current row:当前行

unbounded:unbounded preceding 从前面的起点, unbounded following:到后面的终点

sum:直接使用sum是总的求和,结合over使用可统计至每一行的结果、总的结果、当前行+之前多少行/之后多少行、当前行到往后所有行的求和。

over(rowsbetween 3/current rowprecedingandunboundedfollowing )  当前行到往后所有行的求和

ntile:分片,结合over使用,可以给数据分片,返回分片号

使用场景:统计出排名前百分之或n分之一的数据。

lead,lag,FIRST_VALUE,LAST_VALUE

lag与lead函数可以返回上下行的数据

lead(col,n,dafault) 用于统计窗口内往下第n行值

第一个参数为列名,第二个参数为往下第n行(可选,默认为1),第三个参数为默认值(当往下第n行为NULL时候,取默认值,如不指定,则为NULL)

LAG(col,n,DEFAULT) 用于统计窗口内往上第n行值

第一个参数为列名,第二个参数为往上第n行(可选,默认为1),第三个参数为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL)

使用场景:通常用于统计某用户在某个网页上的停留时间

FIRST_VALUE:取分组内排序后,截止到当前行,第一个值

LAST_VALUE:取分组内排序后,截止到当前行,最后一个值

范围内求和: https://blogcsdnnet/happyrocking/article/details/105369558

cume_dist,percent_rank

–CUME_DIST :小于等于当前值的 行数 / 分组内总行数

–比如,统计小于等于当前薪水的人数,占总人数的比例

percent_rank:分组内当前行的RANK值-1/分组内总行数-1

总结:

在Spark中使用spark sql与hql一致,也可以直接使用sparkAPI实现。

HiveSql窗口函数主要应用于求TopN,分组排序TopN、TopN求和,前多少名前百分之几。

与Flink窗口函数不同。

Flink中的窗口是用于将无线数据流切分为有限块处理的手段。

window分类:

CountWindow:按照指定的数据条数生成一个 Window,与时间无关。

TimeWindow:按照时间生成 Window。

1 滚动窗口(Tumbling Windows):时间对齐,窗口长度固定,不重叠::常用于时间段内的聚合计算

2滑动窗口(Sliding Windows):时间对齐,窗口长度固定,可以有重叠::适用于一段时间内的统计(某接口最近 5min 的失败率来报警)

3 会话窗口(Session Windows)无时间对齐,无长度,不重叠::设置session间隔,超过时间间隔则窗口关闭。

你对数据库的理解有问题

数据库信息不是顺序的,你要用相应的语句来给她排序输出

所以用union加上sort函数就能实现你的排序要求,做个视图就行,你组成新表,原来的A表B表有更新,你还要重新处理,视图自动就是最新结果

对于 SQL Server

-- 按照拼音来排序

1> SELECT

2>

3> FROM

4> Tab

5> ORDER BY

6> val COLLATE Chinese_PRC_CS_AS_KS_WS

7> go

id val

----------- ----------

2 二

3 三

4 四

5 五

1 一

(5 行受影响)

-- 按照笔画数的多少来排序

1> SELECT

2>

3> FROM

4> Tab

5> ORDER BY

6> val COLLATE Chinese_PRC_Stroke_CS_AS_KS_WS

7> go

id val

----------- ----------

1 一

2 二

3 三

5 五

4 四

(5 行受影响)

进行SQL性能优化的方法:

1、SQL语句不要写的太复杂。一个SQL语句要尽量简单,不要嵌套太多层。

2、使用『临时表』缓存中间结果。简化SQL语句的重要方法就是采用临时表暂存中间结果,这样可以避免程序中多次扫描主表,也大大减少了阻塞,提高了并发性能。

3、使用like的时候要注意是否会导致全表扫,有的时候会需要进行一些模糊查询例如:select id from table where username like ‘%hollis%’关键词%hollis%,由于hollis前面用到了“%”,因此该查询会使用全表扫描,除非必要,否则不要在关键词前加%。

4、尽量避免使用!=或<> *** 作符。在where语句中使用!=或<>,引擎将放弃使用索引而进行全表扫描。

5、尽量避免使用 or 来连接条件;在 where 子句中使用 or 来连接条件,引擎将放弃使用索引而进行全表扫描。可以使用

select id from t where num=10

union all

select id from t where num=20

替代

select id from t where num=10 or num=20

6、尽量避免使用in和not in:在 where 子句中使用 in和not in,引擎将放弃使用索引而进行全表扫描。可以使用

select id from t where num between 10 and 20

替代

select id from t where num in (10,20)

7、可以考虑强制查询使用索引

select  from table force index(PRI) limit 2;(强制使用主键)

select  from table force index(hollis_index) limit 2;(强制使用索引"hollis_index")

select  from table force index(PRI,hollis_index) limit 2;(强制使用索引"PRI和hollis_index")

8、尽量避免使用表达式、函数等 *** 作作为查询条件;尽量避免大事务 *** 作,提高系统并发能力。尽量避免使用游标;任何地方都不要使用 select  from t ,用具体的字段列表代替“”,不要返回用不到的任何字段。

9、尽可能的使用 varchar/nvarchar 代替 char/nchar。尽量使用数字型字段,若只含数值信息的字段尽量不要设计为字符型,这会降低查询和连接的性能,并会增加存储开销。

10、索引并不是越多越好,索引固然可以提高相应的 select 的效率,但同时也降低了 insert 及 update 的效率、并不是所有索引对查询都有效,SQL是根据表中数据来进行查询优化的,当索引列有大量数据重复时,SQL查询可能不会去利用索引。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/langs/12185594.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-21
下一篇 2023-05-21

发表评论

登录后才能评论

评论列表(0条)

保存