Hive 数据库表的基本 *** 作,必须掌握的基本功

Hive 数据库表的基本 *** 作,必须掌握的基本功,第1张

说明:hive 的表存放位置模式是由 hive-sitexml 当中的一个属性指定的,默认是存放在该配置文件设置的路径下,也可在创建数据时单独指定存储路径。

数据库有一些描述性的属性信息,可以在创建时添加:

查看数据库的键值对信息

修改数据库的键值对信息

与mysql查询语句是一样的语法

删除一个空数据库,如果数据库下面有数据表,那么就会报错

强制删除数据库,包含数据库下面的表一起删除(请谨慎 *** 作)

[]里的属性为可选属性,不是必须的,但是如果有可选属性,会使 sql 语句的易读性更好,更标准与规范。

例如:[comment '字段注释信息'][comment '表的描述信息']等,[external]属性除外

1 CREATE TABLE

创建一个指定名字的表,如果相同名字的表已存在,则抛出异常提示:表已存在,使用时可以使用IF NOT EXISTS语句来忽略这个异常。

如果创建的表名已存在,则不会再创建,也不会抛出异常提示:表已存在。否则则自动创建该表。

2 EXTERNAL

顾名思义是外部的意思,此关键字在建表语句中让使用者可以创建一个外部表,如果不加该关键字,则默认创建内部表。

外部表在创建时必须同时指定一个指向实际数据的路径(LOCATION),Hive在创建内部表时,会将数据移动到数据仓库指向的路径;

若创建外部表,仅记录数据所在的路径,不对数据的位置作任何改变。

内部表在删除后,其元数据和数据都会被一起删除。

外部表在删除后,只删除其元数据,数据不会被删除。

3 COMMENT

用于给表的各个字段或整张表的内容作解释说明的,便于他人理解其含义。

4 PARTITIONED BY

区分表是否是分区表的关键字段,依据具体字段名和类型来决定表的分区字段。

5 CLUSTERED BY

依据column_name对表进行分桶,在 Hive 中对于每一张表或分区,Hive 可以通过分桶的方式将数据以更细粒度进行数据范围划分。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。

6 SORTED BY

指定表数据的排序字段和排序规则,是正序还是倒序排列。

7 ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '

指定表存储中列的分隔符,这里指定的是' ',也可以是其他分隔符。

8 STORED AS SEQUENCEFILE|TEXTFILE|RCFILE

指定表的存储格式,如果文件数据是纯文本格式,可以使用STORED AS TEXTFILE,如果数据需要压缩,则可以使用STORED AS SEQUENCEFILE。

9 LOCATION

指定 Hive 表在 hdfs 里的存储路径,一般内部表(Managed Table)不需要自定义,使用配置文件中设置的路径即可。

如果创建的是一张外部表,则需要单独指定一个路径。

1 使用create table语句创建表

例子:

2 使用create table as select语句创建表

例子:

使用 create table as select 语句来创建新表sub_student,此时sub_student 表的结构及表数据与 t_student 表一模一样, 相当于直接将 t_student 的表结构和表数据复制一份到 sub_student 表。

注意:

(1) select 中选取的列名(如果是 则表示选取所有列名)会作为新表 sub_student 的列名。

(2) 该种创建表的方式会改变表的属性以及结构,例如不能是外部表,只能是内部表,也不支持分区、分桶。

如果as select后的表是分区表,并且使用select ,则分区字段在新表里只是作为字段存在,而不是作为分区字段存在。

在使用该种方式创建时,create 与 table 之间不能加 external 关键字,即不能通过该种方式创建外部目标表,默认只支持创建内部目标表。

(3) 该种创建表的方式所创建的目标表存储格式会变成默认的格式textfile。

3使用like语句创建表

例子:

注意:

(1) 只是将 t_student 的表结构复制给 sub1_student 表。

(2) 并不复制 t_student 表的数据给 sub1_student 表。

(3) 目标表可以创建为外部表,即:

摘要 本文探讨了基于 IBM DB 的各种数据库备份与恢复策略 并附有完整的实验步骤 本文试图通过具体的实验使读者领会各种数据库备份方式的优劣和异同 并掌握 IBM DB 的数据库备份与恢复技术

若无特殊说明 以下数据库备份与恢复的试验环境均为 Windows XP + IBM DB V 企业版 同样的语句也在 AIX + IBM DB V 上验证通过

一 数据库备份的重要性

在信息日趋发达的时代 数据显得尤其重要 如何保障数据的完整性和安全性呢?如何避免数据灾难事故的发生呢?数据库备份作为数据安全和完整最有利保障手段的重要性就不言而喻了

数据库备份的重要性主要体现在

提高系统的高可用性和灾难可恢复性 (在数据库系统崩溃的时候 没有数据库备份怎么办!?)

使用数据库备份还原数据库是数据库系统崩溃时提供数据恢复最小代价的最优方案 (总不能让客户重新填报数据吧!?)

没有数据就没有一切 数据库备份就是一种防范灾难于未然的强力手段 (没有了数据 应用再花哨也是镜中花水中月)

对于DBA来说 最首要也是最重要的任务就是数据库备份

二 DB 数据库备份的方式与分类

按照数据库备份对数据库的使用影响来划分

A 联机备份(也称热备份或在线备份)

B 脱机备份(也称冷备份或离线备份)

说明 联机备份和脱机备份最大的不同在于 联机备份数据库时 数据库仍然可以供用户使用 而脱机备份数据库则不行 脱机备份数据库时 必须断开所有与数据库有连接的应用后才能进行

按照数据库的数据备份范围来划分

A 完全备份

B 增量备份

说明 完全备份数据库是指备份数据库中的所有数据 而增量备份只是备份数据库中的部分数据 至于增量备份到底备份哪些数据 稍候会提到

增量备份的两种实现方式

A 增量备份(也称累计备份)

B delta备份

说明 这两种备份方式的严格定义如下

增量备份是自最近成功的完全备份以来所有更改的数据的备份

delta 备份则是上一次成功的完全 增量或 delta 备份以后所做更改的数据的备份

这里请读者们仔细的看上面两个增量备份方式的定义 注意这两种备份方式的细微差别 这里我们举一个例子来说明

假设有一个数据库 它每天都有部分数据在发生变化 我们星期一晚上对该数据库做了一次完全备份 星期二晚上对该数据库做了一次增量备份A(注 这里的增量备份是指累计备份 下同) 星期三晚上又做了一次增量备份B 星期四则做了一次delta 备份

那么 我们可以得出以下结论

星期一的数据库备份包含了所有的数据

星期二没有变动过的数据没有发生备份 在星期二变动过的数据会备份 并且备份到增量备份A中

星期三的备份中含有自星期一完全备份以来发生过变动的所有数据 包含了星期二和星期三发生过变动的数据 显然 增量备份A 被 增量备份 B 包含

星期四做的是delta备份 注意 它会也只会备份自星期三备份之后变动过的数据

三 DB 备份文件的结构介绍

在不同的 *** 作系统下 DB 的备份文件的结构是不同的 这里概要地介绍一下

Windows *** 作系统下的数据库备份文件结构

说明 Windows *** 作系统下的数据库备份文件是嵌套在一系列文件夹之下的特殊结构 上例中 D:\DB _Train 是指备份目录 TESTDB 是指数据库名称为 TESTDB DB 是指实例名称 NODE 是指节点名称 CATN 是指编目名称 是指备份发生的年月日 形如YYYYMMDD 是指备份发生的时间 精确到秒 也就是指 点 分 秒 形如HHMMSS 最后的 则是备份文件的一个序列号

Unix *** 作系统下的数据库备份文件结构

说明 Unix *** 作系统下的数据库备份文件就是一个文件 上例中 HTDC 是指数据库名称 db inst 是指实例名称 NODE 是指节点名称 CATN 是指编目名称 是指备份发生的具体时间 形如YYYYMMDDHHMMSS 同样地 它的时间精确到秒 也就是指 年 月 日 点 分 秒发生备份 最后的 则是备份文件的一个序列号

四 DB 数据库备份实验(附完整命令脚本清单)

DB 数据库实验准备工作

( ) Step 创建测试数据库 TestDB

脚本清单          CREATE DATABASE TestDB        ON D:         USING CODESET GBK TERRITORY CN        WITH Pjj s Test DB ;        }

( ) Step 创建数据库管理表空间 Data_SP(注意路径 如果没有请创建)

脚本清单          CREATE REGULAR TABLESPACE Data_SP        PAGESIZE K        MANAGED BY DATABASE        USING ( FILE D:\DB \Container\TestDB\UserData\UserData )        BUFFERPOOL IBMDEFAULTBP;

说明 上面的脚本创建了一个名为 Data_SP 的数据库管理表空间 该表空间使用的缓冲池为 IBMDEFAULTBP 存储路径为 D:\DB \Container\TestDB\UserData\ 存储文件名为 UserData 大小为 K = M 页大小为 K

( ) Step 创建测试表 TestTable 并插入测试数据

脚本清单

CREATE TABLE TestTable        (        ID INTEGER NOT NULL GENERATED ALWAYS AS IDENTITY (START WITH INCREMENT BY NO CACHE )         Message VARCHAR( )         PRIMARY KEY(ID)        )IN Data_SP;

插入测试数据 INSERT INTO TestTable(Message) VALUES( 测试表建立成功 );

说明 建立测试表并插入数据是为了稍候验证数据库恢复的时候用的

( ) Step 创建测试表 TestTable 并插入测试数据

脚本清单          CREATE TABLE TestTable        (        ID INTEGER NOT NULL GENERATED ALWAYS AS IDENTITY (START WITH INCREMENT BY NO CACHE )         Message VARCHAR( )         PRIMARY KEY(ID)        )IN Data_SP;

插入测试数据          INSERT INTO TestTable(Message)        VALUES( 测试表建立成功 );

DB 数据库脱机备份与恢复实验

脚本清单

Step 完全备份数据库(脱机 备份时间戳记为 )

db backup db TestDB to D:\DB _Train

Step 模拟灾难 强制删除数据库

db drop db TestDB

Step 根据该数据库完全备份还原数据库

db restore db TestDB from D:\DB _Train taken at

DB 数据库增量备份与恢复实验

脚本清单

数据库增量备份以及还原实验

修改数据库参数 TrackMod 使之支持数据库进行增量备份

db update db cfg using TrackMod YES

更改参数后必须完全离线备份数据库(脱机 备份时间戳记为 )

db backup db TestDB to D:\DB _Train

插入测试数据

INSERT INTO TestTable(Message)        VALUES( 开始增量数据库备份测试 );

开始增量备份(脱机 备份时间戳记为 )

db backup db TestDB incremental to D:\DB _Train

删除数据库 模拟数据灾难

db drop db TestDB

首先还原至完全离线备份状态

db restore db TestDB from D:\DB _Train taken at

还原至增量离线备份状态

db restore db TestDB incremental automatic from D:\DB _Train taken at

注意 上述语句中 有一个 automatic 它表示无论有多少个增量备份 系统将全自动检索恢复数据库的顺序并自动恢复数据库 如果没有 automatic 则需要多次手动恢复数据库 很麻烦而且容易出错

Step 根据该数据库完全备份还原数据库

db restore db TestDB from D:\DB _Train taken at

还原数据库后查询测试表数据检验数据是否恢复成功

DB 数据库联机机备份与恢复实验

说明 联机备份数据库可以使数据库在备份的同时仍然保持在可用状态 要让数据库支持联机备份 必须更改数据库的日志归档方式 在脱机备份模式下 数据库采用循环日志方式记录数据库日志 在联机备份模式下 数据库则采用归档日志的方式备份数据库日志 另外 对于联机备份的数据库来说 活动日志和归档日志就很重要了 一定要经常备份 保存

脚本清单

数据库联机备份以及还原实验

连接至数据库并插入测试数据

db connect to TestDB

插入测试数据

INSERT INTO TestTable(Message)        VALUES( 开始联机数据库备份测试 完全备份 );

修改数据库参数 使之支持在线联机备份

db update db cfg for TestDB using logretain on trackmod on

执行增量 在线备份之前必须执行离线全备份一次 否则数据库将处于备份暂挂的不可用状态

(联机完全备份 时间戳记 )

db backup db TestDB

连接至数据库并插入测试数据

db connect to TestDB

插入测试数据

INSERT INTO TestTable(Message)        VALUES( 开始联机数据库备份测试 增量备份 );

执行联机备份 备份同时再打开一个会话 模拟应用在线(联机增量备份 时间戳记 )

db backup db TestDB online incremental to D:\DB _Train

模拟灾难 删除数据库!

重要 此前一定要将活动日志文件备份至另一个路径 保存好 本例中 活动日志保存在 C:\db admin 下

db drop db TestDB

根据在线完全备份恢复数据库

db restore db TestDB from D:\DB _Train taken at

根据在线增量备份恢复数据库

db restore db TestDB incremental automatic from D:\DB _Train taken at

恢复后的数据库处于前滚暂挂的不可用状态

db connect to TestDB

前滚数据库 并指定归档日志位置 重要!

db ROLLFORWARD DATABASE TESTDB TO END OF LOGS AND PLETE OVERFLOW LOG PATH ( C:\db admin )

五 综述

对于数据库管理人员或者维护人员来说 怎么强调数据库备份的重要性都不为过

希望本文能抛砖引玉 能让大家对 IBM DB UDB 的数据库备份与恢复有一些深入的认识 也希望大家能在本机上按照本文的脚本认真的做一次实验 这样 你的认识会更加深刻

lishixinzhi/Article/program/Oracle/201311/18590

创建库

create databases if not exists 库名;

删除库

drop databases 库名 restrict; restrict 默认关键字(可不写)只能删除空库,里边没有表的;

drop databases if exists 库名

drop databases 库名 cascade; cascade强制删除

查看库的列表信息

show databases;

使用库

use databases;

查看正在使用的库

select  current_databases();

查看库信息

desc databases 库名;

可使用模糊查询 show databases 库名 like 'my%'

修改库

基本不用

创建表示例(hive sql)

create [external] table [if not exists] table_name (clo_name type comment "字段描述") comment  '表描述'

[partitioned by (col_name type [comment '描述'])]

[clustered by (col_name,col_name,)]

[sorted by (col_name [asc|desc],)into num_buckets buskets]

[row format row_format]

[stored as file_format]

[location hdfs_path]

关键字讲解如下:

1)external 关键字:是否创建外部表,不加时是创建内部表,加上external关键字创建的是外部表

2)partitioned by (col_name type [comment '描述']):指定分区字段 

分区表存的是不同的目录

分区表在添加数据之前先添加分区

alter table table_name add if not exists partition(col_name ='一个分区')

3)clustered by (col_name,col_name,)指定分桶字段clustered by

sorted by (col_name [asc|desc],)  into num_buckets buskets 指定排序字段

排序规则指定的是在同一个分桶内的排序规则

into num_buckets buskets;指定分桶个数num_buckets

判断依据:根据建表语句模板字段后边是否跟type类型,因为一个字段在建表语句中不会建两次

4)[row format row_format] 指定分隔符

delimited fields terminated by '' 指定列分隔符

lines terminated by '' 指定行分隔符

5)[stored as file_format] 指定最终表数据的存储格式

textfile 文本格式 默认的格式

rcfile 行列结合的格式

parquet 压缩格式

6)[location hdfs_path] 指定hive 上表的hdfs上的存储路径

不指定的话,存储在配置的路径下      

没指定没配置,默认在  /user /hive /warehouse

复制表,复制表结构不复制数据

 create table t1 like t2;

查看表

show tables;

show tables in 库名;

show tables like 's%';

查看表信息

desc 表名:显示表字段

desc extended 表名:显示表的详细信息(由左至右,连续在一起)

desc formatted 表名:格式化显示表的详细信息(规整的,一行一行的)

删除表

drop table if exists 表名;

清空表

truncate table 表名;清空表中的数据,保留表结构

修改表 alter

修改表名称

alter table 表名 rename to 新表名;

修改表字段信息

    1)添加字段

            alter table 表名 add columns (col_name type,col_name type);

所有新的字段一定要指定类型

    2)修改字段,修改字段类型

            alter table 表名 chage 原始字段 新字段 新字段类型;

            string 类型相当于数值类型属于大类型

            hive122中没有限制,各种类型之间都可以进行修改

    3)替换列

            alter table table_name replacr columns (in int,name string);由原始表全部字段替换成两个

修改表分区信息

    1)添加分区

        alter table table_name add if not exists partition(city='beijing')

        添加分区的过程中,还可以指定分区的存储路径

        alter table table_name add if not exists partition(city='beijing') location '/user/beijing'

    2)修改分区 修改分区的存储路径

        alter table table_name  set partition(city='shenzhen') location '/user/shenzhen'

    3)删除分区

        alter table table_name drop if exists partition(city='beijing')

查看分区信息,针对分区表

show partitions table_name;

show partitions table_name partiton(city='beijing')

DDL和DML *** 作如下

>

mysql删除表记录有两种方法。

1、delete from 表名 where 条件;,这个语句带条件的删除数据,可以删除指定的数据记录。

2、truncate table 表名;,这个语句可以快速删除表中的所有数据,是不带条件的删除。

MySQL是一个关系型数据库管理系统,由瑞典 MySQL AB 公司开发,目前属于 Oracle 旗下公司。MySQL 最流行的关系型数据库管理系统,在 WEB 应用方面 MySQL 是最好的 RDBMS (Relational Database Management System,关系数据库管理系统) 应用软件之一。

以上就是关于Hive 数据库表的基本 *** 作,必须掌握的基本功全部的内容,包括:Hive 数据库表的基本 *** 作,必须掌握的基本功、浅谈IBMDB2的数据库备份与恢复、数据库DDL *** 作等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9832818.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-02
下一篇 2023-05-02

发表评论

登录后才能评论

评论列表(0条)

保存