Hive分布式数据仓库_随笔

Hive分布式数据仓库

Hive是基于Hadoop的数据仓库软件

数据库适用于OLTP(联机事务管理-增删改查的 *** 作)__中的数据时实时更新的
数据仓库适用于OLAP(联机事务分析-对历史数据进行分析或者汇总)

特性:灵活方便的extract transform load
支持 Tez(默认引擎) spark多种引擎
可以直接访问HDFS Hbase
应用场景----->数据挖掘非实时性分析数据汇总数据仓库

优点
高可靠(集群存储一两个错误没影响)高容错类似SQL语法可扩展多接口
接口:Beeline JDBC Thrift Python ODBC

Hive运行过程
Client提交HQL命令
Tez执行查询
YARN为集群中的应用程序分配资源并未YARN队列中的Hive作业启用授权
Hive根据表类型更新HDFS或Hive仓库中的数据
Hive通过JDBC连接返回查询结果

数据库--->区分不同业务的数据
表 |
分区(按照字段|进行划分相同的数据放到同一个分区) -桶(利用hash分区方式放到不同桶) 倾斜数据正常数据
|
|
分区数量不固定建表时指定桶个数桶内可排序
内部表create table 创建外部表 create external 表名临时表create temporary存放临时结果或中见结果用于过度
会将数据移动到数据仓库指定的路径 localtion指定放在那个目录可无只在hive连接窗口有效
删除时只删除元数据
普通表删除元数据和数据一起删除

Hive数据最终存储到了HDFS上 /user/hive/warehouse/
可以不用分隔符；

离线批发工具__ 直梯___>高延迟
MapRuduce Hive
实时流处理____阶梯__>低延迟
Strom(Streaming)

关于Hive在Fusionlnsight HD中的架构结构描述
HiveServer负责接受客户端请求解析执行HQL命令并返回查询结果
metaStore用于提供原数据服务依赖于DBServer

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5656468.html

Hive分布式数据仓库

发表评论

评论列表（0条）