Hive是基于Hadoop的数据仓库软件
数据库适用于OLTP(联机事务管理-增删改查的 *** 作)__中的数据时实时更新的
数据仓库适用于OLAP(联机事务分析-对历史数据进行分析或者汇总)
特性:灵活方便的extract transform load
支持 Tez(默认引擎) spark多种引擎
可以直接访问HDFS Hbase
应用场景----->数据挖掘 非实时性分析 数据汇总 数据仓库
优点
高可靠(集群存储 一两个错误没影响)高容错 类似SQL语法 可扩展 多接口
接口:Beeline JDBC Thrift Python ODBC
Hive运行过程
Client提交HQL命令
Tez执行查询
YARN为集群中的应用程序分配资源 并未YARN队列中的Hive作业启用授权
Hive根据表类型更新HDFS或Hive仓库中的数据
Hive通过JDBC连接返回查询结果
数据库--->区分不同业务的数据
表 |
分区(按照字段|进行划分 相同的数据放到同一个分区) -桶(利用hash分区方式放到不同桶) 倾斜数据 正常数据
|
|
分区数量不固定 建表时指定桶个数 桶内可排序
内部表create table 创建外部表 create external 表名 临时表create temporary存放临时结果或中见结果 用于过度
会将数据移动到数据仓库指定的路径 localtion指定放在那个目录 可无 只在hive连接窗口有效
删除时 只删除元数据
普通表删除 元数据和数据一起删除
Hive数据最终存储到了HDFS上 /user/hive/warehouse/
可以不用分隔符;
离线批发工具__ 直梯___>高延迟
MapRuduce Hive
实时流处理____阶梯__>低延迟
Strom(Streaming)
关于Hive在Fusionlnsight HD中的架构结构描述
HiveServer负责接受客户端请求 解析 执行HQL命令并返回查询结果
metaStore用于提供原数据服务 依赖于DBServer
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)