Hive分布式数据仓库

Hive分布式数据仓库,第1张

Hive分布式数据仓库

Hive是基于Hadoop的数据仓库软件      

数据库适用于OLTP(联机事务管理-增删改查的 *** 作)__中的数据时实时更新的
数据仓库适用于OLAP(联机事务分析-对历史数据进行分析或者汇总)

特性:灵活方便的extract transform load   
      支持 Tez(默认引擎) spark多种引擎  
      可以直接访问HDFS Hbase
应用场景----->数据挖掘 非实时性分析 数据汇总 数据仓库

       优点
高可靠(集群存储 一两个错误没影响)高容错  类似SQL语法  可扩展  多接口
接口:Beeline   JDBC  Thrift  Python  ODBC

Hive运行过程
Client提交HQL命令
Tez执行查询
YARN为集群中的应用程序分配资源 并未YARN队列中的Hive作业启用授权
Hive根据表类型更新HDFS或Hive仓库中的数据
Hive通过JDBC连接返回查询结果

             数据库--->区分不同业务的数据
                表  |
分区(按照字段|进行划分  相同的数据放到同一个分区)   -桶(利用hash分区方式放到不同桶)       倾斜数据 正常数据    
                     |                                                                     
                     |
分区数量不固定 建表时指定桶个数 桶内可排序
内部表create table                            创建外部表 create external  表名        临时表create temporary存放临时结果或中见结果 用于过度
会将数据移动到数据仓库指定的路径   localtion指定放在那个目录  可无        只在hive连接窗口有效
                                                         删除时 只删除元数据
普通表删除 元数据和数据一起删除     

Hive数据最终存储到了HDFS上 /user/hive/warehouse/
可以不用分隔符;

离线批发工具__ 直梯___>高延迟
MapRuduce    Hive
实时流处理____阶梯__>低延迟
Strom(Streaming)

关于Hive在Fusionlnsight HD中的架构结构描述
HiveServer负责接受客户端请求 解析 执行HQL命令并返回查询结果
metaStore用于提供原数据服务 依赖于DBServer


 

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5656468.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存