1.面向数据分析的存储系统
2.是一个面向主题的、集成的、不可修改的、反映历史变化的数据集合,用于数据分析,辅助管理决策。
*面向主题:指数据仓库中的数据是按照一定的主题域进行组织
*集成:指对原有分散的数据库数据经过系统加工,整理得到的消除原数据中的不一致性。
*不可修改:指一旦某个数据进入数据仓库之后只需要定期的加载、刷新,不会更改。
*反映历史变化:指通过这些信息,对企业的发展历程和未来趋势做出定量分析预测。
数据仓库和数据库的对比分析 1.联系:1)都是存数据的。
2)数据仓库是数据库的一种衍生、延伸的应用。
3)数据仓库和数据库之间存在数据交互
3.1)数据库中的在线数据推送到离线的数据仓库中用于分析处理
3.2)数据仓库中分析处理后的结果数据通常推送到关系数据库中,便于前台应用的可视化展现应用。
2.区别:1)数据库是面向事务的设计,
数据仓库是面向主题的设计。
2)数据库一般存储在线数据,实时性强但存储空间有限,
数据仓库存储的一般都是历史数据,实时性弱但存储空间庞大。
3)数据库设计尽量避免冗余,
数据仓库的设计是有意引入冗余。
4)数据库是为捕获数据而生,也就是实时性强吞吐量弱,
数据仓库是为分析数据而生,也就是实时性弱吞吐量强。
HIVE产生背景背景:
降低大数据应用的门槛。
定义:
1)HIVE是建立在Hadoop上的数据仓库基础架构和解决方案。
2) 架构:支持拿来即用,亦支持灵活的参数和计算引擎的变更。
作用:
拿出了数据仓库构建的完整解决方案。
意义:
1)基于Hadoop平台解决了企业数据仓库构建的核心技术问题,证明了Hadoop平台的强大。
2)进一步降低了Hadoop平台的使用门槛。
HIVE在Hadoop生态圈的地位 HIVE的基本使用1.切换到可 *** 作的hive用户下:su hive
2.直接输入hive回车,进入hive cli
3.查看所有数据库:show databases
4.创建数据库liuqianlong1,即为create database liuqianlong1;
5.选择数据库:
6.查看数据库中所有表:
7.创建一个表:
8.向表中插入数据:insert into
9.查询表中的数据:select * from 表名称
10.删除一个表:drop table 表名称
使用总结 :
使用简单
面向数据和业务编程
HIVE架构设计特别说明:hive2.2后版本变化较大,去掉了HWI模块,HiveCLI模式也直接采用了beeline链接。
HIVE运行流程详解 HIVE基础应用 1.HIVE数据模型2.数据类型
2.1)数值型
2.2)日期类型
2.3)字符串
2.4)布尔类型
2.5)字节数组
2.6)复杂(集合)数据类型
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)