1)首先配置hive使用本地MySQL存储metastore(服务器A
111.121.21.23)(也可以使用远程mysql存储)
2)配置完成后,在服务器A启动服务:/etc/init.d/Hadoop-hive-metastore
start
(默认监听端口是:9083)
3)配置hive客户端,修改hive-site.xml:(服务器B-需要有hadoop环境)
<property>
<name>hive.metastore.local</name>
<value>false</value>
<description>controls
whether
to
connect
to
remote
metastore
server
or
open
a
new
metastore
server
in
Hive
Client
JVM</description>
</property>
<property>
<name>hive.metastore.uris</name>
<value>thrift://127.0.0.1:9083</value>
<description></description>
</property>
4)hive
执行测试hql
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类SQL查询功能;其本质是将HQL转化成MapReduce程序。
构建在Hadoop之上的数据仓库:
使用HQL作为查询接口
使用HDFS存储
使用MapReduce计算
灵活性和扩展性比较好:支持UDF,自定义存储格式等:
适合离线数据处理
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。欢迎分享,转载请注明来源:内存溢出
评论列表(0条)