远程连接元数据库hive.metastore.uris怎么写_安全

hive配置远程metastore的方法：
1）首先配置hive使用本地MySQL存储metastore（服务器A 1111212123）（也可以使用远程mysql存储）
2）配置完成后，在服务器A启动服务：/etc/initd/Hadoop-hive-metastore start （默认监听端口是：9083）
3）配置hive客户端，修改hive-sitexml：（服务器B-需要有hadoop环境）
<property>
<name>hivemetastorelocal</name>
<value>false</value>
<description>controls whether to connect to remote metastore server or open a new metastore server in Hive Client JVM</description>
</property>

<property>
<name>hivemetastoreuris</name>
<value>thrift://127001:9083</value>
<description></description>
</property>
4）hive 执行测试hql

HiveServer2的启动

启动HiveServer2

HiveServer2的启动十分简便：

$ $HIVE_HOME/bin/hiveserver2

或者

$ $HIVE_HOME/bin/hive --service hiveserver2

默认情况下，HiverServer2的Thrift监听端口是10000，其WEB UI端口是10002。可通过>

使用beeline测试客户端连接

HiveServer2成功运行后，我们可以使用Hive提供的客户端工具beeline连接HiveServer2。

$ $HIVE_HOME/bin/beeline

beeline > !connect jdbc:hive2://localhost:10000

如果成功登录将出现如下的命令提示符，此时可以编写HQL语句。

0: jdbc:hive2://localhost:10000>

报错：User: xxx is not allowed to impersonate anonymous

在beeline使用!connect连接HiveServer2时可能会出现如下错误信息：

Caused by: orgapachehadoopipcRemoteException:
User: xxx is not allowed to impersonate anonymous

这里的xxx是我的 *** 作系统用户名称。这个问题的解决方法是在hadoop的core-sizexml文件中添加xxx用户代理配置：

<property> <name>hadoopproxyuserxxxgroups</name> <value></value></property><property> <name>hadoopproxyuserxxxhosts</name> <value></value></property>

重启HDFS后，再用beeline连接HiveServer2即可成功连接。

常用配置

HiveServer2的配置可以参考官方文档《Setting Up HiveServer2》

这里列举一些hive-sitexml的常用配置：

hiveserver2thriftport：监听的TCP端口号。默认为10000。

hiveserver2thriftbindhost：TCP接口的绑定主机。

hiveserver2authentication：身份验证方式。默认为NONE（使用 plain SASL），即不进行验证检查。可选项还有NOSASL, KERBEROS, LDAP, PAM and CUSTOM

hiveserver2enabledoAs：是否以模拟身份执行查询处理。默认为true。

Python客户端连接HiveServer2

python中用于连接HiveServer2的客户端有3个：pyhs2，pyhive，impyla。官网的示例采用的是pyhs2，但pyhs2的官网已声明不再提供支持，建议使用impyla和pyhive。我们这里使用的是impyla。

impyla的安装

impyla必须的依赖包括：

six

bit_array

thriftpy(python2x则是thrift)

为了支持Hive还需要以下两个包：

sasl

thrift_sasl

可在Python PI中下载impyla及其依赖包的源码。

impyla示例

以下是使用impyla连接HiveServer2的示例：

from impaladbapi import connect
conn = connect(host='127001', port=10000, database='default', auth_mechanism='PLAIN')
cur = conncursor()
curexecute('SHOW DATABASES')print(curfetchall())
curexecute('SHOW Tables')print(curfetchall())

#hive相关资料

#>　1、下载hive(>R语言和Hadoop让我们体会到了，两种技术在各自领域的强大。很多开发人员在计算机的角度，都会提出下面2个问题。问题1: Hadoop的家族如此之强大，为什么还要结合R语言？\x0d\问题2: Mahout同样可以做数据挖掘和机器学习，和R语言的区别是什么？下面我尝试着做一个解答：问题1: Hadoop的家族如此之强大，为什么还要结合R语言？\x0d\\x0d\a Hadoop家族的强大之处，在于对大数据的处理，让原来的不可能（TB,PB数据量计算），成为了可能。\x0d\b R语言的强大之处，在于统计分析，在没有Hadoop之前，我们对于大数据的处理，要取样本，假设检验，做回归，长久以来R语言都是统计学家专属的工具。\x0d\c 从a和b两点，我们可以看出，hadoop重点是全量数据分析，而R语言重点是样本数据分析。两种技术放在一起，刚好是最长补短！\x0d\d 模拟场景：对1PB的新闻网站访问日志做分析，预测未来流量变化\x0d\d1:用R语言，通过分析少量数据，对业务目标建回归建模，并定义指标d2:用Hadoop从海量日志数据中，提取指标数据d3:用R语言模型，对指标数据进行测试和调优d4:用Hadoop分步式算法，重写R语言的模型，部署上线这个场景中，R和Hadoop分别都起着非常重要的作用。以计算机开发人员的思路，所有有事情都用Hadoop去做，没有数据建模和证明，”预测的结果”一定是有问题的。以统计人员的思路，所有的事情都用R去做，以抽样方式，得到的“预测的结果”也一定是有问题的。所以让二者结合，是产界业的必然的导向，也是产界业和学术界的交集，同时也为交叉学科的人才提供了无限广阔的想象空间。问题2: Mahout同样可以做数据挖掘和机器学习，和R语言的区别是什么？\x0d\\x0d\a Mahout是基于Hadoop的数据挖掘和机器学习的算法框架，Mahout的重点同样是解决大数据的计算的问题。\x0d\b Mahout目前已支持的算法包括，协同过滤，推荐算法，聚类算法，分类算法，LDA, 朴素bayes，随机森林。上面的算法中，大部分都是距离的算法，可以通过矩阵分解后，充分利用MapReduce的并行计算框架，高效地完成计算任务。\x0d\c Mahout的空白点，还有很多的数据挖掘算法，很难实现MapReduce并行化。Mahout的现有模型，都是通用模型，直接用到的项目中，计算结果只会比随机结果好一点点。Mahout二次开发，要求有深厚的JAVA和Hadoop的技术基础，最好兼有 “线性代数”，“概率统计”，“算法导论” 等的基础知识。所以想玩转Mahout真的不是一件容易的事情。\x0d\d R语言同样提供了Mahout支持的约大多数算法(除专有算法)，并且还支持大量的Mahout不支持的算法，算法的增长速度比mahout快N倍。并且开发简单，参数配置灵活，对小型数据集运算速度非常快。\x0d\虽然，Mahout同样可以做数据挖掘和机器学习，但是和R语言的擅长领域并不重合。集百家之长，在适合的领域选择合适的技术，才能真正地“保质保量”做软件。\x0d\\x0d\如何让Hadoop结合R语言？\x0d\\x0d\从上一节我们看到，Hadoop和R语言是可以互补的，但所介绍的场景都是Hadoop和R语言的分别处理各自的数据。一旦市场有需求，自然会有商家填补这个空白。\x0d\\x0d\1） RHadoop\x0d\\x0d\RHadoop是一款Hadoop和R语言的结合的产品，由RevolutionAnalytics公司开发，并将代码开源到github社区上面。RHadoop包含三个R包 (rmr，rhdfs，rhbase)，分别是对应Hadoop系统架构中的，MapReduce, HDFS, HBase 三个部分。\x0d\\x0d\2） RHiveRHive是一款通过R语言直接访问Hive的工具包，是由NexR一个韩国公司研发的。\x0d\\x0d\3）重写Mahout用R语言重写Mahout的实现也是一种结合的思路，我也做过相关的尝试。\x0d\\x0d\4）Hadoop调用R\x0d\\x0d\上面说的都是R如何调用Hadoop，当然我们也可以反相 *** 作，打通JAVA和R的连接通道，让Hadoop调用R的函数。但是，这部分还没有商家做出成形的产品。\x0d\\x0d\5 R和Hadoop在实际中的案例\x0d\\x0d\R和Hadoop的结合，技术门槛还是有点高的。对于一个人来说，不仅要掌握Linux, Java, Hadoop, R的技术，还要具备软件开发，算法，概率统计，线性代数，数据可视化，行业背景的一些基本素质。在公司部署这套环境，同样需要多个部门，多种人才的的配合。Hadoop运维，Hadoop算法研发，R语言建模，R语言MapReduce化，软件开发，测试等等。所以，这样的案例并不太多。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/13373017.html

远程连接元数据库hive.metastore.uris怎么写

发表评论

评论列表（0条）