由于版本的不同,Python 连接 Hive 的方式也就不一样。
在网上搜索关键字 python hive 的时候可以找到一些解决方案。大部分是这样的,首先把hive 根目录下的$HIVE_HOME/lib/py拷贝到 python 的库中,也就是 site-package 中,或者干脆把新写的 python 代码和拷贝的 py 库放在同一个目录下,然后用这个目录下提供的 thrift 接口调用。示例也是非常简单的。类似这样:
import sys
from hive_service import ThriftHive
from hive_servicettypes import HiveServerException
from thrift import Thrift
from thrifttransport import TSocket
from thrifttransport import TTransport
from thriftprotocol import TBinaryProtocol
def hiveExe(sql):
try:
transport = TSocketTSocket('127001', 10000)
transport = TTransportTBufferedTransport(transport)
protocol = TBinaryProtocolTBinaryProtocol(transport)
client = ThriftHiveClient(protocol)
transportopen()
clientexecute(sql)
print "The return value is : "
print clientfetchAll()
print ""
transportclose()
except ThriftTException, tx:
print '%s' % (txmessage)
if __name__ == '__main__':
hiveExe("show tables")1234567891011121314151617181920212223242526272812345678910111213141516171819202122232425262728
或者是这样的:
#!/usr/bin/env python
import sys
from hive import ThriftHive
from hivettypes import HiveServerException
from thrift import Thrift
from thrifttransport import TSocket
from thrifttransport import TTransport
from thriftprotocol import TBinaryProtocol
try:
transport = TSocketTSocket('1418154188', 10000)
transport = TTransportTBufferedTransport(transport)
protocol = TBinaryProtocolTBinaryProtocol(transport)
client = ThriftHiveClient(protocol)
transportopen()
clientexecute("CREATE TABLE r(a STRING, b INT, c DOUBLE)")
clientexecute("LOAD TABLE LOCAL INPATH '/path' INTO TABLE r")
clientexecute("SELECT FROM test1")
while (1):
row = clientfetchOne()
if (row == None):
break
print rowve
clientexecute("SELECT FROM test1")
print clientfetchAll()
transportclose()
except ThriftTException, tx:
print '%s' % (txmessage)
12345678910111213141516171819202122232425262728293031323334351234567891011121314151617181920212223242526272829303132333435
但是都解决不了问题,从 netstat 中查看可以发现 TCP 连接确实是建立了,但是不执行 hive 指令。也许就是版本的问题。
还是那句话,看各种中文博客不如看官方文档。
项目中使用的 hive 版本是013,此时此刻官网的最新版本都到了121了。中间间隔了120、110、100、0140。但是还是参考一下官网的方法试试吧。
首先看官网的 setting up hiveserver2
可以看到启动 hiveserver2 可以配置最大最小线程数,绑定的 IP,绑定的端口,还可以设置认证方式。(之前一直不成功正式因为这个连接方式)然后还给了 python 示例代码。
import pyhs2
with pyhs2connect(host='localhost',
port=10000,
authMechanism="PLAIN",
user='root',
password='test',
database='default') as conn:
with conncursor() as cur:
#Show databases
print curgetDatabases()
#Execute query
curexecute("select from table")
#Return column info from query
print curgetSchema()
#Fetch table results
for i in curfetch():
print i123456789101112131415161718192021123456789101112131415161718192021
在拿到这个代码的时候,自以为是的把认证信息给去掉了。然后运行发现跟之前博客里介绍的方法结果一样,建立了 TCP 连接,但是就是不执行,也不报错。这是几个意思?然后无意中尝试了一下原封不动的使用上面的代码。结果可以用。唉。。。
首先声明一下,hive-sitexml中默认关于 hiveserver2的配置我一个都没有修改,一直是默认配置启动 hiveserver2。没想到的是默认配置是有认证机制的。
然后再写一点,在安装 pyhs2的时候还是遇到了点问题,其实还是要看官方文档的,我只是没看官方文档直接用 pip安装导致了这个问题。安装 pyhs2需要确定已经安装了几个依赖包。直接看在 github 上的 wiki 吧。哪个没安装就补上哪一个就好了。
具体步骤: 序号 描述 1 去github上下载pymysql的安装包pymysql 2 解压到某个盘符下 3 打开cmd窗口(win环境下),进入pymysql的根目录下执行命令,python setuppy install 4 在程序里,导入pymysql 5 开始连接数据库 数据库 *** 作的API文档连接:
先建立一个数据库。
qw@qw-Latitude-E4300:~$ mysql -u root -p
Enter password:
打开数据库,正确输入密码之后,呈现下面的结果
Welcome to the MySQL monitor Commands end with ; or \g
Your MySQL connection id is 373
Server version: 5538-0ubuntu014041 (Ubuntu)
Copyright (c) 2000, 2014, Oracle and/or its affiliates All rights reserved
Oracle is a registered trademark of Oracle Corporation and/or its
affiliates Other names may be trademarks of their respective
owners
Type 'help;' or '\h' for help Type '\c' to clear the current input statement
mysql>
在这个状态下,输入如下命令,建立一个数据库:
mysql> create database qiwsirtest character set utf8;
Query OK, 1 row affected (000 sec)
注意上面的指令,如果仅仅输入:create database qiwsirtest,也可以,但是,我在后面增加了character set utf8,意思是所建立的数据库qiwsirtest,编码是utf-8的,这样存入汉字就不是乱码了。
看到那一行提示:Query OK, 1 row affected (000 sec),就说明这个数据库已经建立好了,名字叫做:qiwsirtest
数据库建立之后,就可以用python通过已经安装的mysqldb来连接这个名字叫做qiwsirtest的库了。进入到python交互模式(现在这个实验室做实验)。
>>> import MySQLdb
>>> conn = MySQLdbconnect(host="localhost",user="root",passwd="123123",db="qiwsirtest",port=3306,charset="utf8")
逐个解释上述命令的含义:
host:等号的后面应该填写mysql数据库的地址,因为就数据库就在本机上(也称作本地),所以使用localhost,注意引号。如果在其它的服务器上,这里应该填写ip地址。一般中小型的网站,数据库和程序都是在同一台服务器(计算机)上,就使用localhost了。
user:登录数据库的用户名,这里一般填写"root",还是要注意引号。当然,如果是比较大型的服务,数据库会提供不同的用户,那时候可以更改为相应用户。但是,不同用户的权限可能不同,所以,在程序中,如果要 *** 作数据库,还要注意所拥有的权限。在这里用root,就放心了,什么权限都有啦。不过,这样做,在大型系统中是应该避免的。
passwd:上述user账户对应的登录mysql的密码。我在上面的例子中用的密码是"123123"。不要忘记引号。
db:就是刚刚通create命令建立的数据库,我建立的数据库名字是"qiwsirtest",还是要注意引号。看官如果建立的数据库名字不是这个,就写自己所建数据库名字。
port:一般情况,mysql的默认端口是3306,当mysql被安装到服务器之后,为了能够允许网络访问,服务器(计算机)要提供一个访问端口给它。
charset:这个设置,在很多教程中都不写,结果在真正进行数据存储的时候,发现有乱码。这里我将qiwsirtest这个数据库的编码设置为utf-8格式,这样就允许存入汉字而无乱码了。注意,在mysql设置中,utf-8写成utf8,没有中间的横线。但是在python文件开头和其它地方设置编码格式的时候,要写成utf-8。切记!
先花点时间来说说一个程序怎么和数据库进行交互
1和数据库建立连接
2执行sql语句,接收返回值
3关闭数据库连接
使用MySQLdb也要遵循上面的几步让我们一步步的进行
1、MySQL数据库要用MySQLdb模块,但Python用来链接MySQL的第三方库MySQLdb不支持Python3x
特别说明:我在我的电脑上实验时,我的python是272版本,安装对应版本的MySQLdb之后直接可以运行,并与数据库连接成功,所以如果大家
也像我一样顺利的话,下面的就不需要看了,直接跳过,看第2点如何执行sql语句即可!如果安装之后出现异常,可以参考一下下面的解决办法。
连接的关键是安装MySQLdb模块要下载与Python相对应的版本:
下载好后安装,它会自动检测到计算机Python的安装路径,并自动填写模块解压路径(我的是:D:\ProgramFiles\ActivePython 26617\Lib\site-packages\)。
需要。
1、和数据库建立连接。
2、执行sql语句,接收返回值。
3、关闭数据库连接。
Python是一种一门叫做ABC语言的替代品。
以上就是关于windows下怎么用python连接hive数据库全部的内容,包括:windows下怎么用python连接hive数据库、python怎样连接访问mysql数据库、python怎么连wind数据库等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)