Flink:pyflink安装配置和hive连接配置

Flink:pyflink安装配置和hive连接配置,第1张

Flink:pyflink安装配置和hive连接配置 配置python环境

普通安装时如果用python api去编写脚本就会出现python脚本要大于3.5的错误,由于centos7自带的python版本为2.7,需要安装python3然后配置路径,原来的python2.7不能卸载,不然有些工具不能使用

安装python3.8

配置python3的环境(每个节点都需要设置)

ln -s /usr/local/python3 /usr/bin/python3
ln -s /usr/local/python3/bin/pip3.8 /usr/bin/pip

修改flink-conf.yaml添加如下代码

python.client.executable: /usr/bin/python3

修改 pyFlink-shell.sh 将其中的

PYFlink_PYTHON="${PYFlink_PYTHON:-"python"}"

改为

PYFlink_PYTHON="${PYFlink_PYTHON:-"python3"}"
配置pip的源(下载更快)
cd ~
mkdir .pip
cd .pip
vi pip.conf

添加如下内容

[global]
index-url=https://pypi.tuna.tsinghua.edu.cn/simple
trusted-host = pypi.tuna.tsinghua.edu.cn
安装pyflink

最好根据自己flink的版本安装对应版本的pyflink,我这里是1.12

pip install apache-flink==1.12
注意事项

在运行py脚本的时候如果要读取本地文件,需要将py代码与文件放到同一文件夹下,否则会报找不到此文件的错误

设置连接hive 配置依赖

下载依赖包,进入flink官网查看依赖包具体信息:

https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/dev/table/connectors/hive/

根据本地hive的版本选择相应的包进行下载并在网页的“用户定义的依赖项”中点击自己的版本下载额外的依赖包

将下载好的依赖包放到flink目录下的lib目录下

设置sql-client-defaults.yaml

进到conf文件夹下

vim sql-client-defaults.yaml

# Define catalogs here.

catalogs: [] # empty list
# A typical catalog definition looks like:
#  - name: myhive
#    type: hive
#    hive-conf-dir: /opt/hive_conf/
#    default-database: ...

改为

# Define catalogs here.

catalogs:  # empty list
# A typical catalog definition looks like:
  - name: (catalogs名称)
    type: hive
    hive-conf-dir: (本地的hive conf文件夹地址)
    default-database: (默认的数据库)

之后进入FlinkSQL Client

bash /opt/flink-1.12.5/bin/sql-client.sh embedded

进入之后,查看是否连接成功

show catalogs;
use catalog (之前设置的catalogs名称);

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5479462.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-12
下一篇 2022-12-12

发表评论

登录后才能评论

评论列表(0条)

保存