spark 可以访问 hive 内部表吗_sql

使用 hiveContext，如果是使用mysql存储元数据的话，还需要将hive的配置文件放在spark的项目下面。

1. 拷贝$HIVE_HOME/conf/hive-site.xml和hive-log4j.properties到 $SPARK_HOME/conf/

2. 在$SPARK_HOME/conf/目录中，修改spark-env.sh，添加

export HIVE_HOME=/opt/hive-1.2.1

export SPARK_CLASSPATH=$HIVE_HOME/lib:$SPARK_CLASSPATH

3. 另外也可以设置一下Spark的log4j配置文件，使得屏幕中不打印额外的INFO信息:

log4j.rootCategory=WARN, console

1、为了让Spark能够连接到Hive的原有数据仓库，我们需要将Hive中的hive-site.xml文件拷贝到Spark的conf目录下，这样就可以通过这个配置文件找到Hive的元数据以及数据存放。

在这里由于我的Spark是自动安装和部署的，因此需要知道CDH将hive-site.xml放在哪里。经过摸索。该文件默认所在的路径是：/etc/hive/conf 下。

同理，spark的conf也是在/etc/spark/conf。

此时，如上所述，将对应的hive-site.xml拷贝到spark/conf目录下即可

如果Hive的元数据存放在Mysql中，我们还需要准备好Mysql相关驱动，比如：mysql-connector-java-5.1.22-bin.jar。

2、编写测试代码

val conf=new SparkConf().setAppName("Spark-Hive").setMaster("local")

val sc=new SparkContext(conf)

//create hivecontext

val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)

sqlContext.sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' ") //这里需要注意数据的间隔符

sqlContext.sql("LOAD DATA INPATH '/user/liujiyu/spark/kv1.txt' INTO TABLE src ")

sqlContext.sql(" SELECT * FROM jn1").collect().foreach(println)

sc.stop()

3、下面列举一下出现的问题：

（1）如果没有将hive-site.xml拷贝到spark/conf目录下，会出现：

分析：从错误提示上面就知道，spark无法知道hive的元数据的位置，所以就无法实例化对应的client。

解决的办法就是必须将hive-site.xml拷贝到spark/conf目录下

（2）测试代码中没有加sc.stop会出现如下错误：

ERROR scheduler.LiveListenerBus: Listener EventLoggingListener threw an exception

java.lang.reflect.InvocationTargetException

在代码最后一行添加sc.stop()解决了该问题。

历史上存在的原理，以前都是使用hive来构建数据仓库，所以存在大量对hive所管理的数据查询的需求。而hive、shark、sparlsql都可以进行hive的数据查询。shark是使用了hive的sql语法解析器和优化器，修改了执行器，使之物理执行过程是跑在spark上；而sparksql是使用了自身的语法解析器、优化器和执行器，同时sparksql还扩展了接口，不单单支持hive数据的查询，可以进行多种数据源的数据查询。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/sjk/10018286.html

spark 可以访问 hive 内部表吗

发表评论

评论列表（0条）