-
Spark on Hive:Spark通过Spark-SQL使用hive语句, *** 作hive,底层运行的还是spark rdd
- 就是通过sparksql,加载hive的配置未见,获取到hive的元数据信息
- spark sql获取到hive的元数据信息之后就可以拿到hive的所有表的数据
- 接下来就可以通过saprk sql来 *** 作hive表中的数据
-
Hive on Spark
- 是把hive查询从mapreduce的mr(Hadoop计算引擎) *** 作替换为spark rdd(spark执行引擎) *** 作,相对于spark on hive,这个要实现则麻烦很多,必须重新编译spark和导入jar包,不过不签大部分使用的是spark on hive
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)