求问怎么设置sparksql读取hive的数据库_sql

历史上存在的原理，以前都是使用hive来构建数据仓库，所以存在大量对hive所管理的数据查询的需求。而hive、shark、sparlsql都可以进行hive的数据查询。shark是使用了hive的sql语法解析器和优化器，修改了执行器，使之物理执行过程是跑在spark上；而sparksql是使用了自身的语法解析器、优化器和执行器，同时sparksql还扩展了接口，不单单支持hive数据的查询，可以进行多种数据源的数据查询。

RDD：AResilientDistributedDataset(RDD),thebasicabstractioninSpark.rdd是一个分布式的数据集，数据分散在分布式集群的各台机器上ADataFrameisequivalenttoarelationaltableinSparkSQL,andcanbecreatedusingvariousfunctionsinSQLContextdataframe更像是一张关系型数据表，是一种spark独有的数据格式吧，这种格式的数据可以使用sqlcontext里面的函数

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/6707341.html

求问怎么设置sparksql读取hive的数据库

发表评论

评论列表（0条）