欢迎分享,转载请注明来源:内存溢出
历史上存在的原理,以前都是使用hive来构建数据仓库,所以存在大量对hive所管理的数据查询的需求。而hive、shark、sparlsql都可以进行hive的数据查询。shark是使用了hive的sql语法解析器和优化器,修改了执行器,使之物理执行过程是跑在spark上;而sparksql是使用了自身的语法解析器、优化器和执行器,同时sparksql还扩展了接口,不单单支持hive数据的查询,可以进行多种数据源的数据查询。RDD:AResilientDistributedDataset(RDD),thebasicabstractioninSpark.rdd是一个分布式的数据集,数据分散在分布式集群的各台机器上ADataFrameisequivalenttoarelationaltableinSparkSQL,andcanbecreatedusingvariousfunctionsinSQLContextdataframe更像是一张关系型数据表,是一种spark独有的数据格式吧,这种格式的数据可以使用sqlcontext里面的函数
赞
(0)
打赏
微信扫一扫
支付宝扫一扫
如何使用spark sql访问数据
上一篇
2023-03-27
java怎么把解析的xml数据添加到数据库中
下一篇
2023-03-27
评论列表(0条)