sparkContext是Scala实现的入口点,
JavaSparkContext是的Java包装器
sparkContext。
SQLContext是SparkSQL的入口点,可以从
sparkContext2.xx 接收.RDD,Dataframe和Data-
set是三个不同的数据抽象。自Spark 2.xx起,所有三个数据抽象是统一的,
SparkSession是Spark的统一入口点。
另外需要注意的是,RDD用于非结构化数据,强类型数据,而Dataframes用于结构化和松散类型数据。你可以检查
是否有任何方法可以使用Sparksession转换或创建Context?
是。它
sparkSession.sparkContext()和SQL,
sparkSession.sqlContext()
我可以使用一个条目SparkSession完全替换所有Context吗?
是。您可以从sparkSession获取相应的顶点。
是否在SparkSession中添加了SQLContext,SparkContext,JavaSparkContext等中的所有功能?
不直接。您需要获取各自的上下文并加以利用。
如何在SparkSession中使用这样的功能?
获取各自的上下文并加以利用。
如何使用SparkSession创建以下内容?
- 可以从创建RDD
sparkSession.sparkContext.parallelize(???)
- JavaRDD同样适用于此,但在Java实现中
- Java对RDD
sparkSession.sparkContext.parallelize(???).map(//making your data as key-value pair here is one way)
- 如果是结构化数据,sparkSession返回的数据集就是数据集。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)