您可以使用Spark数据帧非常轻松地将定界文件转换为orc格式。您还可以指定/施加模式并过滤特定列。
public class OrcConvert { public static void main(String[] args) { SparkConf conf = new SparkConf().setAppName("OrcConvert"); JavaSparkContext jsc = new JavaSparkContext(conf); HiveContext hiveContext = new HiveContext(jsc); String inputPath = args[0]; String outputPath = args[1]; Dataframe inputDf = hiveContext.read().format("com.databricks.spark.csv") .option("quote", "'").option("delimiter", "01") .load(inputPath); inputDf.write().orc(outputPath); }}
确保满足所有依赖关系,配置单元也应运行以使用HiveContext,目前仅HiveContext支持Spark ORC格式。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)