用Spark加载CSV文件

用Spark加载CSV文件,第1张

用Spark加载CSV文件

您确定 所有 行都至少有2列?您可以尝试类似的方法吗?

sc.textFile("file.csv")     .map(lambda line: line.split(","))     .filter(lambda line: len(line)>1)     .map(lambda line: (line[0],line[1]))     .collect()

或者,您可以打印罪魁祸首(如果有):

sc.textFile("file.csv")     .map(lambda line: line.split(","))     .filter(lambda line: len(line)<=1)     .collect()


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5642815.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存