pyspark使用windows单机处理100g以上csv，突破pandas内存限制

密码查看器 • 2022-12-17 • 随笔 • 阅读 24

运行环境spark3、三星980固态硬盘、i7-10700k, 5分钟处理好。
主要使用CPU和固态硬盘换取内存处理，速度处理快于内存处理,spark自带分布式处理。

py4j.protocol.Py4JError: org.apache.spark.api.python.PythonUtils.getEncryptionEnabled does not exist in the JVM
报错引入
import findspark
findspark.init()

import findspark
findspark

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5682888.html

三星固态内存硬盘分布式

打赏

微信扫一扫

支付宝扫一扫

密码查看器一级用户组

0 0

cicd 07--构建前后端一体化自动化发布流程

上一篇 2022-12-17

org.apache.ibatis.binding.BindingException: Parameter ‘‘ not found.

下一篇 2022-12-17

发表评论

登录后才能评论

pyspark使用windows单机处理100g以上csv，突破pandas内存限制

发表评论

评论列表（0条）