Apache Spark如何处理python多线程问题？

电机控制系统 • 2022-11-15 • 随笔 • 阅读 26

多线程python问题与Apache Spark内部结构分开。Spark上的并行性在JVM内部处理。

原因是在Python驱动程序中，

SparkContext

使用Py4J启动JVM并创建JavaSparkContext。

Py4J仅在驱动程序上用于Python和Java SparkContext对象之间的本地通信。大数据传输是通过不同的机制执行的。

Python中的RDD转换映射为Java中的PythonRDD对象的转换。在远程工作机上，PythonRDD对象启动Python子进程，并使用管道与它们进行通信，发送用户的代码和要处理的数据。

PS：我不确定这是否能完全回答您的问题。

欢迎分享，转载请注明来源：内存溢出

对象驱动程序转换启动通信

打赏

微信扫一扫

支付宝扫一扫

上一篇 2022-11-15

下一篇 2022-11-15

登录后才能评论