如何在Pyspark内部使用Scala类_随笔

如何在Pyspark内部使用Scala类

是的，尽管不是很琐碎，但它是可能的。通常，您需要一个Java（友好的）包装器，这样就不必处理Scala功能，而这些功能使用普通Java不能轻松表达，因此在Py4J网关中无法很好地发挥作用。

假设您的课程是int包

com.example

，并

Dataframe

调用了Python

df

df = ... # Python Dataframe

您必须：

SQLContext

从

SQLContext

实例中提取Scala ：

ssqlContext = sqlContext._ssql_ctx

创建的新实例

SimpleClass

：

simpleObject = jvm.com.example.SimpleClass(ssqlContext, jdf, "v")

调用

exe

方法并使用Python包装结果

Dataframe

：

from pyspark.sql import Dataframe

Dataframe(simpleObject.exe(), ssqlContext)

结果应该是有效的PySpark

Dataframe

。您当然可以将所有步骤组合到一个调用中。

重要提示 ：仅当仅在驱动程序上执行Python代码时，此方法才可行。不能在Python *** 作或转换中使用。

欢迎分享，转载请注明来源：内存溢出

如何在Pyspark内部使用Scala类