在Spark <2.3中,您不能执行此 *** 作。
对于Spark> = 2.3,这对于分组数据是可行的,但对于使用“带有Pys的PySpark UDAF的Windows”而言,尚不可行。
当前,PySpark无法在Windows上运行UserDefined函数。
这是一个对此有一个很好描述的SO问题:在PySpark中的GroupedData上应用UDF(带有可运行的python示例)
这是添加了此功能的JIRA票证-https:
//issues.apache.org/jira/browse/SPARK-10915
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)