Apache Spark:作业由于阶段故障而中止:“ TID x由于未知原因而失败”

Apache Spark:作业由于阶段故障而中止:“ TID x由于未知原因而失败”,第1张

Apache Spark:作业由于阶段故障而中止:“ TID x由于未知原因而失败”

如果我每次都问我一分钱,“您是否尝试过将分区数量增加到相当大的数量,例如每个CPU至少执行4个任务-甚至多达1000个分区?”
我会成为一个有钱人。那么,您是否尝试过增加分区?

无论如何,我发现其他有助于解决怪异分离的方法是:

  • 框架尺寸500
  • 要求超时100
  • 工人超时150(以处理大量GC挂起)
  • 摆弄内存缓存(请参见Spark java.lang.OutOfMemoryError:Java堆空间)

此外,有时您还可以通过使用UI导航到特定的worker stderr日志来获得更多有用的堆栈跟踪。

更新:由于spark 1.0.0不能通过UI查找Spark日志,因此您必须要求sysadm / devops帮助您,因为日志的位置完全没有记录。



欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5673448.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存