Apache Spark：作业由于阶段故障而中止：“ TID x由于未知原因而失败”

源码天空 • 2022-12-17 • 随笔 • 阅读 20

Apache Spark：作业由于阶段故障而中止：“ TID x由于未知原因而失败”

如果我每次都问我一分钱，“您是否尝试过将分区数量增加到相当大的数量，例如每个CPU至少执行4个任务-甚至多达1000个分区？”
我会成为一个有钱人。那么，您是否尝试过增加分区？

无论如何，我发现其他有助于解决怪异分离的方法是：

框架尺寸500
要求超时100
工人超时150（以处理大量GC挂起）
摆弄内存缓存（请参见Spark java.lang.OutOfMemoryError：Java堆空间）

此外，有时您还可以通过使用UI导航到特定的worker stderr日志来获得更多有用的堆栈跟踪。

更新：由于spark 1.0.0不能通过UI查找Spark日志，因此您必须要求sysadm / devops帮助您，因为日志的位置完全没有记录。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5673448.html

分区超时日志尝试数量

打赏

微信扫一扫

支付宝扫一扫

源码天空一级用户组

将日期时间戳记添加到Python打印

上一篇 2022-12-17

如何使用Django运行自己的守护进程？

下一篇 2022-12-16

发表评论

登录后才能评论

评论列表（0条）