如果我每次都问我一分钱,“您是否尝试过将分区数量增加到相当大的数量,例如每个CPU至少执行4个任务-甚至多达1000个分区?”
我会成为一个有钱人。那么,您是否尝试过增加分区?
无论如何,我发现其他有助于解决怪异分离的方法是:
- 框架尺寸500
- 要求超时100
- 工人超时150(以处理大量GC挂起)
- 摆弄内存缓存(请参见Spark java.lang.OutOfMemoryError:Java堆空间)
此外,有时您还可以通过使用UI导航到特定的worker stderr日志来获得更多有用的堆栈跟踪。
更新:由于spark 1.0.0不能通过UI查找Spark日志,因此您必须要求sysadm / devops帮助您,因为日志的位置完全没有记录。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)