http://spark.apache.org/docs/latest/running-on-yarn.html 官方文档
然后输入网址,显示如下
http://192.168.1.xxx:18080/
2、运行spark-shell时,会自动创建SparkContex sc ,
打开http://192.168.1.xxx:4040/ 观察job运行状态
系统日志保存在在/var/log/下面,修改日志级别方法如下:syslog的日志等级有8个,默认是info,这时候用syslog为debug(最低日志级别)来写日志,syslog服务是不会写如日志的。
比如:
1
2
3
4
[root@umail180 etc]# cat /etc/syslog.conf
*.infomail.noneauthpriv.nonecron.none
/var/log/messages
这时候用-p选项来修改日志级别的优先级
1
2
[root@umail180 etc]# logger -p debug "hello this is a test"
#-p选项来指定优先级,logger的默认优先为是info,指定info或更高的优先级都可以被syslog所接收。
优先级(priority),优先级越低情况越严重:
1
2
3
4
5
6
7
8
emerg 0 系统不可用
alert 1 必须马上采取行动的事件
crit 2 关键的事件
err3 错误事件
warning4 警告事件
notice 5 普通但重要的事件
info 6 有用的信息
debug 7 调试信息
在很多情况下,我们需要查看driver和executors在运行 Spark 应用程序时候产生的日志,这些日志对于我们调试和查找问题是很重要的。
Spark 日志确切的存放路径和部署模式相关:
(1)、 如果是Spark Standalone模式 ,我们可以直接在Master UI界面查看应用程序的日志,在默认情况下这些日志是存储在worker节点的work目录下,这个目录可以通过 SPARK_WORKER_DIR 参数进行配置。
(2)、 如果是Mesos模式 ,我们同样可以通过Mesos的Master UI界面上看到相关应用程序的日志,这些日志是存储在Mesos slave的work目录下。
(3)、 如果是YARN模式 ,最简单地收集日志的方式是使用YARN的日志收集工具( yarn logs -applicationId ),这个工具可以收集你应用程序相关的运行日志,但是这个工具是有限制的:应用程序必须运行完,因为YARN必须首先聚合这些日志;而且你必须开启日志聚合功能( yarn.log-aggregation-enable ,在默认情况下,这个参数是false)。
如果你运行在YARN模式,你可以在ResourceManager节点的WEB UI页面选择相关的应用程序,在页面点击表格中 Tracking UI 列的 ApplicationMaster ,这时候你可以进入到Spark作业监控的WEB UI界面,这个页面就是你Spark应用程序的proxy界面,比如 http://www.iteblog.com:9981/proxy/application_1430820074800_0322 ,当然你也可以通过访问Driver所在节点开启的4040端口,同样可以看到这个界面。
到这个界面之后,可以点击 Executors 菜单,这时候你可以进入到Spark程序的 Executors 界面,里面列出所有Executor信息,以表格的形式展示,在表格中有 Logs 这列,里面就是你Spark应用程序运行的日志。如果你在程序中使用了 println(....) 输出语句,这些信息会在stdout文件里面显示;其余的Spark运行日志会在stderr文件里面显示。
在默认情况下,Spark应用程序的日志级别是INFO的,我们可以自定义Spark应用程序的日志输出级别,可以到 $SPARK_HOME/conf/log4j.properties 文件里面进行修改,比如:
| 01 | # User: 过往记忆 |
| 02 | # Date: 2015-05-015 |
| 03 | # Time: 上午07:26 |
| 04 | # bolg: [http://www.iteblog.com](http://www.iteblog.com/) |
| 05 | # 本文地址:[http://www.iteblog.com/archives/1353](http://www.iteblog.com/archives/1353) |
| 06 | # 过往记忆博客,专注于hadoop、hive、spark、shark、flume的技术博客,大量的干货 |
| 07 | # 过往记忆博客微信公共帐号:iteblog_hadoop |
| 08 | spark.root.logger=WARN,console |
| 09 | |
| 10 | log4j.rootLogger=${spark.root.logger} |
| 11 | |
| 12 | log4j.appender.console=org.apache.log4j.ConsoleAppender |
| 13 | log4j.appender.console.target=System.err |
| 14 | log4j.appender.console.layout=org.apache.log4j.PatternLayout |
| 15 | log4j.appender.console.layout.ConversionPattern=%d (%t) [%p - %l] %m%n |
这样Spark应用程序在运行的时候会打出WARN级别的日志,然后在提交Spark应用程序的时候使用 --files 参数指定上面的 log4j.properties 文件路径即可使用这个配置打印应用程序的日志。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)