spark日志收集

spark日志收集,第1张

在很多情况下,我们需要查看driver和executors在运行 Spark 应用程序时候产生的日志,这些日志对于我们调试和查找问题是很重要的。

Spark 日志确切的存放路径和部署模式相关:

(1)、 如果是Spark Standalone模式 ,我们可以直接在Master UI界面查看应用程序的日志,在默认情况下这些日志是存储在worker节点的work目录下,这个目录可以通过 SPARK_WORKER_DIR 参数进行配置。

(2)、 如果是Mesos模式 ,我们同样可以通过Mesos的Master UI界面上看到相关应用程序的日志,这些日志是存储在Mesos slave的work目录下。

(3)、 如果是YARN模式 ,最简单地收集日志的方式是使用YARN的日志收集工具( yarn logs -applicationId ),这个工具可以收集你应用程序相关的运行日枝滚志,但是这个工具是有限制的:应用程序必须运行完,因为YARN必须首先聚合这些日志;而且你必须开启日志聚合功能( yarn.log-aggregation-enable ,在默认情况下,这个参数是false)。

如果你运行在YARN模式,你可以在ResourceManager节点的WEB UI页面选择相关的应用程序,在页面点击表格中 Tracking UI 列的 ApplicationMaster ,这时候你可以进入到Spark作业监控的WEB UI界面,这个页面就是你Spark应用程序的proxy界面,比如 http://www.iteblog.com:9981/proxy/application_1430820074800_0322 ,当然你也可以通过访问Driver所在节点开启的4040端口,同样可以看到这个界面。

到这个界面之后,可以点击 Executors 菜单,这时候你可以进入到Spark程序的 Executors 界面,里面列出所有Executor信息,以表格的形式展示,在表格中有 Logs 这列,里面就是你Spark应用旁猛程序运行的日志。如果你在程序中使用了 println(....) 输出语句,这些信息会在stdout文件里面显示;其余的Spark运行日志会在stderr文件里面显示。

在默认情运搭桥况下,Spark应用程序的日志级别是INFO的,我们可以自定义Spark应用程序的日志输出级别,可以到 $SPARK_HOME/conf/log4j.properties 文件里面进行修改,比如:

| 01 | # User: 过往记忆 |

| 02 | # Date: 2015-05-015 |

| 03 | # Time: 上午07:26 |

| 04 | # bolg: [http://www.iteblog.com](http://www.iteblog.com/) |

| 05 | # 本文地址:[http://www.iteblog.com/archives/1353](http://www.iteblog.com/archives/1353) |

| 06 | # 过往记忆博客,专注于hadoop、hive、spark、shark、flume的技术博客,大量的干货 |

| 07 | # 过往记忆博客微信公共帐号:iteblog_hadoop |

| 08 | spark.root.logger=WARN,console |

| 09 | |

| 10 | log4j.rootLogger=${spark.root.logger} |

| 11 | |

| 12 | log4j.appender.console=org.apache.log4j.ConsoleAppender |

| 13 | log4j.appender.console.target=System.err |

| 14 | log4j.appender.console.layout=org.apache.log4j.PatternLayout |

| 15 | log4j.appender.console.layout.ConversionPattern=%d (%t) [%p - %l] %m%n |

这样Spark应用程序在运行的时候会打出WARN级别的日志,然后在提交Spark应用程序的时候使用 --files 参数指定上面的 log4j.properties 文件路径即可使用这个配置打印应用程序的日志。

可以通过log4j主动控制宴缺袭日志输出的级别。

引入log4j.Logger和log4j.Level,并在对象中设晌兄扮数置Logger.getLogger("org").setLevel(Level.ERROR)import org.apache.log4j.{Level, Logger}

object Example {

Logger.getLogger("org").setLevel(Level.ERROR)

def main(args: Array[String]) {

}

}

yarn模式下调试运行中的spark作业

在yarn模式下,spark作业运行相关的executor和ApplicationMaster都是运行在yarn的container中的

一个作业运行完了以后,yarn有两种方式来处理spark作业打印出的日志

这种方式的话,顾名思义,就是说,将散落在集群中各个机器上的日志,最后都给聚合起来,让我们可以统一查看

如果打开了日志聚合的选项,即yarn.log-aggregation-enable,container的日志会拷贝到hdfs上去漏哗,并从机器中删除

对于这种情况,可以使用yarn logs -applicationId <app ID>命令,来查看日志

yarn logs命令,会打印出application对应的所有container的日志出来,当然,因为日志是在hdfs上的,我们自然也可以通过hdfs的命令行来直接从hdfs中查看日志

日志在hdfs中的目录,可以通过查看yarn.nodemanager.remote-app-log-dir和yarn.nodemanager.remote-app-log-dir-suffix属性来获知

日志也可以通过spark web ui来查看executor的输出日志

但是此时需要启动History Server,需要让spark history server和mapreduce history server运行着

并且在yarn-site.xml文件中,仿枯配置yarn.log.server.url属性

spark history server web ui中的log url,会将你重定向到mapreduce history server上,去查看日志

如果没有打开聚合日志选项,那么日志默认就是散落在各个机器上的本次磁盘目录中的,在YARN_APP_LOGS_DIR目录下

根据hadoop版本的不同,通常在/tmp/logs目录下备搜洞,或者$HADOOP_HOME/logs/userlogs目录下

如果你要查看某个container的日志,那么就得登录到那台机器上去,然后到指定的目录下去,找到那个日志文件,然后才能查看


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/yw/12235253.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-22
下一篇 2023-05-22

发表评论

登录后才能评论

评论列表(0条)

保存