4-9 Linux 中的日志分析_系统运维

日志：系统、软件和用户 *** 作交互信息的记录文件。用于系统审核，日常故障快速定位和排错。

日志文件保存在 /var/log 和 /var/run 目录下。在 RedHat 7 中，系统日志消息由两个服务负责处理，它们是 systemd-journald 和 rsyslogd。

日志的保存时间系统默认是4周，可以通过 cat /etc/logrotate.conf 里面的一项参数查到。rotate 可以修改。

主要日志文件介绍：

/var/log/messages：系统日志，主要记录内核和公共消息。

/var/log/cron：计划执行任务日志。

/var/log/dmesg：系统引导日志。

/var/log/maillog：邮件日志。

/var/log/lastlog：用户登录日志。（用 lastlog 命令）

/var/log/boot.log：系统启动日志。

/var/log/secure：安全和身份验证日志。

/var/log/wtmp：记录所有用户登录的详细信息。（用 last 命令）

/var/log/btmp：记录失败的登录记录（用 lastb 命令）

/var/run/utmp：用户登录、注销及系统开、关等事件。（用 w / who 命令）

（wtmp、btmp 和 utmp 是二进制文件，不能用cat、vi、tail、more这些命令打开查看）

1、/var/log/messages：系统日志，主要记录内核和公共消息。

1）、messages 信息项包括：事件发生的日期和时间、主机，终端名、进程和事件日志。

2）、红色下划线：systemctl restart sshd 重启 sshd 服务。

黄色下划线：tail /var/log/messages 查看 messages 日志。

蓝色方框：messages 日志已经可以查到重启 sshd 服务的记录。

绿色下划线：每个动作都记录得很清楚。暂停中（Stopping）、已暂停（Stopped）、启动中（Starting）和已启动（Started）

2、/var/log/cron：计划执行任务日志。

1）、cron 信息项包括：事件发生的日期和时间、主机，终端名、进程和事件日志。

2）、cron 保存的是计划任务的日志，我们也可以通过特定输出查看计划进程的一些规律。从中也可以梳理一下计划任务的概念。好像 run-parts(/etc/cron.hourly) 进程，基本都是从开机开始，整点 1 个小时就执行一次。一次由两个事件为一组，一条 starting 0anacron ，另一条 finished 0anacron。

输入 grep run-parts'('/etc/cron.hourly')' 的时候，（）括号需要用单引号引起来。

CROND进程，基本上也是从开机开始，整点 1 个小时就执行一次。

run-parts(/etc/cron.daily) 进程每天开机执行一次。一次由四个事件为一组，四个事件里面有两个事件是对应关系。starting man-db.cron 对应 finished man-db.cron，starting logrotate 对应 finished logrotate。

从 cron 日志知道系统的计划任务什么时候触发，执行了什么事件，产生了什么信息。

3、/var/log/dmesg：系统引导日志，显示硬件相关的信息。

head -20 dmesg | nl 列出开头 20 行信息。

4、/var/log/maillog：邮件日志。

红色下划线：tail maillog 查看 maillog 后 10 行信息。

黄色下划线：starting the Postfix mail system 启动 Postfix 邮件系统。daemon started 守护进程启动完成。

maillog 记录的信息都是和邮件有关。

5、/var/log/lastlog：记录所有用户登录最后一次登录本系统的时间信息。用 lastlog 读取信息。lastlog 的几列内容：Username（用户名）、Port（端口）、From（登录IP）、Latest（最后登录时间）。

系统用户是调用系统当中一些特殊服务的用户，不能登录系统（所以它们的登录状态都是显示“**Never logged in**”从来没有登录）。能够登录系统的只有 root 和新建的普通用户。

6、/var/log/boot.log：系统启动日志。

head /var/log/boot.log 列出头 10 条系统启动的信息（内容较长，里面记录了多次启动的信息）。

通过 3 次的重启，查看 boot.log 大小。每重启一次文件的容量就会增大。也证明了每次启动都会往 boot.log 这个文件写信息。

7、/var/log/secure：安全和身份验证日志。

tail secure 列出 secure 文件最后 10 行信息。通过 secure 的信息可以发现记录的是安全相关的信息，记录最多的是哪些用户登录服务器的相关日志。

黄色下划线：Failed password for root —— root 的密码错误。

红色下划线：Accepted password for root —— 密码正确，root 用户接受的密码。

绿色下划线：pam_unix(sshd:session): session opened for user root —— 为 root 用户建立会话。

8、/var/log/wtmp：记录所有用户登录的详细信息。一个二进制文件，不能用cat、vi、tail、more这些命令打开查看。用 last 命令查看。last 作用是显示近期用户或终端登录的情况（包括：登录、注销及系统的启动、停机的事件。因此随着系统正常运行时间的增加，该文件的大小也会越来越大，）

last -n 10 —— -n 跟一个数字，指定显示最近登录的数据。（或者 last -10 一样效果）

显示的内容有六列：

第一列：用户名。

第二列：终端位置。（pts/0 伪终端，SSH 或 telnet 等工具远程连接的用户，tty0 直接连接到计算机或本地连接的用户，后面的数字代表连接编号）。

第三列：登录 IP 或内核。（如果是 0.0 或者什么都没有，意味着用户通过本地终端连接，除了启动活动，内核版本会显示在状态中）。

第四列：开始时间。

第五列：结束时间。（still、login in 尚未推出，down 直到正常关机，crash 直到强制关机）。

第六列：持续时间。

9、/var/log/btmp：记录失败的登录记录，主要查看错误的登录信息。一个二进制文件，不能用cat、vi、tail、more这些命令打开查看。用 lastb 命令查看。

lastb -n 10 —— -n 跟一个数字，指定显示最近登录的数据。（或者 lastb -10 一样效果）

显示的内容有六列：

第一列：用户名。

第二列：终端位置。（连接失败：notty）。

第三列：登录 IP。

第四列：开始时间。

第五列：结束时间。

第六列：持续时间。

10、/var/run/utmp：用户登录、注销及系统开、关等事件。一个二进制文件，不能用cat、vi、tail、more这些命令打开查看。用 w / who 命令查看。

w 命令：查看登录者的信息及行为。

第一行：系统当前时间、系统没有中断持续性的运行时间、当前登录用户数、CPU在之前 1 分钟、5分钟、15分钟的平均负载。

USER：登录用户名。

TTY：登录后系统分配的终端号。（tty：物理机本机终端、pts：远程终端）

FROM：远程主机名 IP。（tty 物理机本机不显示、pts 远程终端会显示 IP）

IDLE：用户闲置时间。这是个计时器，用户执行任何 *** 作，计时器就会被重置。（这里显示的时间是距离上次命令 *** 作后多久没有进行 *** 作的闲置时间）

JCPU：执行命令进程所消耗的总时间。终端连接的所有进程占用时间，包括当前正在运行作业占用的时间。

PCPU：当前进程所消耗 CPU 的时间。

WHAT：用户正在运行的进程或命令。（-bash 进程是终端进程）

who 命令：显示关于当前在本地系统上的所有用户信息。who 和 w 差不多，who 显示的内容更为简洁。who 命令显示以下内容：登录名、tty、登录日期和时间。如果用户是从远程终端登录的，那么该终端的 IP 也会显示出来。

11、whoami：显示自己的登录用户。

日志文件详细地记录了系统每天发生的各种各样的事件。用户可以通过日志文件检查错误产生的原因，或者在受到攻击和黑客入侵时追踪攻击者的踪迹。日志的两个比较重要的作用是：审核和监测。

Linux系统的日志主要分为两种类型：

1．进程所属日志

由用户进程或其他系统服务进程自行生成的日志，比如服务器上的access_log与error_log日志文件。

2．syslog消息

系统syslog记录的日志，任何希望记录日志的系统进程或者用户进程都可以给调用syslog来记录日志。

日志系统可以划分为三个子系统：

1．连接时间日志--由多个程序执行，把纪录写入到/var/log/wtmp和/var/run/utmp，login等程序更新wtmp和utmp文件，使系统管理员能够跟踪谁在何时登录到系统。

2．进程统计--由系统内核执行。当一个进程终止时，为每个进程往进程统计文件（pacct或acct）中写一个纪录。进程统计的目的是为系统中的基本服务提供命令使用统计。

3．错误日志--由syslogd（8）执行。各种系统守护进程、用户程序和内核通过syslog（3）向文件/var/log/messages报告值得注意的事件。

2．察看日志文件

Linux系统所有的日志文件都在/var/log下，且必须有root权限才能察看。

日志文件其实是纯文本的文件，每一行就是一个消息。察看方式有很多。

1． cat命令。日志文件总是很大的，因为从第一次启动Linux开始，消息都累积在日志文件中。如果这个文件不只一页，那么就会因为显示滚动得太快看不清文件的内容。

2．文本编辑器。最好也不要用文本编辑器打开日志文件，这是因为一方面很耗费内存，另一方面不允许随意改动日志文件。

3．用more或less那样的分页显示程序。

4．用grep查找特定的消息。

每一行表示一个消息，而且都由四个域的固定格式组成：

n 时间标签（timestamp），表示消息发出的日期和时间

n 主机名（hostname）（在我们的例子中主机名为escher），表示生成消息的计算机的名字。如果只有一台计算机，主机名就可能没有必要了。但是，如果在网络环境中使用syslog，那么就可能要把不同主机的消息发送到一台服务器上集中处理。

n 生成消息的子系统的名字。可以是"kernel"，表示消息来自内核，或者是进程的名字，表示发出消息的程序的名字。在方括号里的是进程的PID。

n 消息（message），剩下的部分就是消息的内容。

举例：

在[root@localhost root]# 提示符下输入：tail /var/log/messages

Jan 05 21:55:51 localhost last message repeated 3 times

Jan 05 21:55:51 localhost kernel: [drm] AGP 0.99 on Intel i810 @ 0xf0000000 128M

Jan 05 21:55:51 localhost kernel: [drm] Initialized i830 1.3.2 20021108 on minor

Jan 05 21:55:51 localhost kernel: mtrr: base(0xf0000000) is not aligned on a siz

e(0x12c000) boundary

Jan 05 21:56:35 localhost 1月 28 21:56:35 gdm(pam_unix)[4079]: session opened f

or user root by (uid=0)

Jan 05 21:56:39 localhost 1月 28 21:56:39 gconfd (root-4162): 正在启动（版本 2.

2.0），pid 4162 用户"root"

Jan 05 21:56:39 localhost 1月 28 21:56:39 gconfd (root-4162): 解析的地址"xml:re

adonly:/etc/gconf/gconf.xml.mandatory"指向位于 0 的只读配置源

Jan 05 21:56:39 localhost 1月 28 21:56:39 gconfd (root-4162): 解析的地址"xml:re

adwrite:/root/.gconf"指向位于 1 的可写入配置源

Jan 05 21:56:39 localhost 1月 28 21:56:39 gconfd (root-4162): 解析的地址"xml:re

adonly:/etc/gconf/gconf.xml.defaults"指向位于 2 的只读配置源

Jan 05 21:58:20 localhost kernel: MSDOS FS: IO charset cp936

值得注意的是，与连接时间日志不同，进程统计子系统默认不激活，它必须启动。在Linux

系统中启动进程统计使用accton命令，必须用root身份来运行。accton命令的形式为：accton

file，file必须事先存在。先使用touch命令创建pacct文件：touch

/var/log/pacct，然后运行accton：accton

/var/log/pacct。一旦accton被激活，就可以使用lastcomm命令监测系统中任何时候执行的命令。若要关闭统计，可以使用不带任何

参数的accton命令。

3．日志系统工作原理及配置

3.1 syslog

它同closelog, openlog共同给system logger发送消息。

Linux内核由很多子系统组成，包括网络、文件访问、内存管理等。子系统需要给用户传送一些消息，这些消息内容包括消息的来源及其重要性等。所有的子系统都要把消息送到一个可以维护的公用消息区。于是，就有了一个叫Syslog的程序。

这个程序负责接收消息（比如：系统核心和许多系统程序产生的错误信息、警告信息和其他信息，每个信息都包括重要级），并把消息分发到合适的地方。通常情况

下，所有的消息都被记录到特定的文件——日志文件中（通常是/var/adm或/var/log目录下的messages文件），特别重要的消息也会在用

户终端窗口上显示出来。

syslog工具有两个重要文件：syslogd和syslog.Conf

它能接受访问系统的日志信息并且根据 "/etc/syslog.conf" 配置文件中的指令处理这些信息。守护进程和内核提供了访问系统的日志信息。因此，任何希望生成日志信息的程序都可以向 syslog 接口呼叫生成该信息。

3.2 syslogd守护进程

　就象其它复杂的 *** 作系统那样，Linux也是由很多不同的子系统组成的。有些叫做daemon的程序一直在后台运行（daemon：守护神之意。也就是

说，他们"默默无闻"，不需要和用户交互），处理一些象打印、发送邮件、建立Internet连接，等等日常工作。每一个子系统发出日志消息的时候都会给

消息指定一个类型。一个消息分成两个部分："设备（facility）"和"级别(level)"。"设备"标识发出消息的子系统，可以把同一类型的消息组合在一起，"级别"表示消息的重要性，其范围从debug（最不重要）到emerg（最重要），facility和level组合起来称为priority。（详细解释参照5.3）

/usr/include/sys/syslog.h中对此有相关的定义。

用户看不到daemon程序，因为它们没有窗口和用户界面。但是，这些程序有时候也要给用户传递一些信息。为了实现这个目的，就需要一个特殊的机制。syslogd就是daemon的一个很好的例子，它在后台运行并且把消息从日志区转移到日志文件中去。

函数接口

#include

void openlog( char * , int , int )

其中，可以是以下值的OR组合：

LOG_CONS : 如果消息无法送到syslogd，直接输出到系统console。

LOG_NDELAY : 立即打开到syslogd的连接，默认连接是在第一次写入讯息时才打开的。

LOG_PERROR : 将消息也同时送到stderr 上

LOG_PID : 将PID记录到每个消息中

void syslog( int , char * )

其中，是facility和level的OR组合

void closelog( void )

一般只需要用syslog()函数，其他函数可以不用。

3.3 syslog.conf

这是一个非常重要的文件。位于"/etc/"目录下。通知 syslogd 如何根据设备和信息重要级别来报告信息。

该文件使用下面的形式：

facility.levelaction

syslog.conf 的第一列facility.level用来指定日志功能和日志级别，中间用.隔开，可以使用*来匹配

所有的日志功能和日志级别。第二列action是消息的分发目标。

空白行和以#开头的行是注释，可以忽略。

Facility.level 字段也被称做选择域（seletor）。

n facility 指定 syslog 功能，主要包括以下这些：

auth 由 pam_pwdb 报告的认证活动。

authpriv 包括特权信息如用户名在内的认证活动

cron 与 cron 和 at 有关的信息。

daemon 与 inetd 守护进程有关的信息。

kern 内核信息，首先通过 klogd 传递。

lpr 与打印服务有关的信息。

mail 与电子邮件有关的信息

mark syslog 内部功能用于生成时间戳

news 来自新闻服务器的信息

syslog 由 syslog 生成的信息

user 由用户程序生成的信息

uucp 由 uucp 生成的信息

local0----local7 与自定义程序使用，例如使用 local5 做为 ssh 功能

* 通配符代表除了 mark 以外的所有功能

level 级别，决定讯息的重要性。

与每个功能对应的优先级是按一定顺序排列的，emerg 是最高级，其次是 alert，依次类推。缺省时，在 /etc/syslog.conf 记录中指定的级别为该级别和更高级别。如果希望使用确定的级别可以使用两个运算符号！(不等)和=。

例如：user.=info 表示告知 syslog 接受所有在 info 级别上的 user 功能信息。

n 以下的等级重要性逐次递减:

emerg 该系统不可用

alert需要立即被修改的条件

crit 阻止某些工具或子系统功能实现的错误条件

err 阻止工具或某些子系统部分功能实现的错误条件

warning 预警信息

notice 具有重要性的普通条件

info 提供信息的消息

debug不包含函数条件或问题的其他信息

none 没有重要级，通常用于排错

*所有级别，除了none

n action 字段为动作域，所表示的活动具有许多灵活性，特别是，可以使用名称管道的作用是可以使 syslogd 生成后处理信息。

syslog 主要支持以下活动：

file 将消息追加到指定的文件尾

terminal 或 print 完全的串行或并行设备标志符

@host 远程的日志服务器

username 将消息写到指定的用户

named pipe指定使用 mkfifo 命令来创建的 FIFO 文件的绝对路径。

* 将消息写到所有的用户

选择域指明消息的类型和优先级；动作域指明syslogd接收到一个与选择标准相匹配的消息时所执行的动作。每个选项是由设备和优先级组成。当指明一个优先级时，syslogd将纪录一个拥有相同或更高优先级的消息。比如如果指明"crit"，则所有标为crit、alert和emerg的消息将被纪录。每行的行动域指明当选择域选择了一个给定消息后应该把他发送到什么地方。

以下是一个实际站点的配置（syslog.conf）文件：

# Store critical stuff in critical

*.=critkern.none/var/adm/critical

这个将把所有信息以优先权的crit保存在/var/adm/critical文件中，除了一些内核信息

# Kernel messages are first, stored in the kernel

# file, critical messages and higher ones also go

# to another host and to the console

kern.* /var/adm/kernel

kern.crit@finlandia

kern.crit/dev/console

kern.infokern.!err /var/adm/kernel-info

第一条代码指引一些内核设备访问文件/var/adm/kernel的信息。

第二条代码直接引导所有拥有crit和更高优先权的内核信息访问远程主机。如果它们也存储在远程主机上，仍旧可以试着找到毁坏的原因。

第四行说明syslogd 保存了所有拥有info 到warning优先级的内核信息在/var/adm/kernel-info文件夹下。所有err和更高优先级的被排除在外。

# The tcp wrapper loggs with mail.info, we display

# all the connections on tty12

mail.=info /dev/tty12

这个引导所有使用mail.info (in source LOG_MAIL | LOG_INFO)的信息到/dev/tty12下，第12

个控制台。例如tcpwrapper

tcpd

(8)载缺省时使用这个

# Store all mail concerning stuff in a file

mail.*mail.!=info /var/adm/mail

模式匹配了所有具有mail功能的信息，除了拥有info优先级的。他们将被保存在文件/var/adm/mail中

# Log all mail.info and news.info messages to info

mail,news.=info /var/adm/info

提取所有具有mail.info 或news.info 功能优先级的信息存储在文件/var/adm/info中

# Log info and notice messages to messages file

*.=info*.=notice\

mail.none /var/log/messages

使所有syslogd日志中具有info 或notice功能的信息存储在文件/var/log/messages中，除了所有mail功能的信息

# Log info messages to messages file

*.=info\

mail,news.none /var/log/messages

这个声明使syslogd日志中所有具有info优先权的信息存储在/var/log/messages文件中。但是一些有mail 或news功能的信息不能被存储。

# Emergency messages will be displayed using wall

*.=emerg *

这行代码告诉syslogd写所有紧急信息到所有当前登陆用户日志中。这个将被实现

# Messages of the priority alert will be directed

# to the operator

*.alert root,joey

*.* @finlandia

这个代码指引所有具有alert 或更高级权限的信息到终端 *** 作。

第二行代码引导所有信息到叫做finlandia的远程主机。这个代码非常有用，特别是在所有syslog信息将被保存到一台机器上的群集计算机。

3.4 klogd 守护进程

klog是一个从UNIX内核接受消息的设备

klogd

守护进程获得并记录 Linux 内核信息。通常，syslogd 会记录 klogd

传来的所有信息。也就是说，klogd会读取内核信息，并转发到syslogd进程。然而，如果调用带有 -f filename 变量的 klogd

时，klogd 就在 filename 中记录所有信息，而不是传给 syslogd。当指定另外一个文件进行日志记录时，klogd

就向该文件中写入所有级别或优先权。Klogd 中没有和 /etc/syslog.conf 类似的配置文件。使用 klogd 而避免使用

syslogd 的好处在于可以查找大量错误。

总结

其中，箭头代表发送消息给目标进程或者将信息写入目标文件。

图1 Linux日志系统

日志管理及日志保护

logrotate程序用来帮助用户管理日志文件，它以自己的守护进程工作。logrotate周期性地旋转日志文件，可以周期性地把每个日志文件重命名

成一个备份名字，然后让它的守护进程开始使用一个日志文件的新的拷贝。在/var/log/下产生如maillog、maillog.1、

maillog.2、boot.log.1、boot.log.2之类的文件。它由一个配置文件驱动，该文件是

/etc/logroatate.conf。

以下是logroatate.conf文件例子：

# see "man logrotate" for details

# rotate log files weekly

weekly

#以7天为一个周期

# keep 4 weeks worth of backlogs

rotate 4

#每隔4周备份日志文件

# send errors to root

errors root

#发生错误向root报告

# create new (empty) log files after rotating old ones

create

#转完旧的日志文件就创建新的日志文件

# uncomment this if you want your log files compressed

#compress

#指定是否压缩日志文件

# RPM packages drop log rotation information into this directory

include /etc/logrotate.d

# no packages own lastlog or wtmp -- we'll rotate them here

/var/log/wtmp {

monthly

create 0664 root utmp

rotate 1

}

# system-specific logs may be configured here

在网络应用中，有一种保护日志的方式，在网络中设定一台秘密的syslog主机，把这台主机的网卡设为混杂模式，用来监听子网内所有的syslog包，这

样把所有需要传送日志的主机配置为向一台不存在的主机发送日志即可。这样即使黑客攻陷了目标主机，也无法通过syslog.conf文件找到备份日志的主

机，那只是一个不存在的主机。实际 *** 作中还可以辅以交换机的配置，以确保syslog包可以被备份日志主机上的syslog进程接受到。比如把

syslog.conf中的传送日志主机设为

@192.168.0.13，但实际网络中不存在这个日志主机，实际可能是192.168.0.250或者其他主机正在接受syslog包。

在上文中，我们已经详细介绍 linux 三剑客的基本使用，接下来我们看看具体在性能测试领域的运用，本文主要介绍的是在 Tomcat 和 Nginx access日志的统计分析。

server.xml 使用配置方式，%D-请求时间，%F-响应时间

字段说明如下：

日志样例：

使用默认 combined 的经典格式上扩展response_time&upstream_response_time

nginx.conf 使用配置方式：

字段说明如下：

日志示例：

为了能理解 AWK 程序，我们下面概述其基本知识。

模式( pattern ) 用于匹配输入中的每行文本。对于匹配上的每行文本，awk 都执行对应的动作( action )。模式和动作之间使用花括号隔开。awk 顺序扫描每一行文本，并使用记录分隔符（一般是换行符）将读到的每一行作为记录，使用域分隔符( 一般是空格符或制表符 ) 将一行文本分割为多个域，每个域分别可以使用 2, … 表示。1 表示第一个域，表示第二个域，n 表示第 n 个域。 $0 表示整个记录。模式或动作都可以不指定，缺省模式的情况下，将匹配所有行。缺省动作的情况下，将执行动作 {print}，即打印整个记录。

此处使用Nginx access.log 举例，Tomcat 日志自己举一反三。使用 awk 分解出Nginx access日志中的信息

以此类推…… 当我们使用默认的域分割符时，我们可以从日志中解析出下面不同类型的信息：

我们不难发现，仅使用默认的域分隔符，不方便解析出请求行、引用页和浏览器类型等其他信息，因为这些信息之中包含不确定个数的空格。因此，我们需要把域分隔符修改为 “ ，就能够轻松读出这些信息。

注意：这里为了避免 Linux Shell 误解 “ 为字符串开始，我们使用了反斜杠，转义了 “ 。现在，我们已经掌握了 awk 的基本知识，以及它是怎样解析日志的。

此处使用Nginx access.log 举例，Tomcat 日志自己举一反三。

如果我们想知道那些类型的浏览器访问过网站，并按出现的次数倒序排列，我可以使用下面的命令：

此命令行首先解析出浏览器域，然后使用管道将输出作为第一个 sort 命令的输入。第一个 sort 命令主要是为了方便 uniq 命令统计出不同浏览器出现的次数。最后一个 sort 命令将把之前的统计结果倒序排列并输出。

我们可以使用下面的命令行，统计服务器返回的状态码，发现系统可能存在的问题。

正常情况下，状态码 200 或 30x 应该是出现次数最多的。40x 一般表示客户端访问问题。50x 一般表示服务器端问题。下面是一些常见的状态码：

HTTP 协议状态码定义可以参阅： https://www.w3.org/Protocols/rfc2616/rfc2616.html

查找并显示所有状态码为 404 的请求

统计所有状态码为 404 的请求

现在我们假设某个请求 ( 例如 : URI: /path/to/notfound ) 产生了大量的 404 错误，我们可以通过下面的命令找到这个请求是来自于哪一个引用页，和来自于什么浏览器。

有时候会发现其他网站出于某种原因，在他们的网站上使用保存在自己网站上的图片。如果您想知道究竟是谁未经授权使用自己网站上的图片，我们可以使用下面的命令：

注意：使用前，将 www.example.com 修改为自己网站的域名。

统计共有多少个不同的 IP 访问：

统计每一个 IP 访问了多少个页面：

将每个 IP 访问的页面数进行从小到大排序：

统计 2018 年 8 月 31 日 14 时内有多少 IP 访问 :

统计访问最多的前十个 IP 地址

查看某一个 IP访问了哪些页面：

统计某个 IP 的详细访问情况,按访问频率排序

列出传输大小最大的几个文件

列出输出大于 204800 byte ( 200kb) 的页面以及对应页面发生次数

列出访问最频的页面(TOP100)

列出访问最频的页面([排除php页面】(TOP100)

列出页面访问次数超过100次的页面

列出最近1000条记录，访问量最高的页面

统计每分钟的请求数,top100的时间点(精确到分钟)

统计每小时的请求数,top100的时间点(精确到小时)

统计每秒的请求数,top100的时间点(精确到秒)

统计当天的 pv

说明：

可以使用下面的命令统计出所有响应时间超过 3 秒的日志记录。

注意：NF 是当前记录中域的个数。$NF 即最后一个域。

列出php页面请求时间超过3秒的页面，并统计其出现的次数，显示前100条

列出相应时间超过 5 秒的请求，显示前20条

统计蜘蛛抓取次数

统计蜘蛛抓取404的次数

通过本文的介绍，我相信同学们一定会发现 linux三剑客强大之处。在命令行中，它还能够接受，和执行外部的 AWK 程序文件，可以对文本信息进行非常复杂的处理，可以说“只有想不到的，没有它做不到的”。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/8600651.html

4-9 Linux 中的日志分析

发表评论

评论列表（0条）