使用Python解析nginx日志文件_投稿

本文使用Python2.7解析nginx日志文件，并把nginx的时间转化为时间戳（1970纪元后经过的浮点秒数），并存放到特定文件中。

Nginx的http日志格式：

示例如下：

这里使用Python的glob模块来获取所有日志文件。日志文件每天0时进行备份，命名为nginx.log.YYMMDD。

模块linecache允许从任何文件里得到任何的行，并且使用缓存进行优化，常见的情况是从单个文件读取多行。

使用python的re模块解析每一条日志。

其中body_bytes捕获非空字符串，而不是数字，因为日志里可能存在该字段值为“-”，即没有请求体。

date、method、request等参数可以采用以下方式进行提取。

使用python的time模块把时间转为时间戳。

产生文件time.log，内容如下：

# _*_ coding: utf-8 _*_

import pandas as pd

# 获取文件的内容

def get_contends(path):

with open(path) as file_object:

contends = file_object.read()

return contends

# 将一行内容变成数组

def get_contends_arr(contends):

contends_arr_new = []

contends_arr = str(contends).split(']')

for i in range(len(contends_arr)):

if (contends_arr[i].__contains__('[')):

index = contends_arr[i].rfind('[')

temp_str = contends_arr[i][index + 1:]

if temp_str.__contains__('"'):

contends_arr_new.append(temp_str.replace('"', ''))

# print(index)

# print(contends_arr[i])

return contends_arr_new

if __name__ == '__main__':

path = 'event.txt'

contends = get_contends(path)

contends_arr = get_contends_arr(contends)

contents = []

for content in contends_arr:

contents.append(content.split(','))

df = pd.DataFrame(contents, columns=['shelf_code', 'robotid', 'event', 'time'])

扩展资料：

python控制语句

1、if语句，当条件成立时运行语句块。经常与else, elif(相当于else if) 配合使用。

2、for语句，遍历列表、字符串、字典、集合等迭代器，依次处理迭代器中的每个元素。

3、while语句，当条件为真时，循环运行语句块。

4、try语句，与except,finally配合使用处理在程序运行中出现的异常情况。

5、class语句，用于定义类型。

6、def语句，用于定义函数和类型的方法。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/tougao/6050524.html

使用Python解析nginx日志文件

发表评论

评论列表（0条）