Python爬虫(七)数据处理方法之JSON

Python爬虫(七)数据处理方法之JSON,第1张

JSON 指的是 JavaScript 对象表示法(JavaScript Object Notation),是轻量级的文本数据交换格式,且具有自我描述性,更易理解。

JSON看起来像python类型(列表,字典)的字符串

在之前的文章中,我们说到了怎么用response的方法,获取到网页正确解码后的字符串。如果还有不懂的,可以先阅读 Python爬虫(三)Requests库 。接下来以有道翻译为例子,说说怎么通过网页解码后的字符串,提取到翻译结果

再结合上述有道翻译的例子,得到字典类型的返回结果,并提取出来翻译结果。

将上述例子的dict_json换成str字符串,再写入文本中。

执行完上述的程序,会得到一个fanyi.txt的文件,其结果如下:{"type": "ZH_CN2EN", "errorCode": 0, "elapsedTime": 1, "translateResult": [[{"src": "\u4eba\u751f\u82e6\u77ed\uff0c\u6211\u7528python", "tgt": "Life is too short, I use python"}]]}。这样子的一份文档,中文部分显示的是二进制,且格式非常不利于阅读,这并不是我们想要的结果。好在json.dumps()为我们提供的两个方法,以帮助我们更好阅读文档。

1.ensure_ascii,能够让中文显示成中文;

2.indent,能够让下一行在第一行的基础上空格。

其用法如下:

python中json文件处理涉及的四个函数json.loads()、json.dumps()、json.load()、json.dump()。

1)json.dumps()

    将一个Python数据类型dict进行json格式的编码(字典->字符串)

    eg:

    age_dict = {'age1':'12', 'age2':'15'}

    json_info = json.dumps(age_dict)

    print("json_info = {}".format(json_info))

    print("json_info type = {}".format(type(json_info)))

2)json.loads()

    将json格式数据转换为dict(字符串->字典)

    json_age ='{"age1": "12", "age2": "15"}'

    dict_age = json.loads(json_info)

    print("json_age = {}".format(json_age))

    print("dict_age type = {}".format(str(type(dict_age))))

3)json.load()

    读取文件,将里json格式字符串转化为dict

    with open(test.json, 'r') as file:

        contents = json.load(file)

    print(contents)

4)json.dump()

    将dict类型转换为json格式字符串,存入文件

    number = [1, 2, 3, 5]

    file = 'number.json'

    with open(file , 'w') as file:

        json.dump(number, file)

Python 的 json 模块提供了两个函数 json.dumps() 和 json.loads() 来编码和解码JSON数据。

如果要处理的是文件而不是字符串,可以使用 json.dump() 和 json.load() 来编码和解码JSON数据。例如:


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/6775535.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-03-28
下一篇 2023-03-28

发表评论

登录后才能评论

评论列表(0条)

保存