python爬虫抓取到的数据用网页打开时是乱码,怎么解决

python爬虫抓取到的数据用网页打开时是乱码,怎么解决,第1张

写爬虫是经常会遇到这样的问题,这种问题很显然是编码问题,解决的方法其实也不难。

你可以用下面的两个方法来解决你的编码问题:

第一种是,通过浏览器打开你写的html之后,找到浏览器中的文字编码修改,将编码改为Unicode编码,即可修复。

第二种方法是修改你的前端代码:在你的代码output_html方法中,规定网页的文字编码即可

html格式的文件默认的打开方式时浏览器,如果你的电脑上没有安装浏览器的话是打不开的。或者你可以选中文件,右键选择打开方式,可以以文本文件的打开,打开之后看到的就是html文件的源码

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。

python3 区分了 unicode str 和 byte arrary,并且默认编码不再是 ascii

关于编码问题的终极解决方案:

在python的Lib\site-packages文件夹下新建一个sitecustomize.py

文件,输入:

import sys

sys.setdefaultencoding('gb2312')

这里要注意一点是:这里面你可以设置GBK或者utf8 或者其他类型的编码格式,不一定非要gb2312,主要看你 *** 作的环境需要什么编码格式


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zaji/7661482.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-08
下一篇 2023-04-08

发表评论

登录后才能评论

评论列表(0条)

保存